DevOps

[Prometheus] Container & Node Metric Query 정리

S.H. Yoo

2024-03-20 작성

마지막 업데이트: 2024-03-20

Kubernetes 환경에서 Container와 Node 단위의 CPU, Memory, GPU 메트릭을 수집하기 위한 Prometheus 쿼리 정리. cAdvisor, node-exporter, dcgm-exporter 기반 실무용 PromQL 모음.

DevOps#Kubernetes #Prometheus #Monitoring #PromQL #Container #Node #MLOps

작성일: 2024-03-20작성자: S.H. Yoo마지막 업데이트: 2024-03-20

[Prometheus] Container & Node Metric Query 정리

1. Container

수집 패키지: cAdvisor

항목	Query
CPU Util 사용량	`sum(rate(container_cpu_usage_seconds_total{{{search_query}}}[10m])) by (id)`
할당된 CPU Core 개수	`container_spec_cpu_quota{{{search_query}}} / container_spec_cpu_period`
RAM 사용량 (GiB)	`(container_memory_usage_bytes{{{search_query}}}) / (1024^3)`
RAM 총량 (GiB)	`(container_spec_memory_limit_bytes{{{search_query}}}) / (1024^3)`

CPU Util 사용량 설명

container_cpu_usage_seconds_total은 누적 CPU 사용 시간을 의미
rate()를 사용해 일정 구간(예: 10분) 동안의 CPU 사용량을 계산
id 기준으로 group by 하여 컨테이너 단위 CPU 사용량 산출

CPU Util (%) 계산 방법

CPU Util (%) = (CPU Util 사용량 / 할당된 CPU Core 개수) * 100

CPU 사용량은 id 기준으로 집계되므로, CPU Core 개수 쿼리와 직접 하나의 쿼리로 합칠 수 없음
대시보드 단에서 연산하거나 recording rule 사용 권장

2. Node

node 단위 결과 조회 목적
instance 값을 node name 으로 변환하여 Prometheus 설정 필요

항목	Query	수집 패키지(Job)
GPU 온도	`DCGM_FI_DEV_GPU_TEMP`	dcgm
GPU Util (%)	`DCGM_FI_DEV_GPU_UTIL * 100`	dcgm
GPU Memory (%)	`DCGM_FI_DEV_FB_USED / (DCGM_FI_DEV_FB_FREE + DCGM_FI_DEV_FB_USED) * 100`	dcgm
CPU Util (%)	`sum(rate(node_cpu_seconds_total{mode!='idle'}[10m])) by (instance) / count(node_cpu_seconds_total{mode='system'}) by (instance) * 100`	node-exporter
Memory Util (%)	`((node_memory_MemTotal_bytes - (node_memory_MemAvailable_bytes + node_memory_Shmem_bytes)) / node_memory_MemTotal_bytes) * 100`	node-exporter

참고 사항

GPU 메트릭은 NVIDIA dcgm-exporter 설치 필요
node-exporter는 DaemonSet 기반 설치 권장
실무에서는 recording rule을 활용해 쿼리 비용 절감 권장

Kubernetes Prometheus Monitoring PromQL Container Node MLOps

이전 글[Prometheus] rate 와 irate 차이 다음 글통계 초보자를 위한 t-test 완전 정복: 두 집단의 평균 차이는 정말 의미가 있을까?

마지막 업데이트: 2024-03-20

당신이 관심있을 만한 글

[Prometheus] rate 와 irate 차이

Prometheus에서 rate와 irate 함수의 차이를 정리하고, 각각 언제 사용해야 하는지 실무 관점에서 설명합니다. 대시보드와 알람에서의 올바른 PromQL 선택 가이드.

[Prometheus] node-exporter에서 노드별 메트릭 수집하기

Kubernetes 클러스터에서 node-exporter를 DaemonSet으로 구성하고 Prometheus 설정을 통해 노드별 메트릭을 정확히 구분하는 방법을 정리합니다.

[Airflow] 특정 에러만 retry 처리하는 방법

Apache Airflow에서 특정 예외(Exception)에 대해서만 재시도를 수행하는 방법을 PythonOperator와 on_retry_callback 기준으로 정리합니다.

[Kubernetes] Pod 안에 여러 개의 컨테이너를 사용하는 이유

Kubernetes Pod 안에 여러 개의 컨테이너를 배치하는 이유와 장점, 그리고 사이드카 패턴 등 대표적인 활용 사례를 정리합니다.