통계 초보자를 위한 모분산 신뢰구간 가이드: 분산은 얼마나 불확실할까?
모분산이란 무엇인가?
모분산은 모집단 전체의 산포 정도, 즉 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 지표입니다.
하지만 실제 분석에서는 모집단 전체를 관측하는 것이 거의 불가능하기 때문에,
일반적으로 표본 분산을 이용해 모분산을 추정합니다.
이때 하나의 값으로만 추정하는 것이 아니라,
일정한 신뢰수준 하에서 모분산이 포함될 것으로 기대되는 신뢰구간을 구하게 됩니다.
언제 모분산 신뢰구간을 구할까?
모분산 신뢰구간은 다음과 같은 상황에서 사용됩니다.
- 모집단의 변동성이 어느 정도인지 추정하고 싶을 때
- 표본 수가 제한적인 상황에서 분산의 불확실성을 고려해야 할 때
- 품질 관리나 공정 안정성 평가에서 변동 폭을 판단할 때
특히 데이터가 정규분포를 따른다고 가정할 수 있을 때,
카이제곱 분포를 이용한 신뢰구간 추정이 가능합니다.
모분산 신뢰구간의 가정
모분산에 대한 신뢰구간을 구하기 위해서는 다음 가정이 필요합니다.
- 모집단은 정규분포를 따른다.
- 표본은 모집단에서 무작위로 추출되었다.
이 가정이 충족되지 않는 경우에는
추정 결과의 해석에 주의가 필요합니다.
예시로 이해해보기
표본의 개수가 10개이고,
표본 분산이 90이라고 가정해봅시다.
이때 **신뢰수준 95%**에서
모분산의 신뢰구간을 추정하는 것이 목표입니다.
계산 원리 간단 정리
모분산 신뢰구간은 카이제곱 분포를 이용해 계산합니다.
- 표본 크기: n
- 표본 분산: s²
- 자유도: n − 1
- 유의수준: α
신뢰구간은 다음 범위로 계산됩니다.
- 하한: ((n − 1) × s²) / χ²(1−α/2)
- 상한: ((n − 1) × s²) / χ²(α/2)
Python 코드 예시
아래는 SciPy를 사용하여
모분산의 95% 신뢰구간을 계산하는 예시 코드입니다.
from scipy.stats import chi2
n = 10
s2 = 90
alpha = 0.05
ch1 = chi2(n - 1).ppf(1 - alpha / 2)
ch2 = chi2(n - 1).ppf(alpha / 2)
confidence_interval = (((n - 1) * s2) / ch1, ((n - 1) * s2) / ch2)
print(confidence_interval)
출력 결과는
모분산이 해당 구간 안에 존재할 가능성이 95%라는 의미를 가집니다.
결과 해석 방법
계산된 신뢰구간은 다음과 같이 해석합니다.
- 동일한 방식으로 여러 번 표본을 추출해 신뢰구간을 계산했을 때
그중 약 95%의 구간이 실제 모분산을 포함하게 됩니다.
이는 모분산이 해당 구간 안에 있을 확률이 95%라는 의미는 아니라는 점에 주의해야 합니다.
사용할 때 주의할 점
모분산 신뢰구간을 사용할 때는 다음 사항을 함께 고려해야 합니다.
- 표본 수가 작을수록 신뢰구간이 넓어질 수 있음
- 정규성 가정이 깨질 경우 결과가 왜곡될 수 있음
- 이상치(outlier)가 분산 추정에 큰 영향을 줄 수 있음
마무리하며
모분산 신뢰구간은
모집단의 변동성을 정량적으로 이해하는 데 매우 중요한 도구입니다.
표본 분산 하나만 보는 것보다,
신뢰구간을 함께 제시하면 데이터의 불확실성을 훨씬 더 정확하게 전달할 수 있습니다.