통계 초보자를 위한 일표본 t-검정 가이드: 평균은 정말 변했을까?
일표본 t-검정이란 무엇인가?
일표본 t-검정(One-sample t-test)은 하나의 모집단에서 추출한 표본의 평균이 특정 기준값과 같은지를 검정하는 통계적 방법입니다.
즉, “이 집단의 평균이 정말 우리가 생각한 값과 같은가?”라는 질문에 답하기 위한 도구입니다.
예를 들어 다음과 같은 상황에서 사용됩니다.
- 한 회사 직원들의 평균 연봉이 4천만 원과 같은지
- 특정 지역의 평균 결혼 연령이 30세와 다른지
- 한 제품의 평균 만족도가 기준 점수와 차이가 있는지
단순히 계산한 평균이 기준값과 다르다고 해서 의미 있는 차이라고 말할 수는 없습니다.
일표본 t-검정은 이러한 차이가 우연히 발생했을 가능성까지 함께 고려하여 통계적으로 판단합니다.
언제 일표본 t-검정을 사용할까?
일표본 t-검정은 다음 조건을 만족할 때 사용합니다.
- 분석 대상이 하나의 집단일 때
- 측정값이 연속형 변수일 때 (예: 키, 소득, 점수)
- 모집단의 분산을 알 수 없을 때
- 데이터가 정규분포를 따른다고 가정할 수 있을 때
이러한 이유로 일표본 t-검정은 통계 분석의 출발점으로 자주 활용됩니다.
분석 전에 확인해야 할 정규성 가정
일표본 t-검정은 모집단이 정규분포를 따른다는 가정을 전제로 합니다.
따라서 본격적인 검정에 앞서 정규성 검정을 수행하는 것이 중요합니다.
정규성 검정의 가설은 다음과 같습니다.
- 귀무가설: 표본의 모집단은 정규분포를 따른다.
- 대립가설: 표본의 모집단은 정규분포를 따르지 않는다.
표본의 크기가 5000개 미만일 경우에는 Shapiro-Wilk 검정을,
5000개 이상일 경우에는 Anderson-Darling 검정을 주로 사용합니다.
-
Shapiro-Wilk Normality test
- 데이터의 개수가 5000개 미만일 때 보편적으로 사용
import scipy.stats as stats stats.shapiro(data.variable) -
Anderson-Darling Normality test
- 데이터의 개수가 5000개 이상일 때 보편적으로 사용
- 결과 예시: 유의수준 0.05에서 검정통계량 3474.016이고 임계값이 0.787보다 크므로 price는 정규분포를 따르지 않는다. 즉, 대립가설을 지지한다.
import scipy.stats as stats stats.anderson(data.variable, dist = 'norm')
일표본 t-검정의 가설 설정
정규성 가정이 충족되었다면, 일표본 t-검정을 수행할 수 있습니다.
가설은 보통 다음과 같이 설정됩니다.
- 귀무가설: 표본의 평균은 μ이다.
- 대립가설: 표본의 평균은 μ보다 크다, 작다, 또는 같지 않다.
여기서 μ는 비교 기준이 되는 평균값을 의미합니다.
검정 결과로 계산되는 p-value가 일반적으로 0.05보다 작다면,
표본의 평균은 기준값과 통계적으로 유의한 차이가 있다고 판단합니다.
stats.ttest_1samp(data.variable, popmean = )
정규성 가정을 만족하지 못할 때의 대안
데이터가 정규분포를 따르지 않는 경우에는 t-검정을 그대로 적용하기 어렵습니다.
이때 사용할 수 있는 대안이 윌콕슨 부호순위 검정입니다.
윌콕슨 검정은 평균 대신 데이터의 순위를 기반으로 검정하며,
정규성 가정이 필요하지 않다는 장점이 있습니다.
-
가설
- 귀무가설 : ~의 평균은 ~이다.
- 대립가설 : ~의 평균은 ~보다 많다, 적다, 가 아니다.
-
코드
stats.wilcoxon(data.variable - mu, alternative = 'greater' or 'less' or 'two.sided') # data.variable - mu : wilcoxon mu의 기본값은 0 # alternative : 대립가설 # 'greater' = mu > 0 # 'less' = mu < 0 # 'two-sided' = mu != 0
다만, 결과 해석은 t-검정과 동일하게
“기준값과 차이가 있는지”에 초점을 맞추어야 합니다.
마무리하며
일표본 t-검정은 하나의 집단 평균을 평가하는 가장 기본적인 통계 도구입니다.
중요한 것은 단순히 평균값이 아니라, 그 차이가 우연인지 아닌지를 판단하는 데 있습니다.
통계 분석을 처음 시작한다면,
일표본 t-검정을 이해하는 것만으로도 데이터 해석의 기초를 탄탄히 다질 수 있습니다.