통계를 공부하다 보면 아주 중요한 질문을 마주하게 됩니다.
“세 개 이상의 그룹 평균을 비교하려면 어떻게 해야 하나요?”
이 질문은 통계 분석의 핵심 원리를 이해하는 데 매우 깊은 함의를 담고 있습니다.
대부분의 초보 학습자는 두 집단 간의 평균 비교에서는 독립표본 t검정을 사용하면 된다는 사실을 알고 있습니다.
예컨대 남학생과 여학생의 시험 점수를 비교하거나, 약 복용 그룹과 비복용 그룹의 혈압 변화를 비교할 때 t검정은 유용한 도구입니다. 하지만 현실의 대부분 문제는 두 개 이상의 조건이 존재합니다.
다음과 같은 상황을 상상해보시겠어요?
- 세 가지 다이어트 프로그램을 제공했을 때, 체중감량 효과가 서로 다를까?
- A학급, B학급, C학급 학생들의 수학 성적 평균이 서로 차이가 날까?
- 커피를 하루 1잔 이하, 2~3잔, 4잔 이상 마시는 사람의 수면 만족도는 차이가 있을까?
이러한 상황에서 t검정을 반복해서 적용하는 방식은 통계적으로 바람직하지 않습니다. 그 이유는 무엇일까요? 그 이유는 바로 1종 오류의 누적 문제 때문입니다. 집단이 많아질수록 비교 횟수도 많아지고, 그에 따라 잘못된 유의 판정을 할 가능성도 높아지게 됩니다.
이때 등장하는 것이 바로 오늘의 주제, 일원분산분석(ANOVA, Analysis of Variance)입니다. ANOVA는 세 개 이상의 집단 평균을 동시에 비교하면서도, 오류 확률을 제어할 수 있도록 설계된 통계 기법입니다.
하지만 ANOVA는 집단 간 분산과 집단 내 분산, 그리고 F분포를 통한 유의성 판단이라는 통계적 철학이 숨겨져 있습니다. 이러한 원리를 정확히 이해해야만 ‘유의하다, 유의하지 않다’의 해석에서부, 어떤 그룹이 얼마나 차이가 있는지, 그 차이가 실제로 의미가 있는지, 효과 크기는 얼마나 되는지에 대해 통찰력 있는 해석을 할 수 있게 됩니다.
본 글에서는 일원분산분석의 정의와 수학적 원리부터 시작하여, 실제 Jamovi 소프트웨어를 이용한 실습 방법, 사후검정(Post-Hoc)과 효과크기(Eta²) 해석까지 하나하나 단계적으로, 매우 친절하고 구체적으로, 누구나 따라 할 수 있도록 정리해드리겠습니다.
이제, 평균을 비교하는 통계의 진짜 세계로 함께 발을 들여보시죠.
1️⃣ 세 집단 이상 평균 비교, 왜 ANOVA가 필요한가요?
많은 사람들이 두 집단 간 평균 차이를 검정하는 t-검정(t-test)에는 익숙합니다. 예컨대, 남녀의 시험 성적을 비교하거나, 치료군과 대조군의 평균 혈압을 비교할 때 사용합니다. 그런데 만약 비교 대상이 세 개 이상이라면 어떻게 해야 할까요?
이럴 때 t검정을 반복하면 1종 오류(실제로는 차이가 없는데 유의하다고 판정할 확률)가 누적되어 신뢰할 수 없는 결과를 얻게 됩니다. 예를 들어, A, B, C 세 그룹이 있다면, A-B, A-C, B-C 세 쌍을 따로 비교해야 하며, 그만큼 오류 위험도 증가합니다.
이러한 문제를 해결하기 위해 등장한 분석 방법이 바로 일원분산분석(ANOVA, Analysis of Variance)입니다. ANOVA는 세 집단 이상의 평균 차이를 한 번에 검정하면서도, 1종 오류를 적절히 통제할 수 있도록 설계된 통계 기법입니다.
2️⃣ 일원분산분석(One-Way ANOVA)의 핵심 원리
ANOVA는 무엇을 비교하나요?
표면적으로는 평균을 비교하는 것처럼 보이지만, 실제로 ANOVA는 두 가지 분산을 비교합니다.
- 집단 간 분산 (Between-Group Variance):
- 각 집단 평균이 전체 평균에서 얼마나 떨어져 있는지를 나타냅니다.
- 즉, 집단 간 차이를 반영합니다.
- 집단 내 분산 (Within-Group Variance):
- 각 집단 안의 개별 데이터가 해당 집단 평균에서 얼마나 떨어져 있는지를 나타냅니다.
- 즉, 집단 내 오차 또는 개별 차이를 의미합니다.
이 두 분산의 비율을 계산한 것이 바로 F값(F-ratio)입니다.
📐 수식 정리
$$
F = \frac{MS_{Between}}{MS_{Within}} = \frac{SS_{Between}/df_{Between}}{SS_{Within}/df_{Within}}
$$
- $SS$: Sum of Squares (제곱합)
- $df$: Degrees of Freedom (자유도)
- $MS$: Mean Square (평균제곱)
F값이 크면 클수록, 집단 간 차이가 집단 내 오차보다 크다는 것을 의미하며, 곧 통계적으로 유의한 차이가 있을 가능성이 높다는 뜻입니다.
3️⃣ 실습용 데이터 소개: 집중력 점수 예제
이번 실습에서 사용한 데이터는 세 그룹(A, B, C)의 집중력 점수(attention_score)입니다. 각 그룹은 서로 다른 학습법을 적용받은 실험 집단으로 구성되어 있습니다.
📊 데이터 구성
id | group | attention_score |
1 | A_그룹 | 72 |
6 | B_그룹 | 83 |
11 | C_그룹 | 91 |
… | … | … |
group
: 명목형 독립변수 (3개의 집단)attention_score
: 연속형 종속변수 (집중력 점수)
이 데이터를 Jamovi에 불러와 분석하면 아래와 같은 절차로 진행할 수 있습니다.
4️⃣ Jamovi에서 One-Way ANOVA 분석 실행하기
⚙️ 분석 절차 요약
- Jamovi 실행 후
.csv
또는.omv
파일 불러오기 분석
메뉴 →분산분석
→일원분산분석(One-Way ANOVA)
클릭- 변수 입력:
- 종속변수:
attention_score
- 집단변수:
group
- 종속변수:
- 옵션 설정:
등분산 가정 (Fisher’s)
체크기술통계표
,등분산성 검정(Levene)
활성화- 필요 시
사후검정 (Tukey)
선택
5️⃣ Jamovi 출력 결과 해석 – 평균 차이의 통계적 유의성
📋 분석 결과 요약
분석 종류 | F | 자유도1 | 자유도2 | p값 |
One-Way ANOVA (Fisher’s) | 54.9 | 2 | 12 | < .001 |
- 해석: F(2, 12) = 54.9, p < 0.001
→ 세 집단 간 평균 차이가 통계적으로 유의미함 (유의수준 0.05 기준)
6️⃣ 집단별 기술통계로 구체적 차이 확인
group | 사례수 | 평균 | 표준편차 | 표준오차 |
---|---|---|---|---|
group | 사례수 | 평균 | ||
A_그룹 | 5 | 74.0 | 2.74 | 1.225 |
B_그룹 | 5 | 84.4 | 3.05 | 1.364 |
C_그룹 | 5 | 91.2 | 1.92 | 0.860 |
- 해석 요점:
- B그룹은 A그룹보다 약 10.4점 더 높음
- C그룹은 A그룹보다 17.2점, B그룹보다 6.8점 더 높음
- C그룹이 가장 평균이 높고, 표준오차가 가장 작음 → 집중력 점수가 안정적으로 우수
7️⃣ 등분산성 검정 – Levene의 검정
검정값(F) | 자유도1 | 자유도2 | p값 |
0.482 | 2 | 12 | 0.629 |
- 해석: p = 0.629 > 0.05
→ 등분산 가정 만족 → Fisher’s ANOVA 및 Tukey 사후검정 사용 가능
8️⃣ 사후검정(Post-Hoc Test) – 어떤 집단이 다를까?
현재는 Tukey 사후검정이 실행되지 않았지만, 등분산성이 만족되었기 때문에 다음과 같이 설정할 수 있습니다:
- 분석창 하단의
사후검정
→ Tukey(equal variances) 체크 평균 차이
,유의도
,검정 결과
,중요한 비교 플래그
체크
📋 예시 (예상 출력)
그룹 비교쌍 | 평균 차이 | p값 |
B - A | +10.4 | 0.004 |
C - A | +17.2 | <.001 |
C - B | +6.8 | 0.011 |
- 해석: 세 그룹 간 모두 통계적으로 유의한 차이 존재 → 특히 C 그룹이 가장 우수
9️⃣ 효과 크기 해석 – 통계적 유의성 이상의 정보
Jamovi 기본 One-Way ANOVA에서는 Eta², Omega²가 자동 출력되지 않습니다.
하지만 효과크기를 해석하기 위해서는 다음을 고려할 수 있습니다.
📐 Eta² 계산 공식:
$$
\eta^2 = \frac{SS_{Between}}{SS_{Total}}
$$
(직접 계산하거나 GAMLj 모듈 설치 필요)
📏 효과크기 해석 기준 (Cohen, 1988)
Eta² 값 | 해석 |
≥ 0.01 | 작은 효과 |
≥ 0.06 | 중간 효과 |
≥ 0.14 | 큰 효과 |
F = 54.9, p < .001인 본 분석에서는 Eta²가 0.8 이상일 가능성이 높으며, 매우 큰 효과를 의미합니다.
평균의 차이를 넘어서 – 통계가 말해주는 실질적 의미
통계 분석의 핵심은 더욱 중요한 것은 숫자를 통해 '무엇을 의미할 수 있는가', 그리고 '그 차이가 현실적으로 어떤 함의를 가지는가'를 파악하는 능력입니다. 이번에 수행한 일원분산분석(One-Way ANOVA)은 그룹 간 평균을 비교하는 도구를 넘어, 자료 속에 숨겨진 구조적 차이를 밝히는 데 유용한 분석 방식입니다.
이번 실습에서는 세 가지 학습법(A, B, C)을 적용한 집단의 집중력 점수(attention_score) 평균을 비교했습니다. 분석 결과는 다음과 같았습니다:
- F(2, 12) = 54.9, p < 0.001 → 세 집단 평균 간 통계적으로 유의한 차이
- A그룹 평균: 74.0점
- B그룹 평균: 84.4점
- C그룹 평균: 91.2점
- Levene의 등분산성 검정: p = 0.629 → 등분산성 가정 충족
- 사후검정에서 세 쌍 모두 유의한 차이 예상
이 결과는 “C그룹이 가장 집중력이 높았다”는 진술로 끝나는 것이 아니라, 다음과 같은 정책적, 교육적, 과학적 해석이 가능합니다:
실질적 해석의 예
- 교육 프로그램 평가
- C그룹에 적용된 학습법은 집중력 향상에 통계적으로 유의하고 실제 효과도 큰 전략일 수 있습니다.
- 효과크기(Eta²)를 계산하면 큰 효과 범주에 해당할 가능성이 높으며, 실무 적용에도 충분히 타당합니다.
- 개입 효과 검증
- 평균 차이가 우연이 아니라, 실제로 학습법이 집중력 향상에 영향을 준 것이라는 과학적 근거가 마련된 셈입니다.
- 정책 또는 현장 반영
- 실험 결과가 반복된다면, C그룹 방식의 교육법을 정책적으로 확대 적용할 논거가 될 수 있습니다.
- 연구 확장 가능성
- 이번 실험은 일원분산분석이지만, 향후에는 공변량분석(ANCOVA) 또는 이원분산분석(Two-Way ANOVA)로 확장하여, 다른 변수(예: 나이, 성별)의 영향도 고려할 수 있습니다.
통계적 유의성과 실질적 중요성은 다릅니다
분산분석의 결과에서 가장 많이 혼동되는 개념은 p값이 낮다 = 차이가 크다라는 오해입니다.
하지만 p값은 “우연히 이 결과가 나올 확률”을 말할 뿐, 차이의 크기나 실질적 영향력(effect size)를 의미하지 않습니다.
따라서 반드시 함께 고려해야 하는 것이 효과크기(Eta² 또는 Omega²)입니다.
이번 사례처럼 F값이 크고 p < .001로 매우 유의할 때에도, Eta² 값을 함께 보고 그 차이가 작은 효과인지, 중간인지, 큰 효과인지를 파악해야만 현실적인 판단이 가능합니다.
오늘의 분석, 무엇을 배웠는가?
항목 | 배운 내용 요약 |
분석 기법 | 일원분산분석(ANOVA), Fisher 방식 |
비교 대상 | 세 집단 간 집중력 평균 |
주요 결과 | 통계적으로 유의한 차이 존재 (p < .001) |
등분산성 여부 | Levene 검정 통과 (p = 0.629) → 등분산 가정 만족 |
실무 적용 가능성 | 효과 큰 프로그램 식별 가능, 정책 반영 가능 |
추가 고려사항 | 사후검정, 효과크기, 확장 분석 필요 |
다음 학습
이번 Day 14에서 우리는 그룹 간 평균 차이를 이해하는 데 중요한 통계 기법인 ANOVA를 익혔습니다. 다음 시간에는 Day 15: 상관분석(Pearson Correlation)으로 이어집니다. 상관분석은 두 연속형 변수 간의 선형 관계를 파악할 수 있는 도구로, 회귀분석의 기초가 되는 중요한 분석법입니다. 평균의 차이를 넘어, 변수 간의 연결성을 이해하는 다음 단계를 함께 배우게 됩니다.
'논문 연구 > 논문 통계' 카테고리의 다른 글
Day 15: 상관분석 – Pearson 상관계수 (4) | 2025.08.04 |
---|---|
Day 13: 그룹 간 평균 비교 – 독립표본 t검정 (Independent Samples t-Test) (4) | 2025.08.03 |
Day 12: 기술통계 - 평균, 표준편차 구하기 (7) | 2025.08.02 |
Day 11: 교차분석으로 관계를 보다 – 범주형 변수의 연결고리를 찾아서 (3) | 2025.08.02 |
Day 10: 빈도분석 완전정복 - 명목형·서열형 변수 분석의 모든 것 (1) | 2025.08.02 |