논문 연구/논문 통계

Day 15: 상관분석 – Pearson 상관계수

삶을 그리다 2025. 8. 4. 11:11
"둘이 잘 어울리네요."
"이 두 현상은 왠지 함께 움직이는 것 같아."
"비가 오는 날, 커피 판매량이 늘어나는 것 같던데?"

 

이런 말들은 통계와는 아무런 관련이 없어 보이지만, 사실은 통계학의 매우 중요한 주제인 ‘상관관계’(correlation)를 본능적으로 느끼고 있는 것입니다.


우리는 일상 속에서도 무의식적으로 "무엇과 무엇이 관련이 있을까?"라는 질문을 자주 던지고 있습니다.
기온이 높을수록 냉방기기의 판매가 증가하고, 시험을 열심히 준비할수록 점수가 올라가며, 사회적 신뢰가 높을수록 국민의 행복도도 증가하는 현상들.


이 모든 것이 숫자들 사이의 ‘관계’를 이해하고자 하는 욕구에서 출발합니다.

 

그런데, 이런 관계를 객관적으로, 수치로, 과학적으로 증명하려면 어떻게 해야 할까요?
그 해답이 바로 ‘상관분석’(correlation analysis)입니다.

 

상관분석은 두 변수 간에 어떤 관계가 존재하는지를 수치화해주는 방법입니다.
예를 들어 ‘공부 시간’과 ‘성적’ 사이에 상관관계가 있는지, ‘운동 빈도’와 ‘건강 상태’ 사이에 얼마나 관련이 있는지를 확인할 수 있습니다. 중요한 점은, 이 분석이 데이터의 ‘숫자’만을 보는 것이 아닌, 그 숫자들이 어떤 이야기, 어떤 패턴을 말하고 있는지를 읽는 과정이라는 것입니다.

왜 상관분석을 배워야 할까요?

이 질문은 통계를 공부하는 이유와도 맞닿아 있습니다.
우리가 어떤 문제를 분석할 때 단순히 "A는 몇 점이다", "B는 몇 번 발생했다"는 수치만으로는 충분하지 않습니다.
우리는 대부분 두 개 이상의 요소 간에 관계를 파악하려고 합니다.

 

예를 들어 생각해보겠습니다.

  • 기업의 인사부는 "직무 만족도가 이직률과 어떤 관련이 있는가?"를 알고 싶어합니다.
  • 교육청은 "학생의 자기효능감이 학업 성취도에 미치는 영향은 어느 정도인가?"를 궁금해하죠.
  • 의료 연구자는 "하루 운동량이 우울증 점수와 어떤 연관을 갖는가?"를 파악하고자 합니다.

이때 우리는 두 변수의 상호작용을 수치로 측정해야 하고, 그 첫 번째 도구가 바로 ‘상관계수’입니다.

 

많은 초보자들이 상관분석을 접하면서 당황하는 이유는 숫자만을 계산하는 것이 아닌, "어떤 관계가 의미 있는가?", "이 수치가 크다는 건 어떤 뜻인가?", "그럼 인과관계가 있다는 건가요?" 등 질문이 꼬리에 꼬리를 물기 때문입니다.

하지만 걱정하지 않으셔도 됩니다.
상관분석은 숫자의 숨겨진 대화를 번역하는 기술입니다.
그리고 그 시작은 매우 간단한 공식 하나와, 산점도 하나에서 출발합니다.

Pearson 상관계수

 

이 글에서는 여러분이 Pearson 상관계수라는 통계 지표를 완전히 이해하고, Jamovi 프로그램을 활용해 직접 데이터를 분석하고 시각화할 수 있도록, 하나하나 차근차근 설명해드릴 예정입니다.

 

지금부터 통계의 또 다른 세계, ‘숫자의 관계를 읽는 법’을 함께 배워보겠습니다.

 

 

 

1️⃣ 상관분석이란 무엇인가요?

먼저 용어부터 차근히 정리해볼까요?

상관분석(Correlation Analysis)은 두 변수 간의 관계를 수치적으로 표현해주는 통계적 기법입니다.
이 관계는 보통 두 변수의 값이 함께 증가하거나 감소하는 패턴을 보이는가에 대한 질문으로 시작됩니다.

예를 들어 볼게요:

  • 공부 시간이 늘수록 시험 성적이 높아진다 → 양의 상관관계(Positive Correlation)
  • 스트레스 수준이 높아질수록 수면 시간은 줄어든다 → 음의 상관관계(Negative Correlation)
  • 전화기 사용 시간과 키의 관계처럼 아무런 연결이 없다 → 무상관(No Correlation)

즉, 한 변수의 변화가 다른 변수의 변화와 어떻게 연결되는지를 측정하는 것이 바로 상관분석의 핵심입니다.

 

2️⃣ Pearson 상관계수(Pearson’s r)의 정의와 공식

Pearson 상관계수(Pearson correlation coefficient)는 가장 널리 쓰이는 상관관계 지표입니다.
연속형 변수 두 개가 선형 관계(linear relationship)를 갖고 있는지를 판단할 때 사용합니다.

Pearson 상관계수의 수식은 다음과 같습니다.

$$
r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}}
$$

여기서

  • $X_i, Y_i$: 각각의 데이터 값
  • $\bar{X}, \bar{Y}$: X와 Y의 평균
  • 분자는 공분산, 분모는 두 변수의 표준편차의 곱

즉, 두 변수 간의 공분산을 표준화한 값으로, -1에서 +1 사이의 값을 가집니다.

Pearson 상관계수

상관계수 $r$ 의미
+1 완전한 양의 선형 상관관계
0.7 ~ 0.9 강한 양의 상관관계
0.4 ~ 0.6 보통의 양의 상관관계
0.1 ~ 0.3 약한 양의 상관관계
0 상관 없음
-0.1 ~ -0.3 약한 음의 상관관계
-0.4 ~ -0.6 보통의 음의 상관관계
-0.7 ~ -0.9 강한 음의 상관관계
-1 완전한 음의 선형 상관관계

 

3️⃣ Spearman 상관계수와의 차이점

혹시 Jamovi에서 분석을 하다 보면 Spearman correlation이라는 옵션도 보신 적 있으시죠?
Pearson과 Spearman은 둘 다 상관계수를 구하지만, 사용 조건과 데이터 특성이 다릅니다.

항목 Pearson Spearman
데이터 형태 연속형 (등간 또는 비율) 서열형 또는 순위 가능 자료
관계 형태 선형 관계 비선형이더라도 순위 관계가 존재하면 가능
정규성 가정 필요 불필요
이상치 영향 작음
예시 키와 몸무게, 공부시간과 점수 만족도 순위, 석차 등

 

결론:

  • 데이터가 정규분포를 따르고 연속형일 경우에는 Pearson
  • 데이터가 순위형이거나 이상치가 많을 경우에는 Spearman을 사용하는 것이 적절합니다.

 

4️⃣ Jamovi에서 상관분석 실습하기

실제 Jamovi에서 상관분석을 해보면 훨씬 이해가 빨라집니다.
Jamovi는 초보자도 쉽게 사용할 수 있도록 GUI(그래픽 기반)로 구성되어 있어 마우스 클릭만으로도 분석이 가능합니다.

실습예제

실습 예시 데이터

공부시간(hour) 성적(score)
2 55
3 65
4 70
5 75
6 85

분석 단계

  1. Jamovi 실행
  2. 데이터 입력 또는 .csv 파일 불러오기
  3. 상단 메뉴에서 AnalysesRegression 또는 ExplorationCorrelation Matrix 클릭
  4. 분석할 변수 선택 (예: 공부시간, 성적)
  5. 옵션에서 Pearson 또는 Spearman 선택
  6. 필요 시 p값, 신뢰구간, 산점도(Scatterplot) 옵션 체크
  7. 결과 해석!

산점도(Scatterplot) 해석법

Jamovi에서는 상관계수뿐만 아니라 자동으로 산점도를 그려줍니다.
이 산점도는 두 변수 간의 시각적 관계를 이해하는 데 매우 중요합니다.

  • 점들이 직선에 가깝게 몰려 있다 → 강한 상관관계
  • 점들이 퍼져 있고 방향성 없다 → 상관관계 없음
  • 점들이 아래로 기울어진 형태 → 음의 상관관계

이처럼 숫자 + 그림을 함께 보면, 통계 결과를 보다 쉽게 해석할 수 있습니다.

 

5️⃣ 상관계수 해석 시 주의사항

상관관계 ≠ 인과관계

가장 흔한 오해입니다.
상관계수가 높다고 해서 "A가 B를 일으킨다"는 뜻은 아닙니다.

 

예시:

  • 아이스크림 판매량과 익사 사고 수는 여름에 함께 증가합니다. 하지만 둘 사이에 인과관계는 없고, 기온이라는 제3의 요인(혼란변수)이 존재하는 것이죠.

 이상치(Outlier)의 영향

Pearson 상관계수는 이상치에 매우 민감합니다.
데이터 중 하나라도 극단적인 값이 있으면, 전체 상관계수에 영향을 줄 수 있으므로 산점도를 반드시 함께 확인하는 것이 중요합니다.

 

6️⃣ 상관분석의 실전 활용 예시

교육 분야

  • 학업 자기효능감과 성적 간의 상관관계
  • 독서 습관과 언어능력 평가 점수의 상관성

건강 분야

  • 수면 시간과 피로도 측정 간의 상관
  • 체질량지수(BMI)와 혈압 간의 연관성

경영/사회과학

  • 조직몰입과 이직의도
  • 고객 만족도와 재구매율
  • SNS 활동량과 외로움 점수

기술 분야

  • 앱 사용시간과 생산성 감소 간의 상관
  • 사용자 인터페이스 만족도와 사용자 재방문률

 

상관분석 결과표 예시

변수 1 변수 2 Pearson r p값 유의성
공부시간 성적 0.92 < .001 유의함
수면시간 스트레스 -0.65 0.012 유의함

이런 표 형식은 논문, 리포트, 보고서 작성 시 매우 유용하게 사용됩니다.

회귀분석과의 연결

상관분석이 두 변수 간 관계의 존재 유무와 방향성을 파악하는 데 초점을 맞춘다면,
회귀분석(regression analysis)은 이 관계를 수식으로 모델링하여 예측까지 가능하게 합니다.

따라서 회귀분석의 첫 단계로 상관분석을 반드시 선행하는 것이 좋습니다.
다음 시간에는 이 상관분석을 바탕으로 한 단순 회귀분석으로 넘어가게 됩니다.

 

 

7️⃣ 복수 변수 간 상관분석 실습: 상관 행렬로 보는 데이터의 관계 지도

상관분석의 진정한 강력함은 두 변수 간의 단일 관계를 넘어, 여러 변수들이 동시에 어떻게 얽혀 있는지를 보는 것에 있습니다.

Pearson 상관계수 실습


이를 위해 가장 많이 활용되는 분석 방법이 바로 상관행렬(Correlation Matrix)입니다.

🔬 실습에 사용할 데이터 변수 소개

변수 이름 설명 측정 수준
study_hours 하루 평균 공부 시간(시간) 연속형 (비율형)
sleep_hours 하루 평균 수면 시간(시간) 연속형 (비율형)
stress_level 스트레스 수준 (1~10 점 척도) 연속형 (구간형/비율형)
exam_score 시험 점수 (0~100 점) 연속형 (비율형)

 

이 데이터는 실제 생활 속 학습과 건강, 감정 상태가 성과에 어떤 영향을 주는지를 모의로 구성한 것으로,
통계적 관계 해석의 실전 예제로 매우 적합합니다.

 

Jamovi 실습 단계

 1단계: 데이터 불러오기

  1. Jamovi 실행
  2. 상단 메뉴에서 File → Open → This PC를 클릭
  3. 제공된 CSV 파일 day15_correlation_extended.csv 선택하여 불러오기

2단계: 상관분석 실행

  1. Analyses → Exploration → Correlation Matrix 선택
  2. 네 개의 변수 모두 선택 (study_hours, sleep_hours, stress_level, exam_score)
  3. 기본 옵션:
    • Pearson 체크
    • Significance (p-values) 체크
    • Flag significant correlations 체크
    • Scatterplot matrix 활성화 시, 변수 간 관계 시각화 가능

📊 예시 상관행렬 결과 해석

Pearson 상관 분석 결과

해석 포인트

  • 공부시간시험점수 간 상관계수 0.78: 매우 강한 양의 상관관계
    → 공부시간이 늘어날수록 시험점수도 높아지는 경향
  • 스트레스시험점수: -0.65의 음의 상관관계
    → 스트레스가 높을수록 시험 성적이 낮아지는 경향
  • 수면시간스트레스: -0.70
    → 수면 시간이 적을수록 스트레스가 높아진다는 매우 강한 음의 상관
  • 반면, 수면시간시험점수: 상관관계 미약
    → 수면시간 그 자체는 성적에 직접적으로 큰 영향을 미치지 않음

산점도 행렬(Scatterplot Matrix) 확인

Jamovi에서 Scatterplot Matrix를 활성화하면,
각 변수 쌍의 관계를 시각적으로 확인할 수 있는 산점도 행렬이 출력됩니다.

  • study_hoursexam_score: 점들이 우상향 직선에 가까움
  • sleep_hoursstress_level: 점들이 우하향
  • stress_levelexam_score: 점들이 우하향 곡선 형태

📌 시각적으로도 숫자들의 관계를 즉시 파악할 수 있어, 해석에 직관적인 도움을 줍니다.

 

상관행렬 분석의 실전 응용법

상관행렬은 데이터 탐색의 출발점이자, 회귀분석이나 요인분석 같은 고급 분석으로 가는 중간다리 역할을 합니다.

  • 변수 간 관계가 너무 강하다면? → 다중공선성 문제 확인 필요
  • 어떤 변수가 결과 변수와 가장 밀접한가? → 후속 회귀분석 모델링의 단서 제공
  • 변수 간 의외의 관계(예: 수면과 성적이 약한 상관 등)는 탐색적 인사이트를 제공

상관행렬 결과 해석 요령 요약

기준 해석 방법
상관계수 $r$ > 0.5 강한 양의 상관
상관계수 $r$ < -0.5 강한 음의 상관
0.3 ~ 0.5 또는 -0.5 ~ -0.3 중간 수준 상관
0.1 ~ 0.3 또는 -0.3 ~ -0.1 약한 상관
p값 < 0.05 통계적으로 유의함

 

Jamovi는 이러한 수치를 자동 계산해주기 때문에, 우리는 해석 능력을 키우는 데 집중하면 됩니다.

 

숫자 사이의 속삭임을 듣는 법 – 상관분석이 여는 통계적 사고의 문

통계는 숫자를 해석하는 ‘언어’입니다. 이번 Day 15를 통해 배운 '상관분석'은 단순히 통계 기법 중 하나로 끝나는 것이 아니라,
세상을 바라보는 방식 자체를 바꿔주는 사고의 틀이 될 수 있다는 점을 다시금 확인하게 됩니다.

우리가 흔히 마주하는 수많은 숫자들 — 키, 체중, 성적, 스트레스 지수, 근무시간, 만족도 —
이 모든 숫자들은 서로 전혀 무관하게 존재하지 않습니다.


그 사이에는 보이지 않는 흐름과 방향성이 존재하며, 그것을 감지하고 해석하는 능력이 바로 상관분석이 우리에게 선물하는 힘입니다.

 

상관분석, 특히 Pearson 상관계수는 다음과 같은 것들을 알 수 있었습니다. 

  • 변수 간의 관계를 수치적으로 정량화하는 과정은, 데이터 해석의 첫 관문임과 동시에
    숫자들 사이의 상호작용을 직관적으로 이해하는 기반이 됩니다.
  • 상관계수의 크기와 부호를 통해 관계의 방향과 강도를 파악할 수 있으며,
    이를 바탕으로 데이터를 더 깊이 있게 해석할 수 있습니다.
  • 상관계수는 인과관계를 증명하지 않는다는 점을 인식하면서,
    해석의 함정과 한계를 스스로 점검할 수 있는 사고력 또한 함께 길러졌습니다.

숫자를 수치로 읽는 것이 아니라, 숫자의 움직임과 대화 속에서 의미를 발견하는 태도 — 그것이 바로 우리가 이번 학습에서 진정으로 얻은 능력입니다.

 

Jamovi를 통해 직접 실습해보며, 단순 이론 습득을 넘어 손에 잡히는 통계의 감각을 키울 수 있었습니다.
특히 Correlation Matrix 기능은 여러 변수 간 관계를 한눈에 비교할 수 있게 해주었고,
산점도 시각화 기능은 수치만으로는 파악하기 어려운 데이터의 패턴과 흐름을 시각적으로 인식하는 데 큰 도움이 되었습니다.

  • 공부시간이 늘어날수록 성적이 오르고,
  • 수면시간이 줄어들수록 스트레스가 증가하며,
  • 스트레스가 높을수록 성적이 하락하는 흐름을,
    단지 수치뿐 아니라 구조적으로 이해할 수 있었던 것입니다.

Jamovi는 초보자에게도 친숙하고, 분석 결과를 해석 중심으로 보여주는 설계 덕분에 탐색적 데이터 분석(EDA)의 첫걸음으로 손색이 없습니다.

데이터 분석

 

이제 우리는 상관계수를 보며, 단지 숫자의 연결만을 떠올리기보다는 다음과 같은 질문을 떠올릴 수 있게 되었습니다:

  • "이 두 변수의 관계에 영향을 주는 제3의 요인은 없을까?"
  • "이 관계는 모든 집단에 동일하게 적용될까?"
  • "정말 선형적인가? 아니면 비선형적 구조일 수도 있지 않을까?"

이와 같은 질문을 던질 수 있는 능력이야말로, 통계의 기술을 넘어서, 통계의 철학에 다가가는 방식입니다.

 

이번에 다룬 Pearson 상관분석은 다음 단계인 회귀분석(regression analysis)으로 자연스럽게 이어지는 기반입니다.

회귀분석은 상관관계로 감지한 패턴을 바탕으로, 이제 수학적 모델을 만들어 미래를 예측하거나, 설명력을 평가할 수 있도록 확장합니다.

이번 실습에서 사용한 복합 상관분석 데이터 역시 앞으로 진행할 회귀분석 실습에서 훌륭한 토대가 될 수 있으며, 독립변수와 종속변수의 수학적 관계를 공식화하여 정량적 예측의 세계로 한 걸음 더 나아가는 기회를 제공해줄 것입니다.

상관분석은 숫자 간의 인연을 읽어내고, 그 관계 속에서 세상의 구조를 해석하는 통계적 언어입니다.

숫자가 말하는 것을 듣고, 그 흐름을 읽으며, 그 안에 담긴 맥락과 의미를 스스로 재구성할 수 있는 능력.
이것이야말로 데이터 시대를 살아가는 지성인의 필수 도구이며, 상관분석은 그 여정의 시작점에 서 있는 귀중한 길잡이입니다.