본문 바로가기
누구보다쉬운통계

누구보다 쉬운 통계(카이제곱)

by CodeMuscle 2025. 4. 23.
반응형

😊


📌 카이제곱 검정이 뭐예요?

카이제곱 검정은 **"기대한 것과 실제 관측한 것이 얼마나 다른지"**를 확인하는 방법이에요.

예를 들어, 동전을 던졌을 때 앞면과 뒷면이 정확히 반반 나올 거라고 기대했어요. 근데 실제로 100번 던졌는데 앞면이 70번, 뒷면이 30번 나왔다면?

➡️ "어? 진짜 반반이 아닌 것 같은데?"
➡️ 이걸 통계적으로 검증하는 방법이 바로 카이제곱 검정이에요!


🎯 카이제곱 검정의 종류

크게 세 가지로 나뉘어요.

🎯 세 가지 카이제곱 검정 비교표

구분적합도 검정독립성 검정동질성 검정

 

구분적합도 검정독립성  검정동질성  검정
비교 대상 "기대값과 실제값" "두 변수의 관련성" "여러 집단의 분포가 같은지"
사용하는 데이터 한 변수 (1차원) 두 변수 (2차원) 두 변수 (2차원)
예시 주사위 눈이 공평한지? 성별과 음료 취향이 관련 있는지? 남학생과 여학생의 음료 취향이 같은 분포인지?
공통점 모두 카이제곱(χ²) 검정 방법을 사용함

1️⃣ 적합도 검정 (Goodness of Fit Test)

✔️ 언제 쓰나요?

  • 하나의 변수(예: 색상, 눈금 등)에서 기대한 비율과 실제 비율이 같은지 확인할 때

📌 예시

“이 주사위가 공평한지 확인하고 싶다!”

눈금관측 횟수기대 횟수
1 8 10
2 12 10
3 9 10
4 11 10
5 10 10
6 10 10

➡️ 이 관측값과 기대값 사이에 차이가 유의미한가를 검정해요.
➡️ p값을 통해 공정한지 판단합니다.


2️⃣ 독립성 검정 (Test of Independence)

✔️ 언제 쓰나요?

  • 두 범주형 변수 사이에 관련성이 있는지 확인할 때

📌 예시

“성별과 좋아하는 음료 사이에 관계가 있을까?”

 

 

성별 커피
남자 30 10 10
여자 20 25 5

➡️ 남자/여자와 커피/차/물 선호가 서로 독립인지 판단
➡️ 즉, 성별이 음료 선택에 영향을 미치는가를 보는 거예요!

📌 여기서 “독립”이라는 건
성별이 음료 선택에 아무 영향도 안 주는 상태를 말합니다.


3️⃣ 동질성 검정 (Test of Homogeneity)

✔️ 언제 쓰나요?

  • 여러 집단이 어떤 특성에 대해 같은 분포를 가지는지 검정할 때

📌 예시

“남학생과 여학생의 음료 취향 분포가 같은가?”


 

성별 커피
남자 40 20 10
여자 30 25 15

➡️ 두 집단(남, 여)이 같은 분포를 보이는지 비교해요.
➡️ “커피, 차, 물 선호 비율이 남녀 모두 같은가?”를 보는 거예요.

🟡 독립성 검정동질성 검정은 겉보기엔 비슷한데,
차이는 데이터 수집 방식이에요!

항목독립성 검정동질성 검정
항목 독립성 검정 동질성 검정
목적 두 변수 간 관계 여러 집단의 분포 비교
자료 수집 방식 한 모집단에서 두 변수 조사 여러 집단에서 하나의 변수 조사

📚 쉽게 기억하는 방법

🍰 케이크 예시로!

  • 적합도 검정: "케이크 조각이 똑같이 나눠졌나?" (기대한 분포와 비교)
  • 독립성 검정: "케이크 조각 고른 것과 사람 성별이 관련 있나?" (두 변수 관계)
  • 동질성 검정: "두 집단이 케이크 조각 고른 방식이 똑같나?" (분포 비교)

✅ 요약 정리 (5줄 요약)

  1. 적합도 검정은 기대 비율 vs 실제 비율 비교 (한 변수).
  2. 독립성 검정은 두 변수의 관련성 검정 (예: 성별 vs 음료).
  3. 동질성 검정은 집단 간 분포의 유사성 검정 (예: 남자 vs 여자).
  4. 셋 다 카이제곱 통계량을 사용.
  5. 동질성과 독립성은 표가 비슷하지만, 목적과 수집 방식이 다름.

🎲 예제로 이해해보기

✔ 예제 1: 주사위

문제

주사위를 60번 던졌더니 다음과 같아요:


눈금 관측 횟수
1 5
2 12
3 8
4 10
5 15
6 10

주사위는 공평하다고 기대하면 각 눈이 10번씩 나와야 하죠?
(60번 던지면 60 ÷ 6 = 10)

어떻게 비교해요?

  • 기대값: [10, 10, 10, 10, 10, 10]
  • 관측값: [5, 12, 8, 10, 15, 10]

차이를 제곱해서 계산해봐요:

 

하나만 예로 들어보면:

 

 

모두 더하면 χ² 값이 나와요. 이걸 표와 비교해서 유의미한 차이가 있는지 판단해요.


📐 언제 "유의미하다"고 하나요?

카이제곱 검정을 하면 p값이라는 게 나와요.

  • p < 0.05: 기대와 실제가 차이가 있다! → 우연이 아니라 진짜!
  • p ≥ 0.05: 차이가 우연일 수도 있다 → 크게 다르지 않다

📊 또 다른 예: 성별과 음료 선호

성별커피차물총합
성별 커피 총합
남자 30 10 10 50
여자 20 25 5 50
총합 50 35 15 100

성별과 음료가 관련 있을까?
→ 독립성 검정으로 판단할 수 있어요!

기대값은 (행합 × 열합 ÷ 전체합)으로 계산하고, 위와 같은 방식으로 카이제곱 값을 구해요.


✅ 정리하면

 

항목 설명
무엇을 검정? 기대와 실제의 차이
검정 방법? (관측 - 기대)² ÷ 기대를 모두 더함
결과 해석? p < 0.05 → 유의미한 차이
사용 시기? 범주형 데이터 (예: 성별, 취향, 선호도)
종류 적합도 검정 / 독립성 검정

 

반응형