😊
📌 카이제곱 검정이 뭐예요?
카이제곱 검정은 **"기대한 것과 실제 관측한 것이 얼마나 다른지"**를 확인하는 방법이에요.
예를 들어, 동전을 던졌을 때 앞면과 뒷면이 정확히 반반 나올 거라고 기대했어요. 근데 실제로 100번 던졌는데 앞면이 70번, 뒷면이 30번 나왔다면?
➡️ "어? 진짜 반반이 아닌 것 같은데?"
➡️ 이걸 통계적으로 검증하는 방법이 바로 카이제곱 검정이에요!
🎯 카이제곱 검정의 종류
크게 세 가지로 나뉘어요.
🎯 세 가지 카이제곱 검정 비교표
구분적합도 | 검정독립성 | 검정동질성 | 검정 |
비교 대상 | "기대값과 실제값" | "두 변수의 관련성" | "여러 집단의 분포가 같은지" |
사용하는 데이터 | 한 변수 (1차원) | 두 변수 (2차원) | 두 변수 (2차원) |
예시 | 주사위 눈이 공평한지? | 성별과 음료 취향이 관련 있는지? | 남학생과 여학생의 음료 취향이 같은 분포인지? |
공통점 | 모두 카이제곱(χ²) 검정 방법을 사용함 |
1️⃣ 적합도 검정 (Goodness of Fit Test)
✔️ 언제 쓰나요?
- 하나의 변수(예: 색상, 눈금 등)에서 기대한 비율과 실제 비율이 같은지 확인할 때
📌 예시
“이 주사위가 공평한지 확인하고 싶다!”
눈금관측 | 횟수기대 | 횟수 |
1 | 8 | 10 |
2 | 12 | 10 |
3 | 9 | 10 |
4 | 11 | 10 |
5 | 10 | 10 |
6 | 10 | 10 |
➡️ 이 관측값과 기대값 사이에 차이가 유의미한가를 검정해요.
➡️ p값을 통해 공정한지 판단합니다.
2️⃣ 독립성 검정 (Test of Independence)
✔️ 언제 쓰나요?
- 두 범주형 변수 사이에 관련성이 있는지 확인할 때
📌 예시
“성별과 좋아하는 음료 사이에 관계가 있을까?”
성별 | 커피 | 차 | 물 |
남자 | 30 | 10 | 10 |
여자 | 20 | 25 | 5 |
➡️ 남자/여자와 커피/차/물 선호가 서로 독립인지 판단
➡️ 즉, 성별이 음료 선택에 영향을 미치는가를 보는 거예요!
📌 여기서 “독립”이라는 건
성별이 음료 선택에 아무 영향도 안 주는 상태를 말합니다.
3️⃣ 동질성 검정 (Test of Homogeneity)
✔️ 언제 쓰나요?
- 여러 집단이 어떤 특성에 대해 같은 분포를 가지는지 검정할 때
📌 예시
“남학생과 여학생의 음료 취향 분포가 같은가?”
성별 | 커피 | 차 | 물 |
남자 | 40 | 20 | 10 |
여자 | 30 | 25 | 15 |
➡️ 두 집단(남, 여)이 같은 분포를 보이는지 비교해요.
➡️ “커피, 차, 물 선호 비율이 남녀 모두 같은가?”를 보는 거예요.
🟡 독립성 검정과 동질성 검정은 겉보기엔 비슷한데,
차이는 데이터 수집 방식이에요!
항목 | 독립성 검정 | 동질성 검정 |
목적 | 두 변수 간 관계 | 여러 집단의 분포 비교 |
자료 수집 방식 | 한 모집단에서 두 변수 조사 | 여러 집단에서 하나의 변수 조사 |
📚 쉽게 기억하는 방법
🍰 케이크 예시로!
- 적합도 검정: "케이크 조각이 똑같이 나눠졌나?" (기대한 분포와 비교)
- 독립성 검정: "케이크 조각 고른 것과 사람 성별이 관련 있나?" (두 변수 관계)
- 동질성 검정: "두 집단이 케이크 조각 고른 방식이 똑같나?" (분포 비교)
✅ 요약 정리 (5줄 요약)
- 적합도 검정은 기대 비율 vs 실제 비율 비교 (한 변수).
- 독립성 검정은 두 변수의 관련성 검정 (예: 성별 vs 음료).
- 동질성 검정은 집단 간 분포의 유사성 검정 (예: 남자 vs 여자).
- 셋 다 카이제곱 통계량을 사용.
- 동질성과 독립성은 표가 비슷하지만, 목적과 수집 방식이 다름.
🎲 예제로 이해해보기
✔ 예제 1: 주사위
문제
주사위를 60번 던졌더니 다음과 같아요:
눈금 관측 | 횟수 |
1 | 5 |
2 | 12 |
3 | 8 |
4 | 10 |
5 | 15 |
6 | 10 |
주사위는 공평하다고 기대하면 각 눈이 10번씩 나와야 하죠?
(60번 던지면 60 ÷ 6 = 10)
어떻게 비교해요?
- 기대값: [10, 10, 10, 10, 10, 10]
- 관측값: [5, 12, 8, 10, 15, 10]
차이를 제곱해서 계산해봐요:
하나만 예로 들어보면:
모두 더하면 χ² 값이 나와요. 이걸 표와 비교해서 유의미한 차이가 있는지 판단해요.
📐 언제 "유의미하다"고 하나요?
카이제곱 검정을 하면 p값이라는 게 나와요.
- p < 0.05: 기대와 실제가 차이가 있다! → 우연이 아니라 진짜!
- p ≥ 0.05: 차이가 우연일 수도 있다 → 크게 다르지 않다
📊 또 다른 예: 성별과 음료 선호
성별 | 커피 | 차 | 물 | 총합 |
남자 | 30 | 10 | 10 | 50 |
여자 | 20 | 25 | 5 | 50 |
총합 | 50 | 35 | 15 | 100 |
성별과 음료가 관련 있을까?
→ 독립성 검정으로 판단할 수 있어요!
기대값은 (행합 × 열합 ÷ 전체합)으로 계산하고, 위와 같은 방식으로 카이제곱 값을 구해요.
✅ 정리하면
항목 | 설명 |
무엇을 검정? | 기대와 실제의 차이 |
검정 방법? | (관측 - 기대)² ÷ 기대를 모두 더함 |
결과 해석? | p < 0.05 → 유의미한 차이 |
사용 시기? | 범주형 데이터 (예: 성별, 취향, 선호도) |
종류 | 적합도 검정 / 독립성 검정 |
'누구보다쉬운통계' 카테고리의 다른 글
누구보다 쉬운 통계(ANOVA, 분산분석) (1) | 2025.04.22 |
---|---|
누구보다 쉬운 통계(T-test) (4) | 2025.04.22 |
누구보다 쉬운 통계(제1종오류, 2종오류) (2) | 2025.04.22 |
누구보다 쉬운 통계(신뢰구간) (0) | 2025.04.22 |
누구보다 쉬운 통계(표본과 모집단) (0) | 2025.04.22 |