## 15.1 서론
- 범주형 자료란 관측치들이 몇개의 범주 로 분류 되고 각 범주의 도수로 자료가 주어지는 것
     - 그 와 같은 자료 는 사회과학에 비롯해서 여러 분야에 걸쳐 나타나는데
         - 종교 별 분류, 직업 만족도 에 의한 분류,  나무 들의 유전자 형태 에 의한 분류...

### 예제1. 적합성검정 예시
(몇 개의 범주로 분류 된 한 표본의 문제) 어떤 나무 의 자가수정 의 결과 로 나올 수 있는 유 전 자 의 형태 는 세 종 류 로 분 류 된다고 한다. 이 세 SHS 각각 A, B, C라 할 때 생 물 학 에 서 의 한 이 론 에 의하면 비율 이 1 : 2 : 1 로 나타난다고 하자. 이를 입 증 하기 위하여 자 가 수 정 의 결 과 로 생겨난 나무 100 그루를 유 전 자 의 형 태 별 로 분 류 하여 다 음 과 같은 표 를 얻었다.

표 15-1 유 전 자 에 따른 나 무 의 분류
|유전자 형태| A| B| C | 합계|
|-|-|-|-|-|
|관 측 도수| 18| 55 | 27| 100|

각 유전자 형 태 에 대 응 되는 모집단 비율을 $P_A,P_B,P_C$라고 할 때 위에서 얻어진 자료 로부터 생물학 이론이 제시하는 가설 이 틀리는 지 판단
- 기존의 귀무가설을 검정하는 것을 적합성 검정이라한다.
- stats.chisquare(관측치, 기대치(귀무가설))

In [138]:
from scipy.stats import chisquare
H0 = "귀납가설을 채택하여, 유전자의 형태는 1:2:1이다"
H1 = "귀납가설을 기각, 유전자의 형태는 1:2:1이 아니다"

data = np.array([18,55,27])
expected = np.array([data.sum()/4,data.sum()/4*2,data.sum()/4])
stats, p_val = chisquare(data,expected)
# 결과 출력
print(f"카이제곱 통계량: {stats:.4f}")
print(f"p-value: {p_val:.4f}")

# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_val < alpha:
    print(f"{H1}")
else:
    print(f"{H0}")

카이제곱 통계량: 2.6200
p-value: 0.2698
귀납가설을 채택하여, 유전자의 형태는 1:2:1이다


### 예제2. 동질성검정 예시
몇 개의 범주로 분류된 두 개의 독립인 표본의 문제) 두 가지 식 이 요법 A, B 효 과 를 비 교 하기 위해서 150 명 의 환자를 대상으로 조사를 실시 하였다. 임의로 추 출 된 80 명 에게는 식이요법 A를 적용 하
고. 나머지 70 명 에게는 식이 요법 B를 적용한 후 얼마간 의 시 간 이 흐른 후에 각 환자의 건강상태 에 따
라 다 음 의 표 15-2와 같이 세 가지 범 주 로 분 류 하였다.

표 15-2 두 식 이 요 법 에 따른 건 강 상 태 ( 관 측 도수)
|-|양호| 보통 | 불량| 표본의 크기|
|-|-|-|-|-|
|식이요법A| 37| 24| 19| 80|
|식이요법B|17 |33 |20 |70|
|합계| 54| 57| 39| 150|


- 독립인 두 그룹 이 각 범주별로 동일한 반응형태를 보이는가를 검정하는 것을 동질성검정이라 한다.
- stats.chi2_contingency(data)

### 예제3. 독립성검정 예시
(한 표본 을 두 가지 특성에 따라 분류 하는 문제) 텔 레 비 전 에서 방영 되는 오락물 에 대한 사 람 들 의 의견이 성별 과 어떤 관 계 가 있는지 조 사 하기 위해서 1.250 명 의  임 의 추 출 하여  별 과 오 릭 물 방영
에 대한 의 견 으로 다음 같이 분류 하였다.
|성별|너무많다|적당하다|너무적다|합계|
|-|-|-|-|-|
|남|378|237|25|641|
|여|388|196|25|609|
|합계|766|433|51|1250|
- 두가지 특성이 서로 독립이라는 귀무가설을 검정하는 것이 독립성검정이다
- stats.chi2_contingency(data)



## 15.2 연습문제

2.1 아 래 의 표 는 어떤 주 사 위 를 310 번 던져 관 찰 한 자 료 이다. 이 자 료 를 이 용 하 여 이 주 사 위 가 1 부 터 6의 눈 이 나올 확 률 이 같 은 지 를 유 의 수준 0.05 로 검 정 하라.

In [141]:
import pandas as pd
from scipy.stats import chisquare

# 데이터 생성
data = pd.DataFrame([38, 61, 54, 65, 55, 37])
chi2_stat, p_val = chisquare(data.values)

# 결과 출력
print(f"카이제곱 통계량: {chi2_stat[0]:.4f}")
print(f"p-value: {p_val[0]:.4f}")
print(f"자유도: {len(data) - 1}")

# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_val < alpha:
    print("주사위의 눈이 1부터 6까지 나올 확률이 동일하지 않습니다.")
else:
    print("주사위의 눈이 1부터 6까지 나올 확률이 동일합니다.")

카이제곱 통계량: 13.2258
p-value: 0.0214
자유도: 5
주사위의 눈이 1부터 6까지 나올 확률이 동일하지 않습니다.


2.9 어느 진통제 의 약효 지속시간 이 정규분포 $N(60, 15^2)$ 을 따르는지 판단하기 위해 100 명을 대상으로 실험 하였다. <br>
100명 중에서 지속시간이 48 시간 이하인 사람은 16명 , 48시간 이상 60시간 미만인 사람은 28명, <br>
60시간 이상 72시간 미만인 사람은 36명 , 72시간 이상인 사람은 20 명이었다.<br>
이 자료를 이용 하 여 약효 지속시간이 정규 분포 $N(60, 15^2)$을 따르는지 유의수준 5% 에서 검정 하여라

In [28]:
from scipy.stats import norm, chisquare
observed = [16, 28, 36, 20]
intervals = [(float('-inf'), 48), (48, 60), (60, 72), (72, float('inf'))]
n = sum(observed)  # 전체 관측값 수

expected = [n * (norm.cdf(upper, 60, 15) - norm.cdf(lower, 60, 15)) for lower, upper in intervals]

# 카이제곱 적합도 검정
chi_squared, p_value = chisquare(observed, f_exp=expected)

# 결과 출력
print(f"카이제곱 통계량: {chi_squared:.4f}")
print(f"p-value: {p_value:.4f}")
print(f"자유도: {len(observed) - 1}")

# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_value < alpha:
    print("귀무가설을 기각합니다. 약효 지속시간은 정규분포 N(60, 15^2)을 따르지 않습니다.")
else:
    print("귀무가설을 채택합니다. 약효 지속시간은 정규분포 N(60, 15^2)을 따릅니다.")

카이제곱 통계량: 3.1505
p-value: 0.3690
자유도: 3
귀무가설을 채택합니다. 약효 지속시간은 정규분포 N(60, 15^2)을 따릅니다.


2.11. 80 마 리의 어미 토 끼 를 조사해 보니, 각 토 끼 는 세 마리의 새끼를 낳고<br> 그 중 수컷수(male) 를 조사 하여
정리해 보았다<br>
(1) n=3 회 시행 이며 p=0.4 인 이항분포를 이용하여 위 표 에서 각 칸 의 기대도수를 구하라.<br>
(2) 세 마리 중 수컷의 수가 이항분포 따르는지 유의수준 0.05 로  카이제곱 적합도검정을 실행 하라.<br>
( 자유도 계산 시 하나의 모수가 추정되었음에 주의하라.)

In [142]:
from scipy.stats import binom, chisquare

# 관측값
no_male = [0, 1, 2, 3]
observed = [19, 32, 22, 7]

# 이항분포 파라미터
n = 3  # 시행 횟수
p = 0.4  # 성공 확률

# (1) 각 칸의 기대도수 계산
expected = [binom.pmf(k, n, p) * sum(observed) for k in no_male]

# (2) 카이제곱 적합도 검정
stats, p_value = chisquare(observed, f_exp=expected)

print(f"1) 각칸의 기대값: {[round(exp, 2) for exp in expected]}")
print(f"2) 카이제곱 검정\n - 통계량: {stats:.4f}")
print(f" - p-value: {p_value:.4f}")
# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_value < alpha:
    print("귀무가설을 기각. 세 마리 중 수컷의 수는 이항분포를 따르지 않음")
else:
    print("귀무가설을 채택. 세 마리 중 수컷의 수는 이항분포를 따름.")

1) 각칸의 기대값: [17.28, 34.56, 23.04, 5.12]
2) 카이제곱 검정
 - 통계량: 1.0981
 - p-value: 0.7775
귀무가설을 채택. 세 마리 중 수컷의 수는 이항분포를 따름.


## 15.3 연습문제

3.2. 새로운 상품 이 시장 에 소개 되고 일정 기간이 지난 후, <br>
제 조 업 자는 그 상 품 이 시 장 에서 어떤 위치를 차지하고 있는지 알고 싶어 <br>
다음 세 개의 도 시 를 선 택 하여 각각 2008, 150 명 , 300 명 을 임의로 선택 하여 <br>
새로운 상품 에 대한 질문한 결과 가 아래와 같았다,<br>
새로운 상 품 의 시 장 에 서 의 위 치 는 도 시 에 따라 차 이 가 있는가?
|도시|상품 들어본적 없다.| 들어보았으나 미구매|구매|합계|
|-|-|-|-|-|
|도 시 1 | 36| 55| 109| 200|
|도 시 2 | 45 |56 |49 |150|
|도 시 3 | 54| 78| 168| 300|
|합계| 135| 189| 326| 650|


In [80]:
data = pd.DataFrame({
'1':[36, 55, 109],
'2':[45, 56, 49],
'3':[54, 78, 168]
}).T

stats, p_val, dof, expected = chi2_contingency(data)
# 결과 출력
print("관측값:\n", data)
print("\n기대값:\n", pd.DataFrame(expected))
print(f"\n카이제곱 통계량: {stats:.4f}")
print(f"p-value: {p_val:.4f}")
print(f"자유도: {dof}")

# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_val < alpha:
    print("\n귀무가설을 기각. 새로운 상품의 시장에서의 위치는 도시에 따라 차이 있음")
else:
    print("\n귀무가설을 채택. 새로운 상품의 시장에서의 위치는 도시와 독립적")

관측값:
     0   1    2
1  36  55  109
2  45  56   49
3  54  78  168

기대값:
            0          1           2
0  41.538462  58.153846  100.307692
1  31.153846  43.615385   75.230769
2  62.307692  87.230769  150.461538

카이제곱 통계량: 24.6080
p-value: 0.0001
자유도: 4

귀무가설을 기각. 새로운 상품의 시장에서의 위치는 도시에 따라 차이 있음


3.5 A,B,C,D 네 가지 종류의 살충제 가 있는데 이 살충제들의 성능을 비교하기 위해<br>
모기를 임의로 네 집 단 으로 분류 하여 각각 살포한 결과 가 아래와 같다.<br>

|살충제|죽은수| 살아남은 수| 집 단 의 크기|
|-|-|-|-|
|A| 58| 37| 115|
|B |43 |77 |120|
|C| 56| 42| 98|
|D| 45| 75| 120|

<br>
(1) 살충제 간에 차이 가 있는지 유의 수준=0.1 로 검정 하라,<br>
(2) $P_A, P_B, P_C P_D$ 각각 죽은 모기 의 비율 이라고 할 때 각 95% 신뢰 구간을 구하라.

In [82]:
data= pd.DataFrame({'죽은수':[58,43,56,45],
                   '살아남은수':[37,77,42,75]},
                  index = ['A','B','C','D'])

stats, p_val, dof, expected = chi2_contingency(data)
# 결과 출력
print("관측값:\n", data)
print("\n기대값:\n", pd.DataFrame(expected,columns=data.columns,index=))
print(f"\n카이제곱 통계량: {stats:.4f}")
print(f"p-value: {p_val:.4f}")
print(f"자유도: {dof}")

# 유의수준 0.1에서 가설 검정
alpha = 0.1
if p_val < alpha:
    print("\n귀무가설을 기각. 살충제 간 차이가 있음")
else:
    print("\n귀무가설을 채택. 살충제 간 효과 차이 없음")

관측값:
     0   1
A  58  37
B  43  77
C  56  42
D  45  75

기대값:
            0          1
0  44.318707  50.681293
1  55.981524  64.018476
2  45.718245  52.281755
3  55.981524  64.018476

카이제곱 통계량: 21.9316
p-value: 0.0001
자유도: 3

귀무가설을 기각. 살충제 간 차이가 있음


## 15.4 연습문제

4.2 스트레스 를 받는 직 종 에 근 무 하는 185 명 에 대한 조사 를 통하여 다음 과 같은 표를 얻었다.
우울증의 유무 와 알콜 중독 과 관계 가 있는가? 유 의 수준 0.1로 검정 하라.

In [129]:
data = pd.DataFrame(
{'중독':[54,22],
'정상':[27,82]},
index = ['우울증 보임','우울증 없음'])

stats, p_val, dof, expected = chi2_contingency(data)
# 결과 출력
print("관측값:\n", data)
print("\n기대값:\n", pd.DataFrame(expected.round(0),columns=data.columns,index=data.index))
print(f"\n카이제곱 통계량: {stats:.4f}")
print(f"p-value: {p_val:.4f}")
print(f"자유도: {dof}")

# 유의수준 0.1에서 가설 검정
alpha = 0.1
if p_val < alpha:
    print("\n귀무가설을 기각. 우울증유무는 알콜중독과 관계 있음")
else:
    print("\n귀무가설을 채택. 우울증유무는 알콜중독과 관계 없음")

관측값:
         중독  정상
우울증 보임  54  27
우울증 없음  22  82

기대값:
           중독    정상
우울증 보임  33.0  48.0
우울증 없음  43.0  61.0

카이제곱 통계량: 37.1112
p-value: 0.0000
자유도: 1

귀무가설을 기각. 우울증유무는 알콜중독과 관계 있음


4.6 자제능력 으로 볼 때, 사 람 들 은 보통 3 가 지 집 단 으로 분 류 할 수 있다.<br>
자제 능력 이 뛰어난 집단,보 통 인 집단, 자 제 능 력 이 떨어지는 집 단 이다. <br>
이 3 가 지 집 단 의 사 람 들 에게 반 복 적 인 단순한 일을 시키고 언제든지 그만둘 수 있게 하였다. <br>
다만 그 사 람 이 그 만 두 려고 할 때 "진짜로 그만 두시겠습니까 ?"라 는 질 문 을 한다. 
그 질 문 에 대한 결 과 가 아 래 의 표 와 같다,<br>

|집단 |계속한다 |그만둔다 | 합계|
|- |- |- | -|
|뛰어난 집단| 9|9| 18|
|보통인 집단| 8|12| 20|
|떨어진 집단 | 3| 14|17|

집단 간에 질 문 에 대한 대 답 이 차 이 가 있는가? ( 유의수준 0.05)

In [92]:
data = pd.DataFrame({
'계속한다':[9,8,3],
'그만둔다':[9,12,14]
})
stats, p_val, dof, expected = chi2_contingency(data)
# 결과 출력
print("관측값:\n", data)
print("\n기대값:\n", pd.DataFrame(expected))
print(f"\n카이제곱 통계량: {chi2_stat:.4f}")
print(f"p-value: {p_val:.4f}")
print(f"자유도: {dof}")

# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_val < alpha:
    print("\n귀무가설을 기각. 집단간 차이 있음")
else:
    print("\n귀무가설을 채택. 집단간 차이 없음")

관측값:
    계속한다  그만둔다
0     9     9
1     8    12
2     3    14

기대값:
           0          1
0  6.545455  11.454545
1  7.272727  12.727273
2  6.181818  10.818182

카이제곱 통계량: 4.1342
p-value: 0.1265
자유도: 2

귀무가설을 채택. 집단간 차이 없음


## 종합문제

5.3 다음 표 는 한 병 원 에서 1 년 동안 태어난 아 이 들 을 분 기 별로 분 류 한 자 료 이다.

|분기|1분기|2분기|3분기|4분기|
|-|-|-|-|-|
|아이수| 55| 29| 26| 41| 

<br>

1 사분기에 태어난 아이들이 나머지 기간에 태어난 아이들보다 2배 많다는 가 설에 대해 유의수준
0.1 로 검 정 하라.

In [109]:
import numpy as np
from scipy.stats import chisquare
data = np.array([55,29,26,41])
fst, other = sum(data)*2/5, sum(data)/5
expected = [fst,other,other,other]
stats, p_val = chisquare(data, exp)

print("관측값:\n", data)
print("\n기대값:\n", expected)
print(f"\n카이제곱 통계량: {stats:.4f}")
print(f"p-value: {p_val:.4f}")
print(f"자유도: {dof}")

# 유의수준 0.1에서 가설 검정
alpha = 0.1
if p_val < alpha:
    print("\n귀무가설을 기각. 집단간 차이 있음")
else:
    print("\n귀무가설을 채택. 집단간 차이 없음")

관측값:
 [55 29 26 41]

기대값:
 [60.4, 30.2, 30.2, 30.2]

카이제곱 통계량: 4.9768
p-value: 0.1735
자유도: 2

귀무가설을 채택. 집단간 차이 없음


5.7 새로 개발된 품종의 식물이 토질에 영향을 받는가를 조사하기 위해 세 종류의 토지, <br>
진흙, 모래, 양토 에 각각 65, 60, 60 그루를 심어 성장속도를 기록 하여 다음 과 같은 표를 작성하였다.

|-|진흙|모래|양토|
|-|-|-|-|
|불량| 16| 8| 14|
|보통| 31| 16 |21|
|우량| 18| 36| 25|

토질이 식물의 성장속도에 영향을 미친다고 할 수 있는가? 카이제곱 동질성 검정 을 시행하라. ( 유 의 수준
0.05)

In [116]:
data = pd.DataFrame({
    '진흙':[16,31,18],
    '모래':[31,16,21],
    '우량':[18,35,25]},
index=['불량','보통','우량'])

H0 = '토질이 식물의 성장속도에 영향을 미친다고 할 수 없다'
H1 = '토질이 식물의 성장속도에 영향을 미친다고 할 수 있다'

from scipy.stats import chi2_contingency
stats, p_val , dof, expected = chi2_contingency(data)

print("관측값:\n", data)
print("\n기대값:\n", pd.DataFrame(expected.round(0),columns=data.columns,index=data.index))
print(f"\n카이제곱 통계량: {stats:.4f}")
print(f"p-value: {p_val:.4f}")
print(f"자유도: {dof}")

# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_val < alpha:
    print(f"\n귀무가설을 기각. {H1}")
else:
    print(f"\n귀무가설을 채택. {H0}")

관측값:
     진흙  모래  우량
불량  16  31  18
보통  31  16  35
우량  18  21  25

기대값:
       진흙    모래    우량
불량  20.0  21.0  24.0
보통  25.0  26.0  30.0
우량  20.0  21.0  24.0

카이제곱 통계량: 13.5193
p-value: 0.0090
자유도: 4

귀무가설을 기각. 토질이 식물의 성장속도에 영향을 미친다고 할 수 있다


5.17 다음은 어느 회사에서 분석 업무와 영업업무에 업무 관련 <br>
전공자와 비전공자 채용전형을 진행결과를 보여주는 표 이다. <br>
차례대로 분석 업무의 결과, 영업 업무의 결과임(유의 수준 0.05)<br>

- 분 석 업 무 의 결과

||합격|불합격|합계|
|-|-|-|-|
|비전공자| 25| 50| 75|
|전공자| 75| 150| 225|

- 영 업 업 무 의 결과

||합격|불합격|합계|
|-|-|-|-|
|비전공자| 150| 50| 200|
|전공자| 75| 25| 100|

<br>
(1) 각 업무에서 각각 전공과 합격여부 가 독립 인지 독립성 검정을 시행하라.<br>
(2) 전체에서 전공과 합격 여부 에 대한 독립성 검정을 시행하라.<br>
(3) (1), (2) 의 결과로부터 통계분석에 대한 주의점에 대해 설명하라.

In [123]:
from scipy.stats import chi2_contingency
H0='업무에서 전공과 합격여부가 독립이 아니다'
H1='업무에서 전공과 합격여부가 독립이다'
#분석업무
data1=pd.DataFrame({
    '합격':[25,75],
    '불합격':[50,150],
},
    index=['전공자','비전공자']
)
#영업업무
data2=pd.DataFrame({
    '합격':[150,75],
    '불합격':[50,25],
},
    index=['전공자','비전공자']
)
stats1,p_val1,dof1,expected1 = chi2_contingency(data1)
stats2,p_val2,dof2,expected2 = chi2_contingency(data2)
print("------------분석업무-------------")
print("관측값:\n", data1)
print("\n기대값:\n", pd.DataFrame(expected1.round(0),columns=data1.columns,index=data1.index))
print(f"\n카이제곱 통계량: {stats1:.4f}")
print(f"p-value: {p_val1:.4f}")
print(f"자유도: {dof1}")

# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_val1 < alpha:
    print(f"\n귀무가설을 기각. {H1}")
else:
    print(f"\n귀무가설을 채택. {H0}")
print("\n------------영업업무-------------")    
print("관측값:\n", data2)
print("\n기대값:\n", pd.DataFrame(expected2.round(0),columns=data2.columns,index=data2.index))
print(f"\n카이제곱 통계량: {stats2:.4f}")
print(f"p-value: {p_val2:.4f}")
print(f"자유도: {dof2}")

# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_val2 < alpha:
    print(f"\n귀무가설을 기각. {H1}")
else:
    print(f"\n귀무가설을 채택. {H0}")


------------분석업무-------------
관측값:
       합격  불합격
전공자   25   50
비전공자  75  150

기대값:
         합격    불합격
전공자   25.0   50.0
비전공자  75.0  150.0

카이제곱 통계량: 0.0000
p-value: 1.0000
자유도: 1

귀무가설을 채택. 업무에서 전공과 합격여부가 독립이 아니다

------------영업업무-------------
관측값:
        합격  불합격
전공자   150   50
비전공자   75   25

기대값:
          합격   불합격
전공자   150.0  50.0
비전공자   75.0  25.0

카이제곱 통계량: 0.0000
p-value: 1.0000
자유도: 1

귀무가설을 채택. 업무에서 전공과 합격여부가 독립이 아니다


In [127]:
data = data1+data2
stats,p_val,dof,expected = chi2_contingency(data)

print("------------분석업무-------------")
print("관측값:\n", data)
print("\n기대값:\n", pd.DataFrame(expected.round(0),columns=data.columns,index=data.index))
print(f"\n카이제곱 통계량: {stats:.4f}")
print(f"p-value: {p_val:.4f}")
print(f"자유도: {dof}")
# 유의수준 0.05에서 가설 검정
alpha = 0.05
if p_val < alpha:
    print(f"\n귀무가설을 기각. {H1}")
else:
    print(f"\n귀무가설을 채택. {H0}")


------------분석업무-------------
관측값:
        합격  불합격
전공자   175  100
비전공자  150  175

기대값:
          합격    불합격
전공자   149.0  126.0
비전공자  176.0  149.0

카이제곱 통계량: 17.6409
p-value: 0.0000
자유도: 1

귀무가설을 기각. 업무에서 전공과 합격여부가 독립이다


각각의 업무에 대해 카이제곱을 하면 독립적이지 않으나, 전체데이터로 진행하면 독립으로 나옴.

- 심프슨의 역설로 인해 발생한 현상.
    - 심프슨의 역설 : 데이터를 전체로 보면 특정한 경향성이 있지만, 부분 집단으로 나누어 보면 그 경향성이 사라지거나 반대로 나타나는 현상

- 이러한 현상이 발생하는 이유는 전체 데이터와 부분 데이터에서 각 집단의 비율이 다르기 때문
    - 예를 들어, 이 문제에서는 전체 데이터에서는 전공자와 비전공자의 비율이 비슷하지만, 각 업무별로 보면 그 비율이 다름
    - 따라서 전체 데이터로 보면 전공과 합격여부가 독립적인 것처럼 보이지만, 실제로는 각 업무별로 전공과 합격여부가 연관


- 이러한 심프슨의 역설은 데이터를 해석할 때 주의해야 할 중요한 사항. 전체 데이터와 부분 데이터를 모두 고려하여 종합적으로 판단해야 하며, 단순히 전체 데이터만으로 결론을 내리는 것은 위험할 수 있음