# 카이제곱 검정
---

## 1️⃣ 적합도 검정
---

Q. 주어진 데이터는 A 회사의 직원 200명을 대상으로 조사한 현재 사용하고 있는 스마트폰 제조사를 조사한 결과이다. 그리고 최근 조사에 따르면 국내 스마트폰 제조사 점유율은 삼성 60%, 애플 30%, 기타 10%라고 한다. 이를 이용하여 A 회사의 직원들이 사용하는 스마트폰 제조사 분포가 국내 스마트폰 제조사 점유율 분포와 동일한지 카이제곱 검정을 통해 검정하시오.

>
> H0 : A 회사 직원들이 사용하는 스마트폰 제조사 분포는 국내 스마트폰 제조사 점유율 분포를 따른다.
> 
> H1 : A 회사 직원들이 사용하는 스마트폰 제조사 분포는 국내 스마트폰 제조사 점유율 분포를 따르지 않는다.
>

In [3]:
import pandas as pd
import scipy.stats as stats

df = pd.read_csv('./datasets/cellphone.csv')

> 1. 삼성 제조사 스마트폰 사용 직원 수에서 애플 제조사 스마트폰 사용 직원 수를 뺀 값을 정수로 출력하시오.

In [15]:
df_counts = df.groupby(by='제조사').count()
print(df_counts)

count_samsung = df_counts.loc['삼성', 'id']
count_apple = df_counts.loc['애플', 'id']

answer = int(count_samsung - count_apple)
print(answer)

      id
제조사     
기타     5
삼성   117
애플    78
39


> 2. 문제에세 제시된 국내 스마트폰 제조사 점유율을 이용하여 기대 빈도를 계산하고, 위의 가설을 검정하기 위한 검정 통계량을 구하시오. (반올림하여 소수 둘째 자리까지 계산)

In [18]:
# 기대 빈도 - 삼성 60, 애플 30, 기타 10
total_sum = len(df)
print(total_sum)

expected = [(total_sum * 0.1), (total_sum * 0.6), (total_sum * 0.3)]   # 기타 삼성, 애플
print(expected)

# 관찰 빈도
observed = df_counts['id'].values
print(observed)

# 카이제곱 검정
stat, pvalue = stats.chisquare(observed, f_exp=expected)
print(stat, pvalue)

answer = round(stat, 2)
print(answer)

200
[20.0, 120.0, 60.0]
[  5 117  78]
16.725 0.00023345995371416804
16.73


> 3. 위의 통계량에 대한 p-값을 구하고 (반올림하여 소수 넷째 자리까지 계산) 유의 수준 0.05 하에서 가설 검정의 결과를 (채택/기각) 중 하나를 선택하시오.

In [20]:
pvalue = round(pvalue, 4)
print(pvalue)

if pvalue > 0.05:
    print("채택")
else:
    print("기각")

0.0002
기각


## 2️⃣ 독립성 검정
---

Q. 주어진 데이터는 A 대학의 300명의 학생을 대상으로 학생이 속한 단과 대학과 이번 학기 수강 과목 수를 조사한 결과이다. 이를 이용하여 단과대학별로 수강 과목 수에 차이가 있는지 카이제곱 검정을 통해 검정하시오. 가설은 아래와 같다.

> H_0 : 단과 대학과 수강 과목 수는 관련이 없다.
>  
> H_1 : 단과 대학과 수강 과목 수는 관련이 있다.
>

In [21]:
import pandas as pd
import scipy.stats as stats

df = pd.read_csv('./datasets/student.csv')

> 1. 주어진 데이터로 단과 대학과 수강 과목 수로 분할표를 만들었을 때, 수강 과목 수가 6개 이상인 학생 수가 가장 많은 단과 대학을 출력하시오.

In [None]:
# 분할표(교차표) 만들기
table = pd.crosstab(df['단과대학'], df['수강 과목 수'])
print(table)

print()

cond = (table['6개 이상'] == table['6개 이상'].max())
answer = table[cond].index[0]
print(answer)

수강 과목 수  4개 이하  5개  6개 이상
단과대학                     
경영대학        12  78     30
공과대학        30  42     28
자연대학        30  42      8

경영대학


> 2. 위의 가설을 검정하기 위한 검정 통계량을 구하시오. (반올림하여 소수 둘째 자리까지 계산)

In [41]:
x1 = table.loc['경영대학', :]
x2 = table.loc['공과대학', :]
x3 = table.loc['자연대학', :]

print(x1, x2, x3)
print()

stat, pval, _, _ = stats.chi2_contingency([x1, x2, x3])

answer = round(stat, 2)
print(answer)


수강 과목 수
4개 이하    12
5개       78
6개 이상    30
Name: 경영대학, dtype: int64 수강 과목 수
4개 이하    30
5개       42
6개 이상    28
Name: 공과대학, dtype: int64 수강 과목 수
4개 이하    30
5개       42
6개 이상     8
Name: 자연대학, dtype: int64

30.13


> 3. 위의 통계량에 대한 p-값을 구하고 (반올림하여 소수 넷째 자리까지 계산), 유의 수준 0.05 하에서 가설 검정의 결과를 (채택/기각) 중 하나를 선택하시오.

In [43]:
pvalue = round(pvalue, 4)
print(pvalue)

if pvalue > 0.05:
    print("채택")
else:
    print("기각")

0.0002
기각
