# 문제1.  # 적합성 검정
A 쇼핑몰은 유튜브, 페이스북, 인스타그램 세 소셜 채널에 대해 소셜 마케팅을 하고 있습니다. 기존 패턴에 의하면 페이스북, 인스타그램이 각각 전체 유입의 30%를 담당하고 있었고, 유튜브는 약 40%를 담당하고 있었습니다. 최근 인스타그램으로 유입되는 고객이 증가하는 추세를 보이면서 마케팅 예산안은 개편하려고 합니다. 하지만  채널 담당자들에게 예산 증감은 민감한 사안이기 때문에 보다 과학적인 도구를 통한 근거 마련이 필요해 다음과 같이 일주일간 광고를 통한 유입 고객을 수집해 실제 고객 유입 비가 깨졌는지 확인하려 합니다.

|채널|페이스북|인스타그램|유투브|합계|
|---|---|---|---|---|
|유입수|1,127|1,248|1,789|4,164|
|기존편성기준|30%|30%|40%|100%|




### 적합성 검정
- 정의 : 각 범주에 따른 데이터의 빈도분포가 이론적으로 기대하는 분포를 따르는지 검정
- 준비물 : 한가지 명목변수, 검정하고자 하는 모집단 비율 또는 빈도교차표
- 예)주사위를 굴렸을 때, 각 주사위의 값이 1/6의 확률이 맞는지를 검정
- 예) K통신사의 광고 후 이동통신 3에 대한 시장 정유율 검정
- scipy.stats.chisquare(f_obs=관찰빈도, f_exp=기대빈도, axis=0)
- 귀무가설 : 기존 편성 기준과 같이, 페이스북 30%, 인스타그램 40%, 유투브 40%이다.
- 연구가설 : 기존 편성 기준과 달리, 페이스북 30%, 인스타그램 40%, 유투브 40%이 아니다.

>  카이제곱 통계량
- 카이제곱 통계량이 작다면, 관측도수와 기대도수의 차이가 작다는 것을 의미하며, 이는 귀무가설에 제시한 각 범주의 비율과 실제 자료에 나타난 범주의 비율이 크게 다르지 않다는 것을 의미
- 카이제곱 통계량이 크다면, 관측도수와 기대도수의 차이가 크다는 것을 의미하며, 이는 귀무가설에 제시한 각 범주의 비율은 실제자료와는 적합하지 않다는 것을 의미

- 자유도 : 범주의 수 -1


```
# 교차분석을 하기 위해서는 명목형 변수에 대한 도수분포표를 생성하여 범주별 관찰빈도를 확인하고 적합도 검정을 실행한다.

##step1. 빈도교차표 또는 피벗테이블 생성
X = pd.crosstab(df.클레임접수여부, df.구매유형, margins=True)
#전체 데이터 중 클레임접수여부와 구매유형 변수라는 범주형 변수간의 빈도를 하악하기 위해 crosstab()함수를 사용해 빈도교차표를 생성한다.

##step2. 관측도수를 확인하여 기대도수를 구함

# 클레임접수된 사람의 관측도수 추출
Ob= X.values[특정행, :-1] # -1은 합계임 # 인덱스를 제외해야한다.
n = X.values[특정행, -1] # 합계
# 모집단 %를 관측도수로 추출
Pr= np.array([0.1, 0.3, 0.2, 0.4]) # 인덱스가 포함되지 않도록 np.array를 이용한 것을 볼 수 있다.
# E = n*Pr

##step3. 적합성 검정
stats.chiquare(Ob,E)
```



In [None]:
import pandas as pd
data_1 = pd.Series(data=[1127, 1248, 1789, 4164], index=['페이스북', '인스타그램', '유투브', '합계'])

In [None]:
data_1

페이스북     1127
인스타그램    1248
유투브      1789
합계       4164
dtype: int64

In [None]:
from scipy.stats import chisquare
import numpy as np
Pr = np.array([0.30,0.30,0.40])
E = Pr* data_1[-1]
chi=chisquare(data_1[:-1], f_exp=E)
print(chi)
#카이제곱 통계량은 약 21.09, p-value 값은 설정한 유의수준 0.05보다 작으므로 귀무가설을 기각한다.
#즉, 기존 편성 기준과 달리 일주일간 광고를 통한 유입 고객은 페이스북 30%, 인스타그램 40%, 유투브 40%이 아니다.

Power_divergenceResult(statistic=21.09746237592058, pvalue=2.6226736564792922e-05)


# 문제 2.  # 독립성 검정
아래 이미지와 같은 학과별 학점 분포 인원수 표가 있다. 학과와 성적이 관계있는지를 검정하라

|구분|사회과학|자연과확|공학|
|---|---|---|---|
|1.5~2.5|15|25|10|
|2.5~3.5|60|69|77|
|3.5~4.5|24|5|13|

### 독립성 검정
- 정의 : 두 개의 범주형 변수 간에 서로 연관성이 있는지, 독립적인지를 판단.
- 준비물 : 두 가지 명목변수
- 예) 환자의 비만유무와 대사성 질환의 유무가 주어졌을 때, 비만에 따른 질환 비율에 차이가 존재하는지 검정
- 예) 직업유형과 선호상품이 서로 관계가 있는지 검정
- scipy.stats.chi2_contingency(observed=관찰빈도, correction=True, lambda=None)
- 귀무가설 : 학과와 성적변수는 독립이다.
- 연구가설 : 학과와 성적변수는 독립이아니다.

> 카이제곱 통계량
- 각 셀에 대한 관측도수와 기대도수 차이의 제곱값을 해당 셀의 기대도수로 나눈 것
- 카이제곱 통계량이 작다면, 관측도수와 기대도수 값은 유사하게 나타난다는 것이며 이는 명목변수 간에 연관성이 존재하지 않다는 것을 말한다.
- 카이제곱 통계량이 크다면, 관측도수와 기대도수 값이 큰 차이를 보이게 된다는 것이며 이는 명목변수 간에 상호 연관성이 존재한다는 것을 의미한다.

- 자유도 : (행의 수 -1)*(열의 수 -1) #피벗테이블==빈도교차표 기준

```
# 교차분석을 하기 위해서는 명목형 변수에 대한 도수분포표를 생성하여 범주별 관찰빈도를 확인하고 적합도 검정을 실행한다.

##step1. 빈도교차표 또는 피벗테이블 생성
X = pd.crosstab(df.성별, df.클레임접수여부, margins=False)
#전체 데이터 중 성별, 클레임접수여부라는 범주형 변수간의 빈도를 파악하기 위해 crosstab()함수를 사용해 빈도교차표를 생성한다.
#margin=False로 해야 합계가 나오지 않는다.


##step2. 독립성 검정
stats.contingency(X)
```

In [None]:
#성적이 숫자의 구간이므로 범주형변수로 볼 수 있다.
# pd.crosstab를 이용해 전체 데이터프레임을 요약한 결과처럼, 유사하게 데이터프레임 생성
data_2 = pd.DataFrame(data=[[15,25,10],[60,69,77], [24,5,13]],\
                      index=['1.5~2.5', '2.5~3.5', '3.5~4.5'], columns=['사회과학','자연과학', '공학'])
data_2

Unnamed: 0,사회과학,자연과학,공학
1.5~2.5,15,25,10
2.5~3.5,60,69,77
3.5~4.5,24,5,13


In [None]:
from scipy import stats
stats.chi2_contingency(data_2)
# 카이제곱 통계량 25.7, pvalue 0.001이하, 자유도 4, expected_freq 테이블 합계 기반으로한 기대빈도
# 독립성 검정 결과 pvalue가 유의수준 0.05보다 작으므로 귀무가설 기각한다.
# 즉, 성적과 학과는 독립이 아니라 연관성이 있다는 연구가설을 채택할 수 있다.

Chi2ContingencyResult(statistic=22.136920195949322, pvalue=0.00018822647762421383, dof=4, expected_freq=array([[16.61073826, 16.61073826, 16.77852349],
       [68.43624161, 68.43624161, 69.12751678],
       [13.95302013, 13.95302013, 14.09395973]]))

# 문제3. # 동질성 검정
초등학교 1학년 남학생 100명과 여학생 200명을 무작위로 추출하여 TV 프로그램 선호도를 조사하였다. 유의수준 a 0.05하에서 남학생의 TV 프로그램 선호도와 여학생의 TV 프로그램 선호도가 동일한지 검정하여라.

|구분|뽀로로|짱구는 못말려|로봇카 폴리|row total|
|---|---|---|---|--|
|남학생|50|30|20|100|
|여학생|50|80|70|200|
|column total|100|110|90|300|

### 동질성 검정
- 쉬운 정의 : 서로 다른 모집단에서 독립적으로 추출한 표본들의 범주별 비율이 서로 동질적인지 검정
- 어려운 정의 : 모집단이 임의의 변수에 따라 R개의 속성으로 범주화 되었을 떄, R개의 부분 모집단에서 추출한 표본이 C개의 범주화된 집단의 분포가 서로 동일한지 검정
- 준비물 : 두가지 표본집단으로부터의 한 가지 명목변수
- 예) 서울과 부산지역 고객들의 선호 품목이 유사한지 검정
- 예) class별 생존도가 유사한지 검정
- scipy.stats.chi2_contingency(observed=관찰빈도, correction=True, lambda=None)
- 귀무가설 : TV 프로그램 선호도가 성별과 상관없이 동일하다. 남학생과 여학생의 TV 프로그램 선호도는 동일하다.
- 연구가설 : 남학생과 여학생의 TV 프로그램 선호도는 동일하지 않다.

> 카이제곱 통계량
- 독립성 검정과 기술적으로 완전히 동일함
- 독립성 검정은 하나의 표본에서 두 범주형 변수 A와 B의 독립성을 검정하는 것
- 동질성 검정은 서로 다른 독립적인 표본에서 공통된 하나의 범주형 변수의 비율이 동질적인지 검정
- 동질성 검정 역시 다수의 표본을 구분하는 기준이 일종의 범주형 변수라고 볼 수 있기 떄문에 결국 2개의 범주형 변수에 대한 독립성 검정과 동일

- 자유도 : (행의 수 -1)*(열의 수 -1) #빈도교차표 기준

```
# 교차분석을 하기 위해서는 명목형 변수에 대한 도수분포표를 생성하여 범주별 관찰빈도를 확인하고 적합도 검정을 실행한다.

##step1. 빈도교차표 또는 피벗테이블 생성
X = pd.crosstab(df.성별, df.클레임접수여부, margins=False)
#전체 데이터 중 성별, 클레임접수여부라는 범주형 변수간의 빈도를 파악하기 위해 crosstab()함수를 사용해 빈도교차표를 생성한다.
#margin=False로 해야 합계가 나오지 않는다.


##step2. 독립성 검정
stats.contingency(X)
```

In [None]:
# pd.crosstab를 이용해 전체 데이터프레임을 요약한 결과처럼, 유사하게 데이터프레임 생성
data_3 = pd.DataFrame({"뽀로로": [50,50], "짱구는 못말려" : [30,80], "로봇카 폴리": [20,70]})
data_3

Unnamed: 0,뽀로로,짱구는 못말려,로봇카 폴리
0,50,30,20
1,50,80,70


In [None]:
stats.chi2_contingency(data_3)
#동질성 검정 결과 카이제곱 통계량은 19.3, p값은 0.001로 도출되었다.
#자유도는 2이고, expected_freq는 기대빈도이다.
#남학생과 여학생의 TV 프로그램 선호도는 동질적이지 않는다는 결론을 낼 수 있다.
#남학생의 경우 뽀로로를 선호하는 비중이 크며, 여학생의 경우 짱구는 못말려와 로봇카 폴리가  인기가 많다는 것을 알 수 있다.

Chi2ContingencyResult(statistic=19.318181818181817, pvalue=6.384253422581756e-05, dof=2, expected_freq=array([[33.33333333, 36.66666667, 30.        ],
       [66.66666667, 73.33333333, 60.        ]]))

## IF 각 관측치간에 독립성이 만족하지 않는다면?

> 맥네마 검정(McNemar's test)
- 가정 : 범주 2개씩 가진 변수를 2개를 가짐(2x2 테이블)
- 설명 : 짝지어진(paired) 범주형 자료에 대한 대응 분석. 여기서 대응 분석이란 일반적으로 시험 전 후로 2번 수행하여 처리에 대한 효과가 있는지 확인하는 검정
- 목적 : paired 데이터에서 column과 row의 주변확률 marginal probability이 같은지 검정하는 방법
- 그외 : 범주가 3개 이상으로 확장된 경우에는 Stuart-Maxwell 검정, McNemar-Bhapkar 검정이 있다. 검정력 측면에서는 Bhapkar 검정이 우수하나, Stuart-Maxwell은 제 1종 오류를 더 잘 통제한다는 장점이 있다.

| |MRI_양성|MRI_음성|total|
|---|---|---|---|
|CT_양성|a|b|a+b|
|CT_음성|c|d|c+d|
|total|a+c|b+d|N|

| |after_양성|after_음성|total|
|---|---|---|---|
|before_양성|a|b|a+b|
|before_음성|c|d|c+d|
|total|a+c|b+d|N|

|before|after|
|--|--|
|양성|음성|
|음성|음성|
|..|..|

- 귀무가설 : pb = pc
  #before:양성 비율과 after:양성 의 비율이 같은가,before:음성비율과 after:음성 비율이 같은가?
- 연구가설 : pb != pc,#약 처방한 이후 상태가 유의하게 변했는가?
- 검정통계량 x_2 = (b-c)_2/(b+c). 자유도 =1

In [None]:
#if b가 6이고, c가 16인 경우
(6-16)**2/(6+16)

4.545454545454546

In [None]:
#검정통계량의 기각 유무 판별은, 카이제곱 분포 테이블에서 자유도 1 유의수준 0.05로 찾는다.
#X_2(0.05, 1) = N
# 검정통계량이 4.54로 보다 크기 때문에 귀무가설을 기각할 수 있습니다.
#카이제곱 분포에서 4.55이상의 값을 관측할 확률 0.033로 계산.
#그다음 어떻게 하냐.