<a href="https://colab.research.google.com/github/Mino94/Mino94.github.io/blob/master/T_test_%26_Chi_squared_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **T-test & Chi-squared test**

In [13]:
import pandas as pd
import numpy as np
import seaborn as sns
from scipy import stats

# 데이터셋 불러오기
df = sns.load_dataset("penguins")
df = df.dropna()

# 데이터 프레임 column명 수정
df = df.rename(columns={"species":"species", "island":"island", "bill_length_mm":"bill_length", "bill_depth_mm":"bill_depth",
                        "flipper_length_mm":"flipper_length", "body_mass_g":"body_mass", "sex":"sex"})


In [14]:
df.head()

Unnamed: 0,species,island,bill_length,bill_depth,flipper_length,body_mass,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male


# T-test
## **표본집단의 평균**을 비교하고 싶을 때 선택하는 방법이다.
값이 완벽하게 같은지를 보는 게 아니라 '통계적으로 유의미한 차이가 있는지 추정한다'

### 1) one sample T-test

- 귀무가설: Adelie 펭귄의 평균 몸무게는 8kg일 것이다.
- 대립가설: Adelie 펭귄의 평균 몸무게는 8kg이 아닐 것이다.
- 신뢰도 : 95%

In [15]:
adelie = df[df["species"]=='Adelie']["body_mass"]
stats.ttest_1samp(adelie, 8000)

Ttest_1sampResult(statistic=-113.12763925848728, pvalue=2.511309970725206e-143)

**p-value 가 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다. 따라서 Adelie 펭귄의 평균 몸무게는 8kg가 아니다.**

- 귀무가설: Adelie 펭귄의 평균 몸무게는 3.72kg일 것이다.
- 대립가설: Adelie 펭귄의 평균 몸무게는 3.72kg이 아닐 것이다.
- 신뢰도: 85%

In [16]:
adelie = df[df["species"] == "Adelie"]["body_mass"]
stats.ttest_1samp(adelie, 3720)

Ttest_1sampResult(statistic=-0.36452038810359905, pvalue=0.7160005111390735)

**p-value가 0.05보다 크기 때문에 귀무가설을 기각할 수 없다. 따라서 Adelie펭귄의 평균 몸무게는 3.72kg일 것이다.**

---
### 2) two sample T-test
표본집단 A와 표본집단 B의 평균을 비교할 때 사용한다.
- 귀무가설: Adelie 펭귄의 평균 부리 깊이와 Gentoo 펭귄의 평균 부리 깊이는 같다.
- 대립가설: Adelie 펭귄의 평균 부리 깊이와 Gentoo 펭귄의 평균 부리 깊이는 같지 않다.
- 신뢰도 : 95%

In [17]:
adelie = df[df["species"] == "Adelie"]["bill_depth"]
gentoo = df[df["species"] == "Gentoo"]["bill_depth"]
stats.ttest_ind(adelie, gentoo)

Ttest_indResult(statistic=24.208855744860315, pvalue=6.91055572279657e-69)

**p-value가 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다. 따라서 Adelie 펭귄의 평균 부리 깊이와 Gentoo 펭귄의 평균 부리 깊이는 같지 않다.**


*   귀무가설: Adelie 펭귄의 평균 부리 깊이와 Chinstrap 펭귄의 평균 부리 깊이는 같다.


*   대립가설: Adelie 펭귄의 평균 부리 깊이와 Chinstrap 펭귄의 평균 부리 깊이는 같지 않다.


* 신뢰도: 95%

In [18]:
adelie = df[df["species"] == "Adelie"]["bill_depth"]
chinstrap = df[df["species"] == "Chinstrap"]["bill_depth"]
stats.ttest_ind(adelie, chinstrap)

Ttest_indResult(statistic=-0.41849509118137584, pvalue=0.6760088132938111)

**two sample T-test 시행 결과, p-value가 0.05보다 크기 때문에 귀무가설을 기각할 수 없다. 따라서 Adelie 펭귄의 평균 부리 깊이와 Chinstrap 펭귄의 평균 부리 깊이는 같다.**



# Chi-squared test (카이제곱 검정)
## **표본집단의 분포**를 비교하고 싶을 때 선택하는 방법이다.
값이 완벽하게 같은지를 보는 게 아니라 '통계적으로 유의미한 차이가 있는지 추정한다'

### 1) One sample Chi-squared test
우리는 흔히 암컷과 수컷의 개체 수가 동일하리라 생각한다.
표본집단에 총 100마리가 있다면, 성별 분포의 기댓값은 암컷과 수컷이 각각 50마리씩 있는 것이다.

*   귀무 가설: 펭귄의 성비는 1:1일 것이다.
*   대립 가설: 펭귄의 성비는 1:1이 아닐것이다.
* 신뢰도: 95%



In [19]:
male = df["sex"].value_counts()["Male"]
female = df["sex"].value_counts()["Female"]
exp = len(df)/2
stats.chisquare(f_obs=[male, female], f_exp=[exp, exp])

Power_divergenceResult(statistic=0.02702702702702703, pvalue=0.8694170607412391)

p-value가 0.05보다 크기 때문에 귀무가설을 기각할 수 없다. 따라서, 펭귄의 성비는 1:1이다. 

> one sample Chi-squared test의 귀무가설은 "표본집단의 분포가 기대와 동일하다."이다. 이에 대한 대립가설은 "표본집단의 분포가 기대와 동일하지 않다."이다.



### 2) Two sample Chi-squared test
 두 표본집단의 분포가 동일한지 확인할 때 사용한다. 즉, 두 표본집단이 연관이 있는지, 없는지를 확인할 수 있다. categorical data에만 사용할 수 있다는 점

*   귀무 가설: 펭귄의 몸무게와 플리퍼 길이는 연관이 있다.
*   대립 가설: 펭귄의 몸무게와 플리퍼 길이는 연관이 없다.
* 신뢰도: 95%



In [20]:
mass_cut = pd.cut(df["body_mass"], 3).astype("category")
flipper_cut = pd.cut(df["flipper_length"], 3).astype("category")
data = pd.crosstab(mass_cut, flipper_cut)
data.columns = ["Short", "Middle", "Long"]
data.index = ["Light", "Middle", "Heavy"]

In [21]:
chi, pvalue, _, _ = stats.chi2_contingency(data, correction=False)
chi, pvalue

(244.23390701043138, 1.1365768507791132e-51)

**p-value가 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다. 따라서 펭귄의 몸무게와 플리퍼 길이는 연관이 있다.**