# Python 기초 통계 - Day2 - 가설검정(hypothesis test)

**💡[ 학습 목표 타임테이블 ]**
> 1. 가설검정 개념 (9:00 - 9:50)

> 2. 핵심용어 개념 (10:00 - 10:50) 

> 3. one sample, two sample t-test (11:00 - 11:50)

> 4. chi-square test (13:00 - 13:50)

> 5. 실습 과제 수행, Q&A, 과제 제출 (14:00 - 18:00) 

---
*Copyright(c) 2024 All rights reserved by Hyeonjae Kim*


## 1. 가설검정(hypothesis test) 의 개념과 가설검정 방법의 선택
- 통계적 가설 검정 : 
    - 통계적 추론 방법의 하나로서 표본의 특정 통계치(ex.평균)가 모집단의 통계치를 대표할 경우, 혹은 두 표본 집단이 통계적으로 차이가 있는지 등을 검증하는 방법론을 의미함. 

- 데이터 형태에 따른 가설검정 방법 도식: 
    ![Statistical-Test-Flow-Chart](statisticaltestflowchart.png)
    ※출처: 에드엑스(edx.org)
    
    ![Statistical-Test-Flow-Chart2](Stats-Flow-Chart.png)
    ※출처: Oxford Brookes University

- 1) 연속형 데이터
    - (1-1) 변수들간의 관계 확인 : 
        - 회귀분석(regression analysis)
        - 상관분석(correlation analysis)
    - (1-2) 변수들간의 차이 확인 : 
        - 등분산성(EqualVariances)검정(F-max test, Brown & Smyth test, Barlett test)
        - 평균 검정(비대응 t-검정(Student's unpaired or two-sample t-test)
        - 대응 t-검정(paired or one-sample t-test)) 

- 2) 불연속성의 범주형 데이터
    - 두 변수들의 차이(독립성) 확인 : 
        - 카이제곱검정(chi-square test)
     
- **🎯본 강의에서 다룰 내용**: 
    - (1) 연속형 데이터들 간의 차이를 확인: 
        - (1-2) one-sample t-test (🎯2일차)
        - (1-3) two-sample t-test (🎯2일차)
    - (2) 불연속형 데이터들 간의 관계를 확인: 
        - (2-1) 독립성 검정(chi-square t-test) (🎯2일차)
    - (3) 연속형 데이터들 간의 관계를 확인: 
        - (3-1) 상관분석 (🎯3일차)
        - (3-2) 회귀분석 (🎯3일차)
    

- 핵심 용어 개념정리:
    1. 가설검정(hypothesis test): 주어진 상황에 대한 어떤 가설을 통계적으로 검정하는 방법. 

    2. 귀무가설(null-hypothesis): 통계학에서 처음부터 버릴 것을 예상하는 가설

    3. 대립가설(Alternative Hypothesis): 귀무가설과 반대되는 가설
    
    4. 유의수준(significance level): 통계적 가설검정에서 사용되는 기준값으로, 일반적으로 95% 신뢰도 기준을 사용할 때 유의수준 값은 0.05. 
    
    5. 유의확률(significance probability or p-value): 귀무가설이 맞다고 가정할 때 표본으로부터 관측된 데이터가 관측될 확률을 의미하고, 일반적으로 0.05 미만이면 귀무가설을 기각하고 대립가설을 채택함. 
    
    6. 모수적(parametric) : 
        - 중심극한정리에 의해 표본 통계량을 활용해 모집단을 추정하는 통계적 방법론을 의미. (정규성, 등분산성, 선형성 충족하는 데이터에 해당). Student's unpaired t-test, paired t-test 
        - 정규성(normality): 데이터가 정규분포를 따르는지 여부를 확인하는 통계적 검정 방법.
        - 등분산성(equal-variance or Homogeneity of variance): 2개의 모집단(population)에서 추출된 각 sample간의 분산이 같음. 
        - 독립성(independent): 두 변수 간의 관계가 독립적인지. 
        - 선형성(linearity): 독립변수와 종속변수 간의 선형적 관계가 충족되는지. 단순히 직선이 되는지 여부가 아님. 다중선형회귀의 경우 곡선형이지만, 독립변수들을 개별적으로 볼 때 각각의 독립변수가 종속변수와 선형적 관계에 있기 때문에 선형적이라고 볼 수 있음. 즉, 독립변수와 종속변수 간 상수적인 패턴(기울기)이 있다면 선형적인 관계로 볼 수 있음. 
    
    7. 비모수적(non-parametric): 정규성, 등분산성, 선형성을 충족하지 않는 데이터의 경우, 비모수적 통계 방법론을 사용. 

    8. 이분산성(Heteroscedasticity of variance): 2개의 모집단(population)에서 추출된 각 sample간의 분산이 다름. 

    9. 비선형(non-linearity): 
        - 독립변수와 종속변수간에 비선형적 관계(non-constant)가 있다는 의미. (ex) 다항회귀(polynomial regression), 파워로모델(power law model), 지수 로그 모델(Exponential and Logarithmic Models), 뉴럴네트워크(NeuralNetworks), 서포트벡터머신(Support Vector Machines), etc.

## 2. 연속형 데이터들 간의 차이를 확인: 
- (1) one_sample t-test
- (2) two_sample t-test


(1) one_sample t-test

In [2]:
import pandas as pd
import zipfile
from io import BytesIO
import requests

# Load the Student Performance Data from UCI ML Repository
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00320/student.zip"
file_to_read = "student-mat.csv"

# Download the ZIP file
response = requests.get(url)
zip_file = zipfile.ZipFile(BytesIO(response.content))

# Read the CSV file from the ZIP archive
with zip_file.open(file_to_read) as file:
    student_data = pd.read_csv(file, sep=';')

# Display the first few rows of the dataset
display(student_data.head())
# print(student_data.dtypes)
student_data.columns



Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10


Index(['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
       'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
       'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
       'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc',
       'Walc', 'health', 'absences', 'G1', 'G2', 'G3'],
      dtype='object')

In [20]:
student_data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,395.0,16.696203,1.276043,15.0,16.0,17.0,18.0,22.0
Medu,395.0,2.749367,1.094735,0.0,2.0,3.0,4.0,4.0
Fedu,395.0,2.521519,1.088201,0.0,2.0,2.0,3.0,4.0
traveltime,395.0,1.448101,0.697505,1.0,1.0,1.0,2.0,4.0
studytime,395.0,2.035443,0.83924,1.0,1.0,2.0,2.0,4.0
failures,395.0,0.334177,0.743651,0.0,0.0,0.0,0.0,3.0
famrel,395.0,3.944304,0.896659,1.0,4.0,4.0,5.0,5.0
freetime,395.0,3.235443,0.998862,1.0,3.0,3.0,4.0,5.0
goout,395.0,3.108861,1.113278,1.0,2.0,3.0,4.0,5.0
Dalc,395.0,1.481013,0.890741,1.0,1.0,1.0,2.0,5.0


> one-sample t-test 귀무가설 예시

- 귀무가설: G3(final grade)의 평균과 가설의 평균이 통계적으로 유의미한 수준에서 "같다"고 볼 수 있다. 

- 대립가설: G3(final grade)의 평균과 가설의 평균이 통계적으로 유의미한 수준에서 "다르다"고 볼 수 있다.  


In [7]:
from scipy.stats import ttest_1samp
import scipy.stats as stats 
# 귀무가설: G3(final grade)의 평균과 가설의 평균이 통계적으로 유의미한 수준에서 "같다"고 볼 수 있다. 
# 대립가설: G3(final grade)의 평균과 가설의 평균이 통계적으로 유의미한 수준에서 "다르다"고 볼 수 있다.  

hypothesized_mean = 10

# Perform one-sample t-test
t_statistic, p_value = ttest_1samp(student_data['G3'], hypothesized_mean) # G3 : final grade 

# Print the results
print("T-statistic:", t_statistic)
print("P-value:", f"{p_value:.15f}")

# Set the significance level (alpha)
alpha = 0.05

# Degrees of freedom (df) for a one-sample t-test is (n - 1), where n is the sample size
df = len(student_data['G3']) - 1

# Find the critical value for a two-tailed test
critical_value = stats.t.ppf(1 - alpha/2, df)
print("Critical Value:", critical_value)

# Interpret the results
if p_value < alpha:
    print("귀무가설 기각. 통계적으로 유의미한 수준에서 차이가 있음.")
else:
    print("귀무가설 기각할 수 없음. 통계적으로 유의미한 수준에서 차이가 없음.")


T-statistic: 1.8011216618076253
P-value: 0.072448198132795
Critical Value: 1.96600320134879
귀무가설 기각할 수 없음. 통계적으로 유의미한 수준에서 차이가 없음.


In [22]:
from scipy.stats import ttest_1samp
import scipy.stats as stats 
# 귀무가설: G3(final grade)의 평균과 가설의 평균이 통계적으로 유의미한 수준에서 "같다"고 볼 수 있다. 
# 대립가설: G3(final grade)의 평균과 가설의 평균이 통계적으로 유의미한 수준에서 "다르다"고 볼 수 있다.  

hypothesized_mean = 20

# Perform one-sample t-test
t_statistic, p_value = ttest_1samp(student_data['G3'], hypothesized_mean) # G3 : final grade 

# Print the results
print("T-statistic:", t_statistic)
print("P-value:", f"{p_value:.15f}")

# Degrees of freedom (df) for a one-sample t-test is (n - 1), where n is the sample size
df = len(student_data['G3']) - 1

# Find the critical value for a two-tailed test
critical_value = stats.t.ppf(1 - alpha/2, df)
print("Critical Value:", critical_value)


# Interpret the results
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각. 통계적으로 유의미한 수준에서 차이가 있음.")
else:
    print("귀무가설 기각할 수 없음. 통계적으로 유의미한 수준에서 차이가 없음.")


T-statistic: -41.57955250977843
P-value: 0.000000000000000
Critical Value: 1.96600320134879
귀무가설 기각. 통계적으로 유의미한 수준에서 차이가 있음.


> ※ t-통계량(t-statistics) : 두 평균 간의 차이가 0에서 얼만큼 떨어져 있는가를 측정. 

- 만약 t-통계량의 절대값이 critical value보다 크고, p-value가 유의수준보다 작으면, 귀무가설을 기각할 충분한 근거가 있다고 판단함. 

- 임계값(critical value): 귀무가설의 채택과 기각에 대한 의사결정 기준값. t-통계치가 임계값을 넘어가는 경우 충분한 근거를 제시한다고 해석.  

- p-value 의 한계점: 일반적으로 표본 데이터의 크기가 클수록 p-값이 작아지기 때문에 통계적 유의성 검정에는 유리할 수 있지만, 해당 데이터가 얼마나 효과적인지에 대한 지표인 효과 크기(effect size)에 대한 정보를 알려주진 않음. 

- 효과크기(effect size): 관찰된 데이터의 효과를 측정하는 방법. 일반적으로 Cohen's d 방법론 사용. 일반적으로 two-sample t-test에서 사용. (효과크기 = 두 표본 집단의 평균 차이 / 추정된 표준편차)

    - Cohen's d : $d = \frac{\text{Mean Difference}}{\text{Pooled Standard Deviation}}$
    
    - Cohen's d = $\frac{{\text{{Mean Difference}}}}{{\sqrt{\frac{{(n_1 - 1) \cdot s_1^2 + (n_2 - 1) \cdot s_2^2}}{{n_1 + n_2 - 2}}}}}$

- 자유도(degree of freedom): 모집단의 특성을 나타내는 독립적인 정보의 수, 독립적으로 달라질 수 있는 매개 변수의 개수를 의미. 보통 관찰된 정보의 수에서 추정된 매개변수의 수를 뺀 것과 같음. 
    - 평면의 한 점은 평행이동에 대해 2의 자유도(두 개의 좌표)를 가짐. 
    - 통계학에서 자유도는 표본 자료 중 모집단에 대한 정보를 주는 독립적 자료의 수를 의미함. 크기가 n인 표본의 관측값(x1,x2,..xn)의 자유도는 n-1. 
        - one-sample t-test에서는 주로 표본의 크기에서 1을 뺀 값이 자유도가 됨.
        - two-sample t-test에서는 두 표본의 크기를 이용하여 자유도를 계산함. 
    - 참고: 
    [자유도-wiki](https://ko.wikipedia.org/wiki/%EC%9E%90%EC%9C%A0%EB%8F%84_(%ED%86%B5%EA%B3%84%ED%95%99))

(2) two_sample t-test

> two-sample t-test 귀무가설 예시

- 귀무가설: 여성 그룹의 G3(final grade) 평균과 남성 그룹의 G3(final grade) 평균이 통계적으로 유의미한 수준에서 "같다"고 볼 수 있다. 

- 대립가설: 두 그룹의 평균이 통계적으로 유의미한 수준에서 "다르다"고 볼 수 있다. 

In [16]:
from scipy.stats import ttest_ind

# Create two groups based on gender (male and female)
male_grades = student_data[student_data['sex'] == 'M']['G3']
female_grades = student_data[student_data['sex'] == 'F']['G3']

# Perform two-sample t-test
t_statistic, p_value = ttest_ind(male_grades, female_grades, equal_var=False)  # Assuming unequal variances

# Print the results
print("T-statistic:", t_statistic)
print("P-value:", p_value)

# Degrees of freedom (df) for a two-sample t-test is (n1 + n2 - 2), where n1 and n2 are the sample sizes of the two groups
df = len(male_grades) + len(female_grades) - 2

# Find the critical value for a two-tailed test
critical_value = stats.t.ppf(1 - alpha/2, df)
print("Critical Value:", critical_value)

# Interpret the results
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각. \n두 그룹의 평균이 통계적으로 유의미한 차이가 있다.")
else:
    print("귀무가설 기각 할 수 없음. \n두 그룹의 평균이 통계적으로 유의미한 차이가 없음. ")

# Effect Size (cohen's d)
import numpy as np
def cohens_d(group1, group2):
    mean_difference = np.mean(group1) - np.mean(group2)
    pooled_std = np.sqrt((np.var(group1) + np.var(group2)) / 2)
    return mean_difference / pooled_std

cohen_d = cohens_d(male_grades, female_grades)
print("=================\n")
print("male_grades_mean: ", male_grades.mean())
print("female_grades_mean: ", female_grades.mean())
if cohen_d <= 0.2: 
    print("Cohen's d:", cohen_d)
    print("Cohen's d 효과 크기가 작으므로 두 그룹의 차이가 크지 않다고 볼 수 있음.")
    
elif cohen_d < 0.8:
    print("Cohen's d:", cohen_d)
    print("Cohen's d 효과 크기가 중간 정도로 두 그룹의 차이가 적지 않다고 볼 수 있음.")
    
elif cohen_d >= 0.8:
    print("Cohen's d:", cohen_d)
    print("Cohen's d 효과 크기가 크므로 두 그룹의 차이가 크다고 볼 수 있음.")
    



T-statistic: 2.0650572003629564
P-value: 0.03957700303089975
Critical Value: 1.9660186149089718
귀무가설 기각. 
두 그룹의 평균이 통계적으로 유의미한 차이가 있다.

male_grades_mean:  10.914438502673796
female_grades_mean:  9.966346153846153
Cohen's d: 0.20847790599965854
Cohen's d 효과 크기가 중간 정도로 두 그룹의 차이가 적지 않다고 볼 수 있음.


## 3. 불연속형 데이터들 간의 관계를 확인

(1) 카이제곱 검정(chi-square test)

> 카이제곱 검정(chi-square test) 귀무가설 예시

- 귀무가설: 두 변수간의 연관성이 없다. 

- 대립가설: 두 변수간의 연관성이 있다. 

In [18]:
student_data.columns

Index(['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
       'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
       'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
       'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc',
       'Walc', 'health', 'absences', 'G1', 'G2', 'G3'],
      dtype='object')

In [21]:
import pandas as pd
from scipy.stats import chi2_contingency

observed_data = pd.crosstab(student_data['sex'], student_data['absences'])

chi2, p_value, _, _ = chi2_contingency(observed_data)

# Print the results
print("Chi-square statistic:", chi2)
print("P-value:", p_value)

# Interpret the results
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각. \n통계적으로 유의미한 연관성이 있다.")
else:
    print("귀무가설 기각할 수 없음. \n통계적으로 유의미한 연관성이 없다.")


Chi-square statistic: 30.631541885461054
P-value: 0.5855619885852188
귀무가설 기각할 수 없음. 
통계적으로 유의미한 연관성이 없다.


## 학습 점검 체크리스트
1. 가설 검정 개념을 설명할 수 있는가? 
2. 언제 t-test를 사용해야 하는지 설명할 수 있고, 사용할 수 있는가? 
3. 언제 chi-square-test를 사용해야 하는지 설명할 수 있고, 사용할 수 있는가? 

---
*Copyright(c) 2024 All rights reserved by Hyeonjae Kim*
