### 가설검정(hypothesis)의 개념과 가설검정 방법의 선택
- 통계적 가설 검정: 통계적 추론 방법의 하나로서 표본의 특정 통계치(평균 등)가 모집단의 통계치를 대표할 경우, 혹은 두 표본 집단이 통계적으로 차이가 있는지 등을 검증하는 방법론이다.
- 데이터 형태에 따른 가설검정 방법 도식 : Statistical-Test-Flow-Chart
- 1. 연속형 데이터(continuous data)
- + (1-1) 변수들간의 관계 확인:
- + - 회귀분석(regression analysis)
- + - 상관분석(correlation analysis)
- + (1-2) 변수들간의 차이 확인:
- + - 등분산성(EqualVriances)검정(F-max test, Brown&Smyth test, Barlett test)
- + - 평균검정(비대응 t-test)
- + - 대응 t-test
- 2. 범주형 데이터(discrete categorical data)
- + 두 변수들의 차이 확인:
- + - 카이제곱겁정(chi-square test)

오늘 배울 내용은   
1. one-sample t-test
2. two-sample t-test
3. chi-square t-test
4. 상관분석(수치적으로 관련이 있는지 분석하는 것, 아이스크림이 잘팔린다고 해서 에어컨이 잘팔리는것은 상관관계가 높은것이다.)
5. 회귀분석(인과적으로 관련이 있는지 분석하는 것, 위의 예시는 상관성은 높지만 인과관계가 아니다.)    

이다.

핵심 용어 개념정리:    

1. 가설검정(hypothesis test): 주어진 상황에 대한 어떤 가설을 통계적으로 검정하는 방법이다.
2. 귀무가설(Null-hypothesis): 통계학에서 처음부터 버릴 것을 예상하는 가설(틀렸다고 가정하는 것)
3. 대립가설(Alternative Hypothesis): 귀무가설과 반대되는 가설(맞을거라고 예측하는 것)
4. 유의수준(Significance Level): 통계적 가설 검정에서 사용되는 기준값으로, 일반적으로 95% 신뢰도 기준을 사용할 때 유의수준은 0.05이다.
5. 유의확률(Significance Probability or P-value): 귀무가설을 지지하는 정도, 일반적으로 0.05미만이면 귀무가설을 기각하고 대립가설을 채택한다. (낮은 p-value가 나오길 원해야한다. 0.05면 귀무가설을 기각했을 때, 이 기각 결정이 잘못될 확률이 5%라는 것.)
6. 신뢰구간(Confidence Interval): 
- 모평균이 어느 범위 안에 있는지 확률적으로 보여준다.
- 95% 신뢰구간 : 모평균이 표본 평균 -2SEM 과 표본 평균 +2SEM(표준오차) 구간 안에 있다는 의미.
- 오차범위: 95% 신뢰수준에서 오차범위는 1.96*SEM를 의미한다. 1.96을 2로 근사하는 경우도 있다.
- 유의확률과 신뢰구간의 차이 :
- + 유의확률은 표본 데이터에서 귀무가설이 참이라는 가정하게 나온 통계랑이 얼마나 극단적인지(우연적인지)를 나타내는 확률로 **가설 검정**에 사용된다.
- + 신뢰구간은 표본 데이터의 통계량을 설명할 때, 모평균이 어느 범위 안에 있을지 확률적으로 나타냄.
7. 중심극한정리(CLT:Central Limit Theorem):
- 중심극한정리는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다.
8. 모수적(parametric):
- 중심극한정리에 의해 표본 통계량을 활용해 모집단을 추정한다. 정규성 등분산성 독립성 선형성 등을 충족하는 데이터를 다룰때 해당한다.
- 정규성: 데이터가 정규분포를 따르는지 여부를 확인한다.
- 등분산성: 2개의 모집단에서 추출된 각 샘플간의 분산이 같다.
- 독립성: 두 변수 간의 관계가 독립적인지
- 선형성: 독립변수와 종속변수간의 선형적 관계가 충족되는지
9. 비모수적(non-parametric): 정규성, 등분산성, 선형성을 충족하지 않는 데이터의 경우, 비모수적 통계방법론을 사용한다.
10. 이분산성: 2개의 모집단에서 추출된 각 샘플간의 분산이 다르다.
11. 비선형(non-linearity): 독립변수와 종속변수간에 비선형적 관계(non-constant)가 있다는 의미.
- 다항회귀, 지수로그 모델, 뉴럴네트워크 ...

In [1]:
import pandas as pd
import zipfile
from io import BytesIO
import requests

#load data
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00320/student.zip"
file_to_read = "student-mat.csv"

response = requests.get(url)
zip_f = zipfile.ZipFile(BytesIO(response.content))

with zip_f.open(file_to_read) as file:
    student_data = pd.read_csv(file,sep=';')

print(student_data.head())
print(student_data.columns)

  school sex  age address famsize Pstatus  Medu  Fedu     Mjob      Fjob  ...  \
0     GP   F   18       U     GT3       A     4     4  at_home   teacher  ...   
1     GP   F   17       U     GT3       T     1     1  at_home     other  ...   
2     GP   F   15       U     LE3       T     1     1  at_home     other  ...   
3     GP   F   15       U     GT3       T     4     2   health  services  ...   
4     GP   F   16       U     GT3       T     3     3    other     other  ...   

  famrel freetime  goout  Dalc  Walc health absences  G1  G2  G3  
0      4        3      4     1     1      3        6   5   6   6  
1      5        3      3     1     1      3        4   5   5   6  
2      4        3      2     2     3      3       10   7   8  10  
3      3        2      2     1     1      5        2  15  14  15  
4      4        3      2     1     2      5        4   6  10  10  

[5 rows x 33 columns]
Index(['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
       '

In [2]:
print(student_data.describe().T)

            count       mean       std   min   25%   50%   75%   max
age         395.0  16.696203  1.276043  15.0  16.0  17.0  18.0  22.0
Medu        395.0   2.749367  1.094735   0.0   2.0   3.0   4.0   4.0
Fedu        395.0   2.521519  1.088201   0.0   2.0   2.0   3.0   4.0
traveltime  395.0   1.448101  0.697505   1.0   1.0   1.0   2.0   4.0
studytime   395.0   2.035443  0.839240   1.0   1.0   2.0   2.0   4.0
failures    395.0   0.334177  0.743651   0.0   0.0   0.0   0.0   3.0
famrel      395.0   3.944304  0.896659   1.0   4.0   4.0   5.0   5.0
freetime    395.0   3.235443  0.998862   1.0   3.0   3.0   4.0   5.0
goout       395.0   3.108861  1.113278   1.0   2.0   3.0   4.0   5.0
Dalc        395.0   1.481013  0.890741   1.0   1.0   1.0   2.0   5.0
Walc        395.0   2.291139  1.287897   1.0   1.0   2.0   3.0   5.0
health      395.0   3.554430  1.390303   1.0   3.0   4.0   5.0   5.0
absences    395.0   5.708861  8.003096   0.0   0.0   4.0   8.0  75.0
G1          395.0  10.908861  3.31

In [3]:
#one-sample t-test 귀무가설 예시
#귀무가설 : G3(final grade)의 평균과 가설의 평균이 통계적으로 유의미한 수준에서 '같다'고 볼 수 있다.
#대립가설 : G3(final grade)의 평균과 가설의 평균이 통계적으로 유의미한 수준에서 '다르다'고 볼 수 있다.
from scipy.stats import ttest_1samp
import scipy.stats as stats

hypothesized_mean = 10 #G3의 평균값
#1sample ttest
t_statistic,p_value = ttest_1samp(student_data['G3'],hypothesized_mean)
print(t_statistic)
print(p_value) #샘플의 p_value

alpha = 0.05 #설정 된 p-value

df = len(student_data['G3']-1)

critical_value = stats.t.ppf(1-alpha/2,df)
print('Critical value',critical_value) #critical value가 계산된 p_value의 절대값보다 작다면 귀무가설 기각 가능
#하지만 지금은 크기때문에 기각 불가 

if p_value < alpha:
    print("귀무가설 기각. 통계적으로 유의미한 수준에서 차이가 있음.")
else:
    print("귀무가설 기각할 수 없음. 통계적으로 유의미한 수준에서 차이가 없음.")

1.8011216618076253
0.07244819813279511
Critical value 1.9659878660672252
귀무가설 기각할 수 없음. 통계적으로 유의미한 수준에서 차이가 없음.


In [4]:
hypothesized_mean = 20 #G3의 평균값(수정된)
#1sample ttest
t_statistic,p_value = ttest_1samp(student_data['G3'],hypothesized_mean)
print(t_statistic)
print(p_value)

alpha = 0.05 #p-value

df = len(student_data['G3']-1)

critical_value = stats.t.ppf(1-alpha/2,df)
print('Critical value',critical_value)

if p_value < alpha:
    print("귀무가설 기각. 통계적으로 유의미한 수준에서 차이가 있음.")
else:
    print("귀무가설 기각할 수 없음. 통계적으로 유의미한 수준에서 차이가 없음.")

-41.57955250977843
3.6101839736648555e-146
Critical value 1.9659878660672252
귀무가설 기각. 통계적으로 유의미한 수준에서 차이가 있음.


p-value의 한계점 : 표본 데이터의 크기가 클 수록 p-value가 작아지기 때문에 데이터가 얼마나 효과적인지에 대한 지표인 효과 크기에 대한 정보를 알려주지 못함     
stats.t.ppf 코드는 검증할 구간을 설정해주는 것이고 1-유의구간/2 는 0.975 사이에서 검증한다는 것이다. 또한 다음 인자로 자유도가 들어가는데 one sample t-test에서는 보통 샘플 수 -1개를 쓴다.     
two-sample t-test에서는 두 표본의 크기를 이용해서 자유도를 계산한다.

In [5]:
print(student_data.describe().T)

            count       mean       std   min   25%   50%   75%   max
age         395.0  16.696203  1.276043  15.0  16.0  17.0  18.0  22.0
Medu        395.0   2.749367  1.094735   0.0   2.0   3.0   4.0   4.0
Fedu        395.0   2.521519  1.088201   0.0   2.0   2.0   3.0   4.0
traveltime  395.0   1.448101  0.697505   1.0   1.0   1.0   2.0   4.0
studytime   395.0   2.035443  0.839240   1.0   1.0   2.0   2.0   4.0
failures    395.0   0.334177  0.743651   0.0   0.0   0.0   0.0   3.0
famrel      395.0   3.944304  0.896659   1.0   4.0   4.0   5.0   5.0
freetime    395.0   3.235443  0.998862   1.0   3.0   3.0   4.0   5.0
goout       395.0   3.108861  1.113278   1.0   2.0   3.0   4.0   5.0
Dalc        395.0   1.481013  0.890741   1.0   1.0   1.0   2.0   5.0
Walc        395.0   2.291139  1.287897   1.0   1.0   2.0   3.0   5.0
health      395.0   3.554430  1.390303   1.0   3.0   4.0   5.0   5.0
absences    395.0   5.708861  8.003096   0.0   0.0   4.0   8.0  75.0
G1          395.0  10.908861  3.31

In [6]:
#가설로 세운 나이의 평균이 같다
#다르다
test_age = 16.5
t_statistic,p_value = ttest_1samp(student_data['age'],test_age)
print('t_statistic',t_statistic)
print('계산된 p-value',p_value)

df = len(student_data['age']-1)

critical_value = stats.t.ppf(1-alpha/2,df)
print('critical value',critical_value)
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각. 통계적으로 유의미한 수준에서 차이가 있음.")
else:
    print("귀무가설 기각할 수 없음. 통계적으로 유의미한 수준에서 차이가 없음.")

t_statistic 3.0558915597920038
계산된 p-value 0.002396681081910589
critical value 1.9659878660672252
귀무가설 기각. 통계적으로 유의미한 수준에서 차이가 있음.


위의 코드는 one-sample 즉 하나의 표본집단에서의 t-test를 진행해서 가설을 검증한 것이다.    
다음은 two_sample t-test이다

In [7]:
#귀무가설 : 여성그룹의 G3 평균과 남성그룹의 G3평균이 통계적으로 같다.
#대립가설 : 두 그룹의 평균이 통계적으로 다르다.

from scipy.stats import ttest_ind
male_grades = student_data[student_data['sex']=='M']['G3']
female_grades = student_data[student_data['sex']=='F']['G3']

t_statistic,p_value = ttest_ind(male_grades,female_grades,equal_var=False)

print('T-statistic',t_statistic)
print('p_val',p_value)
df = len(male_grades) + len(female_grades) -2

critical_value = stats.t.ppf(1-alpha/2,df)
print('critical_v',critical_value)
if p_value < alpha:
    print("귀무가설 기각. \n두 그룹의 평균이 통계적으로 유의미한 차이가 있다.")
else:
    print("귀무가설 기각 할 수 없음. \n두 그룹의 평균이 통계적으로 유의미한 차이가 없음. ")

T-statistic 2.0650572003629564
p_val 0.03957700303089975
critical_v 1.9660186149089718
귀무가설 기각. 
두 그룹의 평균이 통계적으로 유의미한 차이가 있다.


p-value를 통해서 확인하는 것은 데이터의 양이 많아지면 통계적으로 유의하다고 하기 때문에 효과크기의 값도 함께 제시하는 것이 좋다.    

효과크기(effect size) : 관찰된 데이터의 효과를 측정하는 방법이다. 일반적인 cohen's 방법론 사용. 일반적으로 two-sample t-test에서 사용된다.    
효과크기의 값이 크다면 두 집단은 많이 다른 것이고, 작다면 두 집단이 겹치는 부분이 많다는 것이다.    
일반적으로 0.2 < < 0.8 로 구분해서 적은지 큰지 본다. 

In [8]:
import numpy as np
def cohens_d(group1,group2):
    mean_diff = np.mean(group1)-np.mean(group2)
    pooled_std = np.sqrt((np.var(group1)+np.var(group2))/2)
    return mean_diff/pooled_std
cohen_d = cohens_d(male_grades,female_grades)
print('male mean',male_grades.mean())
print('female mean',female_grades.mean())

if cohen_d <= 0.2: 
    print("Cohen's d:", cohen_d)
    print("Cohen's d 효과 크기가 작으므로 두 그룹의 차이가 크지 않다고 볼 수 있음.")
    
elif cohen_d < 0.8:
    print("Cohen's d:", cohen_d)
    print("Cohen's d 효과 크기가 중간 정도로 두 그룹의 차이가 적지 않다고 볼 수 있음.")
    
elif cohen_d >= 0.8:
    print("Cohen's d:", cohen_d)
    print("Cohen's d 효과 크기가 크므로 두 그룹의 차이가 크다고 볼 수 있음.")

male mean 10.914438502673796
female mean 9.966346153846153
Cohen's d: 0.20847790599965854
Cohen's d 효과 크기가 중간 정도로 두 그룹의 차이가 적지 않다고 볼 수 있음.


불연속성 데이터들 간의 관계 확인    
1. 카이제곱 검정(chi-square test)    
카이제곱 검정 예시는 다음과 같다.    
- 귀무가설 : 두 변수간의 연관성이 없다.    
- 대립가설 : 두 변수간의 연관성이 있다.

In [9]:
print(student_data.columns)
print(student_data.dtypes)

Index(['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
       'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
       'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
       'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc',
       'Walc', 'health', 'absences', 'G1', 'G2', 'G3'],
      dtype='object')
school        object
sex           object
age            int64
address       object
famsize       object
Pstatus       object
Medu           int64
Fedu           int64
Mjob          object
Fjob          object
reason        object
guardian      object
traveltime     int64
studytime      int64
failures       int64
schoolsup     object
famsup        object
paid          object
activities    object
nursery       object
higher        object
internet      object
romantic      object
famrel         int64
freetime       int64
goout          int64
Dalc           int64
Walc           int64
health         int64
absenc

In [10]:
#성별과 Mother job간의 관계를 봐보자
import pandas as pd
from scipy.stats import chi2_contingency

contingency_table = pd.crosstab(student_data['sex'],student_data['Mjob']) #설정된 두 변수들의 테이블을 만들어줌
print(contingency_table.head())

chi2,p_value,_,_ = chi2_contingency(contingency_table)
print('chi-square',chi2)
print('p-value',p_value)

alpha = 0.05
if p_value<alpha:
    print('귀무가설 기각 : 통계적으로 유의미한 연관성 존재')
else:
    print('귀무가설 기각 불가 : 통계적으로 무의미한 연관성')

Mjob  at_home  health  other  services  teacher
sex                                            
F          42      19     74        54       19
M          17      15     67        49       39
chi-square 17.483557532214064
p-value 0.0015564385627536573
귀무가설 기각 : 통계적으로 유의미한 연관성 존재


카이제곱 검정은 데이터 수집 방법과 가설에 따라 적합도 검정(goodness of fit), 동질성 검정(test of homogeneity), 독립성 검정(test of independence) 세 종류가 있다.    
카이제곱 검정은 두 범주형 변수에 대한 분석 방법이다. 성별에 따른 정당 지지율 비교 문제가 이에 해당한다.   
한 범주형 변수의 각 그룹 별 비율과 특정 상수비가 같은지 검정하는 적합도 검정 (기존에 알려진 기준이 존재 : 교배실험 완두콩 비율이 멘델의 법칙을 따르는가?)  
각 집단이 서로 유사한 성향을 갖는지 분석하는 동질성 검성 (성별에 따른 음료 선호가 다른지 검정)    
두 범주형 변수가 서로 독립적인지 검정하는 독립성 검정이 있다. (성별과 전공선택이 관계가 있는지 검정)    


In [11]:
print(student_data['absences'])

0       6
1       4
2      10
3       2
4       4
       ..
390    11
391     3
392     3
393     0
394     5
Name: absences, Length: 395, dtype: int64
