# stats 주요 모델


scipy.stats

1. T - test

    ttest_1samp : 단일 표본 t 검정

    ttest_ind : 독립 표본 t 검정

    ttest_rel : 대응 표본 t 검정
    

2. 비모수 검정

    mannwhitneyu : 맨-휘트니 U검정 - 중위수, 윌콕슨 순위합 검정과 동일

    ranksums : 윌콕슨 순위함 검정 - 중위수

    wilcoxon : 윌콕슨 부호 순위합 검정(데이터의 길이가 같을 때)

3. 정규성 검정

    anderson : 데이터 수가 상대적으로 많을 때

    kstest : 데이터 수가 상대적으로 적을 때

    mstats.normaltest

    shapiro : 노말분포가 가장 엄격하게 검정, 데이터 수가 상대적으로 적을 때

4. 등분산 검정

    bartlett

    fligner

    levene

5. 카이제곱 검정

    chi2_contingency : 독립성 검정

    chisquere : 적합도 검정

    fisher_exact : 피셔 정확 검정

6. ANOVA (일원분산분석)

    f_oneway

# 정규성 검정

## 다음 데이터의 정규성을 검증하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/normal1.csv')
df.head()

In [None]:
from scipy.stats import shapiro
print(shapiro(df))

-> 귀무가설 : 정규성을 띈다

-> 샤피로 검정시 p-value가 0.05보다 크므로 귀무가설을 기각할 수 없다

-> 정규성을 띈다

## 다음 데이터의 정규성을 검증하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/normal3.csv')
df.head()

In [None]:
from scipy.stats import shapiro
print(shapiro(df))

-> 귀무가설 : 정규성을 띈다

-> 피로 검정시 p-value가 0.05보다 작으므로 귀무가설을 기각한다

-> 정규성을 띄지 않는다

## 위의 데이터를 log변환 한 후에 정규성을 갖는지 확인하라

In [None]:
import numpy as np
log_df = np.log(df)
log_df.head()

In [None]:
from scipy.stats import shapiro
print(shapiro(log_df))

-> 귀무가설 : 정규성을 띈다

-> p-value가 0.05보다 크므로 귀무가설을 기각할 수 없다

-> 정규성을 띈다

## 다음 데이터의 정규성을 검증하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/normal6.csv')
df.head()

In [None]:
from scipy.stats import shapiro
print(shapiro(df))

-> 귀무가설 : 정규성을 띈다

-> p-value가 0.05보다 크므로 귀무가설을 채택한다

-> 정규성을 띈다

-> 경고 메세지 : 데이터의 양이 크다

-> anderson을 이용

In [None]:
from scipy.stats import anderson
print(anderson(df['data'].values))

# 단일 표본 t검정(one-sample)

## 100명의 키 정보가 들어 있는 데이터가 있다. 데이터가 정규성을 만족하는지 확인하라. 그리고 평균키는 165라 판단할 수 있는지 귀무가설과 대립가설을 설정한 후 유의수준 5%로 검정하라

-> 정규성을 만족하지 않으면(p_value < 0.05) 비모수 검정으로 윌콕슨 순위 부호 검정을 진행한다

-> 정규성을 만족하면(귀무가설을 채택, p_value >= 0.05) 단일 표본 검정을 진행한다

-> 이후 p_value < 0.05 : 귀무가설을 기각하고

p_value >= 0.05 : 귀무가설을 채택한다

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/height1.csv')
df.head()

HO : 정규성을 따른다 <정규성 검정 진행>

    p_value < 0.05 => 기각(정규성을 따르지 않는다)
    <비모수 검정 진행 : wilcoxon, ranksums>

                    H0 : 평균키가 165이다
                        p_value < 0.05 => 기각(평균키는 165가 아니다)

                        p_value >= 0.05 => 채택(평균키는 165이다)

    p_value >= 0.05 => 채택(정규성을 따른다)
    <단일 표본 검정 진행 : ttest_1samp>

                    H0 : 평균키가 165이다

                        p_value < 0.05 => 기각(평균키는 165가 아니다)

                        p_value >= 0.05 => 채택(평균키는 165이다)

In [None]:
# 정규성 검정
from scipy.stats import shapiro
from scipy.stats import wilcoxon
from scipy.stats import ttest_1samp


t_value, p_value = shapiro(df)
print('샤피로 정규성 검정 p-value : ', p_value, '이므로')

# 윌콕슨
if p_value < 0.05 :
    print('귀무가설을 기각한다. 정규성을 만족하지 않으므로 비모수 검정을 진행한다. 윌콕슨 순위 부호 검정을 진행한다\n')
    print('윌콕슨 순위 부호 검정의 귀무가설을 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다."이다')
    t_value, p_value = wilcoxon(df['height'] - 165)

    if p_value < 0.05:
        print(f'검정 결과 p_value는 {p_value}로 결과는 귀무가설을 기각한다')
    else:
        print(f'검정 결과 p_value는 {p_value}로 결과는 귀무가설을 채택한다')

# 단일 표본 검정
else:
    print('귀무가설을 채택한다. 정규성을 만족하므로 단일 표본 검정으로 확인한다\n')
    print('단일 표본 검정의 귀무가설을 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다."이다')
    t_value, p_value = ttest_1samp(df['height'], 165)

    if p_value < 0.05:
        print(f'검정 결과 p_value는 {p_value}로 결과는 귀무가설을 기각한다')
    else:
        print(f'검정 결과 p_value는 {p_value}로 결과는 귀무가설을 채택한다')


## 100명의 키 정보가 들어 있는 데이터가 있다.데이터가 정규성을 만족하는지 확인하라. 그리고 평균키는 165라 판단할수 있는지 귀무가설과 대립가설을 설정한 후 유의수준 5%로 검정하라.

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/height2.csv')

In [None]:
from scipy.stats import shapiro
from scipy.stats import wilcoxon
from scipy.stats import ttest_1samp

t_value, p_value = shapiro(df)
print('샤피로 정규성 검정 p_value : ', p_value, '이므로')

# 윌콕슨 순위 부호 검정
if p_value < 0.05:
    print('귀무가설을 기각한다. 정규성을 만족하지 않으므로 비모수 검정을 진행한다. 윌콕슨 순위 부호 검정을 진행한다\n')
    print('윌콕슨 순위 부호 검정의 귀무가설을 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다."이다')
    t_value, p_value = wilcoxon(df['height'] - 165)

    if p_value < 0.05:
        print(f'검정 결과 p_value는 {p_value}로 결과는 귀무가설을 기각한다')
    else:
        print(f'검정 결과 p_value는 {p_value}로 결과는 귀무가설을 채택한다')


# 단일 표본 검정
else:
    print('귀무가설을 채택한다. 정규성을 만족하므로 단일 표본 검정으로 확인한다\n')
    print('단일 표본 검정의 귀무가설을 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다."이다')
    t_value, p_value = ttest_1samp(df['height'], 165)

    if p_value < 0.05:
        print(f'검정 결과 p_value는 {p_value}로 결과는 귀무가설을 기각한다')
    else:
        print(f'검정 결과 p_value는 {p_value}로 결과는 귀무가설을 채택한다')

# 등분산 검정

## 두 개 학급의 시험 성적에 대한 데이터이다. 그룹 간 등분산 검정을 시행하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy2.csv')
df.head()

In [None]:
from scipy.stats import bartlett
from scipy.stats import fligner
from scipy.stats import levene

a = df[df['class'] == 'A'].score
b = df[df['class'] == 'B'].score

print(bartlett(a, b))

print(fligner(a, b, center = 'median'))
print(fligner(a, b, center = 'mean'))

print(levene(a, b, center = 'median'))
print(levene(a, b, center = 'mean'))

 # 등분산 검정의 방법은 3가지가 있다
 # p_value 값이 모두 0.05보다 크므로 귀무 가설을 기각할 수 없다(채택한다)
 # 등분산이다

## 두 개 학급의 시험 성적에 대한 데이터이다. 그룹간 등분산 검정을 시행하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy3.csv')
df.head()


In [None]:
from scipy.stats import bartlett
from scipy.stats import fligner
from scipy.stats import levene

a = df[df['class'] == 'A']['score']
b = df[df['class'] == 'B']['score']

print(bartlett(a, b))

print(fligner(a, b, center = 'median'))
print(fligner(a, b, center = 'mean'))

print(levene(a, b, center = 'median'))
print(levene(a, b, center = 'mean'))

# Bartlett 검정 결과 귀무가설을 기각할 수 없다(채택한다) -> 등분산이다
# Fligner, Levene는 귀무가설을 기각한다 -> 등분산이 아니다

## 두 개 학급의 시험 성적에 대한 데이터이다. 그룹간 등분산 검정을 시행하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy6.csv')
df.head()


In [None]:
from scipy.stats import bartlett
from scipy.stats import fligner
from scipy.stats import levene

a = df['A']
b = df['B']

print(bartlett(a, b))

print(fligner(a, b, center = 'median'))
print(fligner(a, b, center = 'mean'))

print(levene(a, b, center = 'median'))
print(levene(a, b, center = 'mean'))

# Bartlett 검정 결과 귀무가설을 기각할 수 없다(채택한다) -> 등분산이다
# Fligner, Levene는 귀무가설을 기각한다 -> 등분산이 아니다

## 두 개 학급의 시험 성적에 대한 데이터이다. 그룹 간 등분산 검정을 시행하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy5.csv')
df.head()

In [None]:
df['B'].isnull().sum()

In [None]:
from scipy.stats import bartlett
from scipy.stats import fligner
from scipy.stats import levene

a = df['A']
b = df['B'].dropna()

print(bartlett(a, b))


print(fligner(a, b, center = 'median'))
print(fligner(a, b, center = 'mean'))

print(levene(a, b, center = 'median'))
print(levene(a, b, center = 'mean'))

# 귀무가설을 기각한다 -> 등분산이 아니다

# 독립표본 검정(ind)

정규성에 따라 접근 방식이 다르다

정규성 검정 - shapiro, anderson

데이터가 정규성을 가지는 경우(모수적 검정)
    두 집단의 등분산 검정을 진행

    from scipy.stats import ttest_ind

    등분산일경우 : equal_val = True
    
    등분산이 아닐 경우 : equal_val = False

데이터가 정규성을 가지지 않는 경우(비모수적 검정)

## 두 개 학급의 시험 성적에 대한 데이터이다. 두 학습의 시험 평균(비모수검정의 경우 중위값)은 동일한다 말할 수 있는지 확인하라

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
df1 = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind1.csv')
df2 = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind2.csv')
display(df1.head())
display(df2.head())


In [None]:
# 1번 정규성 검사 진행
from scipy.stats import shapiro

print(shapiro(df1))
print(shapiro(df2))

# 귀무가설 : 정규성을 띈다
# 두 dafaframe 모두 p_value값이 0.05보다 크므로 귀무가설을 채택 -> 정규성을 띈다

In [None]:
# 정규성을 만족하므로 등분산성을 진행한다

print(levene(df1['data'], df2['data'], center = 'median'))

# 귀무가설 : 등분산성이다
# p_value값이 0.05보다 크므로 귀무가설을 채택 -> 등분산성이다

In [None]:
from scipy.stats import ttest_ind

t_value, p_value = ttest_ind(df1, df2, equal_var = True)
print(p_value)

# 귀무가설 : 두 학습의 시험 평균은 동일하다
# p_value값이 0.05보다 작으로 귀무가설을 기각한다 -> 두 학습의 시험 평균은 동일하지 않다

## 두 개 학급의 시험성적에 대한 데이터이다. 두 학습의 시험 평균(비모수검정의 경우 중위값)은 동일하다 말할 수 있는지 확인 하라



In [None]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy5.csv')
df.head()

In [None]:
df[df['A'].isnull()]

In [None]:
df[df['B'].isnull()]

In [None]:
# 정규성 검정
from scipy.stats import shapiro

print(shapiro(df['A']))
print(shapiro(df['B'].dropna()))

# 귀무가설 : 정규성을 띈다
# 두 dataframe 모두 p_value값이 0.05 이하이므로 귀무가설 기각 -> 정규성을 띄지 않는다

In [None]:
# 정규성을 만족하지 못 하므로 비모수적 검정 -> wilcoxon, mannwhitneyu, ranksums
from scipy.stats import wilcoxon, mannwhitneyu, ranksums

# wilcoxon -> 데이터의 길이가 같아야 한다

print(mannwhitneyu(df['A'], df['B'].dropna()))
print(ranksums(df['A'], df['B'].dropna()))

# 귀무가설 : 두 학습의 시험 평균은 동일하다
# mannwhitneyu, ranksums 의 p_value값이 0.05보다 크므로 귀무가설을 채택 -> 두 학습의 시험 평균은 동일


## 두 개 그룹에 대한 수치형 데이터이다. 두 그룹의 평균은 동일하다 말 할 수 있는지 검정하라

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind3.csv')
df.head()

Unnamed: 0,group,data
0,a,108.065847
1,a,88.714106
2,a,61.182748
3,a,51.763444
4,a,127.85873


In [None]:
df['group'].value_counts()

In [None]:
a = df[df['group'] == 'a']['data']
b = df[df['group'] == 'b']['data']

In [None]:
print(a.isnull().sum())
print(b.isnull().sum())

In [None]:
# 정규성 검정
from scipy.stats import shapiro
t_value1, p_value1 = shapiro(a)
print('그룹 a의 샤피론 검정의 p_value : ', p_value1, '이고\t')
t_value2, p_value2 = shapiro(b)
print('그룹 b의 샤피론 검정의 p_value : ', p_value2, '이므로\t')

from scipy.stats import levene
from scipy.stats import ttest_ind

# 귀무가설 : 정규성을 띈다
print('"H0 : 정규성을 띈다"에 대한')
# 정규성일 때 등분산성 검정
if p_value1 >= 0.05 and p_value2 >= 0.05:
    t_value_l, p_value_l = levene(a, b)
    print('귀무가설을 채택한다 -> 정규성을 가진다\n')

    print('정규성을 만족하므로 levene 검정을 통한 p_value : ', p_value_l, '이므로\t')
    print('"H0 : 등분산성을 띈다"에 대한')

    # 등분산성일 때
    if p_value_l >= 0.05:
        t_value_t, p_value_t  = ttest_ind(a, b, equal_var = True)
        print('귀무가설을 채택한다 -> 등분산성을 가진다\n')
        print('등분산성을 만족하므로 ttest_ind의 p_value : ', p_value_t, '이므로\t')
        print('"H0 : 두 그룹의 평균은 동일"에 대한')

        if p_value_t >= 0.05:
            print('ttest_ind의 p_value : ', p_value_t, '이므로 귀무 가설을 채택한다 -> 즉 두 그룹의 평균은 같다다')
        else:
            print('ttest_ind의 p_value : ', p_value_t, '이므로 귀무 가설을 기각한다 -> 즉 두 그룹의 평균은 다르다')

    # 등분산성 아닐 때
    else:
        t_value_t, p_value_t  = ttest_ind(a, b, equal_var = False)
        print('귀무가설을 기각한다 -> 등분산성을 갖지 않는다\n')
        print('등분산성 검정의 ttest_ind의 p_value : ', p_value_t, '이므로\t')
        print('"H0 : 두 그룹의 평균은 동일"에 대한')

        if p_value_t >= 0.05:
            print('ttest_ind의 p_value : ', p_value_t, '이므로 귀무 가설을 채택한다 -> 즉 두 그룹의 평균은 같다다')
        else:
            print('ttest_ind의 p_value : ', p_value_t, '이므로 귀무 가설을 기각한다 -> 즉 두 그룹의 평균은 다르다')

# 정규성이 아닐 때

else:
    t_value_l, p_value_l = levene(a, b)
    print('귀무가설을 기각한다 -> 정규성을 갖지 않는다\n')
    print('정규성을 만족하므로 levene 검정을 통한 p_value : ', p_value_l, '이므로\t')
    print('"H0 : 두 그룹의 평균은 동일"에 대한')

    if p_value_l >= 0.05:
        print('ttest_ind의 p_value : ', p_value_l, '이므로 귀무 가설을 채택한다 -> 즉 두 그룹의 평균은 같다다')
    else:
        print('ttest_ind의 p_value : ', p_value_l, '이므로 귀무 가설을 기각한다 -> 즉 두 그룹의 평균은 다르다')


그룹 a의 샤피론 검정의 p_value :  0.1473984718322754 이고	
그룹 b의 샤피론 검정의 p_value :  0.4701973497867584 이므로	
"H0 : 정규성을 띈다"에 대한
귀무가설을 채택한다 -> 정규성을 가진다

정규성을 만족하므로 levene 검정을 통한 p_value :  0.013750484571911342 이므로	
"H0 : 등분산성을 띈다"에 대한
귀무가설을 기각한다 -> 등분산성을 갖지 않는다

등분산성 검정의 ttest_ind의 p_value :  0.029512802991767898 이므로	
"H0 : 두 그룹의 평균은 동일"에 대한
ttest_ind의 p_value :  0.029512802991767898 이므로 귀무 가설을 기각한다 -> 즉 두 그룹의 평균은 다르다


##두 개 그룹에 대한 수치형 데이터이다. 두 그룹의 평균은 동일하다 말할 수 있는지 검정하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind6.csv')
df.head()

In [None]:
from scipy.stats import shapiro
from scipy.stats import levene
from scipy.stats import ttest_ind
from scipy.stats import ranksums


print('1. 정규성 검정')
print('H0 : 정규성을 따른다')

a = df['a'].dropna()
b = df['b'].dropna()

t_value_a, p_value_a = shapiro(a)
t_value_b, p_value_b = shapiro(b)

# 정규성 불만족 -> 비모수 검정
if p_value_a < 0.05 and p_value < 0.05:
    print('정규성 검정을 통한 a의 p_value : ', p_value_a, '이고 b의 p_value : ', p_value_b, '로 0.05보다 작으므로  두 데이터 모두 귀무가설을 기각한다 -> 정규성을 따르지 않는다.\n')
    print('정규성을 따르지 않으므로 비모수 검정을 진행한다. \n')
    print('2. 비모수 검정')
    print('H0 : 두 그룹의 평균은 동일하다. ')

    t_value_r, p_value_r = ranksums(a, b)

    if p_value_l < 0.05:
        print('비모수 검정을 통한 p_value : ', p_value_r, '로 0.05보다 작으므로 귀무가설을 기각한다 -> 두 그룹의 평균은 동일하지 않다. ')
    else:
        print('비모수 검정을 통한 p_value : ', p_value_r, '로 0.05보다 크므로 귀무가설을 채택한다 -> 두 그룹의 평균은 동일하다. ')


# 정규성 만족
else:
    print('정규성 검정을 통한 a의 p_value : ', p_value_a, '이고 b의 p_value : ', p_value_b, '로 0.05보다 크므로  두 데이터 모두 귀무가설을 채택한다 -> 정규성을 따른다.\n')
    print('정규성을 따르므로 등분산성 검정을 진행한다. \n')
    print('2. 등분산성 검정')
    print('H0 : 등분산성을 따른다. ')


    # 등분산성
    t_value_l, p_value_l = levene(a, b)

    if p_value_l < 0.05:
        print('등분산성 검정을 통한 p_value : ', p_value_l, '로 0.05보다 작으므로 귀무가설을 기각한다 -> 등분산성을 따르지 않는다.\n')
        print('등분산성을 따르지 않으므로 독립 표본 검정(equal_var = False)로 진행한다. \n')
        print('3.독립 표본 검정')
        print('H0 : 두 그룹의 평균을 동일하다. ')

        # 등분산성 불만족
        t_value_t, p_value_t =ttest_ind(a, b, equal_var = False)

        if p_value_t < 0.05:
            print('독립 표본 검증을 통한 p_value : ', p_value_t, '로 0.05보다 작으므로 귀무가설을 기각한다 -> 두 그룹의 평균은 동일하지 않다.')
        else:
            print('독립 표본 검증을 통한 p_value : ', p_value_t, '로 0.05보다 크므로 귀무가설을 채택한다 -> 두 그룹의 평균은 동일하다.')

    else:
        print('등분산성 검정을 통한 p_value : ', p_value_l, '로 0.05보다 크므로 귀무가설을 채택한다 -> 등분산성을 따른다.\n')
        print('등분산성을 따르지 않으므로 독립 표본 검정(equal_var = True)로 진행한다. \n')
        print('3.독립 표본 검정')
        print('H0 : 두 그룹의 평균을 동일하다. ')

        # 등분산성 만족
        t_value_t, p_value_t =ttest_ind(a, b, equal_var = True)
        if p_value_t < 0.05:
            print('독립 표본 검증을 통한 p_value : ', p_value_t, '로 0.05보다 작으므로 귀무가설을 기각한다 -> 두 그룹의 평균은 동일하지 않다. ')
        else:
            print('독립 표본 검증을 통한 p_value : ', p_value_t, '로 0.05보다 크므로 귀무가설을 채택한다 -> 두 그룹의 평균은 동일하다. ')

# 대응 표본 검정

## 특정 질병 집단의 투약 전후의 혈류량 변화를 나타낸 데이터이다. 투약 전후의 변화가 있는지 검정하라

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel2.csv')
df.head()

In [None]:
# 정규성 검사
from scipy.stats import shapiro

print(shapiro(df['before']))
print(shapiro(df['after']))

# 귀무가설을 채택
# 둘 다 정규성을 만족

In [None]:
# 등분산성 검사
from scipy.stats import levene
b = df['before'].dropna()
a = df['after'].dropna()

print(levene(b, a))

# 귀무가설을 채택
# 등분산성을 만족

In [None]:
# 대응 표본 검정
from scipy.stats import ttest_rel

print(ttest_rel(b, a))

# 귀무가설(투약 전 후의 변화없다(같다))을 기각
# 투약 전 후의 변화가 있다

## 특정 질병 집단의 투약 전후의 혈류량 변화를 나타낸 데이터이다. 투약 전후의 변화가 있는지 검정하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel3.csv')
df.head()

In [None]:
# 정규성 검정
from scipy.stats import shapiro

print(shapiro(df['before']))
print(shapiro(df['after']))

# 귀무가설 채택
# 정규성 만족

In [None]:
# 등분산성 검정
from scipy.stats import levene

b = df['before'].dropna()
a = df['after'].dropna()

print(levene(b, a))

# 귀무가설 채택
# 등분산성 만족

In [None]:
# 대응 표본 검정
from scipy.stats import ttest_rel

print(ttest_rel(b, a))

# 귀무가설(변화가없다)를 채택
# 전 후가 같다

## 특정 집단의 학습 전후 시험 성적 변화를 나타낸 데이터이다. 시험 전과 후에 차이가 있는지 검정하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel1.csv')
df.head()

In [None]:
from scipy.stats import shapiro
from scipy.stats import levene
from scipy.stats import ranksums
from scipy.stats import ttest_rel

b = df['before'].dropna()
a = df['after'].dropna()

print('"H0 : 시험 전과 후에 차이가 없다, H1 : 시험 전과 후는 차이가 있다. "\n')
print('1. 정규성 검사')
print('H0 : 정규성을 따른다')

# 정규성 검정
t_value_b, p_value_b = shapiro(b)
t_value_a, p_value_a = shapiro(a)

if p_value_b < 0.05 and p_value_a < 0.05:
    print('정규성 검증을 통한 after의 p_value : ', p_value_a, '이고 before의 p_value : ', p_value_b, '로 0.05보다 작으르모 귀무가설을 기각한다 -> 정규성을 따르지 않는다')
    print('정규성을 따르지 않으므로 비모수 검정을 진행\n')
    print('2. 비모수 검정')
    print('H0 : 시험 전과 후에 차이가 없다')

    t_value_r, p_value_r = ranksums(b, a)

    if p_value_r < 0.05:
        print('비모수 검증을 통한 p_value : ', p_value_r, '로 0.05보다 작아 귀무가설을 기각한다 -> 시험 전과 후에 차이가 있다\n')
        print('결론 : 정규성을 따르지 않으며 시험 전과 후에 차이가 있다')
    else:
        print('비모수 검증을 통한 p_value : ', p_value_r, '로 0.05보다 크므로 귀무가설을 채택한다 -> 시험 전과 후에 차이가 없다\n')
        print('결론 : 정규성을 따르지 않으며 시험 전과 후에 차이가 없다')
else:
    print('정규성 검증을 통한 after의 p_value : ', p_value_a, '이고 before의 p_value : ', p_value_b, '로 0.05보다 크므모 귀무가설을 채택한다 -> 정규성을 따른다')
    print('정규성을 따르므로 등분산성 검정 진행\n')
    print('2. 등분산성 검정')
    print('H0 : 등분산성을 따른다')

    t_value_l, p_value_l = levene(b, a)

    if p_value_l < 0.05:
        print('등분산성 검정을 통한 p_value : ', p_value_l, '로 0.05보다 작으르모 귀무가설을 기각한다 -> 등분산성을 따르지 않는다')
        print('등분산성을 따르지 않으므로 대응표본 검정 진행\n')
        print('3. 대응표본 검정')
        print('H0 : 시험 전과 후에 차이가 없다')

        t_value_t, p_value_t = ttest_rel(b, a)

        if p_value_t < 0.05:
            print('대응표본을 통한 p_value : ', p_value_t, '로 0.05보다 작아 귀무가설을 기각한다 -> 시험 전과 후에 차이가 있다\n')
            print('결론 : 정규성을 따르며 등분산성을 따르지 않고, 시험 전과 후에 차이가 있다')
        else:
            print('대응표본을 통한 통한 p_value : ', p_value_t, '로 0.05보다 크므로 귀무가설을 채택한다 -> 시험 전과 후에 차이가 없다\n')
            print('결론 : 정규성을 따르며 등분산성을 따르지 않고, 시험 전과 후에 차이가 없다')

    else:
        print('등분산성 검정을 통한 p_value : ', p_value_l, '로 0.05보다 크므모 귀무가설을 기각한다 -> 등분산성을 따른다')
        print('등분산성을 따르며 대응표본 검정 진행\n')
        print('3. 대응표본 검정')
        print('H0 : 시험 전과 후에 차이가 없다')

        t_value_t, p_value_t = ttest_rel(b, a)

        if p_value_t < 0.05:
            print('대응표본을 통한 p_value : ', p_value_t, '로 0.05보다 작아 귀무가설을 기각한다 -> 시험 전과 후에 차이가 있다\n')
            print('결론 : 정규성을 따르며 등분산성을 따르며, 시험 전과 후에 차이가 있다')
        else:
            print('대응표본을 통한 통한 p_value : ', p_value_t, '로 0.05보다 크므로 귀무가설을 채택한다 -> 시험 전과 후에 차이가 없다\n')
            print('결론 : 정규성을 따르며 등분산성을 따르며, 시험 전과 후에 차이가 없다')


In [None]:
from scipy.stats import shapiro

before = df['before']
after = df['after']
print(shapiro(before))
print(shapiro(after))

from scipy.stats import levene
print()
print(levene(before,after))


from scipy.stats import ttest_rel
print(ttest_rel(before,after))
print()


from scipy.stats import wilcoxon
print(wilcoxon(before,after))

print('정규성을 따르지 않고, 등분산성은 따른다')
print('대응 표본 결과 대립가설을 기각하지만 윌콕슨 순위 부호 결과 귀무가설을 기각할 수 없다')

## 한 기계 부품의 rpm 수치를 두가지 다른 상황에서 측정했다.(총 70세트) b 상황이 a 상황보다 rpm값이 높다고 말할 수 있는지 검정하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel4.csv')
df.head()

Unnamed: 0,rpm,group
0,474.551593,a
1,450.54842,a
2,563.720934,a
3,506.886966,a
4,471.724049,a


In [None]:
df['group'].value_counts()

In [None]:
from scipy.stats import shapiro
from scipy.stats import levene
from scipy.stats import ranksums
from scipy.stats import ttest_rel

b = df[df['group'] == 'b']['rpm'].dropna()
a = df[df['group'] == 'a']['rpm'].dropna()

print('"H0 : a <= b, H1 : a > b. "\n')
print('1. 정규성 검사')
print('H0 : 정규성을 따른다')

# 정규성 검정
t_value_b, p_value_b = shapiro(b)
t_value_a, p_value_a = shapiro(a)

if p_value_b < 0.05 and p_value_a < 0.05:
    print('정규성 검증을 통한 after의 p_value : ', p_value_a, '이고 before의 p_value : ', p_value_b, '로 0.05보다 작으르모 귀무가설을 기각한다 -> 정규성을 따르지 않는다')
    print('정규성을 따르지 않으므로 비모수 검정을 진행\n')
    print('2. 비모수 검정')
    print('H0 : a <= b')

    t_value_r, p_value_r = ranksums(a, b)

    if p_value_r < 0.05:
        print('비모수 검증을 통한 p_value : ', p_value_r, '로 0.05보다 작아 귀무가설을 기각한다 -> b는 a보다 작다\n')
        print('결론 : 정규성을 따르지 않으며 b는 a보다 작다')
    else:
        print('비모수 검증을 통한 p_value : ', p_value_r, '로 0.05보다 크므로 귀무가설을 채택한다 -> b는 a보다 크다\n')
        print('결론 : 정규성을 따르지 않으며 b는 a보다 크다')
else:
    print('정규성 검증을 통한 after의 p_value : ', p_value_a, '이고 before의 p_value : ', p_value_b, '로 0.05보다 크므모 귀무가설을 채택한다 -> 정규성을 따른다')
    print('정규성을 따르므로 등분산성 검정 진행\n')
    print('2. 등분산성 검정')
    print('H0 : 등분산성을 따른다')

    t_value_l, p_value_l = levene(a, b)

    if p_value_l < 0.05:
        print('등분산성 검정을 통한 p_value : ', p_value_l, '로 0.05보다 작으르모 귀무가설을 기각한다 -> 등분산성을 따르지 않는다')
        print('등분산성을 따르지 않으므로 대응표본 검정 진행\n')
        print('3. 대응표본 검정')
        print('H0 : a <= b')

        t_value_t, p_value_t = ttest_rel(a, b)

        if p_value_t < 0.05:
            print('대응표본을 통한 p_value : ', p_value_t, '로 0.05보다 작아 귀무가설을 기각한다 -> b는 a보다 작다\n')
            print('결론 : 정규성을 따르며 등분산성을 따르지 않고, b는 a보다 작다')
        else:
            print('대응표본을 통한 통한 p_value : ', p_value_t, '로 0.05보다 크므로 귀무가설을 채택한다 -> b는 a보다 크다\n')
            print('결론 : 정규성을 따르며 등분산성을 따르지 않고, b는 a보다 크다')

    else:
        print('등분산성 검정을 통한 p_value : ', p_value_l, '로 0.05보다 크므모 귀무가설을 기각한다 -> 등분산성을 따른다')
        print('등분산성을 따르므로 대응표본 검정 진행\n')
        print('3. 대응표본 검정')
        print('H0 : 시험 전과 후에 차이가 없다')

        t_value_t, p_value_t = ttest_rel(a, b)

        if p_value_t < 0.05:
            print('대응표본을 통한 p_value : ', p_value_t, '로 0.05보다 작아 귀무가설을 기각한다 -> b는 a보다 작다\n')
            print('결론 : 정규성을 따르며 등분산성을 따르고, 귀무가설을 기각, b는 a보다 작다')
        else:
            print('대응표본을 통한 통한 p_value : ', p_value_t, '로 0.05보다 크므로 귀무가설을 채택한다 -> b는 a보다 크다\n')
            print('결론 : 정규성을 따르며 등분산성을 따르고, 귀무가설을 채택, b는 a보다 크다')


"H0 : a <= b, H1 : a > b. "

1. 정규성 검사
H0 : 정규성을 따른다
정규성 검증을 통한 after의 p_value :  0.8884284496307373 이고 before의 p_value :  0.5505106449127197 로 0.05보다 크므모 귀무가설을 채택한다 -> 정규성을 따른다
정규성을 따르므로 등분산성 검정 진행

2. 등분산성 검정
H0 : 등분산성을 따른다
등분산성 검정을 통한 p_value :  0.7959020864923277 로 0.05보다 크므모 귀무가설을 기각한다 -> 등분산성을 따른다
등분산성을 따르므로 대응표본 검정 진행

3. 대응표본 검정
H0 : 시험 전과 후에 차이가 없다
대응표본을 통한 통한 p_value :  0.06137132692892943 로 0.05보다 크므로 귀무가설을 채택한다 -> b는 a보다 크다

결론 : 정규성을 따르며 등분산성을 따르고, 귀무가설을 채택, b는 a보다 크다


# 카이제곱 검정(교차검정)

일원 카이제곱검정 (카이제곱 적합도 검정)

    chisquare : 한 개의 요인에  의해 k개의 범주를 가질 때 이론적 분포를 따르는지 검정

이원 카이제곱검정 (카이제곱 독립 검정)

    chi2_contingency : 모집단이 두 개의 변수에 의해 범주화 되었을 때, 두 변수들 사이의 관계가 독립인지 아닌지 검정

    fisher_excat : 빈도수 5개 이하, 셀이 20%이상일 때

## 144회 주사위를 던졌을때, 각 눈금별로 나온 횟수를 나타낸다. 이 데이터는 주사위의 분포에서 나올 가능성이 있는지 검정하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/dice.csv')
df.head()

In [None]:
# 주사위 눈금 발생확률은 모두 1/6
# 각 눈금의 기댓값은 실제 발생한 모든 값을 6으로 나눈 값
# H0 : 각 주사위 눈금 발생 비율은 동일함

from scipy.stats import chisquare
df['expected'] = (df['counts'].sum() / 6).astype('int')
chisquare(df.counts, df.expected)

# p_value가 0.05보다 크므로 귀무가설을 채택한다

## 다음 데이터는 어떤 집단의 왼손잡이, 오른손 잡이의 숫자를 나타낸다. 인간의 왼손잡이와 오른손잡이의 비율을 0.2:0.8로 알려져있다.
이 집단에서 왼손과 오른손 잡이의 비율이 적합한지 검정하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/hands2.csv')
df.head()

In [None]:
# H0 : 왼손과 오른손 잡이의 비율은 0.2:0.8이다

target = df.hands.value_counts().to_frame()
target['expected'] = [int(target.hands.sum() * 0.8), int(target.hands.sum() * 0.2)]

from scipy.stats import chisquare
chisquare(target.hands, target.expected)

# p_value가 0.05보다 작으므로 귀무가설을 기각한다
# 왼손, 오른손의 비율을 0.2 : 0.8로 볼 수 없다


## 다음 데이터는 국민 기초체력을 조사한 데이터이다. 성별과 등급이 독립적인지 검정하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/body/body.csv')
df.head()

In [None]:
# H0 : 성별과 등급 간 관련이 없다

cdf = pd.crosstab(df['측정회원성별'],df['등급'])
display(cdf)

from scipy.stats import chi2_contingency
print(chi2_contingency(cdf))
chi2 , p ,dof, expected = chi2_contingency(cdf)
print(p)

# p_value값이 0.05보다 작으므로 귀무가설을 기각한다
# 즉, 성별과 등급 간 관련이 있다

## 성별에 따른 동아리 활동 참석 비율을 나타낸 데이터이다. 성별과 참석간에 관련이 있는지 검정하라

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/fe2.csv',index_col=0)
df

In [None]:
# H0 : 성별과 참석간에 관련이 없다

cdf = df.iloc[:-1, :-1]
display(cdf)

from scipy.stats import chi2_contingency, fisher_exact

print(chi2_contingency(cdf))
chi2 , p ,dof, expected = chi2_contingency(cdf)
print(p)

# p_value값이 0.05보다 크므로 귀무가설을 채택한다
# 즉, 성별과 참석간에 관련이 없다 -> 독립이다
# 하지만 5보다 작은 셀이 20%가 넘어가므로 fisher_exact를 진행한다
print(fisher_exact(cdf))
# p_value가 0.05보다 작으르모 귀무가설을 기각한다
# 즉, 성별과 참석간에 관련이 있다 -> 독립이 아니다