scipy.stats
│
├── 01 T-test
│   │
│   ├── ttest_1samp         (단일표본 t검정)
│   ├── ttest_ind           (독립표본 t검정)
│   └── ttest_rel           (대응표본 t검정) 
│ 
├── 02 비모수 검정
│   │
│   ├── mannwhitneyu        (맨-휘트니 U 검정 - 중위수 , 윌콕슨 순위합 검정과 동일하다 볼 수 있음)
│   ├── ranksums            (윌콕슨 순위합 검정 - 중위수)
│   └── wilcoxon            (윌콕슨 부호 순위합 검정)
│ 
├── 03 정규정 검정
│   │
│   ├── anderson            (Anderson-Darling , 데이터수가 상대적으로 많을 때)
│   ├── kstest              (Kolmogorov-Smirnov , 데이터수가 상대적으로 많을 때)
│   ├── mstats.normaltest
│   └── shapiro             (shapiro, 노말분포 가장 엄격하게 검정, 데이터수가 상대적으로 적을때)
│   
├── 04 등분산 검정
│   │
│   ├── bartlett
│   ├── fligner
│   └── levene
│
├── 05 카이제곱검정
│   │
│   ├── chi2_contingency     (카이제곱독립검정, 독립성 검정)
│   ├── chisquare            (카이제곱검정 , 적합도 검정)
│   └── fisher_exact         (피셔 정확 검정 - 빈도수가 5개 이하 셀의 수가 전체 셀의 20%이상일 경우 사용 )
│
└── 06 ANOVA (일원분산분석)
    │
    └── f_oneway (분산 분석은  statmodels 모듈이 더 좋음! )

### 정규성검정
- H0: 정규분포를 따른다 H1: 정규분포를 따르지 않는다 

In [7]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/normal1.csv')
# df.data

# 정규성검정 
# H0: 정규분포를 따른다 H1: 정규분포를 따르지 않는다 

from scipy.stats import shapiro # 샤피로테스트 정규성검정 
print(shapiro(df))
print(shapiro(df)[0])
print(shapiro(df)[1])

statistic , pvalue = shapiro(df)
print(round(statistic,4), round(pvalue,4))
# 귀무가설 채택 > 정규성을 만족한다 


ShapiroResult(statistic=0.9981444478034973, pvalue=0.34849318861961365)
0.9981444478034973
0.34849318861961365
0.9981 0.3485


In [17]:
import pandas as pd
import numpy as np 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/normal3.csv')
df.head()

from scipy.stats import shapiro
print(shapiro(df['data']))
# 귀무가설 채택 > 정규성 만족
# print(np.log1p(df)) > 로그변환하고 정규성 검정 가능 

         data
0    0.631349
1   -0.021856
2    0.412035
3    0.165041
4    0.401308
..        ...
995 -0.261274
996  0.084123
997  0.501592
998  1.249866
999  0.533421

[1000 rows x 1 columns]


### 단일 표본 t검정(one-sample)

- H0 : m=165 

In [30]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/height1.csv')

from scipy.stats import shapiro
shapiro(df['height'])
# 귀무가설 채택 > 정규분포를 따른다 > 단일표본 검정으로 확인한다 

# import scipy.stats
# print(scipy.stats.__all__)

from scipy.stats import ttest_1samp

# H0 : m=165 
ttest_1samp(df['height'], 165)
# 귀무가설 기각 따라서 평균은 165가 아니다 

TtestResult(statistic=3.2017884987150644, pvalue=0.0018367171548080209, df=99)

In [35]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/height2.csv')
# print(df)

from scipy.stats import shapiro
print(shapiro(df))
# 귀무가설 기각 > 정규분포를 따르지 않으므로 윌콕슨순위부호검정실시

from scipy.stats import wilcoxon
wilcoxon(df['height']-165)
# 귀무가설기각 > 평균은 165가 아니다! ㅎㅎ 

ShapiroResult(statistic=0.9672006368637085, pvalue=0.013552471995353699)


WilcoxonResult(statistic=1952.0, pvalue=0.04880534424649582)

### 등분산검정 
- H0 : 등분산이다 

In [49]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy2.csv')
# df
df_A = df[df['class'] == 'A']
df_B = df[df['class'] == 'B']

from scipy.stats import shapiro

print(shapiro(df_A['score']))
print(shapiro(df_B['score']))
# 두 그룹모드 귀무가설 채택 > 정규분포 따름 > 둘중 하나라도 정규분포를 따르지 않는다면 윌콕슨 이용 

# 등분산검정

from scipy.stats import bartlett
bartlett(df_A['score'], df_B['score'])
# 귀무가설 채택 등분산이다



ShapiroResult(statistic=0.9538977146148682, pvalue=4.097050521068013e-08)
ShapiroResult(statistic=0.9422046542167664, pvalue=1.1735706948456937e-06)


BartlettResult(statistic=0.26035880448930865, pvalue=0.609873758447687)

### 독립표본검정
- H0 : m1 = m2

In [98]:
df1 = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind1.csv')
df2 = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind2.csv')

# print(df1.head())
# print(df2.head())

from scipy.stats import shapiro
print(shapiro(df1))
print(shapiro(df2))
# 귀무가설 채택 > 두 표본 모두 정규분포를 따른다 > 등분산검정

# 정규성을 따르지 않는 경우 비모수검정 실시 
from scipy.stats import ranksums
print(ranksums(df1['data'], df2['data']))
# 귀무가설기각 두 시험성적에는 차이가 있다 


## 등분산검정
from scipy.stats import levene
print(levene(df1['data'],df2['data']))
# 등분산임.. 다른결과 ㅎㅎ 

from scipy.stats import ttest_ind
print(ttest_ind(df1['data'],df2['data'], equal_var=True,alternative='two-sided'))
print()
# 귀무가설 기각 차이가 있다 

## 등분산이 아닌 경우
from scipy.stats import bartlett
print('등분산검정 bartlett 등분산이 아닌경우')
print(bartlett(df1['data'], df2['data']))
# 귀무가설기각 > 등분산이 아니다 


from scipy.stats import ttest_ind
print(ttest_ind(df1['data'],df2['data'], equal_var=False ,alternative='two-sided'))
print()

등분산검정 levence
LeveneResult(statistic=2.5337683795339547, pvalue=0.11302904824468704)
TtestResult(statistic=2.7671907368517195, pvalue=0.00619015106792926, df=198.0)

등분산검정 bartlett 등분산이 아닌경우
BartlettResult(statistic=4.170597307474754, pvalue=0.04113129672708929)
TtestResult(statistic=2.7671907368517195, pvalue=0.006212856853307455, df=190.11841510002813)



### 대응표본 t검정
- H0 : m1 - m2 = 0

In [96]:
import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel2.csv')
# df.head()

# 정규성 확인 > 차이값에 대해 정규성 확인 
from scipy.stats import shapiro
print(shapiro(df['before'] - df['after']))
# 귀무가설 채택 > 정규분포를 따른다  
# 정규성 만족 > ttest_rel / 정규성 만족 X > wilcoxon


# from scipy.stats import bartlett
# print(bartlett(df['before'], df['after']))
# # 등분산성 만족 > 등분산성이 파라미터에 영향을 주지 않음 

from scipy.stats import ttest_rel
print(ttest_rel(df['before'], df['after']))
# 귀무가설 기각 전과 후의 평균이 같지 않다.


# # 정규성을 따르지 않을경우 윌콕슨 
from scipy.stats import wilcoxon
wilcoxon(df['before']- df['after'])
# 귀무가설기각 전과 후의 평균이 같지 않다.


ShapiroResult(statistic=0.9897251129150391, pvalue=0.5101333856582642)
TtestResult(statistic=-2.5535473487670677, pvalue=0.011926744724546513, df=119)


WilcoxonResult(statistic=2577.0, pvalue=0.005821508354384095)

### 모집단 3개이상 
- H0 : 귀무가설 Ma=Mb=Mc / H1: 적어도 하나는 같지않다


In [None]:
# 1. 가설검정 / 유의수준 확인 
# 2. 정규성검정(shapiro) A,B,C 모두 정규분포를 따라야함 
# 3. 등분산검정(bartlett(df['A'],df['B'],df['C']))
# 4. 분석

# 4-1 정규성 o 등분산성 o > 등분산성을 만족하지 않는 경우의 패키지 활용불가
# 분산분석 f_oneway 
import scipy.stats as stats
stats.f_oneway(df['A'],df['B'],df['C'])

# 4-2 정규성 x 
# 크루스칼 왈리스 검정 
import scipy.stats as stats
stats.kruskal(df['A'],df['B'],df['C'])



## 카이제곱검정(교차분석) 

> 일원 카이제곱검정 (chisquare ,적합도검정)  

 한 개의 요인에 의해 k개의 범주를 가질때 이론적 분포를 따르는지 검정



> 이원 카이제곱 검정(chi2_contingency(카이제곱 독립검정), fisher_exact(빈도수 5개 이하의 셀이 20% 이상))

모집단이 두개의 변수에 의해 범주화 되었을 때, 두 변수들 사이의 관계가 독립인지 아닌지 검정





### 일원카이제곱검정

- H0: 각 주사위 눈금 발생비율은 동일

In [108]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/dice.csv')
# print(df.head())

from scipy.stats import chisquare

# 기대도수 구해야함 
df['exp'] = (df['counts'].sum()/6).astype(int)
chisquare(df.counts, df.exp)

# 동일하다 

Power_divergenceResult(statistic=2.333333333333333, pvalue=0.8013589222076911)

In [141]:
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/hands2.csv')
target = df.value_counts().to_frame()
target['exp'] = [target['count'].sum() * 0.8, target['count'].sum() *0.2] 
target

from scipy.stats import chisquare
chisquare(target['count'], target['exp'])



Power_divergenceResult(statistic=5.0, pvalue=0.025347318677468325)

### 독립성검정 

- H0: 독립이다 / 연관이 없다 
- H1 :  성별과 등급간 관련이 있다 


In [153]:
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/body/body.csv')
# target = df[['측정회원성별', '등급']].value_counts().unstack()
target = pd.crosstab(df['측정회원성별'], df['등급'])

from scipy.stats import chi2_contingency
print(chi2_contingency(target))
# 귀무가설기각 관련이 있다 

Chi2ContingencyResult(statistic=120.06233631119409, pvalue=7.481892813401677e-26, dof=3, expected_freq=array([[1220.25, 1220.25, 1220.25, 1220.25],
       [2128.75, 2128.75, 2128.75, 2128.75]]))


In [170]:
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/fe2.csv',index_col=0)

target = df.iloc[:-1, :-1]
# target

from scipy.stats import chi2_contingency, fisher_exact
chi2_contingency(target)

# 귀무가설채택 > 독립이다

# 하지만 5보다 작은 셀이 20%가 넘어가므로(75%) 피셔의 정확검정을 사용 해야한다.
# 피셔의 정확검정시 0.03의 값을 가지므로 귀무가설을 기각한다. 성별과 참석여부는 관련이 있다. (독립이 아니다)) 
print(fisher_exact(target))
# 귀무가설기각 > 독립이아니다

SignificanceResult(statistic=18.0, pvalue=0.03571428571428571)


### 다중 회귀분석 

In [14]:
import pandas as pd 
import numpy as np 


from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
# x.head()

x = x[['age','sex','bmi']]

# 모델링 
## sklearn 라이브러리 활용하는 방법 
# 1. 모델링 
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x,y)
model.score(x,y) #Rsq 결정계수 

# 2. 회귀계수 
np.round(model.coef_,2) # x1, x2, x3에 대한 회귀계수 
np.round(model.intercept_,2) # 절편 

## statsmodel, formula 활용 
# 1. 모델링 
import statsmodels.api as sm 
x = sm.add_constant(x) # 상수항 추가 
model = sm.OLS(y, x).fit() # x, y 순서바뀜 
summary = model.summary() 
print(summary)
# 귀무가설 회귀계수 = 0


                            OLS Regression Results                            
Dep. Variable:                 target   R-squared:                       0.351
Model:                            OLS   Adj. R-squared:                  0.346
Method:                 Least Squares   F-statistic:                     78.94
Date:                Mon, 27 Nov 2023   Prob (F-statistic):           7.77e-41
Time:                        19:38:18   Log-Likelihood:                -2451.6
No. Observations:                 442   AIC:                             4911.
Df Residuals:                     438   BIC:                             4928.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        152.1335      2.964     51.321      0.0

### 상관분석 
H0 : 선형관계가 존재하지 않는다 (로우 = 0)
H1 : 선형관계가 존재한다 

In [18]:
# 데이터 로드 
import pandas as pd 
import numpy as np 
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']

# 상관분석할 2가지 변수 설정 
x = x['bmi'] 
y = y['target']

# 상관계수검정 
from scipy.stats import pearsonr 
# pearsonr(x,y)
r , pvalue = pearsonr(x,y)

# 검정통계량 
n = len(x) # 데이터의 수 
r2 = r**2 # 상관계수의 제곱 
statistic = r * ((n-2)**0.5) / ((1-r2)**0.5)
statistic ## 통계량 

## 귀무가설 기각  

15.18728957036531

### 로지스틱 회귀분석 

ln(p/1-p) = 회귀식 

In [31]:
import pandas as pd 
import numpy as np 

import seaborn as sns 
df = sns.load_dataset('titanic')
# df.head()

df = df[['survived', 'sex', 'sibsp','fare']]
# df.head()

df['sex'] = df['sex'].map({'female': 1 , 'male': 0})
df.head()

x = df.drop(columns=['survived'])
y = df[['survived']]

# 모델링 
# 1. 사이킷런
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(penalty=None) # 디폴트는 12이므로 꼭 설정해주기
model.fit(x, y)

model.coef_
model.intercept_

## 회귀계수 설명 
# 1 . sibsp 변수가 한단위 증가할 때 생존할 오즈가 몇 배 증가하는가?
np.exp(model.coef_[0,1]) 
# 해석 sivsp 변수가 한단위 증가할 때마다 생존할 오즈가 0.669배 증가한다 
# 생존할 오즈가 감소한다 

# 2. 로지스틱 회귀모형에서 여성일 경우 남성에 비해 오즈가 몇배 더 증가하는가?
np.exp(model.coef_[0,0])
# 오즈가 13.024배 증가 / 생존할 오즈가 13배 증가 

## statsmodel, formula 활용 
# 1. 모델링 
import statsmodels.api as sm 
x = sm.add_constant(x) # 상수항 추가 
model = sm.Logit(y, x).fit() # x, y 순서바뀜 
summary = model.summary() 
print(summary)


Optimization terminated successfully.
         Current function value: 0.483846
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:               survived   No. Observations:                  891
Model:                          Logit   Df Residuals:                      887
Method:                           MLE   Df Model:                            3
Date:                Mon, 27 Nov 2023   Pseudo R-squ.:                  0.2734
Time:                        20:11:26   Log-Likelihood:                -431.11
converged:                       True   LL-Null:                       -593.33
Covariance Type:            nonrobust   LLR p-value:                 5.094e-70
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.6964      0.129    -13.134      0.000      -1.950      -1.443
sex            2.5668      0.

  y = column_or_1d(y, warn=True)


0.6691783830064404