In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats

In [2]:
diamonds = pd.read_excel("/SBA/diamonds.xlsx",
                        sheet_name = 0,
                        header     = 0)

2. Chi-Square test : 카이제곱 검정(두 개의 질적 자료 간의 관련성)  
2.1 Chi-Square  
2.2 Fisher's Exact Test

## 대응 2표본 검정(Paired Test)
동일한 개체를 대상으로 사전의 양적 자료와 사후의 양적 자료에  
차이가 있는지를 분석하는 방법

### 1. 대응 2표본 t검정(Paired t-test)
- 조건 : 사전 - 사후를 뺀 값은 정규분포를 따른다는 가정을 만족

In [3]:
# 가설검정 01
# 귀무가설 : 이부일 강사의 강의효과는 없다. (사전만족도 = 사후 만족도)
# 대립가설 : 이부일 강사의 강의효과는 있다. (사전만족도 < 사후 만족도)

In [4]:
satisfy = pd.read_excel(io = "d:/SBA/survey.xlsx", sheet_name = 0, header = 0)

In [5]:
satisfy

Unnamed: 0,name,pre,post
0,표세종,3,4
1,김수민,5,5
2,박소민,4,5
3,김양경,5,5
4,박주원,3,5
5,오효근,3,5
6,박라경,4,5
7,김상윤,1,5
8,정재무,3,5


In [6]:
# stats.ttest_rel(pre, post)
# rel : related

stats.ttest_rel(satisfy.pre, satisfy.post)

Ttest_relResult(statistic=-3.505839284808859, pvalue=0.008010251218035239)

In [7]:
# 결론
# -3.506 = t = 검정통계량
# 유의확률(p-value) : 0.008 / 2 = 0.004
# 유의확률이 0.004 이므로 유의수준 0.05 에서
# 이부일 강사의 강의효과는 통계적으로 매우 유의한 것으로 나타났다.

In [10]:
satisfy["difference"] = satisfy.pre - satisfy.post
satisfy

Unnamed: 0,name,pre,post,difference
0,표세종,3,4,-1
1,김수민,5,5,0
2,박소민,4,5,-1
3,김양경,5,5,0
4,박주원,3,5,-2
5,오효근,3,5,-2
6,박라경,4,5,-1
7,김상윤,1,5,-4
8,정재무,3,5,-2


In [11]:
satisfy.difference.describe()

count    9.000000
mean    -1.444444
std      1.236033
min     -4.000000
25%     -2.000000
50%     -1.000000
75%     -1.000000
max      0.000000
Name: difference, dtype: float64

In [13]:
# D mean = -1.44
# D std  = 1.24
t = (-1.44 - 0) / (1.24 / np.sqrt(9))
t

-3.4838709677419355

- - -

In [14]:
# 가설검정 02
# 귀무가설 : 다이어트는 몸무게를 줄이는 것에 효과가 없다. (사전 몸무게 = 사후 몸무게)
# 대립가설 : 다이어트는 몸무게를 줄이는 것에 효과가 있다. (사전 몸무게 > 사후 몸무게)

In [15]:
diet = pd.read_excel(io = "d:/SBA/diet.xlsx", 
                     sheet_name = 0, 
                     header = 0)

In [16]:
diet

Unnamed: 0,name,before,after
0,박지영,49,46
1,최한울,53,49
2,이가람,55,52
3,하예은,57,53
4,손정희,50,47
5,김남희,45,48
6,이우진,80,73
7,장재혁,67,62
8,이영은,47,44


In [17]:
stats.ttest_rel(diet.before, diet.after)

Ttest_relResult(statistic=3.603944642806961, pvalue=0.006942420396505738)

In [18]:
diet["difference"] = (diet.before - diet.after)
diet

Unnamed: 0,name,before,after,difference
0,박지영,49,46,3
1,최한울,53,49,4
2,이가람,55,52,3
3,하예은,57,53,4
4,손정희,50,47,3
5,김남희,45,48,-3
6,이우진,80,73,7
7,장재혁,67,62,5
8,이영은,47,44,3


In [19]:
# 결론
# 3.603 = t = 검정통계량
# 유의확률(p-value) : 0.007 / 2 = 0.003
# 유의확률이 0.003 이므로 유의수준 0.05 에서
# 다이어트는 몸무게를 줄이는 것에 효과가 있다.

- - -

## 2. 윌콕슨의 부호 순위 검정(Wilcoxon's signed rank test)
사전의 양적 자료에서 사후의 양적 자료를 뺀 값이  
정규성 가정을 만족하지 않을 때 사용 (즉 정규성 가정이 깨질 때 사용)

In [20]:
# 가설검정 01
# 귀무가설 : 이부일 강사의 강의효과는 없다. (사전만족도 = 사후 만족도).
# 대립가설 : 이부일 강사의 강의효과는 있다. (사전만족도 < 사후 만족도).

In [21]:
# stats.wilcoxon(pre, post, zero_method = "wilcox", alternative = )
stats.wilcoxon(satisfy.pre, satisfy.post,
               zero_method = "wilcox",
               alternative = "less")



WilcoxonResult(statistic=0.0, pvalue=0.008175610787902942)

In [22]:
# 결론

# 검정통계량 = w+ = 0.000
# 유의확률(p-value) = 0.008

# 유의확률이 0.008 이므로 유의수준 0.05 에서
# 이부일 강사의 강의효과는 통계적으로 매우 효과적인 것으로 나타났다.

- - -

In [23]:
# 가설검정 02
# 귀무가설 : 다이어트는 몸무게를 줄이는 것에 효과가 없다. (사전 몸무게 = 사후 몸무게)
# 대립가설 : 다이어트는 몸무게를 줄이는 것에 효과가 있다. (사전 몸무게 > 사후 몸무게)

In [24]:
stats.wilcoxon(diet.before, diet.after,
               zero_method = "wilcox",
               alternative = "greater")

WilcoxonResult(statistic=42.0, pvalue=0.009765625)

In [25]:
# 결론

# 검정통계량 = w+ = 42.0
# 유의확률(p-value) = 0.009

# 유의확률이 0.009 이므로 유의수준 0.05 에서
# 다이어트는 몸무게를 줄이는 것에 효과가 있다.

- - -

### 실행 단계

**만족도(Satisfy)**  
1단계 : 정규성 검정
 - 귀무가설 : (pre - post) 정규분포를 따른다.
 - 대립가설 : (pre - post) 정규분포를 따르지 않는다.

In [26]:
stats.shapiro(satisfy.difference)

ShapiroResult(statistic=0.8891119360923767, pvalue=0.19537223875522614)

결론  
유의확률이 0.195이므로 유의수준 0.05에서 정규성 가정을 만족한다.

In [27]:
# 2단계 : Paired t-test
stats.ttest_rel(satisfy.pre, satisfy.post)

Ttest_relResult(statistic=-3.505839284808859, pvalue=0.008010251218035239)

결론  
유의확률이 0.004 이므로 유의수준 0.05 에서  
이부일 강사의 강의는 통계적으로 매우 유의한 효과가 있는 것으로 나타났다.

 - - -

In [28]:
# Diet

# 1단계 : 정규성 검정
# 귀무가설 : (before - after) 정규분포를 따른다.
# 대립가설 : (before - after) 정규분포를 따르지 않는다.

stats.shapiro(diet.difference)

ShapiroResult(statistic=0.810143232345581, pvalue=0.026645243167877197)

결론  
유의확률이 0.02이므로 유의수준 0.05에서 정규성 가정이 깨짐.

In [30]:
# 2단계 : Wilcoxon's signed rank test
stats.wilcoxon(diet.before, 
               diet.after, 
               zero_method = "wilcox",
               alternative = "greater")

WilcoxonResult(statistic=42.0, pvalue=0.009765625)

결론  
유의확률이 0.009 이므로 유의수준 0.05 에서  
다이어트는 살을 빼는데 효과적인 것으로 나타났다.

 - - -
 - - -

## 카이제곱검정(Chi-Square test) = 교차분석
 - 두 개의 질적 자료 간에 통계적으로 의미 있는 관계(관련성)가 있는지 분석하는 방법

귀무가설 : cut(품질)과 color(색상) 간에는 관련성이 없다.  
대립가설 : cut(품질)과 color(색상) 간에는 관련성이 있다.  
  
cut   : 질적 자료(5개의 범주로 구성되어 있음)  
color : 질적 자료(7개의 범주로 구성되어 있음)

In [37]:
# result = pandas.crosstab(질적 자료, 질적 자료)
# stats.chi2_contingency(observed = result)

result = pd.crosstab(diamonds.cut, diamonds.color)
result

color,D,E,F,G,H,I,J
cut,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Fair,163,224,312,314,303,175,119
Good,662,933,909,871,702,522,307
Ideal,2834,3903,3826,4884,3115,2093,896
Premium,1603,2337,2331,2924,2360,1428,808
Very Good,1513,2400,2164,2299,1824,1204,678


In [38]:
stats.chi2_contingency(observed = result)

(310.31790052115434,
 1.394512091985105e-51,
 24,
 array([[ 202.22005933,  292.42065258,  284.80941787,  337.04338154,
          247.85761958,  161.83574342,   83.8131257 ],
        [ 616.2059696 ,  891.06566555,  867.87267334, 1027.04026696,
          755.27296997,  493.1466815 ,  255.39577308],
        [2706.85993697, 3914.25930664, 3812.37749351, 4511.56640712,
         3317.7512792 , 2166.28702262, 1121.89855395],
        [1732.18437152, 2504.82808676, 2439.63147942, 2887.05917686,
         2123.1083426 , 1386.25884316,  717.92969967],
        [1517.52966259, 2194.42628847, 2137.30893585, 2529.29076752,
         1860.00978865, 1214.47170931,  628.96284761]]))

In [39]:
# 결과 해석

# (1) 310.31790052115434    : Chi-Square 값 (소수점 셋째자리까지 표현)
# (2) 1.394512091985105e-51 : p-value
# (3) 24                    : df(degree of freedom)
# (4)                       : 기대치(Expected Value)

In [40]:
# 결론
# 유의확률이 0.000 이므로 유의수준 0.05에서
# cut 과 color 간에는 통계적으로 유의한 관련성이 있는 것으로 나타났다.

 -- -

In [42]:
# 귀무가설 : cut(품질)과 clarity(투명도) 간에는 관련성이 없다.  
# 대립가설 : cut(품질)과 clarity(투명도) 간에는 관련성이 있다.

# cut     : 질적 자료(5개의 범주로 구성되어 있음)  
# clarity : 질적 자료(8개의 범주로 구성되어 있음)

In [43]:
result = pd.crosstab(diamonds.cut, diamonds.clarity)
result

clarity,I1,IF,SI1,SI2,VS1,VS2,VVS1,VVS2
cut,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Fair,210,9,408,466,170,261,17,69
Good,96,71,1560,1081,648,978,186,286
Ideal,146,1212,4282,2598,3589,5071,2047,2606
Premium,205,230,3575,2949,1989,3357,616,870
Very Good,84,268,3240,2100,1775,2591,789,1235


In [44]:
stats.chi2_contingency(observed = result)

(4391.398067200364,
 0.0,
 28,
 array([[  22.11735261,   53.42788283,  389.96384872,  274.4223211 ,
          243.88783834,  365.87652948,  109.09436411,  151.20986281],
        [  67.39610679,  162.80571005, 1188.29977753,  836.22106044,
          743.17623285, 1114.90077864,  332.43288839,  460.76744531],
        [ 296.05656285,  715.17037449, 5219.94466073, 3673.33878383,
         3264.61292176, 4897.51868743, 1460.30598813, 2024.05202076],
        [ 189.45367075,  457.65461624, 3340.36735261, 2350.65728587,
         2089.1038376 , 3134.03926585,  934.48470523, 1295.23926585],
        [ 165.97630701,  400.94141639, 2926.4243604 , 2059.36054876,
         1830.21916945, 2745.6647386 ,  818.68205413, 1134.73140527]]))

In [45]:
# 결론
# 유의확률이 0.000 이므로 유의수준 0.05에서
# cut 과 clarity 간에는 통계적으로 유의한 관련성이 있는 것으로 나타났다.