# PART 03. 통계분석

## 3장. 교차분석

In [4]:
# 연산 처리를 위한 패키지
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 시각화를 위한 패키지
from matplotlib import pyplot as plt
import seaborn as sb

# %matplotlib inline 의 목적은 plt.show()함수가 호출되지 않은 경우에도 matplotlib 다이어그램을 렌더링하는 것이다.
# 그러나 현재 업데이트된 버전의 주피터 노트북 버전에서는 %matplotlib inline 를 사용하지 않더라도 Matplotlib 다이어그램을 개체로 표현한다.
# 따라서 굳이 필요하지는 않다. 그러나 코드를 깨끗하게 유지하고 자신이 만든 플롯을 호출하기 위해 여전히 관례적으로 권장된다.
%matplotlib inline

# 경고 메시지 무시
import warnings
warnings.filterwarnings('ignore')

### 2절. 적합성 검정

#### [Problem] 적합도 검정
- survey 데이터에서 W.Hnd 변수는 설문 응답자가 왼손잡이(Left) 인지 오른손잡이(Right) 인지를 나타낸다.
- W.Hnd 변수에 대한 분할표를 생성하고, 아래와 같은 가설에 대한 적합도 검정을 수행하라.
-
- 귀무가설 : 전체 응답자 중 왼손잡이의 비율이 20%, 오른손잡이의 비율이 80%이다.
- 대립가설 : 전체 응답자 중 왼손잡이의 비율이 20%, 오른손잡이의 비율이 80%라고 할 수 없다.

In [18]:
df_survey = pd.read_csv( 'C:/Users/Administrator/GitHub/TIL/ADP_study/rawdata/survey.csv',
                         index_col = 'Unnamed: 0' )

df_survey

Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age
1,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.0,Metric,18.250
2,Male,19.5,20.5,Left,R on L,104.0,Left,,Regul,177.8,Imperial,17.583
3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,,,16.917
4,Male,18.8,18.9,Right,R on L,,Neither,,Never,160.0,Metric,20.333
5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.0,Metric,23.667
...,...,...,...,...,...,...,...,...,...,...,...,...
233,Female,18.0,18.0,Right,L on R,85.0,Right,Some,Never,165.1,Imperial,17.667
234,Female,18.5,18.0,Right,L on R,88.0,Right,Some,Never,160.0,Metric,16.917
235,Female,17.5,16.5,Right,R on L,,Right,Some,Never,170.0,Metric,18.583
236,Male,21.0,21.5,Right,R on L,90.0,Right,Some,Never,183.0,Metric,17.167


In [29]:
pd.crosstab( df_survey['W.Hnd'] )

TypeError: crosstab() missing 1 required positional argument: 'columns'

In [8]:
# 적합성 검정

## 귀무가설(H0) : 전체 응답자 중 왼손잡이의 비율이 20%, 오른손잡이의 비율이 80%이다.
## 대립가설(H1) : 전체 응답자 중 왼손잡이의 비율이 20%, 오른손잡이의 비율이 80%라고 할 수 없다.


pd.crosstab(df_survey['W.Hnd'])

TypeError: crosstab() missing 1 required positional argument: 'columns'

In [17]:
import pandas as pd
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'], 
        'company': ['infantry', 'infantry', 'cavalry', 'cavalry', 'infantry', 'infantry', 'cavalry', 'cavalry','infantry', 'infantry', 'cavalry', 'cavalry'], 
        'experience': ['veteran', 'rookie', 'veteran', 'rookie', 'veteran', 'rookie', 'veteran', 'rookie','veteran', 'rookie', 'veteran', 'rookie'],
        'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'], 
        'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['regiment', 'company', 'experience', 'name', 'preTestScore', 'postTestScore'])
df


Unnamed: 0,regiment,company,experience,name,preTestScore,postTestScore
0,Nighthawks,infantry,veteran,Miller,4,25
1,Nighthawks,infantry,rookie,Jacobson,24,94
2,Nighthawks,cavalry,veteran,Ali,31,57
3,Nighthawks,cavalry,rookie,Milner,2,62
4,Dragoons,infantry,veteran,Cooze,3,70
5,Dragoons,infantry,rookie,Jacon,4,25
6,Dragoons,cavalry,veteran,Ryaner,24,94
7,Dragoons,cavalry,rookie,Sone,31,57
8,Scouts,infantry,veteran,Sloan,2,62
9,Scouts,infantry,rookie,Piger,3,70


In [25]:


Hnd_R = df_survey[ df_survey['W.Hnd'] == 'Right' ]['W.Hnd']

Hnd_L = df_survey[ df_survey['W.Hnd'] == 'Left' ]['W.Hnd']

display(Hnd_R)
print(0)
display(Hnd_L)

1      Right
3      Right
4      Right
5      Right
6      Right
       ...  
233    Right
234    Right
235    Right
236    Right
237    Right
Name: W.Hnd, Length: 218, dtype: object

0


2      Left
18     Left
51     Left
60     Left
64     Left
81     Left
90     Left
118    Left
119    Left
124    Left
134    Left
137    Left
145    Left
162    Left
172    Left
176    Left
209    Left
212    Left
Name: W.Hnd, dtype: object

#### [Problem] 일표본 T-검정
- cats 데이터에서 고양이들의 평균몸무게가 2.6kg인지 아닌지에 대한 통계적 검정을 수행하고, 결과를 해석하라.

In [None]:
# 일표본 T-검정 수행

# stats.wilcoxon( x,  # 첫 번째 측정 집합. 1차원이어야 한다.
#                     # 1-sample wilcoxon test일 경우 'x - 예상치' 입력
#                 y = None,  # 두번째 측정값 집합. 1차원이어야 한다. 기본값은 None
#                 zero_method = 'wilcox',  # 기본값은 'wilcox'
#                                          # " Wilcox ": 기본값인 모든 0차를 버립니다.
#                                          # "pratt": 순위 결정 과정에서 0차를 포함하지만 0의 순위를 떨어뜨립니다.
#                                          # "zsplit": 순위 프로세스에 0차를 포함하고 0 순위를 양수와 음수 사이에 나눕니다.
#                 correction = False,  # 기본값은 False.
#                                      # True 로 설정하면, 정규 근사가 사용되는 경우 z-통계량을 계산할 때 
#                                       평균값을 향해 Wilcoxon 순위 통계량을 0.5 조정하여 연속성 수정을 적용한다.
#                 alternative = 'two-sided',  # 양측/단측 검정 설정. 기본값은 ‘two-sided’
#                                             # 양측검정은 ‘two-sided’
#                                             # 단측검정은 ‘less’ 또는 ‘greater’
#                 mode = 'auto' )  # p-값을 계산하는 데 사용되는 분포를 정의. 기본값은 'auto'
#                                  # 'auto' : 옵션들 중 하나를 선택
#                                  # 'exact' : 검정 통계량의 정확한 분포를 사용
#                                  # 'approx' : 단측 확률의 두 배인 양측 확률을 근사
#                                  # 'asymp': 검정 통계량의 점근 분포를 사용


## 귀무가설(H0) : 고양이들의 평균 몸무게는 2.6 (kg)이다.
## 대립가설(H1) : 고양이들의 평균 몸무게는 2.6 (kg)이 아니다.

wilcoxon_cats = stats.wilcoxon( df_cats['Bwt'] - 2.6 )

print( 'Statistic(1-sample wilcoxon result): %.3f ,   P-value: %.28f' % wilcoxon_cats )
print()

In [None]:
# 단일 표본 t-test 실시

## 독립 관측치 a 표본의 기대값(평균)이 주어진 모집단 평균 popmean 과 같다는 귀무 가설에 대한 검정

# stats.ttest_1samp( a,  # 검정을 수행할 대상 (배열)
#                    popmean,  # 귀무가설의 기대값.
#                    axis = 0,  # a 배열에서 검정을 수행할 축 지정. 기본값은 0
#                               # axis = None 이면 전체 배열을 계산
#                    nan_policy = 'propagate',  # 입력된 데이터에 NaN 값이 포함된 경우의 처리 방법. 기본값은 ‘propagate’
#                                               # ‘propagate’ : NaN 을 반환한다.
#                                               # ‘raise’: 에러를 발생시킨다.
#                                               # ‘omit’: NaN 값을 무시하고 계산 수행
#                    Alternative = 'two-sided' )  # 양측/단측 검정 설정. 기본값은 ‘two-sided’
#                                                 # 양측검정은 ‘two-sided’
#                                                 # 단측검정은 ‘less’ 또는 ‘greater’


## 귀무가설(H0) : 고양이들의 평균 몸무게는 2.6 (kg)이다.
## 대립가설(H1) : 고양이들의 평균 몸무게는 2.6 (kg)이 아니다.

one_t_cats = stats.ttest_1samp( df_cats['Bwt'], 2.6 )

print( 'Statistic(t_value) : %.3f ,   P-value : %.28f' % one_t_cats )
print()

In [None]:
# kde(Kerner Density Estimation): 구해진 히스토그램을 정규화한 뒤 확률밀도함수로 사용

ax = sb.distplot( df_cats['Bwt'],
                  kde = False,    # 가우스 커널 밀도 추정값을 그릴지 여부
                  fit = stats.norm,    # 랜덤 변수 객체
                  label = "cats",
                  color = 'blue')

ax.set(xlabel = "The weight for cats")

plt.legend()
plt.show()

### 2절. 대응표본 T-검정 (Paired Sample T-Test)

#### [Problem] Paired Sample T-Test
- 10명의 환자를 대상으로 수면영양제를 복용하기 전과 후의 수면시간을 측정하여 영양제의 효과가 있는지를 판단하고자 한다. 
- 영양제 복용 전과 후의 평균 수면시간에 차이가 있는지를 알아보는데, 단측검정을 수행하여 영양제 복용 후에 수면시간이 더 늘어났는지를 검정해보라.
- (표본이 정규성을 만족한다는 가정 하에 단측검정 수행, 유의수준 = 0.05)
- ※ 수면 영양제 복용 전 10명 환자들 각각의 수면시간 :  7, 3, 4, 5, 2, 1, 6, 6, 5, 4
- ※ 수면 영양제 복용 후 10명 환자들 각각의 수면시간 :  8, 4, 5, 6, 2, 3, 6, 8, 6, 5

In [None]:
# 데이터를 array 로 생성

before = np.array( [7, 3, 4, 5, 2, 1, 6, 6, 5, 4] )
after = np.array( [8, 4, 5, 6, 2, 3, 6, 8, 6, 5] )

In [None]:
# 대응표본 T-검정 수행

# stats.ttest_rel( a, b,    # a, b 두 배열은 shape 이 같아야 한다.
#                  axis = 0,  # a 배열에서 검정을 수행할 축 지정. 기본값은 0
#                             # axis = None 이면 전체 배열을 계산
#                  nan_policy = 'propagate',  # 입력된 데이터에 NaN 값이 포함된 경우의 처리 방법. 기본값은 ‘propagate’
#                                             # ‘propagate’ : NaN 을 반환한다.
#                                             # ‘raise’: 에러를 발생시킨다.
#                                             # ‘omit’: NaN 값을 무시하고 계산 수행
#                  Alternative = 'two-sided' )  # 양측/단측 검정 설정. 기본값은 ‘two-sided’
#                                               # 양측검정은 ‘two-sided’
#                                               # 단측검정은 ‘less’ 또는 ‘greater’


## 귀무가설(H0) : ( 복용 전 평균수면시간 - 복용 후 평균 수면시간 ) = 0
## 대립가설(H1) : ( 수면영양제 복용 전 평균수면시간 - 복용 후 평균 수면시간 ) < 0

# 단측 검정으로 대응표본 t-test 시행
paired_t_test = stats.ttest_rel( before, after,
                                 alternative = 'less')

print('Statistic(t-Value) : %.3f \n           P-value : %.6f' % paired_t_test)
print()

In [None]:
# 평균
diff_result = before - after
print( diff_result.mean() )
print()

In [None]:
plt.figure(figsize=(16,12))

ax1 = plt.subplot(221)
ax1 = sb.distplot(before, kde=False, fit=stats.gamma, label="before", color = 'blue')
ax1.set(xlabel = "sleep time", title = "sleep time, Before")
plt.legend()

ax2 = plt.subplot(222)
ax2 = sb.distplot(after, kde=False, fit=stats.gamma, label="after", color = 'red')
ax2.set(xlabel = "sleep time", title = "sleep time, After")

plt.legend()
plt.show()

In [None]:
ax3 = plt.subplots()
ax3 = sb.distplot(before, kde=False, fit=stats.gamma, label="before",color = 'blue')
ax3 = sb.distplot(after, kde=False, fit=stats.gamma, label="after", color = 'red')
ax3.set(xlabel = "sleep time", title = "sleep time, Before vs After")

plt.legend()
plt.show()

### 3절. 독립표본 T-검정 (Independent Sample T-Test)

#### [Problem] Independent Sample T-Test
- MASS패키지의 cats 데이터는 고양이들의 성별(Sex 변수), 몸무게(Bwt 변수), 심장의 무게(Hwt 변수)를 담고있다. 고양이들의 성별(Sex)에 따른 몸무게(Bwt)의 평균은 통계적으로 다르다고 할 수 있는지에 대한 검정을 수행하고, 결과를 해석하라.

In [None]:
df_cats = pd.read_csv('C:/Users/Administrator/GitHub/TIL/ADP_study/rawdata/cats.csv',
                       index_col = 'Unnamed: 0')

df_cats

In [None]:
cats_bwt_m = df_cats[ df_cats['Sex'] == 'M' ]['Bwt']

cats_bwt_f = df_cats[ df_cats['Sex'] == 'F' ]['Bwt']

print('< cats_Bwt_M >')
display( cats_bwt_m.head() )
print()
display( cats_bwt_m.describe() )
print('\n')
print('< cats_Bwt_F >')
display( cats_bwt_f.head() )
print()
display( cats_bwt_f.describe() )

In [None]:
# 등분산 검정(1) Bartlett's Test

# stats.bartlett( sample1, sample2,… )


## 귀무가설(H0) : 두 집단의 분산이 동일하다.
## 대립가설(H1) : 두 집단의 분산이 동일하지 않다.

bartlett_test = stats.bartlett( cats_bwt_m, cats_bwt_f )

print( "Statistic(Bartlett's test) : %.3f \n                   P-value : %.6f" % bartlett_test )
print()

In [None]:
# 등분산 검정(2) Fligner’s Test

# stats.fligner( sample1, sample2,…,
#                center = 'median',
#                proportiontocut = 0.05 )


## 귀무가설(H0) : 두 집단의 분산이 동일하다.
## 대립가설(H1) : 두 집단의 분산이 동일하지 않다.

fligner_test = stats.fligner( cats_bwt_m, cats_bwt_f,
                              center = 'median',
                              proportiontocut = 0.05 )

print( "Statistic(Fligner’s Test) : %.3f \n                  P-value : %.6f" % fligner_test )
print()

In [None]:
# 등분산 검정(3) Levene's Test

# stats.levene( sample1, sample2,…,
#               center = 'median',
#               proportiontocut = 0.05 )


## 귀무가설(H0) : 두 집단의 분산이 동일하다.
## 대립가설(H1) : 두 집단의 분산이 동일하지 않다.

levene_test = stats.levene( cats_bwt_m, cats_bwt_f,
                            center = 'median',
                            proportiontocut = 0.05 )

print("Statistic(Levene's Test) : %.3f \n                 P-value : %.6f" % levene_test )
print()

In [None]:
# 독립표본 T-검정

In [None]:




# 독립 표본 t 검정, equal_var = True 분산차이는 없다
indepen_t_test = stats.ttest_ind( cats_bwt_m, cats_bwt_f,
                                  alternative = 'two-sided',
                                  equal_var = False )

print('Statistic(t-Value) : %.3f \n           P-value : %.28f' % indepen_t_test)