# 통계- 목적에 따른 분류
1. 기술통계 ( Descriptive Statistics )
 - 우리에게 주어진 데이터를 요약, 설명, 분석하는 통계기법을 의미
 - pandas 사용 (EDA - 탐색적 데이터 분석)
2. 추론/추리통계 (Inferential statistics )
 - 수집한 데이터 기반으로 예측하고 검정하는 통계기법을 의미
 - **통계적 가설 검정

## 통계적 가설 검정
 - **통계적 가설 검정: 표본으로 부터 얻은 가설을 통계적으로 검증하는 방법
 
     이 검정을 하기 위해 먼저 할 일은 가설을 정의:
     - 귀무가설 ( null hypothesis ) => H0 (H-zero)라 표현
     reject가 예상이 되는 가설.
     관계가 없고, 영향력이 없고, 관련이 없다.
     채택되기 원하는 가설이 아니다.
     - 대립가설 ( alternative hypothesis ) => H1 (H-one)라 표현
     관계가 있고, 영향력이 있다.
     채택되기 원하는 가설이다!
     - **대립가설 vs. 귀무가설
     대립가설은 증명하고자 하는 가설.
     귀무가설은 그 반대이다.
     - *기각영역
     - *임계값 ( ciritical value ) => CV
     - *유의수준 ( level of significance ) => 알파 기호로 표시
     유의수준(=!신뢰수준)이 결정되면 임계값을 계산할 수 있다.
     임계값이 계산되면 임계값을 기준으로,
     귀무가설, 대립가설이 채택된다.
     기각영역에 있는 가설이 채택된다!

- **통계적 가설검정의 중요성
    1. 머신러닝에 사용될 parameter를 분류하기 위해 사용
    2. 표본을 통해 모집단의 특성을 유추

### Exercise
    우리나라 남자들의 평균 수명은 75라고 한다.
    하지만 의학기술의 발달로 평균 수명이 증가했다라는 의견이
    나오고 있다. 그래서 최근에 사망한 남성 30명의 평균 수명을
    조사하였더니 평균 79세로 나왔다.
    어느 가설이 더 타당한지를 유의수준 10%로 검정.
    단, 모집단의 표준편차는 10.

In [1]:
import math

sample = math.sqrt(30) # square root of # of samples ~5.477
z = 1.28 # critical value 0.1 => z-score 1.28
std = 10 # standard deviation = 10
mean = 75 # mean = 75
# CV = Z * (std/sqrt(n of sample)) + mean
CV = (z * (std/sample)) + mean

"""
대립가설은 79, 임계값 77.33~임으로서,
대립가설은 기각영역에 속한다.
이로서 대립가설: 평균 수명이 올랐다가 채택됬고,
이에 대한 신뢰도는 90% 이다.
유의수준을 0.01 (신뢰도 99%)로 했다면 귀무가설이 채택된다..
"""
print(CV) # 77.336~

77.3369495786887


## 카이제곱 검정 (Chi-squared Test)
1.  범주별로 빈도만 구해진 범주형 데이터에 대해
    시행하는 독립성 검정 방법
2.  두 범주형 데이터에 대해 서로 연관성이
    있는가 혹은 그렇지 않을가를 알아보기 위한 검증방법

### Exercise
흡연량과 음주량 사이에 연관성이 있는가?
밑에 테이블 참고:

#### data table

In [4]:
import numpy as np
import pandas as pd
sample = np.array([[23,21,63],[31,48,159],[13,23,119]])
df = pd.DataFrame(sample,
            columns=["1갑 이상","1갑 이하","안피움"],
            index=["반병 이상","반병 이하","못마심"])
df["계"] = np.nan
df.loc["반병 이상","계"] = df.loc["반병 이상"].sum()
df.loc["반병 이하","계"] = df.loc["반병 이하"].sum()
df.loc["못마심","계"] = df.loc["못마심"].sum()
df.loc["계"] = np.nan
df.loc["계","1갑 이상"] = df["1갑 이상"].sum()
df.loc["계","1갑 이하"] = df["1갑 이하"].sum()
df.loc["계","안피움"] = df["안피움"].sum()
df.loc["계","계"] = df["계"].sum()

display(df)

Unnamed: 0,1갑 이상,1갑 이하,안피움,계
반병 이상,23.0,21.0,63.0,107.0
반병 이하,31.0,48.0,159.0,238.0
못마심,13.0,23.0,119.0,155.0
계,67.0,92.0,341.0,500.0


#### steps

    귀무가설 : 흡연과 주량은 연관성이 없다.
    대립가설 : 흡연과 주량은 연관성이 있다.
1. 범주별 기대값 구하기

        기대값("1갑이상", "반병이상") =
        ( ("1값 이상" 총 사람수/총수) * ("반병 이상" 총 사람수/총수) ) * 총 수
        즉, 67/500 x 107/500 x 500 = 0.02867 x 500 = 14.338

2. 각 범주별 카이제곱값을 구한다.

        x^2 = (관측값 - 기대값)^2 / 기대값
        
3. 전체 카이제곱 값 합하기
4. 카이제곱의 자유도 구하기

        자유도는 각 종목의 parameter수를 본으로 한다.
        예:
        흡연 Parameter수는 3개, 즉, 자유도는 2
        주량 parameter수는 3개, 즉, 자유도는 2
        전체 자유도는 자유도의 곱: 2x2 = 4

5. 검정 결과 도출
    - 카이제곱 분포표를 기준으로
        자유도와 알파값(유의수준)을 이용하여 카이제곱 값을 알아온다.
    - 자유도(4)와 알파값(0.05) => 9.49 (카이제곱 검정값)
    - 우리가 구한 카이제곱 값은 12.87 > 9.49
    - 구한 카이제곱 값이 검정값보다 높아야 채택!
    - 따라서 귀무가설을 기각하고 대립가설을 채택!

In [11]:
import math

# expected value = EV 기대치
EV = ((df.loc["계","1갑 이상"]/df.loc["계","계"])\
    *(df.loc["반병 이상","계"]/df.loc["계","계"]))*500

x1y1 = df.loc["반병 이상","1갑 이상"] # 관측값
# math.pow(v,power)하면 제곱값 계산 가능
chi = math.pow((x1y1-EV),2)/EV
chi # 5.23 나온다

5.232964430185522

### 답:
python에 scipy를 사용하면 된다!

미리 conda install scipy 해줘야 된다~

밑에 참고:

In [14]:
import numpy as np
from scipy import stats

arr = np.array([[23,21,63],
              [31,48,159],
              [13,23,119]])

chi2, pvalue, free, _table = stats.chi2_contingency(arr)
print("카이제곱 총 값: {}".format(chi2))
print("pvalue: {}".format(pvalue))
print("자유도: {}".format(free))

# 기대값 테이블
display(_table)

if pvalue < 0.05:
    print("대립가설 채택!")
else:
    print("기립가설 채택...")

카이제곱 총 값: 12.826630603041854
pvalue: 0.012154721873148373
자유도: 4


array([[ 14.338,  19.688,  72.974],
       [ 31.892,  43.792, 162.316],
       [ 20.77 ,  28.52 , 105.71 ]])

대립가설 채택!


## 독립표본 t검정 (2 sample t-test)

- 두 집단간의 평균 값의 차이가 통계적으로 의미가 있는지를 검정하는 방법
- 차이가 있는가, 혹은 차이가 무시할 정도인지를 판별!
    - 귀무가설 : 두 그룹간의 평균키의 차이가 없다.
    - 대립가설 : 두 그룹간의 평균키의 차이는 의미가 있다.

In [12]:
import numpy as np
from scipy import stats

# tip: 사용하지 않을 변수는 _라 표현한다!
group1 = [170 + np.random.normal(2,1) for _ in range(10)]
group2 = [174 + np.random.normal(0,3) for _ in range(10)]

print("Group1's average: {}".format(np.mean(group1)))
print("Group2's average: {}".format(np.mean(group2)))

# ttest_ind의 ind = independent
stats, pvalue = stats.ttest_ind(group1, group2)
print(pvalue)
if pvalue<0.05:
    print("대립가설 채택! 평균의 차이는 의미가 있다.")
else:
    print("귀립가설 채택... 평균의 차이는 의미가 없다.")

Group1's average: 172.2651385415681
Group2's average: 172.4445123073152
0.812533733321847
귀립가설 채택... 평균의 차이는 의미가 없다.


## 대응표본 t검정 (pared t-test)
- 특정 집단을 대상으로 실험 전과 실험 후의 차이가 통계적으로 의미가 있는지를 검정하는 방법
    - 즉, 실험 효과를 과학적으로 입증하고자 할때 사용
- 예: 다이어트약의 복용전과 복용후의 값을 통계적으로 검증
    - 귀무가설 : 복용전후의 체중의 차이가 없다.
    - 대립가설 : 복용전후의 체중의 차이가 있다.

In [201]:
import numpy as np
from scipy import stats

# 20명의 사람의 복용전 무게
before = [60 + np.random.normal(0,5) for _ in range(20)]
after = [w - np.random.normal(1,2) for w in before]
print(np.mean(before))
print(np.mean(after))

# ttest_rel의 rel = relative
stats, pvalue = stats.ttest_rel(before, after)
if pvalue<0.05:
    print("대립가설 채택! 약이 효과가 있다!")
else:
    print("귀립가설 채택... 약 효과 없음..")

60.042574056047854
58.695802740576006
대립가설 채택! 약이 효과가 있다!


## 분산분석 (ANOVA)
- t-test의 일부. 3개 이상의 데이터를 분석할떄 사용된다.

In [4]:
from scipy import stats

# 교육 훈련 데이터
# 이 4개의 교육 훈련의 차이가 있냐 없냐를 찾는다!
a = [67,45,98,67,34,22]
b = [56,48,80,37,32,62]
c = [47,47,58,37,84,12]
d = [77,65,38,87,24,32]

_, pvalue = stats.f_oneway(a,b,c,d)
print(pvalue) # 0.944~ > 0.05
# 이 교육훈련들의 차이가 없다는게 검증됬다.

0.9447776342385614
