# 대표 통계량
데이터 위치, 데이터 분포, 데이터 산포

- 평균, 중앙값, 최빈값
- 분산, 표준편차
- 왜도, 첨도

# 가설검정
귀무가설, 대립가설, 기각역, 유의수준, 신뢰수준, 신뢰구간, 임계치

- t검정 (단일표본 t검정, 독립표본 t검정, 쌍체표본 t검정)

- 분산분석 (일원배치 분산분석, 이원배치 분산분석)

- 상관분석 

## t검정

### 단일표본 t검정

정규성 검정(표본이 적을때) -> 단일표본 t검정 수행(하나의 집단의 평균을 특정값과 비교)

정규성을 띄지 않을때는 비모수적 방법인 부호검정, 순위합검정 등 시행

*   귀무가설 : 집단의 평균은 m이다.
*   대립가설 : 집단의 평균은 m이 아니다. or 집단의 평균은 m보다 크다(작다).

In [None]:
# 정규성 검정

import scipt.stats import *
kstest(data, 'norm') # p-value가 0.0 < 0.05으로 정규성을 띈다고 볼 수 있음 

In [None]:
# 단일 표본 t 검정 수행

print(ttest_1samp(data, 163)) 

# pvalue가 0.05 미만이므로 영가설 (data의 평균 == 163) 기각
# 통계량이 음수이므로 data이 평균 < 163임을 알 수 있음

### 독립표본 t검정

정규성 검정 -> 등분산 검정 -> 독립표본 t검정(2개의 집단 평균을 비교)



*   귀무가설 : 두 집단의 평균은 같다
*   대립가설 : 두 집단의 평균은 같지 않다



In [None]:
# kstest를 이용한 정규성 검정: 모두 정규 분포를 띔을 확인

print(kstest(group_A, 'norm'))
print(kstest(group_B, 'norm'))

In [None]:
# 등분산 검정

levene(group_A, group_B) # pvalue가 0.05 미만이 아니므로, 등분산을 띈다고 볼 수 있음

In [None]:
# A와 B간에는 차이가 존재함을 확인 

print(ttest_ind(group_A, group_B, equal_var = True)) #equal_var는 등분산인지 아닌지 기입, 등분산 여부에 따라 방식이 다름

# 나오는 값에 부호에 따라 어느쪽이 큰 지 알 수 있음
# p-value 가 0.05 미만이면 귀무가설 기각, 대립가설 채택

### 쌍체표본 t분포

동일한 집단의 사전, 사후에 대한 차이를 보려고 할 때 사용

*   귀무가설 : 두 시점의 값의 차이는 0 이다.
*   대립가설 : 두 시점의 값의 차이는 0이 아니다. or 두 시점의 값의 차이는 0보다 크다(작다)

실험 전과 후의 측정값(X,Y) 은 정규분포를 따르지 않아도 됌
측정 값의 차이인 d는 정규성을 가져야 한다.


In [None]:
# 정규성 검정

kstest(after - before, 'norm')

In [None]:
ttest_rel(before, after) # 확실한 양의 효과가 있음을 확인

# (주의) 반드시 길이가 같아야 한다

## 분산분석(ANOVA)

분산분석은 F분포를 따른다.

### 일원배치 분산분석 

셋 이상의 그룹 간 차이가 존재하는지를 확인하기 위한 가설검정 방법

선행조건 - 독립성, 정규성, 등분산성

순서 : 박스플롯 그려서 데이터 확인 -> 정규성 확인 -> 일원분산 수행 -> 사후 분석

In [None]:
# 정규성 검정: 세 변수 모두 정규 분포를 띔을 확인
from scipy.stats import *
print(kstest(A, 'norm'))
print(kstest(B, 'norm'))
print(kstest(C, 'norm'))



In [None]:
# 일원분산분석 수행: p-value가 거의 0에 수렴 => A, B, C의 평균은 유의한 차이가 존재
print(f_oneway(A, B, C))

from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

model = ols('weight ~ C(group)', df).fit()
anova_lm(model)

# 정규성을 띄지 않을 경우에는 
kruskal(group1, group2, group3)

In [None]:
# 사후 분석
from statsmodels.stats.multicomp import pairwise_tukeyhsd
Group = ['A'] * len(A) + ['B'] * len(B) + ['C'] * len(C)
Data = A.tolist() + B.tolist() + C.tolist()

print(pairwise_tukeyhsd(Data, Group))

# 결론: [A, B] / [C]로 데이터가 구분됨
# A ~ B는 유의한 차이가 존재하지 않음
# A ~ C는 유의한 차이 존재
# B ~ C는 유의한 차이 존재 




### 이원배치 분산분석

## 상관분석

두 연속형 변수 간에 어떠한 선형관계를 갖는지 파악


*   귀무가설 : 두 변수 간에는 유의미한 상관성이 존재하지 않는다.
*   대립가설 : 두 변수간에는 유의미한 상관성이 존재한다.
*   시각화 방법 : 산점도, 히트맵

**피어슨 상관계수 - 두 변수 모두 연속형 변수일때 사용하는 상관계수**

**스피어만 상관계수 - 두 변수의 순위 사이의 단조 관련성을 측정하는 상관계수**

In [None]:
# 피어슨 상관계수를 나타내는 방법

# 1. corr이용
df.drop('일자', axis = 1).corr(method = 'pearson')

# 2. scipy.stats의 pearsonr 이용
from scipy.stats import *
print(pearsonr(df['금값'], df['은값']))
print(pearsonr(df['금값'], df['달러 환율']))
print(pearsonr(df['은값'], df['달러 환율']))

# 3. for 문과 intertools 이용하여 보기좋게 출력
import itertools
target_columns = ['금값', '은값', '달러 환율']
for col1, col2 in itertools.combinations(target_columns, 2):
    result = pearsonr(df[col1], df[col2])
    print("{} ~ {}: coef:{}, p-value: {}".format(col1, col2, result[0], result[1]))

In [None]:
# 스피어만 상관계수 나타내는 방법

# 1. corr이용
df.drop('일자', axis = 1).corr(method = 'spearman')

# 2. scipy.stats의 spearmanr 이용
from scipy.stats import *
print(spearmanr(df['금값'], df['은값']))
print(spearmanr(df['금값'], df['달러 환율']))
print(spearmanr(df['은값'], df['달러 환율']))

# 3. for 문과 intertools 이용하여 보기좋게 출력
import itertools
target_columns = ['금값', '은값', '달러 환율']
for col1, col2 in itertools.combinations(target_columns, 2):
    result = spearmanr(df[col1], df[col2])
    print("{} ~ {}: coef:{}, p-value: {}".format(col1, col2, result[0], result[1]))

In [None]:
# pairplot으로 변수간 관계 확인
corrr = titanic.corr(method='pearson')
sns.pairplot(data=corrr)
plt.show

## 카이제곱검정(교차분석)

두 범주형 변수가 서로 독립적인지 검정


*   귀무가설 : 두 변수가 서로 독립이다.
*   대립가설 : 두 변수가 서로 종속된다.
*   시각화 방법 : 교차테이블

- 카이제곱검정에 사용하는 카이제곱 통계량은 기대값과 실제값의 차이를 바탕으로 정의됨
- 기대값과 실제값의 차이가 클수록 통계량이 커지며, 통계량이 커질수록 귀무가설이 기각될 가능성이 높아짐(p-value가 감소)


In [None]:
# 교차 테이블 생성
cross_table = pd.crosstab(df['만족도'], df['성별'])
cross_table

In [None]:
# ndarray 형식으로 만들어 줌(scipy 사용하니까)
obs = cross_table.values
obs

In [None]:
from scipy.stats import *

# 통계량, p-value, 자유도, 기대값
statistics, pvalue, dof, expected = chi2_contingency(obs)
print(pvalue) # pvalue가 0.0018로 두 변수 간 독립이 아님을 확인

In [None]:
# 기대값
pd.DataFrame(expected, columns = cross_table.columns, index = cross_table.index)