# PART 03. 통계분석

## 4장. 분산분석 (ANOVA)

In [1]:
# 데이터 핸들링을 위한 패키지
import numpy as np
import pandas as pd

# 통계를 위해 사용하는 패키지
from scipy import stats
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 시각화를 위한 패키지
from matplotlib import pyplot as plt
import seaborn as sns

# %matplotlib inline 의 목적은 plt.show()함수가 호출되지 않은 경우에도 matplotlib 다이어그램을 렌더링하는 것이다.
# 그러나 현재 업데이트된 버전의 주피터 노트북 버전에서는 %matplotlib inline 를 사용하지 않더라도 Matplotlib 다이어그램을 개체로 표현한다.
# 따라서 굳이 필요하지는 않다. 그러나 코드를 깨끗하게 유지하고 자신이 만든 플롯을 호출하기 위해 여전히 관례적으로 권장된다.
%matplotlib inline

# 경고 메시지 무시
import warnings
warnings.filterwarnings('ignore')

### 1절. 일원배치 분산분석

#### [Problem] 적합도 검정
- iris 데이터를 이용하여 종(Species)별로 꽃받침의 폭(Sepal.Width)의 평균이 같은지 혹은 차이가 있는지를 확인하기 위해 일원배치 분산분석을 수행해보자.

In [8]:
df_iris = pd.read_csv( 'C:/Users/Administrator/GitHub/TIL/ADP_study/rawdata/iris.csv',
                         index_col = 'Unnamed: 0' )

df_iris

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
146,6.7,3.0,5.2,2.3,virginica
147,6.3,2.5,5.0,1.9,virginica
148,6.5,3.0,5.2,2.0,virginica
149,6.2,3.4,5.4,2.3,virginica


In [27]:
## 귀무가설(H0) : 세 가지 종의 Sepal.Width의 평균은 같다.
## 대립가설(H1) : 세 가지 종의 Sepal.Width의 평균은 같지 않다.


df_one_anova = df_iris.drop( ['Sepal.Length', 'Petal.Length', 'Petal.Width'],
                             axis = 1 )
df_one_anova

Unnamed: 0,Sepal.Width,Species
1,3.5,setosa
2,3.0,setosa
3,3.2,setosa
4,3.1,setosa
5,3.6,setosa
...,...,...
146,3.0,virginica
147,2.5,virginica
148,3.0,virginica
149,3.4,virginica


In [26]:
# scipy.stats 패키지를 사용

type1 = df_one_anova[df_iris['Species'] == 'setosa' ]['Sepal.Width']
type2 = df_one_anova[df_iris['Species'] == 'versicolor' ]['Sepal.Width']
type3 = df_one_anova[df_iris['Species'] == 'virginica' ]['Sepal.Width']

one_anova_result = stats.f_oneway(type1, type2, type3)


print( f'F-Value: {one_anova_result[0]:.4f}    P-value: {one_anova_result[1]:.28f}' )

if one_anova_result[1] < 0.05:
    print("p-value < 0.05 이므로 귀무가설이 기각.")

print(one_anova_result)
print()

F-Value: 49.1600    P-value: 0.0000000000000000449201713331
p-value < 0.05 이므로 귀무가설이 기각.
F_onewayResult(statistic=49.160040089612075, pvalue=4.492017133309115e-17)



In [37]:
# statsmodels 패키지를 사용하여 일원분산 분석 실시

df_model = pd.DataFrame( df_iris,
                         columns = ['Sepal.Width', 'Species'] )

df_model

Unnamed: 0,Sepal.Width,Species
1,3.5,setosa
2,3.0,setosa
3,3.2,setosa
4,3.1,setosa
5,3.6,setosa
...,...,...
146,3.0,virginica
147,2.5,virginica
148,3.0,virginica
149,3.4,virginica


In [38]:
results = ols( 'Sepal.Width ~ C(Species)', data = df_model ).fit()

results.summary()

PatsyError: Error evaluating factor: NameError: name 'Sepal' is not defined
    Sepal.Width ~ C(Species)
    ^^^^^^^^^^^

In [None]:
# 데이터 셋에 대한 정보 확인
df_f_oneway.info()

In [None]:
# 결측치가 있는지 확인
df_f_oneway.isnull().sum()

In [None]:
# 업체별 데이터 갯수 확인
df_f_oneway['type'].value_counts()

In [None]:
# 기술통계량 확인
df_f_oneway.describe()