#### 단일 표본(One Sample t-test) 검정

In [25]:
"""
# 어떤 집단의 평균이 특정 값과 유의미하게 다른 지를 검정하는 통계 방법이다.
# 표본 - 표본 평균
# t-test(t-검정) - 유의 수준(0.05) 보다 작으면 통계적으로는 유의미하게 다르다.
# stats.ttest_1samp(데이터, popmean=모집단 평균, alternative)
# 예제 - 영화관에서 판매하는 팝콘의 무게가 평균적으로 120g인지를 검정
  - 귀무가설: 팝콘 라지 사이즈의 평균 무게는 120g이다.
  - 대립가설: 팝콘 라지 사이즈의 평균 무게는 120g이 아니다.
"""

import pandas as pd
import numpy as np
from scipy import stats

df = pd.DataFrame({
    'weights': [122,121,120,119,125,115,121,118,117,127,
                123,129,119,124,114,126,122,124,121,116,
                120,123,127,118,122,117,124,125,123,121]
})
df

# 양측검정 : 검정 통계량, p-값
# print(stats.ttest_1samp(df['weights'], 120))

t_statistic, p_value = stats.ttest_1samp(df['weights'], 120)

print("t_statistic:", t_statistic)
print("p_value:", p_value)
print("귀무가설 기각, 대립가설 채택")

t_statistic: 2.1155384372682344
p_value: 0.043092957066609296
귀무가설 기각, 대립가설 채택


#### 대응 표본 검정(Paired sample t-test)

In [29]:
"""
동일한 집단에 대해 시간차를 두고 두 번의 측정결과를 비교할 때 사용
# stats.ttest_rel(a 표본 데이터, b 표본데이터, alternative)
# 예제 - 어떤 기업이 새로운 교육 프로그램을 도입해 직원의 교육전과 후의 성과 검정
  - 귀무가설: 새로운 교육 프로그램은 효과가 없다.
  - 대립가설: 새로운 교육 프로그램은 효과가 있다.
"""

import pandas as pd
import numpy as np
from scipy import stats

df = pd.DataFrame({
    'before': [85, 90, 92, 88, 86, 89, 83, 87],
    'after': [85.5, 89.9, 92.6, 89.5, 85.8, 88.8, 84.6, 87.8]
})
df

# 표본 평균
df['diff'] = df['after'] - df['before']
d_mean = round(df['diff'].mean(), 2)
print(d_mean)

# 검정 통계량
# 단측 검정
# t_statistic, p_value = stats.ttest_rel(df['before'], df['after'], alternative='less')
# 단측 검정
t_statistic, p_value = stats.ttest_rel(df['after'], df['before'], alternative='greater')
print(result)
print("검정통계량:", round(t_statistic, 2))
print("p-값:", round(p_value, 2))
print("귀무가설 기각")

0.56
TtestResult(statistic=2.1818699281825236, pvalue=0.059589330071355334, df=8.272682358753572)
검정통계량: 2.21
p-값: 0.03
귀무가설 기각


#### 독립 표본 검정(Independent sample t-test)

In [39]:
"""
# 두 그룹(집단)간의 평균이 서로 다름을 판단하는 통계 방법
# ttest_ind(a, b, alternative, equal_val)
# 예제 - 어느 학교의 반별 수학 시험 평균 점수가 차이가 있는지 검정
  - 귀무가설: 반별 수학 평균 점수는 같다.
  - 대립가설: 반별 수학 평균 점수는 다르다.
"""

import pandas as pd
class1 = [85, 90, 92, 88, 86, 89, 83, 87]
class2 = [80, 82, 88, 85, 84]

from scipy import stats

# 모집단의 분산이 같은 경우
result = stats.ttest_ind(class1, class2, equal_var=True)
print(result)
print("검정통계량:", round(result.statistic, 3))
print("p-값:", round(result.pvalue, 3))
print("귀무가설 기각")

# 모집단의 분산이 다른 경우
result = stats.ttest_ind(class1, class2, equal_var=False)
print(result)
print("검정통계량:", round(result.statistic, 3))
print("p-값:", round(result.pvalue, 3))
print("귀무가설 기각하지 못함")

TtestResult(statistic=2.2108140580092237, pvalue=0.04914857789252186, df=11.0)
검정통계량: 2.211
p-값: 0.049
귀무가설 기각
TtestResult(statistic=2.1818699281825236, pvalue=0.059589330071355334, df=8.272682358753572)
검정통계량: 2.182
p-값: 0.06
귀무가설 기각하지 못함


### 분산 분석
#### 분산분석(ANOVA)은 여러 집단의 평균 차이를 통계적으로 유의미한지 검정하는 방법. <br><br>주로 3개 이상의 집단을 비교할 때 사용함
- 일원 분산 분석: 단일 요인의 수준 간 평균의 차이를 검정
- 이원 분산 분석: 두 요인의 수준 간 및 그들의 상호 작용이 평균에 미치는 영향을 검정

#### 일원 분산 분석(One-way ANOVA)

In [69]:
"""
# 분산 분석의 기본 가정은 독립 표본 t-검정과 매우 유사함
# f_oneway(sample1, sample2, sample3...)
# 예제 - 4종류의 비료를 사용한 식물의 성장에 대한 실험 결과
  - 귀무가설: 네 가지 비료의 효과는 동일하다.
  - 대립가설: 네 가지 비료의 효과에는 차이가 있다.
"""

import pandas as pd
df = pd.DataFrame({
    'A': [10.5, 11.3, 10.8, 9.6, 11.1, 10.2, 10.9, 11.4, 10.5, 10.3],
    'B': [11.9, 12.4, 12.1, 13.2, 12.5, 11.8, 12.2, 12.9, 12.4, 12.3],
    'C': [11.2, 11.7, 11.6, 10.9, 11.3, 11.1, 10.8, 11.5, 11.4, 11.0],
    'D': [9.8, 9.4, 9.1, 9.5, 9.6, 9.9, 9.2, 9.7, 9.3, 9.4]
})
print(df.head(2))

from scipy import stats

print("\n === 일원 분산 분석 ===")
result = stats.f_oneway(df['A'], df['B'], df['C'], df['D'])
print(result)
print("p-value 가 0.05보다 크므로 귀무가설을 기각하지 못한다.")

"""
# 일원 분산 분석(ols 활용)
 - statsmodels 라이브러리 사용
 - ols(formula, data) : 최소제곱 선형 회귀
 - formula: 종속변수 ~ 독립변수, '+'는 독립변수를 추가한다는 의미
 - data: 데이터프레임
"""

import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

df = pd.read_csv("fertilizer.csv")
print(df.head())

model = ols('성장 ~ 비료', df).fit()
print(anova_lm(model))
print("1.001838e-16->0.00000000000000001")
print("p-value 가 0.05보다 작으므로 귀무가설을 기각")

      A     B     C    D
0  10.5  11.9  11.2  9.8
1  11.3  12.4  11.7  9.4

 === 일원 분산 분석 ===
F_onewayResult(statistic=89.12613851177174, pvalue=1.001838152252373e-16)
p-value 가 0.05보다 크므로 귀무가설을 기각하지 못한다.
  비료    성장
0  A  10.5
1  A  11.3
2  A  10.8
3  A   9.6
4  A  11.1
            df    sum_sq    mean_sq          F        PR(>F)
비료         3.0  43.21875  14.406250  89.126139  1.001838e-16
Residual  36.0   5.81900   0.161639        NaN           NaN
p-value 가 0.05보다 작으므로 귀무가설을 기각


#### 이원 분산 분석(Two-way ANOVA)

In [67]:
"""
요인의 수가 2개인 경우
일원 분산 분석으로는 상호 작용의 효과를 알 수 없다.
- 나무(주효과)
- 비료(주효과)
- 상호작용효과
"""

import pandas as pd
df = pd.read_csv("tree.csv")
print(df.head())

import statsmodels.api as sm
from statsmodels.formula.api import ols

model = ols('성장률 ~  나무 + 비료 + 나무:비료', df).fit()
anova_table = sm.stats.anova_lm(model)
print(anova_table)

"""
# 결론
  - 나무 종류에 대한 효과
  - p-value는 9.016693e-10(0.000000000090) 이므로 나무 종류에 따른
    성장률에 유의미한 차이가 있다
    나무 종류와 비료 종류는 모두 성장률에 유의미한 영향을 준다
  - 나무와 비료 간의 상호작용은 성장률에 유의미한 영향을 주지 않는다.
"""

  나무  비료        성장률
0  A   1  54.967142
1  A   1  48.617357
2  A   1  56.476885
3  A   1  65.230299
4  A   1  47.658466
             df       sum_sq      mean_sq          F        PR(>F)
나무          3.0  4783.353938  1594.451313  18.391274  9.016693e-10
비료          1.0   873.322002   873.322002  10.073374  1.942421e-03
나무:비료       3.0   394.801585   131.600528   1.517952  2.137666e-01
Residual  112.0  9709.960792    86.696078        NaN           NaN


'\n# 결론\n  - 나무 종류에 대한 효과\n  - p-value는 9.016693e-10(0.000000000090) 이므로 나무 종류에 따른\n    성장률에 유의미한 차이가 있다\n\n나무 종류와 비료 종류는 모두 성장률에 유의미한 영향을 준다\n'