#### 단일 표본 검정

In [20]:
"""
# 어떤 집단의 평균이 특정 값과 유의미하게 다른 지를 검정하는 통계 방법
# t-test(t 검정) : 유의 수준(0.05)보다 작으면 유의미하다.
# scipy 라이브러리 - stats.ttest_1samp(데이터, 모집단평균, alternative)
# 예제 - 영화관에서 판매하는 팝콘의 무게가 평균적으로 120g 인지 검정
  - 귀무가설: 팝콘 라지 사이즈의 평균 무게는 120g이다.
  - 대립가설: 팝콘 라지 사이즈의 평균 무게는 120g이 아니다.
"""
import pandas as pd
from scipy import stats

df = pd.DataFrame({
    'weights':[122, 121, 120, 119, 125, 115, 121, 118, 117, 127,
           123, 129, 119, 124, 114, 126, 122, 124, 121, 116,
           120, 123, 127, 118, 122, 117, 124, 125, 123, 121],
})
df

# print(df['weights'].mean())
print(stats.ttest_1samp(df['weights'], 120))
# result = stats.ttest_1samp(df['weights'], 120)
# print("검정 통계량:", result.statistic)
# print("p-value:", result.pvalue)
# print("귀무가설 기각")

t_statistic, p_value = stats.ttest_1samp(df['weights'], 120)
print("검정 통계량:", t_statistic)
print("p-value:", p_value)

TtestResult(statistic=2.1155384372682344, pvalue=0.043092957066609296, df=29)
검정 통계량: 2.1155384372682344
p-value: 0.043092957066609296


#### 대응 표본 검정(Paired sample t-test)

In [34]:
"""
# 동일한 집단(그룹)에 대해 시간차를 두고 두 번의 측정 결과를 비교
# stats.ttest_rel(a 표본데이터, b, alternative)
# 예제 - 어떤 기업이 새로운 교육 프로그램을 도입해 교육 전과 후의 성과 검정
  - 귀무가설 : 새로운 교육프로그램은 효과가 없다.
  - 대립가설 : 새로운 교육프로그램은 효과가 있다.
"""

import pandas as pd

df = pd.DataFrame({
    'before':[85, 90, 92, 88, 86, 89, 83, 87],
    'after':[85.5,89.9,92.6,89.5,85.8,88.8,84.6,87.8]
})

# 표본 평균
df['diff'] = df['after'] - df['before']
d_mean = df['diff'].mean()
print(round(d_mean, 2))

# 단측 검정
t_statistic, p_value = stats.ttest_rel(df['before'], df['after'], alternative='less')
# t_statistic, p_value = stats.ttest_rel(df['after'], df['before'], alternative='greater')
print("검정 통계량:", t_statistic)
print("p-value:", p_value)
print("귀무가설 기각, 대립가설 채택")

0.56
검정 통계량: -2.2127749675452324
p-value: 0.03127028733756238
귀무가설 기각, 대립가설 채택


#### 독립 표본 검정(Independent sample t-test)

In [45]:
"""
# 두 집단간의 평균이 서로 다름을 판단하는 통계 방법
# stats.ttest_ind(a 표본데이터, b, alternative, equal_var)
# 예제 - 어느 학교의 반별 수학 시험 평균 점수가 차이가 있는지 검정
  - 귀무가설: 반별 수학 평균 점수는 다르다.
  - 대립가설: 반별 수학 평균 점수는 같다.
"""

import pandas as pd
from scipy import stats

class1 = [85, 90, 92, 88, 86, 89, 83, 87]
class2 = [80, 82, 88, 85, 84]

# 모집단의 분산이 같은 경우
t_statistic, p_value = stats.ttest_ind(class1, class2, equal_var=True)
print("검정 통계량:", t_statistic)
print("p-value:", p_value)
print("귀무가설 기각, 대립가설 채택")

# 모집단의 분산이 다른 경우
t_statistic, p_value = stats.ttest_ind(class1, class2, equal_var=False)
print("검정 통계량:", t_statistic)
print("p-value:", p_value)
print("귀무가설을 기각하지 못함")

검정 통계량: 2.2108140580092237
p-value: 0.04914857789252186
귀무가설 기각, 대립가설 채택
검정 통계량: 2.1818699281825236
p-value: 0.059589330071355334
귀무가설을 기각하지 못함


#### 카이제곱 검정(Chi-square test)
##### 범주형 데이터의 관찰된 비도와 기대된 빈도를 비교하여 두 변수간의
##### 독립성이나 분포의 적합성을 검증하는 방법
##### 주요 유형은 적합도 검정, 독립성 검정, 동질성 검정이 있음

In [68]:
"""
# 적합도 검정
# 1개의 범주형 변수가 특정 분포를 잘 따르고 있는지 검정
# 예제 - 어느 도시의 아이스크림 맛(바닐라, 초코, 딸기) 선호도를 조사
  - 귀무가설: 이 도시의 아이스크림 맛 선호도는 전국적인 선호도와 다르다.
  - 대립가설: 이 도시의 아이스크림 맛 선호도는 전국적인 선호도와 동일하다.
# stats.chisquare(observed(관측빈도), expected(기대빈도), ddof(자유도), axis(축))
"""

from scipy import stats

observed = [150, 120, 30]
expected = [0.5*300, 0.35*300, 0.15*300]  #비율

result = stats.chisquare(observed, expected, ddof=1)
# help(stats.chisquare)
print(result)
print("검정 통계량:", result.statistic)
print("p-value:", result.pvalue)
print("귀무가설 기각")

Power_divergenceResult(statistic=7.142857142857142, pvalue=0.007526315166457885)
검정 통계량: 7.142857142857142
p-value: 0.007526315166457885
귀무가설 기각


In [102]:
"""
# 독립성 검정 - 2개의 변수가 서로 독립적인지, 연관이 있는지 검정
# stats.chi2_contingency(데이터프레임)
# 예제 - 성별에 따라 운동을 좋아하는지 조사(성별과 선호도가 독립적인지 가설검정)
 - 귀무가설: 성별과 운동 선호도는 독립적이다.
 - 대립가설: 성별과 운동 선호도는 독립적이지 않다.
"""
import pandas as pd
from scipy.stats import chi2_contingency

# 데이터 생성(열방향)
# df = pd.DataFrame({
#     "좋아함": [80, 30],
#     "좋아하지 않음": [90, 10],
# }, index=["남자", "여자"])
# df

# 데이터 프레임(행방향)
df = pd.DataFrame([[80, 30], [90, 10]],
                 columns=["좋아함", "좋아하지 않음"],
                 index=["남자", "여자"])
print(df)

# 독립성 검정
# print(chi2_contingency(df))
# help(chi2_contingency)
result = chi2_contingency(df)
print("검정 통계량:", result.statistic)
print("p-value:", result.pvalue)
print("귀무가설 기각")

    좋아함  좋아하지 않음
남자   80       30
여자   90       10
검정 통계량: 9.045792112299468
p-value: 0.0026330012530379632
귀무가설 기각


In [120]:
# 변수 - '성별', '운동'
import pandas as pd
from scipy.stats import chi2_contingency

data = {
    "성별": ['남자'] * 110 + ['여자'] * 100,
    "운동": ['좋아함'] * 80 + ['좋아하지 않음'] * 30 +
            ['좋아함'] * 90 + ['좋아하지 않음'] * 10
}
df = pd.DataFrame(data)
# df

# 표 형태 - pd.crosstab(변수1, 변수2)
table = pd.crosstab(df['성별'], df['운동'])
print(table)

result = chi2_contingency(table)
print(result)
print("검정 통계량:", result.statistic)
print("p-value:", result.pvalue)
print("귀무가설 기각")

운동  좋아하지 않음  좋아함
성별              
남자       30   80
여자       10   90
Chi2ContingencyResult(statistic=9.045792112299468, pvalue=0.0026330012530379632, dof=1, expected_freq=array([[20.95238095, 89.04761905],
       [19.04761905, 80.95238095]]))
검정 통계량: 9.045792112299468
p-value: 0.0026330012530379632
귀무가설 기각
