In [1]:
# --------------------------------------------------------------------
# 일원 분산분석 - 1
# --------------------------------------------------------------------
# 범주형 변수(X)**가 **수치형 변수(Y) 에 영향을 주는지 확인하는 검정
# 통계적으로 공정하게 비교하기 위함
# 하나의 X의 3개 이상 집단(범주)의 평균이 같은지 검정
# 독립변수(X) 1개 - 종속변수(Y)

# ----------------------------------------------------------------------------------
# H₀ (귀무가설) : 모든 집단의 평균은 같다. (차이가 없다)
# H₁ (대립가설) : 적어도 한 집단의 평균은 다르다.

# p ≤ 0.05 → 귀무가설 기각 → 집단 간 평균이 다르다 → 유의한 차이 있음
# p > 0.05 → 귀무가설 채택 → 집단 간 평균이 같다 → 유의한 차이 없음

# ‘차이가 있다’는 것은 ‘영향이 있다’는 뜻
# X: 비료 종류 (A, B, C, D)
# Y: 식물 성장량
# “비료 종류가 다르면 진짜 성장량에 차이가 날까?”
# 그래서 통계적으로 **“이 차이가 우연인지, 진짜 차이인지”**를 판단하기 위해 검정이 필요
 
# 귀무가설 (H₀) : 비료 종류에 따른 성장량의 평균은 모두 같다. :
# 대립가설 (H₁) : 적어도 하나의 비료 평균은 다르다.


# ----------------------------------------------------------------------------------
# X (독립변수) → 범주형 (그룹 구분용)
# Y (종속변수) → 수치형 (비교할 평균값)

# 기본 구조
# | 구분 | 역할                          | 변수 종류  | 예시                  |
# | -- | -------------------------      | -------   | ------------------- |
# | X  | 독립변수(요인, Grouping factor) | **범주형** | 성별, 학력, 지역, 약물 종류 등 |
# | Y  | 종속변수(Response variable)     | **수치형** | 급여, 점수, 혈압, 매출액 등   |

# # 예시 1 — 학력에 따른 소득 차이
# | 학력(X, 범주형) | 소득(Y, 수치형) |
# | ---------- | ----------  |
# | 고졸         | 2500       |
# | 고졸         | 2300       |
# | 대졸         | 3500       |
# | 대졸         | 3700       |
# | 대학원졸     | 4200       |
# | 대학원졸     | 4000       |

# X (독립변수): education = {고졸, 대졸, 대학원졸}
# Y (종속변수): income (소득)

# 질문:
# “학력 수준에 따라 평균 소득이 유의하게 다른가?”
# → 일원분산분석 ANOVA 사용

# 분산분석

In [None]:
# 일원분산 분석 1:1

In [2]:
import pandas as pd
df = pd.DataFrame({
    'A': [10.5, 11.3, 10.8, 9.6, 11.1, 10.2, 10.9, 11.4, 10.5, 10.3],
    'B': [11.9, 12.4, 12.1, 13.2, 12.5, 11.8, 12.2, 12.9, 12.4, 12.3],
    'C': [11.2, 11.7, 11.6, 10.9, 11.3, 11.1, 10.8, 11.5, 11.4, 11.0],
    'D': [9.8, 9.4, 9.1, 9.5, 9.6, 9.9, 9.2, 9.7, 9.3, 9.4]
})
print(df.head(2))


      A     B     C    D
0  10.5  11.9  11.2  9.8
1  11.3  12.4  11.7  9.4


In [None]:
from scipy import stats

print("=== 정규성 검정 ===")
print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))
print(stats.shapiro(df['D']))

print("\n === 등분산 검정 ===")
print(stats.levene(df['A'], df['B'], df['C'], df['D']))

print("\n === 일원 분산 분석 ===")
print(stats.f_oneway(df['A'], df['B'], df['C'], df['D']))

# 정규성 검정 → 데이터가 정규분포를 따르는지 확인한다. / 즉, 데이터가 종 모양으로 고르게 퍼져 있는지 보는 검사
# 등분산 검정 → 그룹 간 분산이 동일한지 확인한다. / 각 그룹의 데이터 흩어짐 정도가 비슷한지 확인
# 일원분산분석(ANOVA) → 그룹 간 평균이 서로 다른지 검정한다. / 여러 그룹의 평균이 진짜로 차이가 나는지 비교하는 검사



In [None]:
# 정규성 검정
# | 변수| statistic | p-value | 해석                          |
# | --  | --------- | ------- | ----------------------        |
# | A   | 0.9649    | 0.8400  | p>0.05 → **정규분포를 따른다** | - p > 0.05 → 귀무가설 채택 → 집단 간 평균이 같다 → 유의한 차이 없음
# | B   | 0.9468    | 0.6309  | p>0.05 → **정규분포를 따른다** | - p > 0.05 → 귀무가설 채택 → 집단 간 평균이 같다 → 유의한 차이 없음
# | C   | 0.9702    | 0.8924  | p>0.05 → **정규분포를 따른다** | - p > 0.05 → 귀무가설 채택 → 집단 간 평균이 같다 → 유의한 차이 없음
# | D   | 0.9752    | 0.9347  | p>0.05 → **정규분포를 따른다** | - p > 0.05 → 귀무가설 채택 → 집단 간 평균이 같다 → 유의한 차이 없음

# 등분산 검정
# | 항목                        | 값      | 해석                                          |
# | ----------------------     | ------ | --------------------------------               |
# | **검정 통계량 (statistic)** | 1.9355 | 그룹 간 분산 차이를 나타내는 값 (참고용)          |
# | **p-value**                | 0.1413 | 0.05보다 큼 → 귀무가설(분산이 같다)을 기각하지 않음 |

# 일원분산분석(ANOVA)
# | 항목                         | 값                        | 해석                                      |
# | ------------------------     | -------------------      | --------------------------------------- |
# | **검정 통계량 (F statistic)** | 89.1261                  | 그룹 간 평균 차이를 나타내는 값 (F값이 클수록 집단 간 차이가 큼) |
# | **p-value**                  | 1.0018e-16               | 0.05보다 매우 작음 → 귀무가설(모든 평균이 같다)을 기각      |
# | **유의수준 (α)**              | 0.05                     | 통상적인 기준값                                |
# | **결론**                      | 귀무가설 기각             | 집단 간 평균 차이가 통계적으로 유의함                   |
# | **추가 분석 권장**             | 사후 검정 (Tukey HSD 등)  | 어떤 집단 간 차이가 유의한지 구체적으로 확인 필요            |




In [1]:
import pandas as pd
# df = pd.read_csv("fertilizer.csv")
df_2 = pd.read_csv("https://raw.githubusercontent.com/lovedlim/bigdata_analyst_cert/main/part3/ch2/fertilizer.csv")

In [7]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('성장 ~ C(비료)', df_2).fit()
# print(model.summary()) # ors
print(anova_lm(model))

# 비료 종류(범주형 변수) 가 식물 성장(연속형 변수) 에 미치는 영향을 검정하는 모델

            df    sum_sq    mean_sq          F        PR(>F)
C(비료)      3.0  43.21875  14.406250  89.126139  1.001838e-16
Residual  36.0   5.81900   0.161639        NaN           NaN


In [None]:
import pandas as pd
df_3 = pd.read_csv("train.csv")

In [None]:
# 결측치 이상치 제거
m = df_3['workclass'].mode()[0]
df_3['workclass'] = df_3['workclass'].fillna(m)

In [None]:
df_3["income_code"] = df_3["income"].map({'<=50K':0, '>50K':1})

In [None]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('income_code ~ C(workclass)', df_3).fit()
print(anova_lm(model))