<a href="https://colab.research.google.com/github/jason96819/Studying/blob/main/statics/ANOVA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 일원배치 분산분석

SST : 그룹에 무관한 전체 자료의 변동을 측정
SSE : 각 그룹 내에서의 변동을 측정
SSTR : 각 그룹 별 평균의 변동을 측정

MSTR = SSTR / k-1

MSE = SSE / nk-k

X(F) = MSTR / MSE ~ F[k-1, nk-k]

In [5]:
import numpy as np

In [4]:
a = [15, 11, 12, 13, 12]
b = [18, 17, 16, 17, 16]
c = [22, 23, 19, 18, 19]

In [13]:
a1 = np.mean(a)
b1 = np.mean(b)
c1 = np.mean(c)
y = np.mean(a + b + c)
n = max(len(a), len(b), len(c))

In [16]:
SSTR = n*((a1 - y)**2 + (b1 - y)**2 + (c1 - y)**2)
SSTR

144.93333333333334

In [27]:
dummy1, dummy2, dummy3 = 0, 0, 0
mean_list = [a1, b1, c1]

for i in mean_list:
    if i == a1:
        for j in a:
            dummy1 += (j - i)**2

    if i == b1:
        for j in b:
            dummy2 += (j - i)**2

    if i == c1:
        for j in c:
            dummy3 += (j - i)**2

SSE = dummy1 + dummy2 + dummy3
SSE

30.8

In [28]:
SST = SSE + SSTR
SST

175.73333333333335

In [35]:
MSTR = SSTR / 2
MSTR

72.46666666666667

In [32]:
MSE = SSE / ((5*3)-3)
MSE

2.566666666666667

In [36]:
F = MSTR / MSE
F

28.233766233766232

In [37]:
from scipy.stats import f

# 검정통계량 값
test_statistic = F

# F-분포의 자유도
df_between = 3-1
df_within = ((5*3)-3)

# p-value 계산
p_value = 1 - f.cdf(test_statistic, df_between, df_within)

print("P-value:", p_value)

P-value: 2.898540799367577e-05


## 모듈사용

In [3]:
from scipy.stats import f_oneway

# 데이터
a = [15, 11, 12, 13, 12]
b = [18, 17, 16, 17, 16]
c = [22, 23, 19, 18, 19]

# 일원분산분석 수행
f_statistic, p_value = f_oneway(a, b, c)

# 결과 출력
print("F-statistic:", f_statistic)
print("P-value:", p_value)

# 가설검정
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각: 그룹 간 평균 차이가 있다.")
else:
    print("귀무가설 채택: 그룹 간 평균 차이가 없다.")

F-statistic: 28.23376623376625
P-value: 2.8985407993662547e-05
귀무가설 기각: 그룹 간 평균 차이가 있다.


# 이원배치 분산분석

이원배치 분산분석(Two-Way ANOVA)은 두 개의 범주형 독립변수가 종속변수에 미치는 영향을 평가하는 통계적 기법입니다. 두 독립변수 모두가 데이터를 그룹화하는 데 기여하고, 그들 간의 상호작용도 고려됩니다.

아래는 Python을 사용하여 이원배치 분산분석을 수행하는 간단한 예시 코드입니다. 코드에서는 scipy.stats 모듈의 f_oneway 함수를 사용하여 각각의 효과와 상호작용에 대한 통계적 유의성을 검정합니다.

In [39]:
import numpy as np
import pandas as pd
from scipy.stats import f_oneway
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 데이터 생성
np.random.seed(42)

# 두 독립변수에 대한 랜덤한 데이터 생성
factor_A = np.repeat(['A1', 'A2', 'A3'], 20)
factor_B = np.tile(['B1', 'B2', 'B3', 'B4'], 15)

# 종속변수에 대한 랜덤한 데이터 생성
data = np.random.normal(loc=50, scale=10, size=60)

# 데이터프레임 생성
df = pd.DataFrame({'Factor_A': factor_A, 'Factor_B': factor_B, 'Data': data})

# 이원배치 분산분석 수행
model = ols('Data ~ Factor_A * Factor_B', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)

# 결과 출력
print(anova_table)

                        sum_sq    df         F    PR(>F)
Factor_A             58.088244   2.0  0.322798  0.725680
Factor_B            257.579648   3.0  0.954251  0.421986
Factor_A:Factor_B   235.398790   6.0  0.436039  0.851121
Residual           4318.856017  48.0       NaN       NaN


이 코드는 두 개의 범주형 독립변수 Factor_A와 Factor_B가 종속변수 Data에 미치는 영향을 분석합니다. ols 함수를 사용하여 선형 회귀 모델을 생성하고, anova_lm 함수를 사용하여 분산분석 테이블을 출력합니다.

종속변수와 독립변수에 맞게 데이터를 변경하고, 더 복잡한 모델 또는 상호작용을 추가할 수 있습니다.

# 다원변량 분산분석

다원변량 분산분석(MANOVA, Multivariate Analysis of Variance)은 한 번에 여러 종속변수 간의 평균 차이를 평가하는 통계적 기법입니다. 각 종속변수 간의 상호작용과 그룹 간의 차이를 고려하여 분석합니다.

아래는 Python을 사용하여 MANOVA를 수행하는 간단한 예시 코드입니다. 코드에서는 statsmodels 라이브러리의 MANOVA 클래스를 사용합니다.

In [40]:
import numpy as np
import pandas as pd
from statsmodels.multivariate.manova import MANOVA

# 데이터 생성
np.random.seed(42)

# 두 개의 독립변수에 대한 랜덤한 데이터 생성
factor_A = np.repeat(['A1', 'A2', 'A3'], 20)
factor_B = np.tile(['B1', 'B2', 'B3', 'B4'], 15)

# 세 종속변수에 대한 랜덤한 데이터 생성
data1 = np.random.normal(loc=50, scale=10, size=60)
data2 = np.random.normal(loc=30, scale=5, size=60)
data3 = np.random.normal(loc=70, scale=8, size=60)

# 데이터프레임 생성
df = pd.DataFrame({'Factor_A': factor_A, 'Factor_B': factor_B, 'Data1': data1, 'Data2': data2, 'Data3': data3})

# MANOVA 수행
manova = MANOVA.from_formula('Data1 + Data2 + Data3 ~ Factor_A * Factor_B', data=df)
print(manova.mv_test())

                  Multivariate linear model
                                                              
--------------------------------------------------------------
       Intercept         Value  Num DF  Den DF F Value  Pr > F
--------------------------------------------------------------
          Wilks' lambda  0.0831 3.0000 46.0000 169.2084 0.0000
         Pillai's trace  0.9169 3.0000 46.0000 169.2084 0.0000
 Hotelling-Lawley trace 11.0353 3.0000 46.0000 169.2084 0.0000
    Roy's greatest root 11.0353 3.0000 46.0000 169.2084 0.0000
--------------------------------------------------------------
                                                              
--------------------------------------------------------------
          Factor_A        Value  Num DF  Den DF F Value Pr > F
--------------------------------------------------------------
            Wilks' lambda 0.9442 6.0000 92.0000  0.4463 0.8459
           Pillai's trace 0.0562 6.0000 94.0000  0.4528 0.8413
   Hotellin

이 코드에서 MANOVA 클래스를 사용하여 Data1, Data2, Data3 종속변수에 대한 MANOVA를 수행하고 있습니다. 결과로 Wilks' Lambda 검정 통계량과 p-value를 출력합니다.

데이터와 변수의 형태에 따라서 MANOVA 모델을 적절히 수정해야 할 수 있습니다. 위의 코드는 예시일 뿐이며, 실제 데이터에 맞게 수정하여 사용해야 합니다.

# 공분산분석

공분산분석(ANCOVA, Analysis of Covariance)은 독립변수의 그룹 간 평균 차이를 검정하는 동시에, 하나 이상의 연속형 공변량을 고려하여 그룹 간 차이를 조정하는 통계적 기법입니다. 여기서는 Python을 사용한 ANCOVA의 예시 코드를 제공합니다.

In [41]:
import numpy as np
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

# 데이터 생성
np.random.seed(42)

# 독립변수
group = np.repeat(['A', 'B', 'C'], 20)

# 연속형 공변량
covariate = np.random.normal(loc=0, scale=1, size=60)

# 종속변수
dependent_variable = np.random.normal(loc=10, scale=2, size=60)

# 데이터프레임 생성
df = pd.DataFrame({'Group': group, 'Covariate': covariate, 'Dependent_Variable': dependent_variable})

# ANCOVA 모델 설정
model = ols('Dependent_Variable ~ Group + Covariate', data=df).fit()

# 분산분석 수행
anova_result = anova_lm(model)

# 결과 출력
print(anova_result)

             df      sum_sq   mean_sq         F    PR(>F)
Group       2.0    0.277613  0.138807  0.037249  0.963460
Covariate   1.0    1.063947  1.063947  0.285510  0.595227
Residual   56.0  208.682886  3.726480       NaN       NaN


이 코드에서는 두 개의 독립변수(Group과 Covariate)와 하나의 종속변수(Dependent_Variable)를 사용하여 ANCOVA 모델을 설정하고, 이를 통해 그룹 간 평균 차이를 검정하고 있습니다. statsmodels 라이브러리의 ols 함수와 anova_lm 함수를 사용하여 모델을 설정하고 분산분석을 수행합니다.

물론 실제 데이터에 따라 모델의 설정이나 변수의 선택 등을 조정해야 합니다.