In [6]:
import pandas as pd
# df = pd.read_csv("tree.csv")
df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/bigdata_analyst_cert/main/part3/ch2/tree.csv")
print(df.sample(10))


   나무  비료        성장률
79  C   2  43.124311
75  C   2  71.219025
78  C   2  63.917608
67  C   1  70.035329
46  B   2  53.393612
15  A   2  47.377125
65  C   1  73.562400
32  B   1  54.865028
36  B   1  57.088636
18  A   2  43.919759


In [7]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

model = ols('성장률 ~ 나무 + 비료 + 나무:비료', data=df).fit()
anova_table = sm.stats.anova_lm(model)
print(anova_table)


             df       sum_sq      mean_sq          F        PR(>F)
나무          3.0  4783.353938  1594.451313  18.391274  9.016693e-10
비료          1.0   873.322002   873.322002  10.073374  1.942421e-03
나무:비료       3.0   394.801585   131.600528   1.517952  2.137666e-01
Residual  112.0  9709.960792    86.696078        NaN           NaN


In [8]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

model = ols('성장률 ~ C(나무) + C(비료) + C(나무):C(비료)', data=df).fit()
anova_table = sm.stats.anova_lm(model)
print(anova_table)


                df       sum_sq      mean_sq          F        PR(>F)
C(나무)          3.0  4783.353938  1594.451313  18.855528  6.600012e-10
C(비료)          2.0  1127.924259   563.962129   6.669256  1.857612e-03
C(나무):C(비료)    6.0   717.520672   119.586779   1.414199  2.157357e-01
Residual     108.0  9132.639448    84.561476        NaN           NaN


In [9]:
print(format(6.600012e-10, '.11f'))
print(format(1.857612e-03, '.11f'))
print(format(2.157357e-01, '.11f'))


0.00000000066
0.00185761200
0.21573570000


In [10]:
model = ols('성장률 ~ C(나무) * C(비료)', data=df).fit()
anova_table = sm.stats.anova_lm(model)
print(anova_table)


                df       sum_sq      mean_sq          F        PR(>F)
C(나무)          3.0  4783.353938  1594.451313  18.855528  6.600012e-10
C(비료)          2.0  1127.924259   563.962129   6.669256  1.857612e-03
C(나무):C(비료)    6.0   717.520672   119.586779   1.414199  2.157357e-01
Residual     108.0  9132.639448    84.561476        NaN           NaN


In [11]:
# '성장률 ~ 나무 + 비료 + 나무:비료'
# 전체 구조: Y ~ X1 + X2 + X1:X2
# | 구문      | 의미                                       |
# | ------- | ---------------------------------------- |
# | **`Y`** | 종속변수 (결과변수) — 여기서는 `성장률`                 |
# | **`~`** | “~ 오른쪽에 있는 변수들이 왼쪽의 Y를 설명한다”는 의미         |
# | **`+`** | 여러 독립변수를 함께 포함한다는 뜻                      |
# | **`:`** | 두 변수 간의 **상호작용(Interaction)** 항을 포함한다는 뜻 |

# | 항목        | 의미               | 설명                          |
# | -------    | ------------       | --------------------------- |
# | `성장률`    | 종속변수 (Y)        | 나무 종류, 비료 종류에 따라 달라지는 결과 변수 |
# | `나무`      | 독립변수1 (요인 A)  | 예: 나무 종류 (소나무, 참나무 등)       |
# | `비료`      | 독립변수2 (요인 B)  | 예: 비료 종류 (A, B, C 등)        |
# | `나무:비료` | 상호작용항 (A×B)    | “나무 종류별로 비료 효과가 다르다”는 관계 포함 |

In [12]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 범주형으로 비교하기 때문에 수치형 비교보다 더 정확 - r : 나무종류가 숫자가 아니기 때문에
model = ols('성장률 ~ C(나무) + C(비료) + C(나무):C(비료)', data=df).fit()
anova_table = sm.stats.anova_lm(model)
print(anova_table)


                df       sum_sq      mean_sq          F        PR(>F)
C(나무)          3.0  4783.353938  1594.451313  18.855528  6.600012e-10
C(비료)          2.0  1127.924259   563.962129   6.669256  1.857612e-03
C(나무):C(비료)    6.0   717.520672   119.586779   1.414199  2.157357e-01
Residual     108.0  9132.639448    84.561476        NaN           NaN


In [13]:
print(format(6.600012e-10, '.11f'))
print(format(1.857612e-03, '.11f'))
print(format(2.157357e-01, '.11f'))


0.00000000066
0.00185761200
0.21573570000


In [14]:
model = ols('성장률 ~ C(나무) * C(비료)', data=df).fit()
anova_table = sm.stats.anova_lm(model)
print(anova_table)


                df       sum_sq      mean_sq          F        PR(>F)
C(나무)          3.0  4783.353938  1594.451313  18.855528  6.600012e-10
C(비료)          2.0  1127.924259   563.962129   6.669256  1.857612e-03
C(나무):C(비료)    6.0   717.520672   119.586779   1.414199  2.157357e-01
Residual     108.0  9132.639448    84.561476        NaN           NaN


In [None]:
# ------------------------

In [15]:
# train 데이터 넣어서 이원분산으로 바꾸기
import pandas as pd
df_3 = pd.read_csv("train.csv")

In [16]:
# 결측치 이상치 제거
m = df_3['workclass'].mode()[0]
df_3['workclass'] = df_3['workclass'].fillna(m)

In [17]:
df_3["income_code"] = df_3["income"].map({'<=50K':0, '>50K':1})

In [18]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('income_code ~ C(workclass) * C(education)', df_3).fit()
print(anova_lm(model))

                                df       sum_sq    mean_sq           F  \
C(workclass)                   7.0   149.623342  21.374763  137.975427   
C(education)                  15.0   648.602960  43.240197  279.118166   
C(workclass):C(education)    105.0    28.412960   0.270600    1.746737   
Residual                   29204.0  4524.201131   0.154917         NaN   

                                  PR(>F)  
C(workclass)               6.632449e-201  
C(education)                0.000000e+00  
C(workclass):C(education)   3.624615e-06  
Residual                             NaN  
