Importando bibliotecas

In [2]:
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.multivariate.manova import MANOVA

Importando Base de Dados

In [3]:
df = pd.read_csv("../databases/ENEM_2023_FINAL_cat.csv")
display(df.sample(5))

Unnamed: 0,TP_SEXO,TP_COR_RACA,TP_DEPENDENCIA_ADM_ESC,NU_NOTA_CH,NU_NOTA_CN,NU_NOTA_MT,NU_NOTA_LC,NU_NOTA_REDACAO,ESCOLARIDADE_PAI,ESCOLARIDADE_MAE,N_PESSOAS_CASA,RENDA_MENSAL_CASA,N_CARRO_CASA,N_MOTO_CASA,N_CELULAR_CASA,N_COMP_CASA,INTERNET_CASA,EST_IDADE
2046,Masculino,Parda,Privada,604.9,585.2,672.2,598.0,560.0,PG completo,EM incompleto,3,Até R$26400,Um,Um,Três,Três,True,17.0
7162,Feminino,Parda,Privada,564.0,510.3,554.7,543.5,680.0,EF-2 incompleto,EF-1 incompleto,3,Até R$1320,Nenhum,Nenhum,Um,Nenhum,True,18.0
6625,Feminino,Amarela,Estadual,401.6,415.3,353.4,439.6,540.0,ES incompleto,ES incompleto,3,Até R$1320,Um,Nenhum,Três,Nenhum,True,18.0
3825,Masculino,Branca,Privada,566.6,606.5,718.0,567.3,600.0,ES incompleto,ES incompleto,5,Até R$3300,Um,Um,Quatro ou mais,Um,True,18.0
2977,Feminino,Branca,Privada,626.9,601.0,715.3,578.6,900.0,ES incompleto,PG completo,4,Até R$3960,Um,Nenhum,Quatro ou mais,Quatro ou mais,True,18.0


Definindo funções que realizam testes de anova e manova

In [16]:
def anova_test(df:pd.DataFrame, y_col:str, x_cols:list[str]):
    ols_formula = f"{y_col} ~ {' * '.join(f'C({item})' for item in x_cols)}"
    print(ols_formula)
    ols_model = ols(formula=ols_formula, data=df).fit()
    display(sm.stats.anova_lm(ols_model, typ=2))

def anova_test_for_all_grades(df:pd.DataFrame, x_cols:list[str]):
    grade_cols = ["NU_NOTA_CH", "NU_NOTA_CN", "NU_NOTA_MT", "NU_NOTA_LC", "NU_NOTA_REDACAO"]
    for col in grade_cols:
        anova_test(df, col, x_cols)

def manova_test(df: pd.DataFrame, y_cols: list[str], x_col: str):
    manova_formula = f"{' + '.join(y_cols)} ~ {x_col}"
    print(manova_formula)
    manova_model = MANOVA.from_formula(manova_formula, data=df)
    mv_results = manova_model.mv_test()
    
    dfs = {}
    for factor, result in mv_results.results.items():
        stat_df = pd.DataFrame(result['stat'])
        stat_df.index.name = factor
        dfs[factor] = stat_df.reset_index()
    
    for factor, df_factor in dfs.items():
        print(factor)
        display(df_factor)

ANOVA - Sexo por Notas

In [15]:
anova_test_for_all_grades(df, ["TP_SEXO"])

NU_NOTA_CH ~ C(TP_SEXO)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_SEXO),25830.01,1.0,3.937391,0.047251
Residual,65588720.0,9998.0,,


NU_NOTA_CN ~ C(TP_SEXO)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_SEXO),725133.9,1.0,99.579094,2.423199e-23
Residual,72805330.0,9998.0,,


NU_NOTA_LC ~ C(TP_SEXO)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_SEXO),4284.76,1.0,1.00313,0.316579
Residual,42705370.0,9998.0,,


NU_NOTA_MT ~ C(TP_SEXO)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_SEXO),3474152.0,1.0,219.500854,3.851687e-49
Residual,158243400.0,9998.0,,


NU_NOTA_REDACAO ~ C(TP_SEXO)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_SEXO),9461076.0,1.0,310.527496,1.8068040000000001e-68
Residual,304616600.0,9998.0,,


ANOVA - Cor/raça por nota

In [17]:
anova_test_for_all_grades(df, ["TP_COR_RACA"])

NU_NOTA_CH ~ C(TP_COR_RACA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_COR_RACA),2997721.0,4.0,119.625272,7.341683999999999e-100
Residual,62616830.0,9995.0,,


NU_NOTA_CN ~ C(TP_COR_RACA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_COR_RACA),4746496.0,4.0,172.428354,4.808998e-143
Residual,68783970.0,9995.0,,


NU_NOTA_MT ~ C(TP_COR_RACA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_COR_RACA),12156720.0,4.0,203.105331,9.212854e-168
Residual,149560900.0,9995.0,,


NU_NOTA_LC ~ C(TP_COR_RACA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_COR_RACA),1975357.0,4.0,121.173687,3.8724890000000004e-101
Residual,40734290.0,9995.0,,


NU_NOTA_REDACAO ~ C(TP_COR_RACA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_COR_RACA),12314470.0,4.0,101.969928,3.047033e-85
Residual,301763300.0,9995.0,,


ANOVA - Escolaridade mãe e escolaridade pai por Notas

In [20]:
anova_test_for_all_grades(df, ["ESCOLARIDADE_MAE", "ESCOLARIDADE_PAI"])

NU_NOTA_CH ~ C(ESCOLARIDADE_MAE) * C(ESCOLARIDADE_PAI)




Unnamed: 0,sum_sq,df,F,PR(>F)
C(ESCOLARIDADE_MAE),1623760.0,6.0,46.351661,1.638747e-47
C(ESCOLARIDADE_PAI),2265681.0,6.0,64.675847,1.171065e-66
C(ESCOLARIDADE_MAE):C(ESCOLARIDADE_PAI),434184.1,36.0,2.065694,0.0002202596
Residual,58105300.0,9952.0,,


NU_NOTA_CN ~ C(ESCOLARIDADE_MAE) * C(ESCOLARIDADE_PAI)




Unnamed: 0,sum_sq,df,F,PR(>F)
C(ESCOLARIDADE_MAE),1899260.0,6.0,50.134122,1.796427e-51
C(ESCOLARIDADE_PAI),3656075.0,6.0,96.508181,1.261115e-99
C(ESCOLARIDADE_MAE):C(ESCOLARIDADE_PAI),496546.0,36.0,2.184526,6.722484e-05
Residual,62836220.0,9952.0,,


NU_NOTA_MT ~ C(ESCOLARIDADE_MAE) * C(ESCOLARIDADE_PAI)




Unnamed: 0,sum_sq,df,F,PR(>F)
C(ESCOLARIDADE_MAE),5183025.0,6.0,63.849703,8.500419e-66
C(ESCOLARIDADE_PAI),8788023.0,6.0,108.259689,1.088406e-111
C(ESCOLARIDADE_MAE):C(ESCOLARIDADE_PAI),1152170.0,36.0,2.365597,1.015643e-05
Residual,134642900.0,9952.0,,


NU_NOTA_LC ~ C(ESCOLARIDADE_MAE) * C(ESCOLARIDADE_PAI)




Unnamed: 0,sum_sq,df,F,PR(>F)
C(ESCOLARIDADE_MAE),1005637.0,6.0,43.578905,1.3168799999999998e-44
C(ESCOLARIDADE_PAI),1306688.0,6.0,56.624827,2.937091e-58
C(ESCOLARIDADE_MAE):C(ESCOLARIDADE_PAI),204377.3,36.0,1.476102,0.03479897
Residual,38275790.0,9952.0,,




NU_NOTA_REDACAO ~ C(ESCOLARIDADE_MAE) * C(ESCOLARIDADE_PAI)




Unnamed: 0,sum_sq,df,F,PR(>F)
C(ESCOLARIDADE_MAE),5751679.0,6.0,33.221746,9.555806e-34
C(ESCOLARIDADE_PAI),7991016.0,6.0,46.15618,2.625819e-47
C(ESCOLARIDADE_MAE):C(ESCOLARIDADE_PAI),1694333.0,36.0,1.631081,0.01077032
Residual,287164800.0,9952.0,,


ANOVA - Dependencia da Escola por Nota

In [21]:
anova_test_for_all_grades(df, ["TP_DEPENDENCIA_ADM_ESC"])

NU_NOTA_CH ~ C(TP_DEPENDENCIA_ADM_ESC)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_DEPENDENCIA_ADM_ESC),6667045.0,3.0,376.853891,6.68567e-232
Residual,58947500.0,9996.0,,


NU_NOTA_CN ~ C(TP_DEPENDENCIA_ADM_ESC)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_DEPENDENCIA_ADM_ESC),10664710.0,3.0,565.24912,0.0
Residual,62865760.0,9996.0,,


NU_NOTA_MT ~ C(TP_DEPENDENCIA_ADM_ESC)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_DEPENDENCIA_ADM_ESC),25435700.0,3.0,621.885593,0.0
Residual,136281900.0,9996.0,,


NU_NOTA_LC ~ C(TP_DEPENDENCIA_ADM_ESC)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_DEPENDENCIA_ADM_ESC),3638827.0,3.0,310.322904,1.1957909999999999e-192
Residual,39070820.0,9996.0,,


NU_NOTA_REDACAO ~ C(TP_DEPENDENCIA_ADM_ESC)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(TP_DEPENDENCIA_ADM_ESC),37325790.0,3.0,449.389899,6.565253e-274
Residual,276751900.0,9996.0,,


ANOVA - Renda mensal casa por Notas

In [22]:
anova_test_for_all_grades(df, ["RENDA_MENSAL_CASA"])

NU_NOTA_CH ~ C(RENDA_MENSAL_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(RENDA_MENSAL_CASA),8454672.0,16.0,92.288286,8.45928e-284
Residual,57159880.0,9983.0,,


NU_NOTA_CN ~ C(RENDA_MENSAL_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(RENDA_MENSAL_CASA),12913690.0,16.0,132.922489,0.0
Residual,60616780.0,9983.0,,


NU_NOTA_MT ~ C(RENDA_MENSAL_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(RENDA_MENSAL_CASA),34341570.0,16.0,168.218404,0.0
Residual,127376000.0,9983.0,,


NU_NOTA_LC ~ C(RENDA_MENSAL_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(RENDA_MENSAL_CASA),5117374.0,16.0,84.935569,1.191097e-261
Residual,37592280.0,9983.0,,


NU_NOTA_REDACAO ~ C(RENDA_MENSAL_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(RENDA_MENSAL_CASA),31476600.0,16.0,69.495245,1.876379e-214
Residual,282601100.0,9983.0,,


ANOVA - Internet por Notas

In [23]:
anova_test_for_all_grades(df, ["INTERNET_CASA"])

NU_NOTA_CH ~ C(INTERNET_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(INTERNET_CASA),436676.3,1.0,66.984238,3.070456e-16
Residual,65177870.0,9998.0,,


NU_NOTA_CN ~ C(INTERNET_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(INTERNET_CASA),520796.0,1.0,71.318193,3.462651e-17
Residual,73009670.0,9998.0,,


NU_NOTA_MT ~ C(INTERNET_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(INTERNET_CASA),1571459.0,1.0,98.10696,5.0590570000000006e-23
Residual,160146100.0,9998.0,,


NU_NOTA_LC ~ C(INTERNET_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(INTERNET_CASA),361181.7,1.0,85.270963,3.130277e-20
Residual,42348470.0,9998.0,,


NU_NOTA_REDACAO ~ C(INTERNET_CASA)


Unnamed: 0,sum_sq,df,F,PR(>F)
C(INTERNET_CASA),2671263.0,1.0,85.763428,2.445344e-20
Residual,311406500.0,9998.0,,
