In [13]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm

In [14]:
microdados = pd.read_csv('microdados_tratado.csv', sep=';', encoding='ISO-8859-1')

In [15]:
dtypes = pd.read_json("dtypes.json", typ='series')
microdados = microdados.astype(dtypes)

In [None]:
# Calcular média das notas
microdados['NU_NOTA_GERAL'] = microdados[['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean(axis=1)

In [None]:
# Deixar somente as colunas desejadas
colunas_desejadas = ['NU_NOTA_GERAL', 'Q006', 'Q001', 'Q002', 'TP_COR_RACA', 'TP_DEPENDENCIA_ADM_ESC', 'Q025', 'NU_INFRAESTRUTURA']
microdados = microdados[colunas_desejadas]

In [None]:
# Renomear colunas para melhor entendimento
microdados = microdados.rename(columns={
    'Q001': 'Escolaridade_pai',
    'Q002': 'Escolaridade_mae',
    'Q006': 'Renda_familiar',
    'Q025': 'Internet',
})

In [None]:
# Transformar variáveis desejadas em dummies
microdados = pd.get_dummies(microdados, columns=['Renda_familiar', 'Escolaridade_pai', 'Escolaridade_mae', 'TP_COR_RACA', 'TP_DEPENDENCIA_ADM_ESC', 'Internet', 
                                                 'NU_INFRAESTRUTURA'])

In [None]:
# Remove as colunas que serão usadas como referência
microdados = microdados.drop(columns=['TP_COR_RACA_1', 'TP_DEPENDENCIA_ADM_ESC_1.0', 'Internet_B', 'NU_INFRAESTRUTURA_1', 'Escolaridade_pai_G', 'Escolaridade_mae_G', 
                                      'Renda_familiar_Q'])

In [None]:
# Separar variáveis independentes
X = microdados.drop(columns=['NU_NOTA_GERAL'])
# Separar variável dependente
Y = microdados['NU_NOTA_GERAL']

In [None]:
# Adicionar constante
X = sm.add_constant(X)

In [None]:
# Ajustar modelo
X = X.astype(float)
# Realizar a regressão dos Mínimos Quadrados Ordinários (MQO)
modelo = sm.OLS(Y, X).fit()

In [None]:
# Imprime o resumo do modelo
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:          NU_NOTA_GERAL   R-squared:                       0.130
Model:                            OLS   Adj. R-squared:                  0.130
Method:                 Least Squares   F-statistic:                 1.403e+04
Date:                Tue, 18 Feb 2025   Prob (F-statistic):               0.00
Time:                        17:01:11   Log-Likelihood:            -2.7103e+07
No. Observations:             3933955   AIC:                         5.421e+07
Df Residuals:                 3933912   BIC:                         5.421e+07
Df Model:                          42                                         
Covariance Type:            nonrobust                                         
                                  coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------------------
const             