In [1]:
import pandas as pd 
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from joblib import load
from sklearn.metrics import accuracy_score
from tabulate import tabulate


In [2]:
#Carrega os modelos ajustados 

[X_2020,Y_2020,Reg2020] = load('Regressao_geral_MICRODADOS_ENEM_2020_1-1.txt')


[X_2021,Y_2021,Reg2021] = load('Regressao_geral_MICRODADOS_ENEM_2021_1-1.txt')

[X_2022,Y_2022,Reg2022] = load('Regressao_geral_MICRODADOS_ENEM_2022_1-1.txt')

X = [X_2020, X_2021, X_2022]
Y = [Y_2020, Y_2021, Y_2022]

In [3]:
regid     = {'cut_MT':  0,
            'cut_LC':  1,
            'cut_CH':  2,
            'cut_CN':  3,
            'cut_RE':  4,
            'cut_OB':  5,
            'cut_GE':  6,
            'qut_MT':  7,
            'qut_LC':  8,
            'qut_CH':  9,
            'qut_CN':  10,
            'qut_RE':  11,
            'qut_OB':  12,
            'qut_GE':  13,
            'todos2': 14,
            'simples': 15
            }

endogenas = Y_2020.columns

In [4]:
Y_2021['cut_GE'].value_counts()

2.0    160869
3.0     52394
1.0      3909
4.0       182
Name: cut_GE, dtype: int64

In [5]:
for i in endogenas:
    print(i+": ",accuracy_score(Reg2020[regid[i]].predict(X_2020), Y_2020[i]  ))


cut_MT:  0.617595195348893
cut_LC:  0.798297419739215
cut_CH:  0.6920360988600149
cut_CN:  0.7739862689980846
cut_RE:  0.4459456757740183
cut_OB:  0.8155191510290254
cut_GE:  0.7731505731913584
qut_MT:  0.439192134063201
qut_LC:  0.3592932172689141
qut_CH:  0.3666385435701405
qut_CN:  0.39464834800132753
qut_RE:  0.46254363411718136
qut_OB:  0.35462291725811806
qut_GE:  0.34717762734364693


## Modelo Simples

In [6]:
# modelos simples para comparação com a regressão logística

# Todos no mais frequênte
Y_2020['todos2'] = 2
Y_2021['todos2'] = 2
Y_2022['todos2'] = 2

# Distingui entre as duas categorias mais frequentes dado renda familiar
Y_2020['simples'] = ( (X_2020['Renda C']==1) | (X_2020['Renda D']==1) | (X_2020['Renda E']==1) ).apply(lambda x: 3 if x==True else 2)
Y_2021['simples'] = ( (X_2021['Renda C']==1) | (X_2021['Renda D']==1) | (X_2021['Renda E']==1) ).apply(lambda x: 3 if x==True else 2)
Y_2022['simples'] = ( (X_2022['Renda C']==1) | (X_2022['Renda D']==1) | (X_2022['Renda E']==1) ).apply(lambda x: 3 if x==True else 2)


for i in endogenas:
    print(i)
    for j in range(3):
        print( 'Dados',j+2020)
        print(' ',i,': ')

        print()
        print(format(accuracy_score(Y[j]['todos2'],Y[j][i]) ,'.3f' ))
        print(format(accuracy_score(Y[j]['simples'],Y[j][i]),'.3f'  ))
        print(format(accuracy_score(Reg2020[regid[i]].predict(X[j]),Y[j][i]),'.3f')  )
        print(format(accuracy_score(Reg2021[regid[i]].predict(X[j]),Y[j][i]),'.3f')  )
        print(format(accuracy_score(Reg2022[regid[i]].predict(X[j]),Y[j][i]),'.3f')  )
        print()
        

In [7]:
features = ['IDADE', 'MASCULINO', 'SOLTEIRO', 'BRANCA', 'PRETA', 'EM CONCLUIDO',
       'EM NO ANO ', 'EM APOS',
       'Escola Pública', 'Treineiro', 'Escolari. Pai A',
       'Escolari. Pai B', 'Escolari. Pai C', 'Escolari. Mae A',
       'Escolari. Mae B', 'Escolari. Mae C', 'Ocupação Pai A',
       'Ocupação Pai B', 'Ocupação Mae A', 'Ocupação Mae B',
       'N pessoas', 'Renda A', 'Renda B', 'Renda C', 'Renda D',
       'Renda E', 'Tem computador']

coeficientes = pd.DataFrame(Reg2020[regid['qut_GE']].coef_, columns = features)
print(coeficientes.T.to_latex(float_format = "%.4f", label ='tab: qut_GE', caption = 'Coeficientes da regressão ajustada com dados de 2020 para o desempenho geral dividido por quantis.'))


\begin{table}
\centering
\caption{Coeficientes da regressão ajustada com dados de 2020 para o desempenho geral dividido por quantis.}
\label{tab: qut_GE}
\begin{tabular}{lrrrrr}
\toprule
{} &       0 &       1 &       2 &       3 &       4 \\
\midrule
IDADE           &  1.6321 &  0.5543 & -0.0991 & -0.6781 & -1.4092 \\
MASCULINO       &  0.1623 &  0.1691 & -0.0113 & -0.1738 & -0.1462 \\
SOLTEIRO        & -0.0374 & -0.1179 & -0.1122 & -0.0287 &  0.2962 \\
BRANCA          & -0.2785 & -0.0865 &  0.0838 &  0.1791 &  0.1021 \\
PRETA           &  0.0719 &  0.0976 &  0.1009 &  0.0306 & -0.3009 \\
EM CONCLUIDO    & -1.2840 & -0.7092 & -0.1842 &  0.3384 &  1.8390 \\
EM NO ANO       & -0.4440 & -0.2512 & -0.0263 &  0.1834 &  0.5381 \\
EM APOS         & -0.2565 & -0.1862 & -0.0158 &  0.1229 &  0.3356 \\
Escola Pública  &  0.2908 &  0.2724 &  0.1417 & -0.0148 & -0.6900 \\
Treineiro       & -0.2565 & -0.1862 & -0.0158 &  0.1229 &  0.3356 \\
Escolari. Pai A &  0.3074 &  0.1328 & -0.0025 & -0.1523 & 

  print(coeficientes.T.to_latex(float_format = "%.4f", label ='tab: qut_GE', caption = 'Coeficientes da regressão ajustada com dados de 2020 para o desempenho geral dividido por quantis.'))


In [8]:
coeficientes = pd.DataFrame(Reg2021[regid['qut_GE']].coef_, columns = features)
print(coeficientes.T.to_latex(float_format = "%.4f", label ='tab: qut_GE', caption = 'Coeficientes da regressão ajustada com dados de 2021 para o desempenho geral dividido por quantis.'))


\begin{table}
\centering
\caption{Coeficientes da regressão ajustada com dados de 2021 para o desempenho geral dividido por quantis.}
\label{tab: qut_GE}
\begin{tabular}{lrrrrr}
\toprule
{} &       0 &       1 &       2 &       3 &       4 \\
\midrule
IDADE           &  1.1913 &  0.2199 & -0.2264 & -0.5212 & -0.6636 \\
MASCULINO       &  0.1189 &  0.1166 &  0.0191 & -0.1175 & -0.1372 \\
SOLTEIRO        & -0.1089 & -0.1520 & -0.1000 &  0.0208 &  0.3402 \\
BRANCA          & -0.3506 & -0.0664 &  0.0964 &  0.1920 &  0.1286 \\
PRETA           &  0.0172 &  0.1134 &  0.1116 &  0.0331 & -0.2754 \\
EM CONCLUIDO    & -1.3816 & -0.6705 & -0.2621 &  0.3722 &  1.9420 \\
EM NO ANO       & -0.3324 & -0.1415 & -0.0531 &  0.1124 &  0.4146 \\
EM APOS         & -0.2672 & -0.1283 & -0.0523 &  0.0957 &  0.3521 \\
Escola Pública  &  0.3931 &  0.2797 &  0.1974 & -0.0530 & -0.8172 \\
Treineiro       & -0.2672 & -0.1283 & -0.0523 &  0.0957 &  0.3521 \\
Escolari. Pai A &  0.2788 &  0.1034 &  0.0016 & -0.1225 & 

  print(coeficientes.T.to_latex(float_format = "%.4f", label ='tab: qut_GE', caption = 'Coeficientes da regressão ajustada com dados de 2021 para o desempenho geral dividido por quantis.'))


In [9]:
coeficientes = pd.DataFrame(Reg2022[regid['qut_GE']].coef_, columns = features)
print(coeficientes.T.to_latex(float_format = "%.4f", label ='tab: qut_GE', caption = 'Coeficientes da regressão ajustada com dados de 2022 para o desempenho geral dividido por quantis.'))


\begin{table}
\centering
\caption{Coeficientes da regressão ajustada com dados de 2022 para o desempenho geral dividido por quantis.}
\label{tab: qut_GE}
\begin{tabular}{lrrrrr}
\toprule
{} &       0 &       1 &       2 &       3 &       4 \\
\midrule
IDADE           &  1.2931 &  0.3354 & -0.2290 & -0.6010 & -0.7985 \\
MASCULINO       &  0.0565 &  0.0733 & -0.0058 & -0.0569 & -0.0671 \\
SOLTEIRO        & -0.1340 & -0.1572 & -0.0965 &  0.0274 &  0.3603 \\
BRANCA          & -0.4113 & -0.1099 &  0.1049 &  0.2276 &  0.1887 \\
PRETA           & -0.0249 &  0.0679 &  0.1123 &  0.0687 & -0.2241 \\
EM CONCLUIDO    & -1.1840 & -0.6259 & -0.3262 &  0.2869 &  1.8492 \\
EM NO ANO       & -0.2994 & -0.1193 & -0.0566 &  0.1034 &  0.3719 \\
EM APOS         & -0.2397 & -0.1279 & -0.0789 &  0.0927 &  0.3538 \\
Escola Pública  &  0.3355 &  0.3029 &  0.2370 & -0.0584 & -0.8170 \\
Treineiro       & -0.2397 & -0.1279 & -0.0789 &  0.0927 &  0.3538 \\
Escolari. Pai A &  0.2606 &  0.0873 & -0.0345 & -0.1096 & 

  print(coeficientes.T.to_latex(float_format = "%.4f", label ='tab: qut_GE', caption = 'Coeficientes da regressão ajustada com dados de 2022 para o desempenho geral dividido por quantis.'))


In [20]:
pd.DataFrame(Reg2020[regid['qut_GE']].coef_, columns = features).iloc[0].sort_values()


EM CONCLUIDO      -1.284002
Renda E           -0.575519
Renda D           -0.538845
EM NO ANO         -0.443981
Ocupação Pai B    -0.418465
BRANCA            -0.278525
Escolari. Mae C   -0.262577
Treineiro         -0.256504
EM APOS           -0.256504
Ocupação Mae B    -0.230153
Renda C           -0.221921
Escolari. Pai C   -0.218744
Escolari. Mae B   -0.138166
Ocupação Pai A    -0.056923
Ocupação Mae A    -0.044035
SOLTEIRO          -0.037425
Escolari. Pai B    0.006042
PRETA              0.071886
MASCULINO          0.162295
Escolari. Mae A    0.247523
Escola Pública     0.290761
Renda B            0.303574
Escolari. Pai A    0.307427
Tem computador     0.343461
Renda A            0.879491
IDADE              1.632104
N pessoas          2.183944
Name: 0, dtype: float64

In [18]:
pd.DataFrame(Reg2021[regid['qut_GE']].coef_, columns = features).iloc[4].sort_values()


N pessoas         -2.256295
Renda A           -1.102892
Escola Pública    -0.817218
IDADE             -0.663593
Renda B           -0.609861
Escolari. Mae A   -0.476777
PRETA             -0.275358
Escolari. Pai A   -0.261292
Tem computador    -0.213643
MASCULINO         -0.137164
Escolari. Mae B   -0.100116
Renda C            0.005638
Ocupação Mae A     0.027971
Ocupação Pai A     0.037235
Escolari. Pai B    0.088081
BRANCA             0.128645
Escolari. Mae C    0.157181
Ocupação Mae B     0.249345
SOLTEIRO           0.340189
Treineiro          0.352096
EM APOS            0.352096
Escolari. Pai C    0.381120
EM NO ANO          0.414615
Ocupação Pai B     0.451562
Renda D            0.472703
Renda E            0.814701
EM CONCLUIDO       1.942005
Name: 4, dtype: float64

In [19]:
pd.DataFrame(Reg2022[regid['qut_GE']].coef_, columns = features).iloc[4].sort_values()

N pessoas         -2.274270
Renda A           -1.109090
Escola Pública    -0.817020
IDADE             -0.798478
Renda B           -0.602441
Escolari. Mae A   -0.467229
Tem computador    -0.273806
PRETA             -0.224099
Escolari. Pai A   -0.203879
Escolari. Mae B   -0.134556
MASCULINO         -0.067135
Renda C            0.015914
Ocupação Mae A     0.060464
Ocupação Pai A     0.061043
Escolari. Pai B    0.139580
Escolari. Mae C    0.156631
BRANCA             0.188691
Ocupação Mae B     0.288354
Treineiro          0.353825
EM APOS            0.353825
SOLTEIRO           0.360305
EM NO ANO          0.371866
Escolari. Pai C    0.452893
Renda D            0.468229
Ocupação Pai B     0.484662
Renda E            0.782235
EM CONCLUIDO       1.849180
Name: 4, dtype: float64