In [1]:
import pandas as pd
from sklearn.feature_selection import SelectKBest, SelectPercentile, f_regression
from sklearn.metrics import mean_absolute_error, r2_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from tpot import TPOTRegressor

In [2]:
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')

In [3]:
df_test.isna().mean()

NU_INSCRICAO              0.000000
CO_UF_RESIDENCIA          0.000000
SG_UF_RESIDENCIA          0.000000
NU_IDADE                  0.000000
TP_SEXO                   0.000000
TP_COR_RACA               0.000000
TP_NACIONALIDADE          0.000000
TP_ST_CONCLUSAO           0.000000
TP_ANO_CONCLUIU           0.000000
TP_ESCOLA                 0.000000
TP_ENSINO                 0.676573
IN_TREINEIRO              0.000000
TP_DEPENDENCIA_ADM_ESC    0.676573
IN_BAIXA_VISAO            0.000000
IN_CEGUEIRA               0.000000
IN_SURDEZ                 0.000000
IN_DISLEXIA               0.000000
IN_DISCALCULIA            0.000000
IN_SABATISTA              0.000000
IN_GESTANTE               0.000000
IN_IDOSO                  0.000000
TP_PRESENCA_CN            0.000000
TP_PRESENCA_CH            0.000000
TP_PRESENCA_LC            0.000000
CO_PROVA_CN               0.000000
CO_PROVA_CH               0.000000
CO_PROVA_LC               0.000000
CO_PROVA_MT               0.000000
NU_NOTA_CN          

In [4]:
# drop columas com mais de 50% de dados faltantes
# e mais umas divergentes para one-hot encoding

df_test.drop(['TP_ENSINO', 'TP_DEPENDENCIA_ADM_ESC', 'Q027','CO_PROVA_CN', 'CO_PROVA_CH'], axis=1, inplace=True)


In [5]:
features = df_test.columns.to_list()
features.append('NU_NOTA_MT')
features

['NU_INSCRICAO',
 'CO_UF_RESIDENCIA',
 'SG_UF_RESIDENCIA',
 'NU_IDADE',
 'TP_SEXO',
 'TP_COR_RACA',
 'TP_NACIONALIDADE',
 'TP_ST_CONCLUSAO',
 'TP_ANO_CONCLUIU',
 'TP_ESCOLA',
 'IN_TREINEIRO',
 'IN_BAIXA_VISAO',
 'IN_CEGUEIRA',
 'IN_SURDEZ',
 'IN_DISLEXIA',
 'IN_DISCALCULIA',
 'IN_SABATISTA',
 'IN_GESTANTE',
 'IN_IDOSO',
 'TP_PRESENCA_CN',
 'TP_PRESENCA_CH',
 'TP_PRESENCA_LC',
 'CO_PROVA_LC',
 'CO_PROVA_MT',
 'NU_NOTA_CN',
 'NU_NOTA_CH',
 'NU_NOTA_LC',
 'TP_LINGUA',
 'TP_STATUS_REDACAO',
 'NU_NOTA_COMP1',
 'NU_NOTA_COMP2',
 'NU_NOTA_COMP3',
 'NU_NOTA_COMP4',
 'NU_NOTA_COMP5',
 'NU_NOTA_REDACAO',
 'Q001',
 'Q002',
 'Q006',
 'Q024',
 'Q025',
 'Q026',
 'Q047',
 'NU_NOTA_MT']

In [6]:
len(features)

43

In [7]:
# ajuste no DF treino

df_train = df_train[features]

In [8]:
df_train.isna().mean()

NU_INSCRICAO         0.000000
CO_UF_RESIDENCIA     0.000000
SG_UF_RESIDENCIA     0.000000
NU_IDADE             0.000000
TP_SEXO              0.000000
TP_COR_RACA          0.000000
TP_NACIONALIDADE     0.000000
TP_ST_CONCLUSAO      0.000000
TP_ANO_CONCLUIU      0.000000
TP_ESCOLA            0.000000
IN_TREINEIRO         0.000000
IN_BAIXA_VISAO       0.000000
IN_CEGUEIRA          0.000000
IN_SURDEZ            0.000000
IN_DISLEXIA          0.000000
IN_DISCALCULIA       0.000000
IN_SABATISTA         0.000000
IN_GESTANTE          0.000000
IN_IDOSO             0.000000
TP_PRESENCA_CN       0.000000
TP_PRESENCA_CH       0.000000
TP_PRESENCA_LC       0.000000
CO_PROVA_LC          0.000000
CO_PROVA_MT          0.000000
NU_NOTA_CN           0.246832
NU_NOTA_CH           0.246832
NU_NOTA_LC           0.261981
TP_LINGUA            0.000000
TP_STATUS_REDACAO    0.261981
NU_NOTA_COMP1        0.261981
NU_NOTA_COMP2        0.261981
NU_NOTA_COMP3        0.261981
NU_NOTA_COMP4        0.261981
NU_NOTA_CO

In [50]:
# drop linhas que contem nulos
df_train.dropna(axis=0, inplace=True)
df_test.dropna(axis=0, inplace=True)
df_train.NU_INSCRICAO.isna().sum()

0

In [10]:
y_train = df_train['NU_NOTA_MT']

In [11]:
df_train.drop(['NU_NOTA_MT'], axis=1, inplace=True)

In [12]:
train_columns = df_train.columns.to_list()
train_columns

['NU_INSCRICAO',
 'CO_UF_RESIDENCIA',
 'SG_UF_RESIDENCIA',
 'NU_IDADE',
 'TP_SEXO',
 'TP_COR_RACA',
 'TP_NACIONALIDADE',
 'TP_ST_CONCLUSAO',
 'TP_ANO_CONCLUIU',
 'TP_ESCOLA',
 'IN_TREINEIRO',
 'IN_BAIXA_VISAO',
 'IN_CEGUEIRA',
 'IN_SURDEZ',
 'IN_DISLEXIA',
 'IN_DISCALCULIA',
 'IN_SABATISTA',
 'IN_GESTANTE',
 'IN_IDOSO',
 'TP_PRESENCA_CN',
 'TP_PRESENCA_CH',
 'TP_PRESENCA_LC',
 'CO_PROVA_LC',
 'CO_PROVA_MT',
 'NU_NOTA_CN',
 'NU_NOTA_CH',
 'NU_NOTA_LC',
 'TP_LINGUA',
 'TP_STATUS_REDACAO',
 'NU_NOTA_COMP1',
 'NU_NOTA_COMP2',
 'NU_NOTA_COMP3',
 'NU_NOTA_COMP4',
 'NU_NOTA_COMP5',
 'NU_NOTA_REDACAO',
 'Q001',
 'Q002',
 'Q006',
 'Q024',
 'Q025',
 'Q026',
 'Q047']

In [13]:
test_columns = df_test.columns.to_list()
test_columns

['NU_INSCRICAO',
 'CO_UF_RESIDENCIA',
 'SG_UF_RESIDENCIA',
 'NU_IDADE',
 'TP_SEXO',
 'TP_COR_RACA',
 'TP_NACIONALIDADE',
 'TP_ST_CONCLUSAO',
 'TP_ANO_CONCLUIU',
 'TP_ESCOLA',
 'IN_TREINEIRO',
 'IN_BAIXA_VISAO',
 'IN_CEGUEIRA',
 'IN_SURDEZ',
 'IN_DISLEXIA',
 'IN_DISCALCULIA',
 'IN_SABATISTA',
 'IN_GESTANTE',
 'IN_IDOSO',
 'TP_PRESENCA_CN',
 'TP_PRESENCA_CH',
 'TP_PRESENCA_LC',
 'CO_PROVA_LC',
 'CO_PROVA_MT',
 'NU_NOTA_CN',
 'NU_NOTA_CH',
 'NU_NOTA_LC',
 'TP_LINGUA',
 'TP_STATUS_REDACAO',
 'NU_NOTA_COMP1',
 'NU_NOTA_COMP2',
 'NU_NOTA_COMP3',
 'NU_NOTA_COMP4',
 'NU_NOTA_COMP5',
 'NU_NOTA_REDACAO',
 'Q001',
 'Q002',
 'Q006',
 'Q024',
 'Q025',
 'Q026',
 'Q047']

In [14]:
train_columns == test_columns

True

In [15]:
df_train.isna().mean()

NU_INSCRICAO         0.0
CO_UF_RESIDENCIA     0.0
SG_UF_RESIDENCIA     0.0
NU_IDADE             0.0
TP_SEXO              0.0
TP_COR_RACA          0.0
TP_NACIONALIDADE     0.0
TP_ST_CONCLUSAO      0.0
TP_ANO_CONCLUIU      0.0
TP_ESCOLA            0.0
IN_TREINEIRO         0.0
IN_BAIXA_VISAO       0.0
IN_CEGUEIRA          0.0
IN_SURDEZ            0.0
IN_DISLEXIA          0.0
IN_DISCALCULIA       0.0
IN_SABATISTA         0.0
IN_GESTANTE          0.0
IN_IDOSO             0.0
TP_PRESENCA_CN       0.0
TP_PRESENCA_CH       0.0
TP_PRESENCA_LC       0.0
CO_PROVA_LC          0.0
CO_PROVA_MT          0.0
NU_NOTA_CN           0.0
NU_NOTA_CH           0.0
NU_NOTA_LC           0.0
TP_LINGUA            0.0
TP_STATUS_REDACAO    0.0
NU_NOTA_COMP1        0.0
NU_NOTA_COMP2        0.0
NU_NOTA_COMP3        0.0
NU_NOTA_COMP4        0.0
NU_NOTA_COMP5        0.0
NU_NOTA_REDACAO      0.0
Q001                 0.0
Q002                 0.0
Q006                 0.0
Q024                 0.0
Q025                 0.0


In [16]:
df_test.dtypes

NU_INSCRICAO          object
CO_UF_RESIDENCIA       int64
SG_UF_RESIDENCIA      object
NU_IDADE               int64
TP_SEXO               object
TP_COR_RACA            int64
TP_NACIONALIDADE       int64
TP_ST_CONCLUSAO        int64
TP_ANO_CONCLUIU        int64
TP_ESCOLA              int64
IN_TREINEIRO           int64
IN_BAIXA_VISAO         int64
IN_CEGUEIRA            int64
IN_SURDEZ              int64
IN_DISLEXIA            int64
IN_DISCALCULIA         int64
IN_SABATISTA           int64
IN_GESTANTE            int64
IN_IDOSO               int64
TP_PRESENCA_CN         int64
TP_PRESENCA_CH         int64
TP_PRESENCA_LC         int64
CO_PROVA_LC           object
CO_PROVA_MT           object
NU_NOTA_CN           float64
NU_NOTA_CH           float64
NU_NOTA_LC           float64
TP_LINGUA              int64
TP_STATUS_REDACAO    float64
NU_NOTA_COMP1        float64
NU_NOTA_COMP2        float64
NU_NOTA_COMP3        float64
NU_NOTA_COMP4        float64
NU_NOTA_COMP5        float64
NU_NOTA_REDACA

In [17]:
#print(len(df_test.CO_PROVA_CH.unique()))
#print('\n')
#print(len(df_train.CO_PROVA_CH.unique()))


In [18]:
#df_test.dtypes

In [19]:
df_train.dtypes

NU_INSCRICAO          object
CO_UF_RESIDENCIA       int64
SG_UF_RESIDENCIA      object
NU_IDADE               int64
TP_SEXO               object
TP_COR_RACA            int64
TP_NACIONALIDADE       int64
TP_ST_CONCLUSAO        int64
TP_ANO_CONCLUIU        int64
TP_ESCOLA              int64
IN_TREINEIRO           int64
IN_BAIXA_VISAO         int64
IN_CEGUEIRA            int64
IN_SURDEZ              int64
IN_DISLEXIA            int64
IN_DISCALCULIA         int64
IN_SABATISTA           int64
IN_GESTANTE            int64
IN_IDOSO               int64
TP_PRESENCA_CN         int64
TP_PRESENCA_CH         int64
TP_PRESENCA_LC         int64
CO_PROVA_LC           object
CO_PROVA_MT           object
NU_NOTA_CN           float64
NU_NOTA_CH           float64
NU_NOTA_LC           float64
TP_LINGUA              int64
TP_STATUS_REDACAO    float64
NU_NOTA_COMP1        float64
NU_NOTA_COMP2        float64
NU_NOTA_COMP3        float64
NU_NOTA_COMP4        float64
NU_NOTA_COMP5        float64
NU_NOTA_REDACA

In [20]:
print(df_test.NU_INSCRICAO.isna().sum())
print('\n')
print(df_train.NU_INSCRICAO.isna().sum())


0


0


In [21]:
len(df_train.columns)

42

In [22]:
df_train.shape

(10097, 42)

In [23]:
#df_train.drop(['CO_PROVA_CN', 'CO_PROVA_CH'], axis=1, inplace=True)
#df_test.drop(['CO_PROVA_CN', 'CO_PROVA_CH'], axis=1, inplace=True)

to_encode = ['TP_SEXO', 'TP_COR_RACA', 'Q001', 'Q002', 'Q006', 'Q024', 'Q025', 'Q026', 'Q047']

test_nu_inscricao = df_test['NU_INSCRICAO']
#df_train = pd.get_dummies(df_train, columns=to_encode, drop_first=True)
#df_test = pd.get_dummies(df_test, columns=to_encode, drop_first=True)

#df_train = pd.get_dummies(df_train).values
#df_test = pd.get_dummies(df_test).values

In [51]:
test_nu_inscricao.isna().sum()

0

In [24]:
df_train.shape

(10097, 42)

In [25]:
test_nu_inscricao.shape

(3360,)

In [26]:
y_train.shape

(10097,)

In [27]:
train_columns = df_train.columns.to_list()
test_columns = df_test.columns.to_list()
train_columns == test_columns

True

In [28]:
len(train_columns)

42

In [29]:
df_train.shape

(10097, 42)

In [30]:
k_vs_reg = []
k_vs_mdl = []


#for k in range(2, 78, 2):
k=17
selector = SelectKBest(score_func=f_regression, k=k)

Xtrain2 = selector.fit_transform(df_train._get_numeric_data(), y_train)
Xval2 = selector.transform(df_test._get_numeric_data())

# random forest model
mdl = RandomForestRegressor(n_estimators=100, n_jobs=-1, random_state=0)
mdl.fit(Xtrain2, y_train)
p = mdl.predict(Xval2)

# regression
reg = LinearRegression(normalize=True).fit(Xtrain2, y_train)
regres = reg.predict(Xval2)

# calculo do erro de predição
#    score_mdl = mean_absolute_error(mdl.predict(Xtrain2), y_train)
#    score_reg = mean_absolute_error(reg.predict(Xtrain2), y_train)

# calculo do erro de predição r2_score
score_mdl = r2_score(y_train, mdl.predict(Xtrain2))
score_reg = r2_score(y_train, reg.predict(Xtrain2), )


print('k = {} - R2 mdl = {}'.format(k, score_mdl))
print('k = {} - R2 reg = {}'.format(k, score_reg))

k_vs_reg.append(score_reg)
k_vs_mdl.append(score_mdl)

  corr /= X_norms
  corr /= X_norms
  F = corr ** 2 / (1 - corr ** 2) * degrees_of_freedom
  return (a < x) & (x < b)
  return (a < x) & (x < b)
  cond2 = cond0 & (x <= _a)


k = 17 - R2 mdl = 0.9193790414572439
k = 17 - R2 reg = 0.4072999761827527


In [31]:
%matplotlib inline
pd.Series(k_vs_mdl, index=range(2, 78, 2)).plot(figsize=(10, 7))
#pd.Series(k_vs_reg, index=range(2, 30, 2)).plot(figsize=(10, 7))

ValueError: Length of passed values is 1, index implies 38

In [32]:
# tratando os dados de teste
df_test.isna().mean()

NU_INSCRICAO         0.0
CO_UF_RESIDENCIA     0.0
SG_UF_RESIDENCIA     0.0
NU_IDADE             0.0
TP_SEXO              0.0
TP_COR_RACA          0.0
TP_NACIONALIDADE     0.0
TP_ST_CONCLUSAO      0.0
TP_ANO_CONCLUIU      0.0
TP_ESCOLA            0.0
IN_TREINEIRO         0.0
IN_BAIXA_VISAO       0.0
IN_CEGUEIRA          0.0
IN_SURDEZ            0.0
IN_DISLEXIA          0.0
IN_DISCALCULIA       0.0
IN_SABATISTA         0.0
IN_GESTANTE          0.0
IN_IDOSO             0.0
TP_PRESENCA_CN       0.0
TP_PRESENCA_CH       0.0
TP_PRESENCA_LC       0.0
CO_PROVA_LC          0.0
CO_PROVA_MT          0.0
NU_NOTA_CN           0.0
NU_NOTA_CH           0.0
NU_NOTA_LC           0.0
TP_LINGUA            0.0
TP_STATUS_REDACAO    0.0
NU_NOTA_COMP1        0.0
NU_NOTA_COMP2        0.0
NU_NOTA_COMP3        0.0
NU_NOTA_COMP4        0.0
NU_NOTA_COMP5        0.0
NU_NOTA_REDACAO      0.0
Q001                 0.0
Q002                 0.0
Q006                 0.0
Q024                 0.0
Q025                 0.0


In [33]:
df_test.shape

(3360, 42)

In [54]:
df_test.NU_INSCRICAO.isna().sum()

0

In [69]:
df_notas = pd.DataFrame(p.round(3), columns=['NU_NOTA_MT'])
df_notas.head()

Unnamed: 0,NU_NOTA_MT
0,426.438
1,445.994
2,594.685
3,530.136
4,475.578


In [70]:
df_notas_reg = pd.DataFrame(regres, columns=['NU_NOTA_MT']) 

In [71]:
df_notas.shape

(3360, 1)

In [72]:
df_test.shape

(3360, 43)

In [73]:
df_notas.head()

Unnamed: 0,NU_NOTA_MT
0,426.438
1,445.994
2,594.685
3,530.136
4,475.578


In [74]:
df_test.reset_index(inplace=True)

In [75]:
#df_answer = pd.concat([test_nu_inscricao, df_test, df_notas], axis=1).reset_index()
#df_answer = pd.concat([test_nu_inscricao, df_test, df_notas_reg], axis=1).reset_index()

#Linear Regression
#df_answer = pd.concat([df_test, df_notas_reg], axis=1).reset_index()

#MDL
df_answer = pd.concat([df_test, df_notas], axis=1)

df_answer.NU_INSCRICAO.isna().sum()

0

In [76]:
df_answer.head()

Unnamed: 0,level_0,index,NU_INSCRICAO,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,...,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q001,Q002,Q006,Q024,Q025,Q026,Q047,NU_NOTA_MT
0,0,0,73ff9fcc02f0a99919906c942c2e1a1042cdcf98,41,PR,22,F,3,1,1,...,40.0,420.0,B,A,C,A,A,C,A,426.438
1,1,1,71a95f9f1b91a82c65ad94abbdf9f54e6066f968,21,MA,26,F,3,1,1,...,100.0,580.0,E,B,C,B,B,B,A,445.994
2,2,2,b38a03232f43b11c9d0788abaf060f7366053b6d,23,CE,21,M,1,1,2,...,80.0,320.0,E,E,D,B,B,A,A,594.685
3,3,4,715494628a50142ce8cb17191cfe6d0f3cae0934,41,PR,18,M,1,1,2,...,0.0,320.0,D,H,H,C,B,A,A,530.136
4,4,5,e656d6bad65c93fb2880f1eba5037008c8e75774,43,RS,18,M,3,1,1,...,80.0,560.0,E,E,C,B,B,A,A,475.578


In [77]:
cols_to_keep = ['NU_INSCRICAO', 'NU_NOTA_MT']
#df_answer = df_answer[cols_to_keep]

In [78]:
df_answer.head()

Unnamed: 0,level_0,index,NU_INSCRICAO,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,...,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q001,Q002,Q006,Q024,Q025,Q026,Q047,NU_NOTA_MT
0,0,0,73ff9fcc02f0a99919906c942c2e1a1042cdcf98,41,PR,22,F,3,1,1,...,40.0,420.0,B,A,C,A,A,C,A,426.438
1,1,1,71a95f9f1b91a82c65ad94abbdf9f54e6066f968,21,MA,26,F,3,1,1,...,100.0,580.0,E,B,C,B,B,B,A,445.994
2,2,2,b38a03232f43b11c9d0788abaf060f7366053b6d,23,CE,21,M,1,1,2,...,80.0,320.0,E,E,D,B,B,A,A,594.685
3,3,4,715494628a50142ce8cb17191cfe6d0f3cae0934,41,PR,18,M,1,1,2,...,0.0,320.0,D,H,H,C,B,A,A,530.136
4,4,5,e656d6bad65c93fb2880f1eba5037008c8e75774,43,RS,18,M,3,1,1,...,80.0,560.0,E,E,C,B,B,A,A,475.578


In [79]:
# 92.95% só usando variáveis numéricas - random Forest
# 92.94 usando get_dummies - random Forest

# 92.96 usando get_dummies - Linear Regression

#92.98 usando só dados numéricos

#93.58 usando apenas dados numéricos
df_answer.to_csv('answer.csv', columns=cols_to_keep, index=False)

In [80]:
df=pd.read_csv('answer.csv')
df.head()

Unnamed: 0,NU_INSCRICAO,NU_NOTA_MT
0,73ff9fcc02f0a99919906c942c2e1a1042cdcf98,426.438
1,71a95f9f1b91a82c65ad94abbdf9f54e6066f968,445.994
2,b38a03232f43b11c9d0788abaf060f7366053b6d,594.685
3,715494628a50142ce8cb17191cfe6d0f3cae0934,530.136
4,e656d6bad65c93fb2880f1eba5037008c8e75774,475.578


In [81]:
df['NU_INSCRICAO'].isna().sum()

0

In [82]:
pd.isnull(df.NU_INSCRICAO).sum()

0