# Importando Bibliotecas

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

# Observação e tratamento dos dados

In [8]:
# Leitura dos dados
dados_test = pd.read_csv('test.csv', sep = ',')
dados_train = pd.read_csv('train.csv', sep = ',')

dados_test.head()
dados_train.head()

Unnamed: 0.1,Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,...,Q041,Q042,Q043,Q044,Q045,Q046,Q047,Q048,Q049,Q050
0,1,ed50e8aaa58e7a806c337585efee9ca41f1eb1ad,2016,4314902,Porto Alegre,43,RS,24,M,0.0,...,5.0,A,A,A,A,A,A,A,B,D
1,2,2c3acac4b33ec2b195d77e7c04a2d75727fad723,2016,2304707,Granja,23,CE,17,F,0.0,...,,A,A,C,A,B,A,A,C,A
2,3,f4545f8ccb9ff5c8aad7d32951b3f251a26e6568,2016,2304400,Fortaleza,23,CE,21,F,0.0,...,,A,A,A,A,C,A,A,B,A
3,4,3d6ec248fef899c414e77f82d5c6d2bffbeaf7fe,2016,3304557,Rio de Janeiro,33,RJ,25,F,0.0,...,5.0,C,A,A,A,A,D,A,A,A
4,5,bf896ac8d3ecadd6dba1dfbf50110afcbf5d3268,2016,1302603,Manaus,13,AM,28,M,0.0,...,,A,A,A,A,A,A,A,A,A


In [9]:
# Olhando a coluna IN_TREINEIRO

dados_train.IN_TREINEIRO.head()

0    0
1    0
2    0
3    0
4    0
Name: IN_TREINEIRO, dtype: int64

In [91]:
# Olhando os NaN do DF dados_train

dados_train.isna().sum()

Unnamed: 0                    0
NU_INSCRICAO                  0
NU_ANO                        0
CO_MUNICIPIO_RESIDENCIA       0
NO_MUNICIPIO_RESIDENCIA       0
CO_UF_RESIDENCIA              0
SG_UF_RESIDENCIA              0
NU_IDADE                      0
TP_SEXO                       0
TP_ESTADO_CIVIL               0
TP_COR_RACA                   0
TP_NACIONALIDADE              0
CO_MUNICIPIO_NASCIMENTO       0
NO_MUNICIPIO_NASCIMENTO     609
CO_UF_NASCIMENTO              0
SG_UF_NASCIMENTO            609
TP_ST_CONCLUSAO               0
TP_ANO_CONCLUIU               0
TP_ESCOLA                     0
TP_ENSINO                     0
IN_TREINEIRO                  0
CO_ESCOLA                     0
CO_MUNICIPIO_ESC              0
NO_MUNICIPIO_ESC           9448
CO_UF_ESC                     0
SG_UF_ESC                  9448
TP_DEPENDENCIA_ADM_ESC        0
TP_LOCALIZACAO_ESC            0
TP_SIT_FUNC_ESC               0
IN_BAIXA_VISAO                0
                           ... 
Q021    

In [90]:
# Substituindo os NaN pela média das colunas numéricas

for c in dados_train.columns:
    if dados_train[c].dtype in ['int64', 'float64']:
        dados_train[c] = dados_train[c].fillna(dados_train[c].mean())

In [24]:
# Juntando as variáveis numéricas já sem NaN em um único DF (c)

a = dados_train.select_dtypes(include='int64')
b = dados_train.select_dtypes(include='float64')
c = a.merge(b,left_index = True, right_index = True)

# Selecionando variáveis relevantes

In [89]:
# Usando RFE para observar as 20 variáveis numéricas mais relevantes

X_train = c.drop(columns = 'IN_TREINEIRO')
y_train = c['IN_TREINEIRO'].values

reg = LinearRegression()


rfe = RFE(estimator=reg, n_features_to_select= 20, step=1, verbose=0)

rfe_fit = rfe.fit(X_train, y_train)
    
rfe_choose = rfe_fit.get_support()
    
features_choosed = X_train.columns[rfe_choose]

# Mostrando as colunas selecionadas
print(list(features_choosed))

['TP_ST_CONCLUSAO', 'TP_ESCOLA', 'IN_BAIXA_VISAO', 'IN_SURDEZ', 'IN_DISCALCULIA', 'IN_VISAO_MONOCULAR', 'IN_GESTANTE', 'IN_AMPLIADA_24', 'IN_AMPLIADA_18', 'IN_TRANSCRICAO', 'IN_LEITURA_LABIAL', 'IN_MESA_CADEIRA_SEPARADA', 'IN_APOIO_PERNA', 'IN_MEDIDOR_GLICOSE', 'IN_SALA_ESPECIAL', 'IN_NOME_SOCIAL', 'IN_CERTIFICADO', 'TP_PRESENCA_CH', 'TP_ENSINO', 'TP_DEPENDENCIA_ADM_ESC']


In [87]:
# Selecionando aleatoriamente algumas variáveis (6) das 20 estipuladas pelo RFE que estão presentes nos dados de treino e de teste.

dados_test[['TP_ST_CONCLUSAO', 'TP_ESCOLA', 'IN_BAIXA_VISAO','TP_PRESENCA_CH','IN_DISCALCULIA','IN_SURDEZ']]


Unnamed: 0,TP_ST_CONCLUSAO,TP_ESCOLA,IN_BAIXA_VISAO,TP_PRESENCA_CH,IN_DISCALCULIA,IN_SURDEZ
0,1,1,0,1,0,0
1,1,1,0,0,0,0
2,3,1,0,1,0,0
3,2,2,0,1,0,0
4,1,1,0,1,0,0
5,2,2,0,1,0,0
6,3,1,0,0,0,0
7,2,2,0,1,0,0
8,3,1,0,1,0,0
9,1,1,0,1,0,0


# Rodando o modelo de Regressão Logística 

In [82]:
# Separando os dados em treino e teste
        
X = c[['TP_ST_CONCLUSAO', 'TP_ESCOLA', 'IN_BAIXA_VISAO','TP_PRESENCA_CH','IN_DISCALCULIA','IN_SURDEZ']]
X_test = dados_test[['TP_ST_CONCLUSAO', 'TP_ESCOLA', 'IN_BAIXA_VISAO','TP_PRESENCA_CH','IN_DISCALCULIA','IN_SURDEZ']]

y = c['IN_TREINEIRO'].values
        

# Ajustando o modelo de regressão logística

regLog = LogisticRegression()
regLog.fit(X, y)
y_predict = regLog.predict(X_test)



In [83]:
# Olhando o score

regLog.score(X, y)

0.9113619810633649

# Exportando o resultado final 

In [86]:
# Observando e exportando o resultado final

resultado = pd.DataFrame({"NU_INSCRICAO": dados_test["NU_INSCRICAO"],"IN_TREINEIRO" : y_predict})
print(resultado)

resultado.to_csv("answer.csv",index=False) 
pd.read_csv('answer.csv').head()

                                  NU_INSCRICAO  IN_TREINEIRO
0     ba0cc30ba34e7a46764c09dfc38ed83d15828897             0
1     177f281c68fa032aedbd842a745da68490926cd2             0
2     6cf0d8b97597d7625cdedc7bdb6c0f052286c334             1
3     5c356d810fa57671402502cd0933e5601a2ebf1e             0
4     df47c07bd881c2db3f38c6048bf77c132ad0ceb3             0
5     3f28749fb79fb059caf5aed79625a5addfd7a91a             0
6     bb2a0edddf3c59181a1496390aaaee7f32624d9d             0
7     cc7cab347fe5455aae983f3701ca40f84dc01949             0
8     95e9338f1da02f7bfa0e3194130afdccc0fb5457             1
9     155f84f2ee5b34e658f2adcc70f2ec83e37040cb             0
10    40f4566da0536c486a34ec6ba85257eaebf3255c             0
11    366749b2ea3e6023fdbfdbf7c6596dfab31885d9             0
12    52502d4aca10ad7261a4fe9983ddca1fd8b45c31             0
13    52b20639bb0294b01c9be89f80cf682ac4d9f133             0
14    1718c649736b61d49a714f2a1c0a3e37a4d7c3b4             0
15    2410aa55f6eedc95bf

Unnamed: 0,NU_INSCRICAO,IN_TREINEIRO
0,ba0cc30ba34e7a46764c09dfc38ed83d15828897,0
1,177f281c68fa032aedbd842a745da68490926cd2,0
2,6cf0d8b97597d7625cdedc7bdb6c0f052286c334,1
3,5c356d810fa57671402502cd0933e5601a2ebf1e,0
4,df47c07bd881c2db3f38c6048bf77c132ad0ceb3,0
