In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

In [29]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import RFE
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score

In [2]:
dados = pd.read_csv("base_tratada.csv")

In [5]:
dados.isna().sum()

MAU                         0
TPCLIENT_2                  0
LOCALIZA2_1.0               0
LOCALIZA2_2.0               0
TPEMPREG2_(32.0, 130.0]     0
TPEMPREG2_(130.0, 628.0]    0
SEXO_M                      0
ESTCIVIL2_1.0               0
ESTCIVIL2_2.0               0
SITRESID_P                  0
LIMITE2_(31.0, 118.0]       0
LIMITE2_(118.0, 99865.0]    0
TEMPORES2_(4.0, 70.0]       0
CEP2_1.0                    0
CEP2_2.0                    0
PROFISSAO2_1.0              0
PROFISSAO2_2.0              0
ANONASCI2_(50.0, 63.0]      0
ANONASCI2_(63.0, 74.0]      0
ANONASCI2_(74.0, 87.0]      0
dtype: int64

Não temos missing na base.

---
Seleção das variáveis mais importantes utilizando um wrapper RFE ( Random Recursive Elimination) baseado em Random Forest.

In [9]:
X = dados.iloc[:,1:]
y = dados['MAU']

In [78]:
RF = RandomForestClassifier(min_samples_leaf = 700, random_state=42)

In [95]:
wrapper_selector = RFE(RF, n_features_to_select=10, step=1)
wrapper_selector = wrapper_selector.fit(X, y)

In [96]:
wrapper_selector.support_

array([ True,  True,  True,  True,  True,  True,  True, False, False,
       False,  True, False, False,  True, False, False, False, False,
        True])

In [97]:
wrapper_selector.ranking_

array([ 1,  1,  1,  1,  1,  1,  1, 10,  9,  6,  1,  5,  2,  1,  7,  8,  4,
        3,  1])

In [98]:
X.columns[wrapper_selector.support_]

Index(['TPCLIENT_2', 'LOCALIZA2_1.0', 'LOCALIZA2_2.0',
       'TPEMPREG2_(32.0, 130.0]', 'TPEMPREG2_(130.0, 628.0]', 'SEXO_M',
       'ESTCIVIL2_1.0', 'LIMITE2_(118.0, 99865.0]', 'CEP2_2.0',
       'ANONASCI2_(74.0, 87.0]'],
      dtype='object')

In [99]:
cols_finais = X.columns[wrapper_selector.support_]

---
Divisão da base tratada e com as variáveis selecionadas pelo RFE em 70% treino e 30% teste. Salvando os arquivos de treino e teste.

In [100]:
X_train, X_test, y_train, y_test = train_test_split(X, y , test_size=0.3 , random_state=42)

In [101]:
pd.concat([X_train[cols_finais],y_train] , axis = 1).to_csv('base_treino.csv' , index=False)

In [102]:
pd.concat([X_test[cols_finais],y_test] , axis = 1).to_csv('base_teste.csv' , index=False)

OBS: tentar ver se um filtro por tau de kendall geraria o mesmo conjunto de features