# Cabeçalho
## UFRJ  - 2021-1
#### Introdução ao Aprendizado de Máquina - Trabalho 1
##### Aluno: Bernardo Bevilaqua Földes Guimarães
##### Professor: Heraldo Luis Silveira de Almeida

# Introdução
#### O trabalho consiste em realizar um modelo preditivo para auxiliar na decisão da aprovação ou não do crédito de uma companhia financeira com base nas caracteristicas do cliente. O intuito é identificar se o cliente será ou não inadimplente
#### O trabalho deverá ser submetido ao Kaggle onde será realizada uma competição cujo objetivo é apresentar resultados com a maior acurácia.

## Importação das bibliotecas

In [1]:
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelBinarizer, MinMaxScaler, StandardScaler,Normalizer, QuantileTransformer,PowerTransformer, RobustScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import MultinomialNB, GaussianNB, BernoulliNB
from sklearn.metrics import accuracy_score
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn.datasets import make_hastie_10_2
from sklearn.pipeline import Pipeline
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
from sklearn.model_selection import StratifiedKFold
from datetime import datetime
from sklearn.calibration import CalibratedClassifierCV
import numpy as np

In [2]:
from pandas_profiling import ProfileReport

Antes de inicar a rodar os comandos abaixo, será necessário indicar ao jupyter o caminho de onde estão os dados, utilizando o comando cd, ou alterando o path das partes do código referentes a leitura dos dados e a geração do csv

## Leitura dos dados de treinamento

In [4]:
df = pd.read_csv("./conjunto_de_treinamento.csv")

# Exploração dos dados

In [None]:
df.head()

In [None]:
df.shape

In [5]:
profile = ProfileReport(df, title="Pandas Profiling Report", explorative=True)

#### Iremos utilizar a  ProfileReport para fazer uma análise mais geral dos dados

In [None]:
profile.to_widgets()

#### Esse metodo retorna alguns erros, mas será necessário para disponibilizar a visualização abaixo

In [None]:
profile.to_notebook_iframe()

In [None]:
df['meses_na_residencia'].unique()

### Pre-processamento

In [171]:
df = shuffle(df,random_state=0)
X, y = df.drop('inadimplente',axis=1), df['inadimplente']

Iremos a apagar alguns campos que não tem influencia positiva no modelo, pois ou estão todos com o mesmo valor, ou não adicionam nenhuma informação significativa.

Além disso, iremos transformar alguns campos em variáveis binárias.

Por último iremos transformar as variáveis categóricas

In [7]:
def preprocessing(X):
    X.drop([
    "id_solicitante",
    "codigo_area_telefone_residencial",
    "codigo_area_telefone_trabalho",
    "local_onde_reside",
    "local_onde_trabalha", 
    "qtde_contas_bancarias_especiais",
    "grau_instrucao",
    "possui_telefone_celular",
    ], axis=1,inplace=True)
    binarizador = LabelBinarizer()
    for coluna in ["possui_telefone_residencial",
                   "possui_telefone_trabalho",
                   "vinculo_formal_com_empresa",
                   "possui_email"
                  ]:
        X[coluna] = binarizador.fit_transform(X[coluna])
    X['sexo'].replace(' ','N',inplace=True)
    X = pd.get_dummies(X, columns=["sexo",
                                   "forma_envio_solicitacao",
                                   "estado_civil", 
                                   "profissao",
                                   "nacionalidade",
                                   "estado_onde_nasceu",
                                   "tipo_residencia",
                                   "estado_onde_reside",
                                   "estado_onde_trabalha",
                                   "ocupacao",
                                   "profissao_companheiro",
                                   "grau_instrucao_companheiro",
                                  ])
    return X

In [174]:
X = preprocessing(X)

171

# Ajustando a escala

In [165]:
X = PowerTransformer().fit_transform(X)

  loglike = -n_samples / 2 * np.log(x_trans.var())


# Escolhendo o Modelo adequado

### Knn

In [37]:
for k in range(1,10):
    clf = KNeighborsClassifier(
                        n_neighbors=k
                         )
    cv_score_xgb = cross_val_score(clf,X,y,cv=10) 
    print(k,cv_score_xgb.mean())

1 0.5247499999999999
2 0.52525
3 0.53515
4 0.53065
5 0.5342
6 0.52905
7 0.5347000000000001
8 0.53685
9 0.53895


### GaussianNB

In [43]:
clf = GaussianNB()
cv_score_xgb = cross_val_score(clf,X,y,cv=10) 
print(cv_score_xgb.mean())

0.5304500000000001


### BernoulliNB

In [40]:
clf = BernoulliNB(alpha=1)
cv_score_xgb = cross_val_score(clf,X,y,cv=10) 
print(cv_score_xgb.mean())

0.56935


### XGBClassifier

###### Iremos utilizar a RandomizesSearchCV para escolher os melhores parâmetros

In [166]:
params = {
        'min_child_weight': [8, 10, 12],
        'gamma': [1.2, 1.5, 1.7],
        'subsample': [0.7, 0.8, 0.9],
        'colsample_bytree': [0.5,0.6, 0.7],
        'max_depth': [3, 4, 5],
        'n_estimators':[100, 120, 150,180, 200,215],
        }

In [167]:
xgb = XGBClassifier(objective='binary:logistic', learning_rate=0.07,
                    silent=True, nthread=1, use_label_encoder=False,
                        eval_metric='logloss',)

In [168]:
folds = 5
param_comb = 10

skf = StratifiedKFold(n_splits=folds, shuffle = True, random_state = 1001)

random_search = RandomizedSearchCV(xgb, param_distributions=params, n_iter=param_comb,  n_jobs=4, cv=skf.split(X,y), verbose=3, random_state=1001 )

random_search.fit(X, y)

Fitting 5 folds for each of 10 candidates, totalling 50 fits


RandomizedSearchCV(cv=<generator object _BaseKFold.split at 0x000001C39804E970>,
                   estimator=XGBClassifier(base_score=None, booster=None,
                                           colsample_bylevel=None,
                                           colsample_bynode=None,
                                           colsample_bytree=None,
                                           eval_metric='logloss', gamma=None,
                                           gpu_id=None, importance_type='gain',
                                           interaction_constraints=None,
                                           learning_rate=0.07,
                                           max_delta_step=None, max_depth=None,
                                           min...
                                           scale_pos_weight=None, silent=True,
                                           subsample=None, tree_method=None,
                                           use_label_encoder=False

In [169]:
random_search.best_score_

0.5977

In [170]:
random_search.best_estimator_

XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=0.6, eval_metric='logloss',
              gamma=1.7, gpu_id=-1, importance_type='gain',
              interaction_constraints='', learning_rate=0.07, max_delta_step=0,
              max_depth=4, min_child_weight=8, missing=nan,
              monotone_constraints='()', n_estimators=200, n_jobs=1, nthread=1,
              num_parallel_tree=1, random_state=0, reg_alpha=0, reg_lambda=1,
              scale_pos_weight=1, silent=True, subsample=0.8,
              tree_method='exact', use_label_encoder=False,
              validate_parameters=1, verbosity=None)

##### Como tivemos um resultado bem melhor, iremos utilizar esse modelo para prever os dados de teste

# -------------------------------------------
# | Predição dos dados de teste |
# -------------------------------------------

### Para zerar as modificações feitas durante a escolha do modelo, iremos reler os dados e processá-los novamente

In [9]:
df = pd.read_csv("./conjunto_de_treinamento.csv")
dados_teste = pd.read_csv("./conjunto_de_teste.csv")

In [10]:
df = shuffle(df, random_state=0)
X, y = df.drop('inadimplente',axis=1), df['inadimplente']
X = preprocessing(X)
X_teste = preprocessing(dados_teste)


#### Para evitar erros no modelo, iremos iterar sobre as colunas dos dados de treino e caso não encontremos uma dessas colunas nos dados de teste, iremos definir todos os valores como 0.
#### Já para o caso da coluna só existir nos dados de teste, iremos apagá-la

In [11]:
for coluna in X.columns:
    if(coluna not in X_teste.columns):
        X_teste[coluna] = 0
for coluna in X_teste.columns:
    if(coluna not in X.columns):
        X_teste.drop([coluna], axis=1, inplace=True)

#### Aplicando a escala

In [12]:
escala = PowerTransformer()
escala.fit(X)
X, X_teste = escala.transform(X), escala.transform(X_teste)

#### Prevendo os dados usando o melhor modelo retornado anteriormente

In [13]:
clf = XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=0.6, eval_metric='logloss',
              gamma=1.7, gpu_id=-1, importance_type='gain',
              interaction_constraints='', learning_rate=0.07, max_delta_step=0,
              max_depth=4, min_child_weight=8, missing=np.nan,
              monotone_constraints='()', n_estimators=200, n_jobs=1, nthread=1,
              num_parallel_tree=1, random_state=0, reg_alpha=0, reg_lambda=1,
              scale_pos_weight=1, silent=True, subsample=0.8,
              tree_method='exact', use_label_encoder=False,
              validate_parameters=1, verbosity=None)
clf=CalibratedClassifierCV(clf, method='isotonic', cv=12)
clf.fit(X,y)

y_resposta_teste = clf.predict(X_teste)

Parameters: { "silent" } might not be used.

  This may not be accurate due to some parameters are only used in language bindings but
  passed down to XGBoost core.  Or some parameters are not used but slip through this
  verification. Please open an issue if you find above cases.


Parameters: { "silent" } might not be used.

  This may not be accurate due to some parameters are only used in language bindings but
  passed down to XGBoost core.  Or some parameters are not used but slip through this
  verification. Please open an issue if you find above cases.


Parameters: { "silent" } might not be used.

  This may not be accurate due to some parameters are only used in language bindings but
  passed down to XGBoost core.  Or some parameters are not used but slip through this
  verification. Please open an issue if you find above cases.


Parameters: { "silent" } might not be used.

  This may not be accurate due to some parameters are only used in language bindings but
  passed down 

#### Gerando os dados que serão submetidos ao kaggle

In [14]:
respostas = pd.DataFrame(
    {"id_solicitante": range(20001, 25001),
     "inadimplente": y_resposta_teste})



respostas.to_csv(path_or_buf="respostas.csv", index=False)