# Trabalho 1 - EEL891

Etapas que serão realizadas a seguir:
- Implementar o pré-processamento
- Visualizar, analisar e selecionar os atributos
- Escolher os métodos que serão usados e compará-los
- Verificar o desempenho com validação cruzada
- Ajustas os hiperparâmetros para chegar ao melhor resultado possível
- Treinar o modelo com o conjunto de teste

Antes de tudo, irei importar todas as bibliotecas necessárias:

In [105]:
import pandas as pd
import numpy as np

from matplotlib import pyplot as plt

from sklearn.naive_bayes import MultinomialNB, GaussianNB, BernoulliNB
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import LabelBinarizer, MinMaxScaler
from scipy.stats import pearsonr

Agora, o próximo passo é importar o conjunto de treinamento:

In [3]:
dados = pd.read_csv(r"C:\Users\andre\Documents\UFRJ\SÉTIMO PERÍODO\Introdução ao Aprendizado de Máquina\EEL891-Trabalho-1\conjunto_de_treinamento.csv")
dados = dados.iloc[:,:]

Embaralhamento dos dados e separá-los em atributos e alvo (convertendo para um array):

In [4]:
dados = dados.sample(frac=1)
x = dados.iloc[:,:-1].to_numpy()
y = dados.iloc[:,-1].to_numpy()

Descartando algumas informações que não são relevantes. O campo "id_solicitante" é um número de 1 a 20000, ou seja, apenas atrapalharia o modelo. Os campos "grau_instrucao" e "possui_telefone_celular" não foram extraídos corretamente, então segui a orientação do professor para descartá-los. E o campo "qtde_contas_bancarias_especiais" é exatamente igual ao campo "qtde_contas_bancarias", logo foi descartado seguindo a orientação do professor.

In [5]:
dados = dados.drop(['id_solicitante', 'grau_instrucao', 'possui_telefone_celular', 'qtde_contas_bancarias_especiais'],axis=1)

Identificação das variáveis categóricas olhando o dicionário de dados:

In [6]:
variaveisCategoricas = [x for x in dados.columns if dados[x].dtype=='object' or x == 'produto_solicitado' or x == 'tipo_endereco' or x =='estado_civil' or  x =='nacionalidade' or x=='tipo_residencia' or x=='possui_email' or x=='possui_cartao_visa' or x=='possui_cartao_mastercard' or x=='possui_cartao_diners' or x=='possui_cartao_amex' or x=='possui_cartao_cartoes' or x=='possui_carro' or x=='profissao' or x=='ocupacao' or x=='profissao_companheiro' or x=='local_onde_reside' or x=='local_onde_trabalha']
print(variaveisCategoricas)

['produto_solicitado', 'forma_envio_solicitacao', 'tipo_endereco', 'sexo', 'estado_civil', 'nacionalidade', 'estado_onde_nasceu', 'estado_onde_reside', 'possui_telefone_residencial', 'codigo_area_telefone_residencial', 'tipo_residencia', 'possui_email', 'possui_cartao_visa', 'possui_cartao_mastercard', 'possui_cartao_diners', 'possui_cartao_amex', 'possui_carro', 'vinculo_formal_com_empresa', 'estado_onde_trabalha', 'possui_telefone_trabalho', 'codigo_area_telefone_trabalho', 'profissao', 'ocupacao', 'profissao_companheiro', 'local_onde_reside', 'local_onde_trabalha']


Verificando as variáveis categóricas (quantidade de categorias e quais são):

In [7]:
for v in variaveisCategoricas:
    print("\n%15s: " %v, "%4d categorias" % len(dados[v].unique() ) )
    print(dados[v].unique(), "\n")


produto_solicitado:     3 categorias
[2 1 7] 


forma_envio_solicitacao:     3 categorias
['correio' 'presencial' 'internet'] 


  tipo_endereco:     2 categorias
[1 2] 


           sexo:     4 categorias
['M' 'F' 'N' ' '] 


   estado_civil:     8 categorias
[2 1 5 0 4 3 6 7] 


  nacionalidade:     3 categorias
[1 0 2] 


estado_onde_nasceu:    28 categorias
['BA' 'MT' 'RS' 'AL' 'CE' ' ' 'SP' 'GO' 'PE' 'MS' 'PB' 'PA' 'PR' 'MG' 'RJ'
 'MA' 'RN' 'PI' 'SC' 'ES' 'AC' 'SE' 'AM' 'TO' 'AP' 'RO' 'RR' 'DF'] 


estado_onde_reside:    27 categorias
['BA' 'MT' 'SP' 'CE' 'MG' 'RS' 'PA' 'PE' 'RO' 'MS' 'PB' 'PI' 'GO' 'RJ'
 'RN' 'AP' 'AL' 'DF' 'AC' 'PR' 'SE' 'MA' 'ES' 'AM' 'SC' 'TO' 'RR'] 


possui_telefone_residencial:     2 categorias
['Y' 'N'] 


codigo_area_telefone_residencial:    81 categorias
['81' '71' '5' '84' '16' '86' '112' '29' ' ' '107' '120' '97' '77' '15'
 '103' '110' '66' '75' '54' '90' '62' '20' '58' '12' '105' '22' '32' '61'
 '123' '100' '14' '111' '69' '76' '117' '13' '40' '91' '

Correção de alguns valores (principalmente em branco). A ideia inicial é criar uma nova categoria para os valores em branco, e depois tentar excluí-los para ver qual é a resposta dos modelos:

In [37]:
for x in variaveisCategoricas:
    if x == 'sexo':
        dados[x].replace(' ', 'N', inplace=True)
    if x == 'estado_onde_nasceu':
        dados[x].replace(' ', 'NN', inplace=True)
    if x == 'codigo_area_telefone_residencial':
        dados[x].replace(' ', '000', inplace=True)
    if x == 'tipo_residencia':
        dados[x].replace(0, 6, inplace=True)
        dados[x].fillna(0, inplace=True)
    if x == 'estado_onde_trabalha':
        dados[x].replace(' ', 'NN', inplace=True)
    if x == 'codigo_area_telefone_trabalho':
        dados[x].replace(' ', '000', inplace=True)
    if x == 'profissao':
        dados[x].replace(0, 18, inplace=True)
        dados[x].fillna(0, inplace=True)
    if x == 'ocupacao':
        dados[x].replace(0, 6, inplace=True)
        dados[x].fillna(0, inplace=True)
    if x == 'profissao_companheiro':
        dados[x].replace(0, 18, inplace=True)
        dados[x].fillna(0, inplace=True)
    print("\n%15s: " %x, "%4d categorias" % len(dados[x].unique() ) )
    print(dados[x].unique(), "\n")


produto_solicitado:     3 categorias
[2 1 7] 


forma_envio_solicitacao:     3 categorias
['correio' 'presencial' 'internet'] 


  tipo_endereco:     2 categorias
[1 2] 


           sexo:     3 categorias
['M' 'F' 'N'] 


   estado_civil:     8 categorias
[2 1 5 0 4 3 6 7] 


  nacionalidade:     3 categorias
[1 0 2] 


estado_onde_nasceu:    28 categorias
['BA' 'MT' 'RS' 'AL' 'CE' 'NN' 'SP' 'GO' 'PE' 'MS' 'PB' 'PA' 'PR' 'MG'
 'RJ' 'MA' 'RN' 'PI' 'SC' 'ES' 'AC' 'SE' 'AM' 'TO' 'AP' 'RO' 'RR' 'DF'] 


estado_onde_reside:    27 categorias
['BA' 'MT' 'SP' 'CE' 'MG' 'RS' 'PA' 'PE' 'RO' 'MS' 'PB' 'PI' 'GO' 'RJ'
 'RN' 'AP' 'AL' 'DF' 'AC' 'PR' 'SE' 'MA' 'ES' 'AM' 'SC' 'TO' 'RR'] 


possui_telefone_residencial:     2 categorias
['Y' 'N'] 


codigo_area_telefone_residencial:    81 categorias
['81' '71' '5' '84' '16' '86' '112' '29' '000' '107' '120' '97' '77' '15'
 '103' '110' '66' '75' '54' '90' '62' '20' '58' '12' '105' '22' '32' '61'
 '123' '100' '14' '111' '69' '76' '117' '13' '40' '91' '4

In [111]:
for x in dados:
    if x == 'meses_na_residencia':
        dados[x].fillna(300, inplace=True)
    if x == 'grau_instrucao_companheiro':
        dados[x].fillna(6, inplace=True)
    print("\n%15s: " %x, "%4d categorias" % len(dados[x].unique() ) )
    print(dados[x].unique(), "\n")


produto_solicitado:     3 categorias
[2 1 7] 


 dia_vencimento:     6 categorias
[15 25 10  5 20  1] 


forma_envio_solicitacao:     3 categorias
['correio' 'presencial' 'internet'] 


  tipo_endereco:     2 categorias
[0 1] 


           sexo:     3 categorias
['M' 'F' 'N'] 


          idade:    84 categorias
[ 45  21  28  44  82  29  26  55  60  58  27  35  46  53  36  57  24  71
  51  25  48  52  20  40  38  49  43  19  56  39  18  42  31  37  30  34
  32  67  69  50  41  23  33  62  68  79  54  78  59  66  47  61  83  80
  65  72  64  76  85  22  70  74  63  86  75  73  77  91  84  87  92  89
 100  81  88  96  90 106  17  94  95   7  93  97] 


   estado_civil:     8 categorias
[2 1 5 0 4 3 6 7] 


qtde_dependentes:    15 categorias
[ 0  1  2  5  3  8  4  6 10  7  9 13 11 14 53] 


  nacionalidade:     3 categorias
[1 0 2] 


estado_onde_nasceu:    28 categorias
['BA' 'MT' 'RS' 'AL' 'CE' 'NN' 'SP' 'GO' 'PE' 'MS' 'PB' 'PA' 'PR' 'MG'
 'RJ' 'MA' 'RN' 'PI' 'SC' 'ES' 'AC' 'SE' 'AM' '

In [123]:
Binarizar e fazer o one hot encoding de alguns parâmetros:

SyntaxError: invalid syntax (2786711733.py, line 1)

In [108]:
# 127 em 20000 (tipo_endereco == 1)
binarizador = LabelBinarizer()
for x in ['tipo_endereco', 'possui_telefone_residencial', 'vinculo_formal_com_empresa', 'possui_telefone_trabalho']:
    dados[x] = binarizador.fit_transform(dados[x])
#print(dados.head(4).T)

a=0
b=0
for x in dados:
    for y in x:
    #print(dados[x].isna())
        print(pd.isnull(y))
    if dados[x].isna().values[0] == True:
        a+=1
        print(x, ' = ', a)
# dados = pd.get_dummies(dados, columns=[])

False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
Fals

In [None]:
Verificar a distribuição entre os possíveis valores dentro dos parâmetros:

In [124]:
for x in dados:
    print(dados[x].value_counts())

produto_solicitado
1    17023
2     2435
7      542
Name: count, dtype: int64
dia_vencimento
10    7847
15    3557
25    3089
5     2825
20    1952
1      730
Name: count, dtype: int64
forma_envio_solicitacao
internet      11264
presencial     7855
correio         881
Name: count, dtype: int64
tipo_endereco
0    19873
1      127
Name: count, dtype: int64
sexo
F    12246
M     7722
N       32
Name: count, dtype: int64
idade
40     555
39     534
36     526
32     518
37     513
      ... 
106      2
94       2
100      1
7        1
97       1
Name: count, Length: 84, dtype: int64
estado_civil
2    10088
1     6519
4     1573
6      763
5      522
3      234
7      220
0       81
Name: count, dtype: int64
qtde_dependentes
0     13350
1      2814
2      2189
3      1029
4       352
5       149
6        57
7        22
8        14
9         9
10        7
11        4
13        2
14        1
53        1
Name: count, dtype: int64
nacionalidade
1    19152
0      808
2       40
Name: count, dtyp

Verificar a correlação de pearson entre os parâmetros e o alvo (obs: os parâmetros não parecem muito promissores, mas veremos mais na hora de treinar o modelo):

In [122]:
colunas = dados.columns
# for col in colunas:
#     print(type(dados[col][0]))
for col in colunas:
    if type(dados[col][0]) != str:
        corr = pearsonr(dados[col], dados['inadimplente'])
        print(col, " = %.4f" % corr[0], " , %.10f" % corr[1])

produto_solicitado  = 0.0301  , 0.0000206384
dia_vencimento  = 0.0803  , 0.0000000000
tipo_endereco  = -0.0044  , 0.5332219466
idade  = -0.1207  , 0.0000000000
estado_civil  = -0.0313  , 0.0000097351
qtde_dependentes  = 0.0176  , 0.0126681749
nacionalidade  = 0.0005  , 0.9442714564
possui_telefone_residencial  = -0.0808  , 0.0000000000
tipo_residencia  = 0.0143  , 0.0431460781
meses_na_residencia  = -0.0047  , 0.5024577844
possui_email  = -0.0057  , 0.4168413604
renda_mensal_regular  = -0.0009  , 0.8958507584
renda_extra  = 0.0059  , 0.4079845863
possui_cartao_visa  = -0.0013  , 0.8559114105
possui_cartao_mastercard  = -0.0200  , 0.0047680534
possui_cartao_diners  = 0.0025  , 0.7234775228
possui_cartao_amex  = -0.0011  , 0.8757773534
possui_outros_cartoes  = -0.0032  , 0.6543764344
qtde_contas_bancarias  = 0.0141  , 0.0456463167
valor_patrimonio_pessoal  = 0.0012  , 0.8627919655
possui_carro  = 0.0128  , 0.0707060897
vinculo_formal_com_empresa  = 0.0062  , 0.3773057238
possui_telefone_

## Pré-processamento

Classificador Bayesiano com Distribuição Multinomial

In [None]:
classificador = MultinomialNB(alpha=1.0)
y_pred = cross_val_predict(classificador, x, y, cv=5)

print("Acurácia = %6.4f" % accuracy_score(y,y_pred))

Classificador Bayesiano com Distribuição Multinomial

In [None]:
classificador = GaussianNB(alpha=1.0)
y_pred = cross_val_predict(classificador, x, y, cv=5)

print("Acurácia = %6.4f" % accuracy_score(y,y_pred))