# Trabalho 1 - EEL891

Etapas que serão realizadas a seguir:
- Implementar o pré-processamento
- Visualizar, analisar e selecionar os atributos
- Escolher os métodos que serão usados e compará-los
- Verificar o desempenho com validação cruzada
- Ajustas os hiperparâmetros para chegar ao melhor resultado possível
- Treinar o modelo com o conjunto de teste

### Importação das bibliotecas

In [1]:
import pandas as pd
import numpy  as np

from matplotlib                 import pyplot as plt

from sklearn.naive_bayes        import MultinomialNB, GaussianNB
from sklearn.model_selection    import cross_val_score, cross_val_predict
from sklearn.metrics            import accuracy_score
from sklearn.neighbors          import KNeighborsClassifier
from sklearn.preprocessing      import LabelBinarizer, MinMaxScaler, StandardScaler
from sklearn.linear_model       import LogisticRegression
from scipy.stats                import pearsonr

### Pré-processamento

Agora, o próximo passo é importar o conjunto de treinamento:

In [2]:
dados = pd.read_csv(r"C:\Users\andre\Documents\UFRJ\SÉTIMO PERÍODO\Introdução ao Aprendizado de Máquina\EEL891-Trabalho-1\conjunto_de_treinamento.csv")
dados = dados.iloc[:,:]

Embaralhamento dos dados e separá-los em atributos e alvo (convertendo para um array):

In [3]:
dados = dados.sample(frac=1)
x = dados.iloc[:,:-1].to_numpy()
y = dados.iloc[:,-1].to_numpy()

Descartando algumas informações que não são relevantes. O campo "id_solicitante" é um número de 1 a 20000, ou seja, apenas atrapalharia o modelo. Os campos "grau_instrucao" e "possui_telefone_celular" não foram extraídos corretamente, então segui a orientação do professor para descartá-los. E o campo "qtde_contas_bancarias_especiais" é exatamente igual ao campo "qtde_contas_bancarias", logo foi descartado seguindo a orientação do professor.

In [4]:
dados = dados.drop(['id_solicitante', 'grau_instrucao', 'possui_telefone_celular', 'qtde_contas_bancarias_especiais'],axis=1)

Identificação das variáveis categóricas olhando o dicionário de dados:

In [5]:
variaveisCategoricas = [x for x in dados.columns if dados[x].dtype=='object' or x == 'produto_solicitado' or x == 'tipo_endereco' or x =='estado_civil' or  x =='nacionalidade' or x=='tipo_residencia' or x=='possui_email' or x=='possui_cartao_visa' or x=='possui_cartao_mastercard' or x=='possui_cartao_diners' or x=='possui_cartao_amex' or x=='possui_cartao_cartoes' or x=='possui_carro' or x=='profissao' or x=='ocupacao' or x=='profissao_companheiro' or x=='local_onde_reside' or x=='local_onde_trabalha']
print(variaveisCategoricas)

['produto_solicitado', 'forma_envio_solicitacao', 'tipo_endereco', 'sexo', 'estado_civil', 'nacionalidade', 'estado_onde_nasceu', 'estado_onde_reside', 'possui_telefone_residencial', 'codigo_area_telefone_residencial', 'tipo_residencia', 'possui_email', 'possui_cartao_visa', 'possui_cartao_mastercard', 'possui_cartao_diners', 'possui_cartao_amex', 'possui_carro', 'vinculo_formal_com_empresa', 'estado_onde_trabalha', 'possui_telefone_trabalho', 'codigo_area_telefone_trabalho', 'profissao', 'ocupacao', 'profissao_companheiro', 'local_onde_reside', 'local_onde_trabalha']


Verificando as variáveis categóricas (quantidade de categorias e quais são):

In [6]:
for v in variaveisCategoricas:
    print("\n%15s: " %v, "%4d categorias" % len(dados[v].unique() ) )
    print(dados[v].unique(), "\n")


produto_solicitado:     3 categorias
[1 2 7] 


forma_envio_solicitacao:     3 categorias
['presencial' 'internet' 'correio'] 


  tipo_endereco:     2 categorias
[1 2] 


           sexo:     4 categorias
['M' 'F' 'N' ' '] 


   estado_civil:     8 categorias
[1 2 4 7 6 3 5 0] 


  nacionalidade:     3 categorias
[1 0 2] 


estado_onde_nasceu:    28 categorias
['SP' 'MA' 'CE' 'RJ' 'TO' 'BA' 'RS' 'RN' ' ' 'PR' 'PB' 'PE' 'MT' 'PI' 'PA'
 'AL' 'AC' 'MG' 'GO' 'ES' 'RO' 'SE' 'DF' 'MS' 'SC' 'AP' 'AM' 'RR'] 


estado_onde_reside:    27 categorias
['MG' 'SP' 'MA' 'RN' 'RJ' 'GO' 'BA' 'RS' 'CE' 'PR' 'PB' 'PE' 'MT' 'PA'
 'AL' 'MS' 'DF' 'ES' 'AM' 'SE' 'PI' 'RR' 'SC' 'AP' 'AC' 'RO' 'TO'] 


possui_telefone_residencial:     2 categorias
['Y' 'N'] 


codigo_area_telefone_residencial:    81 categorias
['32' '5' ' ' '105' '12' '22' '66' '84' '54' '107' '62' '41' '103' '97'
 '71' '112' '111' '20' '44' '86' '10' '81' '67' '27' '126' '15' '29' '33'
 '85' '91' '30' '117' '110' '40' '122' '100' '75' '18' '

Correção de alguns valores (principalmente em branco). A ideia inicial é criar uma nova categoria para os valores em branco, e depois tentar excluí-los para ver qual é a resposta dos modelos:

In [7]:
for x in variaveisCategoricas:
    if x == 'sexo':
        dados[x].replace(' ', 'N', inplace=True)
    if x == 'estado_onde_nasceu':
        dados[x].replace(' ', 'NN', inplace=True)
    if x == 'codigo_area_telefone_residencial':
        dados[x].replace(' ', '000', inplace=True)
    if x == 'tipo_residencia':
        dados[x].replace(0, 6, inplace=True)
        dados[x].fillna(0, inplace=True)
    if x == 'estado_onde_trabalha':
        dados[x].replace(' ', 'NN', inplace=True)
    if x == 'codigo_area_telefone_trabalho':
        dados[x].replace(' ', '000', inplace=True)
    if x == 'profissao':
        dados[x].replace(0, 18, inplace=True)
        dados[x].fillna(0, inplace=True)
    if x == 'ocupacao':
        dados[x].replace(0, 6, inplace=True)
        dados[x].fillna(0, inplace=True)
    if x == 'profissao_companheiro':
        dados[x].replace(0, 18, inplace=True)
        dados[x].fillna(0, inplace=True)
    print("\n%15s: " %x, "%4d categorias" % len(dados[x].unique() ) )
    print(dados[x].unique(), "\n")


produto_solicitado:     3 categorias
[1 2 7] 


forma_envio_solicitacao:     3 categorias
['presencial' 'internet' 'correio'] 


  tipo_endereco:     2 categorias
[1 2] 


           sexo:     3 categorias
['M' 'F' 'N'] 


   estado_civil:     8 categorias
[1 2 4 7 6 3 5 0] 


  nacionalidade:     3 categorias
[1 0 2] 


estado_onde_nasceu:    28 categorias
['SP' 'MA' 'CE' 'RJ' 'TO' 'BA' 'RS' 'RN' 'NN' 'PR' 'PB' 'PE' 'MT' 'PI'
 'PA' 'AL' 'AC' 'MG' 'GO' 'ES' 'RO' 'SE' 'DF' 'MS' 'SC' 'AP' 'AM' 'RR'] 


estado_onde_reside:    27 categorias
['MG' 'SP' 'MA' 'RN' 'RJ' 'GO' 'BA' 'RS' 'CE' 'PR' 'PB' 'PE' 'MT' 'PA'
 'AL' 'MS' 'DF' 'ES' 'AM' 'SE' 'PI' 'RR' 'SC' 'AP' 'AC' 'RO' 'TO'] 


possui_telefone_residencial:     2 categorias
['Y' 'N'] 


codigo_area_telefone_residencial:    81 categorias
['32' '5' '000' '105' '12' '22' '66' '84' '54' '107' '62' '41' '103' '97'
 '71' '112' '111' '20' '44' '86' '10' '81' '67' '27' '126' '15' '29' '33'
 '85' '91' '30' '117' '110' '40' '122' '100' '75' '18' '7

In [8]:
for x in dados:
    if x == 'meses_na_residencia':
        dados[x].fillna(300, inplace=True)
    if x == 'grau_instrucao_companheiro':
        dados[x].fillna(6, inplace=True)
    print("\n%15s: " %x, "%4d categorias" % len(dados[x].unique() ) )
    print(dados[x].unique(), "\n")


produto_solicitado:     3 categorias
[1 2 7] 


 dia_vencimento:     6 categorias
[10 20 25 15  1  5] 


forma_envio_solicitacao:     3 categorias
['presencial' 'internet' 'correio'] 


  tipo_endereco:     2 categorias
[1 2] 


           sexo:     3 categorias
['M' 'F' 'N'] 


          idade:    84 categorias
[ 33  26  45  64  30  35  28  21  47  32  27  78  60  76  20  55  42  19
  36  25  67  48  37  52  18  49  57  46  86  31  40  39  34  22  24  43
  44  38  51  53  23  61  73  50  85  41  29  56  54  65  58  80  59  66
  94  71  63  79  72  62  77  68  95  69  70  75  74  81  87  89  82 106
  90  88  84  93  83  17  96  91  92   7 100  97] 


   estado_civil:     8 categorias
[1 2 4 7 6 3 5 0] 


qtde_dependentes:    15 categorias
[ 0  1  2  3  4  8  5  6  7 10 13  9 11 53 14] 


  nacionalidade:     3 categorias
[1 0 2] 


estado_onde_nasceu:    28 categorias
['SP' 'MA' 'CE' 'RJ' 'TO' 'BA' 'RS' 'RN' 'NN' 'PR' 'PB' 'PE' 'MT' 'PI'
 'PA' 'AL' 'AC' 'MG' 'GO' 'ES' 'RO' 'SE' 'DF' '


grau_instrucao_companheiro:     7 categorias
[0. 4. 6. 3. 2. 5. 1.] 


local_onde_reside:   743 categorias
[384. 926. 659. 595. 173. 289. 728. 452. 956. 618. 592. 628. 403. 976.
 850. 580. 536. 636. 781. 129. 441. 590. 629. 552. 593. 235. 591. 244.
 550. 684. 172. 902. 682. 531. 133. 579. 975. 867. 365. 444. 545. 987.
 486. 218. 795. 118. 870. 299. 543. 230. 617. 749. 715. 293. 382. 183.
 581. 607. 520. 948. 981. 247. 685. 154. 315. 371. 630. 447. 600. 326.
 458. 207. 639. 691. 491. 665. 362. 660. 473. 965. 427. 601. 640. 830.
 522. 815. 113. 321. 693. 840. 232. 286. 454. 608. 570. 389. 714. 792.
 249. 671. 625. 171. 788. 146. 780. 757. 626. 855. 187. 468. 374. 319.
 387. 147. 961. 492. 686. 568. 558. 917. 603. 960. 944. 717. 790. 530.
 291. 932. 596. 351. 563. 130. 605. 410. 931. 583. 131. 842. 134. 722.
 934. 292. 933. 312. 884. 880. 763. 542. 962. 136. 555. 267. 708. 651.
 994. 578. 248. 513. 838. 964. 604. 573. 413. 627. 569. 188. 740. 689.
 642. 652. 150. 346. 977. 662. 456. 869.

Binarizar e fazer o one hot encoding de alguns parâmetros:

In [9]:
dados = pd.get_dummies(dados, columns=['forma_envio_solicitacao',
                                       'sexo'
                                       #'estado_onde_nasceu',
                                       #'estado_onde_reside',
                                       #'estado_onde_trabalha'
                                      ])
#print(dados.T)

binarizador = LabelBinarizer()
for x in ['tipo_endereco',
          'possui_telefone_residencial',
          'vinculo_formal_com_empresa',
          'possui_telefone_trabalho']:
    dados[x] = binarizador.fit_transform(dados[x])
#print(dados.T)

Verificar a correlação de pearson entre os parâmetros e o alvo (obs: os parâmetros não parecem muito promissores, mas veremos mais na hora de treinar o modelo):

In [10]:
colunas = dados.columns
for col in colunas:
    if type(dados[col][0]) != str:
        corr = pearsonr(dados[col], dados['inadimplente'])
        print(col, " = %.4f" % corr[0], " , %.10f" % corr[1])

produto_solicitado  = 0.0301  , 0.0000206384
dia_vencimento  = 0.0803  , 0.0000000000
tipo_endereco  = -0.0044  , 0.5332219466
idade  = -0.1207  , 0.0000000000
estado_civil  = -0.0313  , 0.0000097351
qtde_dependentes  = 0.0176  , 0.0126681749
nacionalidade  = 0.0005  , 0.9442714564
possui_telefone_residencial  = -0.0808  , 0.0000000000
tipo_residencia  = 0.0200  , 0.0046491853
meses_na_residencia  = -0.0047  , 0.5024577844
possui_email  = -0.0057  , 0.4168413604
renda_mensal_regular  = -0.0009  , 0.8958507584
renda_extra  = 0.0059  , 0.4079845863
possui_cartao_visa  = -0.0013  , 0.8559114105
possui_cartao_mastercard  = -0.0200  , 0.0047680534
possui_cartao_diners  = 0.0025  , 0.7234775228
possui_cartao_amex  = -0.0011  , 0.8757773534
possui_outros_cartoes  = -0.0032  , 0.6543764344
qtde_contas_bancarias  = 0.0141  , 0.0456463167
valor_patrimonio_pessoal  = 0.0012  , 0.8627919655
possui_carro  = 0.0128  , 0.0707060897
vinculo_formal_com_empresa  = 0.0062  , 0.3773057238
possui_telefone_

In [11]:
#atributos usados pelo classificador
atributosSelecionados = [
    'produto_solicitado',
    'dia_vencimento',
    'forma_envio_solicitacao_correio',
    'forma_envio_solicitacao_internet',
    'forma_envio_solicitacao_presencial',
    'tipo_endereco',
    'sexo_M',
    'sexo_F',
    'sexo_N',
    'idade',
    'estado_civil',
    'qtde_dependentes',
#     'nacionalidade',
#     'estado_onde_nasceu',
#     'estado_onde_reside',
    'possui_telefone_residencial',
#     'codigo_area_telefone_residencial',
    'tipo_residencia',
    'meses_na_residencia',
    'possui_email',
    'renda_mensal_regular',
    'renda_extra',
    'possui_cartao_visa',
    'possui_cartao_mastercard',
    'possui_cartao_diners',
    'possui_cartao_amex',
    'possui_outros_cartoes',
    'qtde_contas_bancarias',
    'valor_patrimonio_pessoal',
    'possui_carro',
    'vinculo_formal_com_empresa',
#     'estado_onde_trabalha',
    'possui_telefone_trabalho',
    'codigo_area_telefone_trabalho',
    'meses_no_trabalho',
    'profissao',
    'ocupacao',
    'profissao_companheiro',
    'grau_instrucao_companheiro',
    #'local_onde_reside',
    #'local_onde_trabalha',
    'inadimplente'
]

alvo = 'inadimplente'

#embaralhar o conjunto de dados
dadosEmbaralhados = dados[atributosSelecionados].sample(frac=1)

#criar arrays x e y separando os parâmetros do alvo
x = dadosEmbaralhados.iloc[:,:-1].to_numpy()
y = dadosEmbaralhados.iloc[:,-1].to_numpy()

# #separar em conjunto de treino e de teste
# amostrasTreinamento = 15000

# xTreino = x[:amostrasTreinamento,:]
# yTreino = y[:amostrasTreinamento].ravel()

# xTeste = x[amostrasTreinamento:,:]
# yTeste = y[amostrasTreinamento:].ravel()

#ajustar a escala
scaler = MinMaxScaler()
scaler.fit(x)

a = scaler.transform(x)

### Treinamento do modelo

Classificador Bayesiano com Distribuição Multinomial:

In [12]:
classificador = MultinomialNB(alpha=100.0)
y_pred = cross_val_predict(classificador, a, y, cv=5)

print("Acurácia = %6.4f" % accuracy_score(y,y_pred))

Acurácia = 0.5345


Classificador Bayesiano com Distribuição Multinomial:

In [13]:
classificador = GaussianNB()
y_pred = cross_val_predict(classificador, a, y, cv=5)

print("Acurácia = %6.4f" % accuracy_score(y,y_pred))

Acurácia = 0.5205


Classificador KNN

In [14]:
# print("\n  K  TREINO  TESTE")
# print(" --  ------  ------")

# for k in range(1,50):
#     classificador = KNeighborsClassifier(
#         n_neighbors=k,
#         weights = 'uniform',
#         p=1
#     )
#     classificador = classificador.fit(xTreino, yTreino)
    
#     yRespostaTreino = classificador.predict(xTreino)
#     yRespostaTeste = classificador.predict(xTeste)
    
#     acuraciaTreino = sum(yRespostaTreino==yTreino)/len(yTreino)
#     acuraciaTeste = sum(yRespostaTeste==yTeste)/len(yTeste)
    
#     print(
#         "%3d" % k,
#         "%6.1f" % (100*acuraciaTreino),
#         "%6.1f" % (100*acuraciaTeste)
#     )
for k in range(75,125,2):
    classificador = KNeighborsClassifier(n_neighbors=k)
    y_pred = cross_val_predict(classificador,a,y,cv=5)
    
    print("k = %2d ---> Acurácia = %6.4f" % (k, accuracy_score(y, y_pred) ) )


k = 75 ---> Acurácia = 0.5613
k = 77 ---> Acurácia = 0.5614
k = 79 ---> Acurácia = 0.5602
k = 81 ---> Acurácia = 0.5602
k = 83 ---> Acurácia = 0.5595
k = 85 ---> Acurácia = 0.5595
k = 87 ---> Acurácia = 0.5597
k = 89 ---> Acurácia = 0.5587
k = 91 ---> Acurácia = 0.5584
k = 93 ---> Acurácia = 0.5585
k = 95 ---> Acurácia = 0.5581
k = 97 ---> Acurácia = 0.5585
k = 99 ---> Acurácia = 0.5582
k = 101 ---> Acurácia = 0.5576
k = 103 ---> Acurácia = 0.5579
k = 105 ---> Acurácia = 0.5568
k = 107 ---> Acurácia = 0.5582
k = 109 ---> Acurácia = 0.5581
k = 111 ---> Acurácia = 0.5563
k = 113 ---> Acurácia = 0.5566
k = 115 ---> Acurácia = 0.5575
k = 117 ---> Acurácia = 0.5593
k = 119 ---> Acurácia = 0.5588
k = 121 ---> Acurácia = 0.5594
k = 123 ---> Acurácia = 0.5595


Classificador de Regressão Logística

In [15]:
# print("\n                        C  TREINO  TESTE")
# print(" -------------------------  ------  ------")

# for k in range(-6,7):
#     c = pow(10,k)
#     classificador = LogisticRegression(
#         penalty = 'l1',
#         C = c,
#         solver = 'liblinear',
#         max_iter = 10000
#     )

#     classificador = classificador.fit(xTreino, yTreino)
    
#     yRespostaTreino = classificador.predict(xTreino)
#     yRespostaTeste = classificador.predict(xTeste)
    
#     acuraciaTreino = sum(yRespostaTreino==yTreino)/len(yTreino)
#     acuraciaTeste = sum(yRespostaTeste==yTeste)/len(yTeste)
    
#     print(
#         "%14.6f" % c,
#         "%6.1f" % (100*acuraciaTreino),
#         "%6.1f" % (100*acuraciaTeste)
#     )

classificador = LogisticRegression(penalty='l2', C=10.0, solver = 'liblinear', max_iter=10000)
y_pred = cross_val_predict(classificador,a,y,cv=5)

print("Acurácia - %6.4f" % accuracy_score(y, y_pred))

Acurácia - 0.5776


In [16]:
dadosTeste = pd.read_csv(r"C:\Users\andre\Documents\UFRJ\SÉTIMO PERÍODO\Introdução ao Aprendizado de Máquina\EEL891-Trabalho-1\conjunto_de_teste.csv")
dadosTeste = dadosTeste.iloc[:,:]

dadosTeste = dadosTeste.drop(['grau_instrucao', 'possui_telefone_celular', 'qtde_contas_bancarias_especiais'],axis=1)

variaveisCategoricas = [x for x in dadosTeste.columns if dadosTeste[x].dtype=='object' or x == 'produto_solicitado' or x == 'tipo_endereco' or x =='estado_civil' or  x =='nacionalidade' or x=='tipo_residencia' or x=='possui_email' or x=='possui_cartao_visa' or x=='possui_cartao_mastercard' or x=='possui_cartao_diners' or x=='possui_cartao_amex' or x=='possui_cartao_cartoes' or x=='possui_carro' or x=='profissao' or x=='ocupacao' or x=='profissao_companheiro' or x=='local_onde_reside' or x=='local_onde_trabalha']

for x in variaveisCategoricas:
    if x == 'sexo':
        dadosTeste[x].replace(' ', 'N', inplace=True)
    if x == 'estado_onde_nasceu':
        dadosTeste[x].replace(' ', 'NN', inplace=True)
    if x == 'codigo_area_telefone_residencial':
        dadosTeste[x].replace(' ', '000', inplace=True)
    if x == 'tipo_residencia':
        dadosTeste[x].replace(0, 6, inplace=True)
        dadosTeste[x].fillna(0, inplace=True)
    if x == 'estado_onde_trabalha':
        dadosTeste[x].replace(' ', 'NN', inplace=True)
    if x == 'codigo_area_telefone_trabalho':
        dadosTeste[x].replace(' ', '000', inplace=True)
    if x == 'profissao':
        dadosTeste[x].replace(0, 18, inplace=True)
        dadosTeste[x].fillna(0, inplace=True)
    if x == 'ocupacao':
        dadosTeste[x].replace(0, 6, inplace=True)
        dadosTeste[x].fillna(0, inplace=True)
    if x == 'profissao_companheiro':
        dadosTeste[x].replace(0, 18, inplace=True)
        dadosTeste[x].fillna(0, inplace=True)

for x in dadosTeste:
    if x == 'meses_na_residencia':
        dadosTeste[x].fillna(300, inplace=True)
    if x == 'grau_instrucao_companheiro':
        dadosTeste[x].fillna(6, inplace=True)

dadosTeste = pd.get_dummies(dadosTeste, columns=['forma_envio_solicitacao',
                                                 'sexo'
                                                 #'estado_onde_nasceu',
                                                 #'estado_onde_reside',
                                                 #'estado_onde_trabalha'
                                                ])

binarizador = LabelBinarizer()
for x in ['tipo_endereco',
          'possui_telefone_residencial',
          'vinculo_formal_com_empresa',
          'possui_telefone_trabalho']:
    dadosTeste[x] = binarizador.fit_transform(dadosTeste[x])
    
#atributos usados pelo classificador
atributosSelecionados = [
    'produto_solicitado',
    'dia_vencimento',
    'forma_envio_solicitacao_correio',
    'forma_envio_solicitacao_internet',
    'forma_envio_solicitacao_presencial',
    'tipo_endereco',
    'sexo_M',
    'sexo_F',
    'sexo_N',
    'idade',
    'estado_civil',
    'qtde_dependentes',
#     'nacionalidade',
#     'estado_onde_nasceu',
#     'estado_onde_reside',
    'possui_telefone_residencial',
#     'codigo_area_telefone_residencial',
    'tipo_residencia',
    'meses_na_residencia',
    'possui_email',
    'renda_mensal_regular',
    'renda_extra',
    'possui_cartao_visa',
    'possui_cartao_mastercard',
    'possui_cartao_diners',
    'possui_cartao_amex',
    'possui_outros_cartoes',
    'qtde_contas_bancarias',
    'valor_patrimonio_pessoal',
    'possui_carro',
    'vinculo_formal_com_empresa',
#     'estado_onde_trabalha',
    'possui_telefone_trabalho',
    'codigo_area_telefone_trabalho',
    'meses_no_trabalho',
    'profissao',
    'ocupacao',
    'profissao_companheiro',
    'grau_instrucao_companheiro',
    #'local_onde_reside',
    #'local_onde_trabalha',
]

alvo = dadosTeste['id_solicitante']

dadosTeste = dadosTeste[atributosSelecionados].to_numpy()

# Regressão Logística
classificador = LogisticRegression(penalty='l1', C=50.0, solver = 'liblinear', max_iter=10000)
y_pred = cross_val_predict(classificador,a,y,cv=10)

print("Acurácia - %6.4f" % accuracy_score(y, y_pred))

# KNN
classificador = KNeighborsClassifier(n_neighbors=101, weights = 'distance', p=1)
y_pred = cross_val_predict(classificador,a,y,cv=10)
    
print("Acurácia = %6.4f" %  accuracy_score(y, y_pred) )


classificador = classificador.fit(a, y)
yResposta = classificador.predict(dadosTeste)    

data = {'id_solicitante': alvo,
        'inadimplente': yResposta
       }

df = pd.DataFrame(data)
df.to_csv('resposta.csv', sep=',', index=False)
print(yResposta)

Acurácia - 0.5781
Acurácia = 0.5647
[0 0 0 ... 0 0 1]
