

# Projeto de machine learning com Python ( usando IA pra prever Score de Crédito )

## Usando IA do scikit learn para prever se o score do cliente é (bom, padrão ou ruim)

## Portfólio por : Matheus Amaral da Rocha

In [55]:
# Importando nosso bom e velho Pandas ( fundamental )

import pandas as pd

In [56]:
# Armazenando o csv e visualizando como um dataframe para identificarmos
# como nossos dados estão organizados e tomar uma decisão a partir disso

df = pd.read_csv('clientes.csv')
df.head(3)

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.46538,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.46538,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.46538,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0


In [57]:
# Acima, decidi prever o score do cliente através da coluna 'score_credito', porém
# notei que os dados da coluna estão em inglês, não seria problema algum, porém para
# deixar mais acessivel e entendido a todos, resolvi que iria deixar em português.
# Veja abaixo como fiz essa " tradução "

# Primeiro, fiz uma simples linha de código para identificar todos os valores unicos da
# nossa coluna alvo 'score_credito' a fim de saber quais textos em inglês irei "traduzir"
# para português

df['score_credito'].unique()

array(['Good', 'Standard', 'Poor'], dtype=object)

In [58]:
# Acima , decidi colodar "Good" como "bom', "Standard" como "padrão" e "Poor" como "ruim".
# Veja abaixo como fiz isso para cada um deles

df.loc[df['score_credito'] == 'Standard', 'score_credito'] = 'padrão'
df.loc[df['score_credito'] == 'Poor', 'score_credito'] = 'ruim'
df.loc[df['score_credito'] == 'Good', 'score_credito'] = 'bom'

In [59]:
# Exibindo denovo o dataframe, porém com a coluna 'score_credito' contendo os dados
# em portugues

df.head(5)

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.46538,alto_gasto_pagamento_baixos,312.494089,bom,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.46538,baixo_gasto_pagamento_alto,284.629162,bom,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.46538,baixo_gasto_pagamento_medio,331.209863,bom,1,1,1,1,0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.46538,baixo_gasto_pagamento_baixo,223.45131,bom,1,1,1,1,0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.46538,alto_gasto_pagamento_medio,341.489231,bom,1,1,1,1,0


In [60]:
df.info()

# Resolvi fazer um info para identificar os valores das colunas e se haviam valores nulos,
# e notei que algumas colunas carregavam seus dados como texto, e a nossa IA trabalha com
# números, poderia então simplesmente remover as colunas, mas decidi tomar outra
# abordagem ( Veja abaixo )

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  object 
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  object 
 13  divida_total              100000 non-null  fl

In [61]:
df.head(3)

# Aqui , visualizei nosso dataframe denovo com head, pra pegar somente 3 poucas linhas
# ( para identificar quais os textos contidos nas colunas ), e descobri que os textos se
# numéricos, seriam úteis para o modelo treinar, então decidi simplesmente transformar esses
# textos em numeros ( cada profissao seria um numero, ex : todos os professores do dataframe
# receberiam um numero 1 ao invés do nome, e assim pora todas as demais colunas de texto com valores
# repetidos, seriam atribuido um numero a um conjunto de palavras iguais ) , e as colunas selecionadas
# foram ('profissao', 'mix_credito', 'comportamento_pagamento')

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.46538,alto_gasto_pagamento_baixos,312.494089,bom,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.46538,baixo_gasto_pagamento_alto,284.629162,bom,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.46538,baixo_gasto_pagamento_medio,331.209863,bom,1,1,1,1,0


In [62]:
# Primeiro, importei uma ferramenta de pré processamento do scikit learn chamada labelEncoder
# com essa ferramenta, consigo alterar texto para numeros de forma rápida e automática, sem precisar
# fazer manualmente

from sklearn.preprocessing import LabelEncoder as le

In [63]:
# Aqui fiz um Encoder para cada uma das colunas que citei anteriormente que
# estavam como texto

# Encoder da coluna 'profissao'
cod_prof = le()
df['profissao'] = cod_prof.fit_transform(df['profissao'])

# Encoder da coluna 'mix_credito'
cod_credito = le()
df['mix_credito'] = cod_credito.fit_transform(df['mix_credito'])

# Encoder da coluna 'comportamento_pagamento'
cod_pag = le()
df['comportamento_pagamento'] = cod_pag.fit_transform(df['comportamento_pagamento'])

# Após isso acima, todos os valores receberam um valor númérico, e as colunas foram transformadas
# em int ( inteiros ), agora nosso modelo de IA conseguirá trabalhar encima delas.

In [64]:
# Mostrando abaixo como os dados da coluna profissao ficaram ( as outras 2 colunas também 
# estão asssim ) e veja como foi atribuido a cada profissao um numero

df

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,1,312.494089,bom,1,1,1,1,0
1,3392,2,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,3,284.629162,bom,1,1,1,1,0
2,3392,3,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,5,331.209863,bom,1,1,1,1,0
3,3392,4,23.0,2,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,4,223.451310,bom,1,1,1,1,0
4,3392,5,23.0,2,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,2,341.489231,bom,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,11,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,0,479.866228,ruim,1,0,0,0,1
99996,37932,5,25.0,11,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,2,496.651610,ruim,1,0,0,0,1
99997,37932,6,25.0,11,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,0,516.809083,ruim,1,0,0,0,1
99998,37932,7,25.0,11,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,3,319.164979,padrão,1,0,0,0,1


## Hora de começar a deixar tudo preparado para o nosso modelo treinar ##

In [65]:
# Aqui , coloquei nossa coluna alvo 'score_credito' em uma variável chamada y, ja que
# o que queremos prever é o score de crédito, essa será nossa coluna alvo.
# Já na coluna x , coloquei nossa base de dados que usarei para fazer a previsão, excluindo
# colunas com dados não núméricos ou dados irrelevantes para o nosso modelo ('id_cliente' e 'score_credito').

y = df['score_credito']
x = df.drop(columns = ['id_cliente', 'score_credito'])

In [66]:
# Aqui, importei o train test split do sklearn, o responsável por separar parâmetros de 
# treino e teste , e o percentual dos dados que vão ser usados para treino e para teste
# ( um padrão é sempre deixar o dado reservado para treino muito maior que o de teste, 
# geralmente, o normal é deixar algo próximo de 75% dos dados para treino e 25% para teste
# ou algo próximo disso, como 70% - 30% , por exemplo. )

from sklearn.model_selection import train_test_split

In [67]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.25)
# Aqui, criei variaveis x e y para treino e teste ( dados fundamentais para nosso modelo
# de IA treinar e testar )

In [68]:
# Abaixo, importei os 2 modelos de IA que usarei nessa situação, mas poderiam ser usados
# inúmeros outros modelos como regressão linear e etc, e renomeei cada um

from sklearn.ensemble import RandomForestClassifier as rfc # Classificador de Floresta aleatória
from sklearn.neighbors import KNeighborsClassifier as knc # Classificador vizinhos próximos

# Floresta aleatória = equivale a várias arvores de decisões ( basicamente o modelo pergunta pros
# dados , exemplo ( valor x é maior que o y? ) , e esse ciclo vai se repetindo e se modelando de 
# acordo com as repostas obtidas até chegar na conclusão final, basicamente uma decision tree(Árvore de decisão)
# melhorada.

# Vizinhos próximos funciona um pouco diferente, funciona como um gráfico de dispersão, onde os pontos vão se colorindo
# de acordo com os dados mais próximos dele, no nosso case ( descobrir o score igual a bom, padrão e ruim ), em resumo,
# ele analisará todos os números e ckassificará cada previsão com base em dados com numeros que mais se assemelham.

In [69]:
# Aqui estamos criando nossos modelos e armazenando em duas variáveis, uma pra cada modelo

randomf = rfc()
kn = knc()

In [70]:
# Agora é a hora de treinarmos nossos 2 modelos, vamos ver quais resultados ambos vão obter após os treinos.

randomf.fit(x_treino, y_treino)
kn.fit(x_treino, y_treino)

In [71]:
# Aqui estou fazendo as previsões e armazenando elas em variáveis que usaremos depois pra prever a acurácia e
# escolher o melhor modelo.

pred_randomf = randomf.predict(x_teste)
pred_kn = kn.predict(x_teste)

In [72]:
# Agora usaremos (mais uma haha) ferramenta do scikit learn, para prever a acurácia ( percentual de acertos )
# de cada modelo, para conseguirmos escolher o melhor modelo ( o que acertou mais ).

from sklearn.metrics import accuracy_score as ac_sc

In [73]:
# previsão do modelo arvore aleatória

ac_sc(y_teste, pred_randomf) # melhor modelo ( arvore aleatória )

0.82592

In [74]:
# previsão do modelo vizinhos próximos

ac_sc(y_teste, pred_kn) # modelo inferior ( vizinhos próximos )

0.74856

## Nosso modelo ( floresta aleatória ) se saiu melhor do que o modelo ( vizinhos próximos )
# ele será nosso modelo escolhido para prever os novos clientes que surgirão em nossos bancos de dados futuramente

# Abaixo, faremos uma previsão do score (usando nosso melhor modelo 'árvore aleatória'), e adicionaremos essa previsão em uma nova coluna no nosso dataframe

In [75]:
# importando outro arquivo csv com pandas contendo nossos novos clientes ( tem que ser o mesmo dataframe com os mesmos nomes das colunas
# e tipos iguais ( numero inteiro ou decimal ))
# os dados podem ser diferentes, para prevermos ( já que essa é a finalidade, prever novos clientes que surgirem no futuro nesse nosso
# banco de dados especifico )

novos_clientes = pd.read_csv('novos_clientes.csv')

In [76]:
# Visualisando nossos dados ( não contém a coluna com as previsões da IA ainda,
# adicionaremos a seguir ), temos o mesmo problema com a coluna profissao, mix_credito e comportamento_pagamento,
# na qual estão como tipo texto, e precisamos que sejam núméricas ( nossa IA faz previsões com dados núméricos ).

novos_clientes

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,empresario,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,baixo_gasto_pagamento_baixo,312.487689,1,1,0,0,0
1,4,32.0,advogado,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,baixo_gasto_pagamento_medio,300.994163,0,0,0,0,1
2,2,48.0,empresario,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,34.235853,215.0,0.0,baixo_gasto_pagamento_alto,345.081577,0,1,0,1,0


In [77]:
# Usando nosso codificadores feitos la encima com o LabelEncoder ( já que nosso dataframe é o 'mesmo', porém,
# contendo novos clientes que não estavam no nosso primeiro dataframe que usamos para a IA treinar ) a fim de
# esses novos clientes terem seu score de crédito totalmente selecionados com base nos estudos da IA.

cod_prof = le()
novos_clientes['profissao'] = cod_prof.fit_transform(novos_clientes['profissao'])

cod_credito = le()
novos_clientes['mix_credito'] = cod_credito.fit_transform(novos_clientes['mix_credito'])

cod_pag = le()
novos_clientes['comportamento_pagamento'] = cod_pag.fit_transform(novos_clientes['comportamento_pagamento'])

In [78]:
# visualisando novamente porém com o Encoder transformando novamente nossas colunas selecionadas em núméricas
# ( nosso objetivo ).

novos_clientes

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,1,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,1,312.487689,1,1,0,0,0
1,4,32.0,0,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,2,300.994163,0,0,0,0,1
2,2,48.0,1,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,34.235853,215.0,0.0,0,345.081577,0,1,0,1,0


In [79]:
# utilizando nossa previsão feita la encima com os dados de teste, no nosso dataframe atual para conseguirmos
# prever com a ajuda da IA, qual o score de crédito ideal para cada um dos nossos 'novos' 3 clientes!!!

novo_pred = randomf.predict(novos_clientes)
novo_pred

# Os resultado abaixo dado pela IA com base no estudo de padrões feitos nos nossos dados de teste lá encima
# ( Resultados abaixo para cada um dos 3 )

array(['ruim', 'bom', 'padrão'], dtype=object)

In [80]:
# Agora , adicionaremos os resultados no nosso dataframe de novos clientes em uma nova coluna criada que
# nomeei de 'score_pela_IA'

novos_clientes['score_pela_IA'] = novo_pred

# Abaixo, enfim, nosso resultado final
novos_clientes

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil,score_pela_IA
0,1,31.0,1,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,218.0,44.50951,1,312.487689,1,1,0,0,0,ruim
1,4,32.0,0,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,12.0,0.0,2,300.994163,0,0,0,0,1,bom
2,2,48.0,1,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,215.0,0.0,0,345.081577,0,1,0,1,0,padrão
