# Projeto Python IA: Inteligência Artificial e Previsões

### Case: Score de Crédito dos Clientes

Você foi contratado por um banco para conseguir definir o score de crédito dos clientes. Você precisa analisar todos os clientes do banco e, com base nessa análise, criar um modelo que consiga ler as informações do cliente e dizer automaticamente o score de crédito dele: Ruim, Ok, Bom

Arquivos da aula: https://drive.google.com/drive/folders/1FbDqVq4XLvU85VBlVIMJ73p9oOu6u2-J?usp=drive_link

In [1]:
# Passo a passo do projeto
# Passo 0: Entender o desafio da empresa
# Passo 1: Importar a base de dados
# Passo 2: Preparar a base de dados para a inteligência artificial
# Passo 3: Criar um modelo de IA - Score de crédito: Bom, Ok, Ruim
# Passo 4: Escolher o melhor modelo
# Passo 5: Usar a IA para fazer novas previsões

In [2]:
import pandas as pd

tabela = pd.read_csv('clientes.csv')
tabela = tabela.drop(columns='id_cliente')

display(tabela)
display(tabela.info())

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,7.0,...,265.0,21.465380,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,4.0,...,266.0,21.465380,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,7.0,...,267.0,21.465380,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0
3,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,4.0,...,268.0,21.465380,baixo_gasto_pagamento_baixo,223.451310,Good,1,1,1,1,0
4,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,4.0,...,269.0,21.465380,alto_gasto_pagamento_medio,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,4,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,23.0,7.0,...,378.0,24.028477,alto_gasto_pagamento_alto,479.866228,Poor,1,0,0,0,1
99996,5,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,18.0,7.0,...,379.0,24.028477,alto_gasto_pagamento_medio,496.651610,Poor,1,0,0,0,1
99997,6,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,27.0,6.0,...,380.0,24.028477,alto_gasto_pagamento_alto,516.809083,Poor,1,0,0,0,1
99998,7,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,20.0,6.0,...,381.0,24.028477,baixo_gasto_pagamento_alto,319.164979,Standard,1,0,0,0,1


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 24 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   mes                       100000 non-null  int64  
 1   idade                     100000 non-null  float64
 2   profissao                 100000 non-null  object 
 3   salario_anual             100000 non-null  float64
 4   num_contas                100000 non-null  float64
 5   num_cartoes               100000 non-null  float64
 6   juros_emprestimo          100000 non-null  float64
 7   num_emprestimos           100000 non-null  float64
 8   dias_atraso               100000 non-null  float64
 9   num_pagamentos_atrasados  100000 non-null  float64
 10  num_verificacoes_credito  100000 non-null  float64
 11  mix_credito               100000 non-null  object 
 12  divida_total              100000 non-null  float64
 13  taxa_uso_credito          100000 non-null  fl

None

In [3]:
# Passo 2: Preparar a base de dados para a inteligência artificial
# Label Encoder - profissao, mix_credito, comportamento_pagamento

# profissao
# engenheiro -> 1
# cientista -> 2
# advogado -> 3
# artista -> 4
# mecanico -> 5

# importar o label encoder
from sklearn.preprocessing import LabelEncoder

codificador = LabelEncoder()

# Aplicar o label encoder na coluna
tabela['profissao'] = codificador.fit_transform(tabela['profissao'])

# mix_credito
tabela['mix_credito'] = codificador.fit_transform(tabela['mix_credito'])

# comportamento_pagamento
tabela['comportamento_pagamento'] = codificador.fit_transform(tabela['comportamento_pagamento'])
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 24 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   mes                       100000 non-null  int64  
 1   idade                     100000 non-null  float64
 2   profissao                 100000 non-null  int32  
 3   salario_anual             100000 non-null  float64
 4   num_contas                100000 non-null  float64
 5   num_cartoes               100000 non-null  float64
 6   juros_emprestimo          100000 non-null  float64
 7   num_emprestimos           100000 non-null  float64
 8   dias_atraso               100000 non-null  float64
 9   num_pagamentos_atrasados  100000 non-null  float64
 10  num_verificacoes_credito  100000 non-null  float64
 11  mix_credito               100000 non-null  int32  
 12  divida_total              100000 non-null  float64
 13  taxa_uso_credito          100000 non-null  fl

None

In [4]:
# 2 divisões

# quem eu quero prever, quem eu quero usar pra fazer a previsão
y = tabela['score_credito']
x = tabela.drop(columns='score_credito')

# treino e teste
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3)

In [5]:
# criar a inteligência artificial
# Árvore de Decisão
# KNN -> Vizinhos próximos (Nearest Neighbors)

# importa a inteligência artificial
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# cria a iteligêcia artificial
modelo_arvoredecisao = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()

# treina a inteligência artificial
modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

# testar os modelos
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
previsao_knn = modelo_arvoredecisao.predict(x_teste)

from sklearn.metrics import accuracy_score

print(accuracy_score(y_teste, previsao_arvoredecisao))
print(accuracy_score(y_teste, previsao_knn))

0.8252666666666667
0.8252666666666667


In [6]:
# os 2 modelos são iguais em questão de precisão, então eu posso escolher o que funcionar melhor para mim, então eu vou escolher o modelo Árvore de Decisão
# Pego uma database só com novos clientes
tabela_nova = pd.read_csv('novos_clientes.csv')
display(tabela_nova)

# Faço o Label Encoder em cada coluna da tabela nova

# profissão
tabela_nova['profissao'] = codificador.fit_transform(tabela_nova['profissao'])

# mix_credito
tabela_nova['mix_credito'] = codificador.fit_transform(tabela_nova['mix_credito'])

# comportamento_pagamento
tabela_nova['comportamento_pagamento'] = codificador.fit_transform(tabela_nova['comportamento_pagamento'])

# Faz a previsão da tabela nova
# Agora em diante, cada cliente novo vai entrar nessa tabela e é só executar esse software que a IA vai dizer se o score do cliente é bom, ruim ou mais ou menos
# Poor = Ruim       Standard = Mais ou menos          Good = Bom
previsoes = modelo_arvoredecisao.predict(tabela_nova)
display(previsoes)


Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,empresario,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,baixo_gasto_pagamento_baixo,312.487689,1,1,0,0,0
1,4,32.0,advogado,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,baixo_gasto_pagamento_medio,300.994163,0,0,0,0,1
2,2,48.0,empresario,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,34.235853,215.0,0.0,baixo_gasto_pagamento_alto,345.081577,0,1,0,1,0


array(['Poor', 'Good', 'Standard'], dtype=object)