# Projeto Python IA: Inteligência Artificial e Previsões

### Case: Score de Crédito dos Clientes

Você foi contratado por um banco para conseguir definir o score de crédito dos clientes. Você precisa analisar todos os clientes do banco e, com base nessa análise, criar um modelo que consiga ler as informações do cliente e dizer automaticamente o score de crédito dele: Ruim, Ok, Bom

In [13]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np

In [14]:
# Bloco 1 - Carregar dados
tabela = pd.read_csv("clientes.csv")
display(tabela.head())
display(tabela.info())

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.46538,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.46538,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.46538,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.46538,baixo_gasto_pagamento_baixo,223.45131,Good,1,1,1,1,0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.46538,alto_gasto_pagamento_medio,341.489231,Good,1,1,1,1,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  object 
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  object 
 13  divida_total              100000 non-null  fl

None

In [15]:
# Bloco 2 - Tratar dados
codificador = LabelEncoder()
for coluna in tabela.columns:
    if tabela[coluna].dtype == "object" and coluna != "score_credito":
        tabela[coluna] = codificador.fit_transform(tabela[coluna])

display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  int32  
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  int32  
 13  divida_total              100000 non-null  fl

None

In [16]:
# Bloco 3 - Separar dados
y = tabela["score_credito"]
x = tabela.drop(["score_credito", "id_cliente"], axis=1)

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, random_state=1)


In [17]:
# Verificar se os dados estão no formato correto
x_treino = np.ascontiguousarray(x_treino)
x_teste = np.ascontiguousarray(x_teste)

In [18]:
# Bloco 4 - Treinar modelos
modelo_arvore = RandomForestClassifier(random_state=1)
modelo_knn = KNeighborsClassifier()

modelo_arvore.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)


In [19]:
# Bloco 5 - Previsões
previsao_arvore = modelo_arvore.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)

accuracy_arvore = accuracy_score(y_teste, previsao_arvore)
accuracy_knn = accuracy_score(y_teste, previsao_knn)

print(f"Acurácia do Modelo de Árvore de Decisão: {accuracy_arvore}")
print(f"Acurácia do Modelo KNN: {accuracy_knn}")


Acurácia do Modelo de Árvore de Decisão: 0.8249666666666666
Acurácia do Modelo KNN: 0.7324


In [20]:
# Bloco 6 - Previsão para novos clientes
novos_cliente = pd.read_csv("novos_clientes.csv")

for coluna in novos_cliente.columns:
    if novos_cliente[coluna].dtype == "object" and coluna != "score_credito":
        novos_cliente[coluna] = codificador.fit_transform(novos_cliente[coluna])

# Certificar-se de que os novos dados também estão no formato correto
novos_cliente = np.ascontiguousarray(novos_cliente)

previsoes = modelo_arvore.predict(novos_cliente)
display(previsoes)

array(['Poor', 'Standard', 'Good'], dtype=object)

In [7]:
# Passos do Projeto:
# 1 - Buscar os dados
# 2 - Analisar os dados
# 3 - Tratar os dados
# 4 - Separar os dados de treino e teste
# 5 - Treinar nossos dois modelos
# 6 - Verificar o melhor modelo
# 7 - Verificar quais caracteristicas mais importante para prever o score do cliente
!pip install pandas scikit-learn




In [21]:
# Bloco 7 - Importância das características
importancia = pd.DataFrame(modelo_arvore.feature_importances_, index=x.columns, columns=["Importância"])
importancia = importancia.sort_values(by="Importância", ascending=False) * 100

print("Importância das Características:")
display(importancia)

Importância das Características:


Unnamed: 0,Importância
divida_total,10.673757
juros_emprestimo,8.780655
mix_credito,8.697789
idade_historico_credito,7.694777
dias_atraso,6.35946
saldo_final_mes,5.454569
salario_anual,5.127662
taxa_uso_credito,5.063973
num_verificacoes_credito,4.809845
investimento_mensal,4.793068
