# Projeto Python IA: Inteligência Artificial e Previsões

### Case: Score de Crédito dos Clientes

Você foi contratado por um banco para conseguir definir o score de crédito dos clientes. Você precisa analisar todos os clientes do banco e, com base nessa análise, criar um modelo que consiga ler as informações do cliente e dizer automaticamente o score de crédito dele: Ruim, Ok, Bom

Arquivos da aula: https://drive.google.com/drive/folders/1FbDqVq4XLvU85VBlVIMJ73p9oOu6u2-J?usp=drive_link

In [2]:
# !pip install pandas scikit-learn

In [3]:
# Passo a passo
# Passo 0 - Entender a empresa e o desafio da empresa
# Passo 1 - Importar a base de dados
import pandas as pd

tabela = pd.read_csv("clientes.csv")

display(tabela)

# Score de crédito = Nota de crédito
# Good = Boa
# Standard = OK
# Poor = Ruim

FileNotFoundError: [Errno 2] No such file or directory: 'clientes.csv'

In [None]:
# Passo 2 - Preparar a base de dados para a Inteligência Artificial
display(tabela.info())

# int -> numero inteiro
# float -> numero com casa decimal
# object -> texto

# LabelEncoder
from sklearn.preprocessing import LabelEncoder 
# Converter o nome da profissao em numero seqeuncial ⬇️, ideial para treinamento de IA


# profissao

# cientista - 1
# bombeiro - 2
# engenheiro - 3
# dentista - 4
# artista - 5
codificador_profissao = LabelEncoder()
tabela["profissao"] = codificador_profissao.fit_transform(tabela["profissao"])


# mix_credito
codificador_credito = LabelEncoder()
tabela["mix_credito"] = codificador_credito.fit_transform(tabela["mix_credito"])

# comportamento_pagamento
codificador_pagamento = LabelEncoder()
tabela["comportamento_pagamento"] = codificador_pagamento.fit_transform(tabela["comportamento_pagamento"])


display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  object 
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  object 
 13  divida_total              100000 non-null  fl

None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  int32  
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  int32  
 13  divida_total              100000 non-null  fl

None

In [None]:
def carregamento_treino():
    data_url = "https://raw.githubusercontent.com/lsouzadasilva/datasets/main/clientes.xlsx"
    df_treino = pd.read_excel(data_url, sheet_name=0)
    df_treino = df_treino.dropna()
    return df_treino
df_treino = carregamento_treino()
display(df_treino.info())

In [None]:
# y -> é a coluna da base de dados que eu quero prever
y = tabela["score_credito"]

# x -> as colunas da base de dados que eu vou usar pra fazer a previsão
x = tabela.drop(columns=["score_credito", "id_cliente"])  
# pega toda a coluna excluindo scorr_credito e id_cliente
# para selecionar uma coluna columns='score_credito', para varias 
# columns=['core_credito', 'id_cliente']

# separar em dados de treino e dados de teste
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3)  
# test_size significa quanto percentual da base estamos jogando, para teste 30% e treino 70%  no caso acima ⬆️

In [None]:
# Passo 3 - Treinar a Inteligência Artificial -> 
# Criar o modelo: Nota de crédito: Boa, Ok, Ruim

# Arvore de Decisão -> RandomForest
# Nearest Neighbors -> KNN -> Vizinhos Próximos

#passo 1
# importar a IA (Inteligencia Artificial)
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# passo 2
# criar a IA
modelo_arvoredecisao = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()

# passo 3
# treinar a IA
modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

In [None]:
# Passo 4 - Escolher qual o melhor modelo
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)

# acurácia
from sklearn.metrics import accuracy_score
display(accuracy_score(y_teste, previsao_arvoredecisao))
display(accuracy_score(y_teste, previsao_knn))


0.827

0.7365666666666667

In [None]:
colunas = list(x_teste.columns)
importancia = pd.DataFrame(index=colunas, data=modelo_arvoredecisao.feature_importances_, columns=["Importância"])
importancia = importancia * 100

# Ajustando a formatação para exibir 2 casas decimais
print(importancia.round(2).astype(str) + "%")


                         Importância
mes                            3.95%
idade                          4.28%
profissao                      3.28%
salario_anual                   5.1%
num_contas                     3.28%
num_cartoes                    4.65%
juros_emprestimo               8.46%
num_emprestimos                2.81%
dias_atraso                    6.49%
num_pagamentos_atrasados       4.66%
num_verificacoes_credito       4.75%
mix_credito                    8.54%
divida_total                  11.19%
taxa_uso_credito               5.05%
idade_historico_credito        7.34%
investimento_mensal            4.85%
comportamento_pagamento        2.36%
saldo_final_mes                 5.4%
emprestimo_carro               0.71%
emprestimo_casa                 0.7%
emprestimo_pessoal             0.71%
emprestimo_credito             0.71%
emprestimo_estudantil          0.71%


In [None]:
# Passo 5 - Usar o melhor modelo para fazer previsão de novos clientes
# melhor modelo é o modelo_arvoredecisao 82% de precisão

# importar os novos clientes para fazer a previsao
tabela_novos_clientes = pd.read_csv("novos_clientes.csv")

# profissao
tabela_novos_clientes["profissao"] = codificador_profissao.transform(
    tabela_novos_clientes["profissao"]) 
# Usando um codifcador ja criado no inicio


# mix_credito
tabela_novos_clientes["mix_credito"] = codificador_credito.transform(
    tabela_novos_clientes["mix_credito"])

# comportamento_pagamento
tabela_novos_clientes["comportamento_pagamento"] = codificador_pagamento.transform(
    tabela_novos_clientes["comportamento_pagamento"])


display(tabela_novos_clientes)

nova_previsao = modelo_arvoredecisao.predict(tabela_novos_clientes)
display(nova_previsao)
print(nova_previsao)

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,5,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,4,312.487689,1,1,0,0,0
1,4,32.0,0,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,5,300.994163,0,0,0,0,1
2,2,48.0,5,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,34.235853,215.0,0.0,3,345.081577,0,1,0,1,0


array(['Poor', 'Poor', 'Standard'], dtype=object)

['Poor' 'Poor' 'Standard']
