# Projeto de Inteligência Artificial e Previsões

###   Calcular Score de Crédito dos Clientes


In [None]:
# Passo a Passo:
# 1 - Entendimento do problema
# 2 - Instalar e importar bibliotecas
# 3 - Importar a base de dados
# 4 - Ler a base de dados 
# 5 - Preparar / Pré-processamento da base de dados 
# 6 - Criar modelos de IA -> Previsão do score de crédito - Bom, OK ou Ruim
# 7 - Escolher qual o melhor modelo 
# 8 - Usar o modelo de IA definido para calcular o score de crédito dos clientes novos

# 2 - Instalar e importar bibliotecas: 
# !pip install pandas numpy scikit-learn

# import pandas as pd
# import numpy
# import scikit-learn

In [2]:
# 3 - Importar a base de dados:

import pandas as pd

tabela = pd.read_csv("clientes.csv")

display(tabela)

# Score de Crédito
# Good -> Boa
# Standard -> OK
# Poor -> Ruim

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,baixo_gasto_pagamento_baixo,223.451310,Good,1,1,1,1,0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,alto_gasto_pagamento_medio,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,alto_gasto_pagamento_alto,479.866228,Poor,1,0,0,0,1
99996,37932,5,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,alto_gasto_pagamento_medio,496.651610,Poor,1,0,0,0,1
99997,37932,6,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,alto_gasto_pagamento_alto,516.809083,Poor,1,0,0,0,1
99998,37932,7,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,baixo_gasto_pagamento_alto,319.164979,Standard,1,0,0,0,1


In [3]:
# 4 - Ler a base de dados 
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  object 
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  object 
 13  divida_total              100000 non-null  fl

None

In [4]:
# 5 - Preparar / Pré-processamento da base de dados 
# Todas as colunas precisam ser numeros (Exceto score de crédito)
# Passar colunas object para numero (profissao, mix_credito, comportamento_pagamento) - label encoder

# profissao

# mix_credito

# comportamento_pagamento

from sklearn.preprocessing import LabelEncoder

codificador = LabelEncoder()

tabela["profissao"] =  codificador.fit_transform(tabela["profissao"])

tabela["mix_credito"] =  codificador.fit_transform(tabela["mix_credito"])

tabela["comportamento_pagamento"] =  codificador.fit_transform(tabela["comportamento_pagamento"])

display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  int32  
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  int32  
 13  divida_total              100000 non-null  fl

None

In [None]:
# Qual a coluna da base de dados que eu gostaria de prever ? --- Score de Crédito (Y)
y = tabela["score_credito"]

# Dados que usarei para a previsão ? --- Todas as colunas restantes exceto ID do cliente, que não serve (X)
x = tabela.drop(columns=["id_cliente","score_credito"])

#  Dividir base de dados entre Dados de treino 70% e dados de teste 30% , divisão gerada automaticamente pelo train_test_split, porém é possível determinar também
# Exemplo sem divisão de treino/teste : x_treino, x_teste, y_treino, y_teste = train_test_split(x,y)

# x treino/ teste e y treino/ teste

from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, test_size = 0.3)

In [None]:
# 6 - Criar modelos de IA -> Previsão do score de crédito - Bom, OK ou Ruim

# 2 Possibilidades para este caso : 
# Árvore de Decisão -> Randomforest
# KNN -> Vizinhos próximos

# Importar as IAs 
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# Criar as IAs
modelo_arvoredecisao = RandomForestClassifier()
modelo_knn=KNeighborsClassifier()

# Treinar as IAs 
modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)



