# Projeto Python para Previsões com Inteligência Artificial:

# Case: Score de Crédito dos Clientes.

É preciso analisar as informações dos clientes para definir se os clientes devem ter um score de crédito, ok, bom ou ruim

# Passo a Passo do Projeto:

# Passo 0 - Entender o Desafio da empresa que eu vou resolver (Ex.: 82% de eficácia para modelo preditivo de score é bom, mas e para um remédio?)

In [59]:
# Passo 1 - Importar a Base de Dados
import pandas as pd

tabela = pd.read_csv("clientes.csv")

display(tabela)

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,baixo_gasto_pagamento_baixo,223.451310,Good,1,1,1,1,0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,alto_gasto_pagamento_medio,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,alto_gasto_pagamento_alto,479.866228,Poor,1,0,0,0,1
99996,37932,5,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,alto_gasto_pagamento_medio,496.651610,Poor,1,0,0,0,1
99997,37932,6,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,alto_gasto_pagamento_alto,516.809083,Poor,1,0,0,0,1
99998,37932,7,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,baixo_gasto_pagamento_alto,319.164979,Standard,1,0,0,0,1


In [58]:

display( tabela.info() )
display( tabela.columns )


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  object 
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  object 
 13  divida_total              100000 non-null  fl

None

Index(['id_cliente', 'mes', 'idade', 'profissao', 'salario_anual',
       'num_contas', 'num_cartoes', 'juros_emprestimo', 'num_emprestimos',
       'dias_atraso', 'num_pagamentos_atrasados', 'num_verificacoes_credito',
       'mix_credito', 'divida_total', 'taxa_uso_credito',
       'idade_historico_credito', 'investimento_mensal',
       'comportamento_pagamento', 'saldo_final_mes', 'score_credito',
       'emprestimo_carro', 'emprestimo_casa', 'emprestimo_pessoal',
       'emprestimo_credito', 'emprestimo_estudantil'],
      dtype='object')

In [56]:
# Passo 2 - Preparar a Base de Dados para a Inteligência Artificial (precisa estar padronizada para que eu mostre para a IA e ela aprenda a prever)
#Obs.: A IA não aprende com texto, somente com números! Então, neste caso, exceto a coluna score_credito (que é a que eu quero prever) onde representa o status do score, todo o resto deve ser numérico

#Object em python são Textos (esse processo de atribuir números a textos chama-se LabelEncode):

#Preciso substituir os textos por números, então crio identificadores, exemplo:

# profissao
    #Advogado - 1
    #Ator - 2
    #Cientista - 3
    #Engenheiro - 4
    #Mecânico - 5

# mix_credito
# comportamento_pagamento

from sklearn.preprocessing import LabelEncoder #Vou aplicar a cada coluna e ele automaticamente vai atribuir números aos textos

codificador_colunas = LabelEncoder()

#Os considero somente as tabelas relevantes que possuem texto e que possuam um determinado padrão (não aleatório) para ajustar
tabela["profissao"] = codificador_colunas.fit_transform( tabela["profissao"] )
tabela["mix_credito"] = codificador_colunas.fit_transform( tabela["mix_credito"] )
tabela["comportamento_pagamento"] = codificador_colunas.fit_transform( tabela["comportamento_pagamento"] )

display( tabela.info() )

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  int64  
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  int64  
 13  divida_total              100000 non-null  fl

None

# Questões a serem respondidas quando eu crio um modelo de IA e o ensino a prever resultados com base em dados através de 2 divisões:

1 - Quem eu quero prever na minha base de dados (qual a coluna na base de dados que eu desejo prever)?
    
    - Essa coluna será considerada como variácel "Y", as demais colunas serão variáveis "X".

2 - Quais as colunas da base de dados que eu desejo usar para fazer a minha previsão (quem eu quero manter maior foco)?


In [23]:
#OBS.: TODA IA FAZ APENAS UMA TAREFA POR VEZ, ENTÃO, SE EU QUISER PREVER MAIS, DEVO CRIAR MAIS IAs
#"Y" quem eu quero prever?
y = tabela["score_credito"]

#"X" quem eu quero usar para fazer a previsão?
x = tabela.drop(columns=["id_cliente", "score_credito"])

#Após essa separação, vou separar os dados de treino, e teste para ensinar e testar os conhecimentos da IA
# "X" de Treino e "Y" de Treino = Perguntas e respostas esperadas no estudo para a prova
# "X" de Teste e "Y" de Teste = Perguntas e respostas esperadas para a prova

from sklearn.model_selection import train_test_split

#Sempre tenho mais dados pra treino e menos para teste
#Passo algo entre 80% e 60% para treino & Passo algo entre 20% e 40% dos dados para teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3)

print("okay!")

okay!


In [60]:

# Passo 3 - Criar o modelo de IA -> Precisa prever o Score de Crédito: Bom, Ok ou Ruim
#(Aqui usamos 2 dos principais modelos de inteligência artificial que existem, mas geralmente procuramos por vários, treinamos e vemos quem se sai melhor):
#   - Árvore de Decisão -- Usaremos RandomForest
#   - KNN -> Vizinhos Próximos (K-nearest neighbors)


# Importo a inteligência artificial
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# Criar a Inteligência artificial
modelo_arvore_decisao = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()

# Treinar a IA
modelo_arvore_decisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

In [49]:

#Ignorar a mensagem de aviso a respeito de os nomes do cabeçalho não terem sido fornecido nos Classifiers para converter em numPy, já que somente os dados foram enviados
import warnings
warnings.filterwarnings("ignore", message="X does not have valid feature names*")

# Passo 4 - Escolher qual é o Melhor Modelo de IA
previsao_arvore_teste = modelo_arvore_decisao.predict( x_teste.to_numpy() )
previsao_knn = modelo_knn.predict( x_teste.to_numpy() )

#Testamos a acuracia
from sklearn.metrics import accuracy_score

#Accuracy_Score vai servir para comparar a resposta do teste (x_teste) com a resposta da previsão e ver o quanto acertou
display( accuracy_score(y_teste, previsao_arvore_teste) )
display( accuracy_score(y_teste, previsao_knn) )

# Se eu precisasse de mais precisão, eu poderia:
# Colocar mais dados na tabela para a IA treinar, ou diminuir o número de colunas (as vezes ajuda a IA a fazer previsõe melhores, as vezes piores)
# Ou posso até mesmo usar os parâmetros dos RandomForestClassifier e KNeighborsClassifier para configurar melhor como devem se comportar



0.8238

0.7364

In [53]:

# Passo 5 - Usar a IA para definir o Score de Crédito dos Clientes

# Se surgissem novas profissões na tabela, por exemplo, ou eu teria que 
novos_clientes = pd.read_csv("novos_clientes.csv")
display(novos_clientes)

novos_clientes["profissao"] = codificador_colunas.fit_transform( novos_clientes["profissao"] )
novos_clientes["mix_credito"] = codificador_colunas.fit_transform( novos_clientes["mix_credito"] )
novos_clientes["comportamento_pagamento"] = codificador_colunas.fit_transform( novos_clientes["comportamento_pagamento"] )

nova_previsao_arvore = modelo_arvore_decisao.predict( novos_clientes.to_numpy() )
display( nova_previsao_arvore )

nova_previsao_neighbors = modelo_knn.predict( novos_clientes.to_numpy() )
display( nova_previsao_neighbors )

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,empresario,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,baixo_gasto_pagamento_baixo,312.487689,1,1,0,0,0
1,4,32.0,advogado,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,baixo_gasto_pagamento_medio,300.994163,0,0,0,0,1
2,2,48.0,empresario,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,34.235853,215.0,0.0,baixo_gasto_pagamento_alto,345.081577,0,1,0,1,0


array(['Poor', 'Good', 'Standard'], dtype=object)

array(['Poor', 'Poor', 'Standard'], dtype=object)