# Projeto Python IA: Inteligência Artificial e Previsões

### Case: Score de Crédito dos Clientes

Você foi contratado por um banco para conseguir definir o score de crédito dos clientes. Você precisa analisar todos os clientes do banco e, com base nessa análise, criar um modelo que consiga ler as informações do cliente e dizer automaticamente o score de crédito dele: Ruim, Ok, Bom

Arquivos da aula: https://drive.google.com/drive/folders/1FbDqVq4XLvU85VBlVIMJ73p9oOu6u2-J?usp=drive_link

In [1]:
# Importando a base de dados para verificação das informações dos clientes
import pandas as pd

tabela = pd.read_csv("clientes.csv")
display(tabela)

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,alto_gasto_pagamento_baixos,312.494089,Good,1.0,1.0,1.0,1.0,0.0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,baixo_gasto_pagamento_alto,284.629162,Good,1.0,1.0,1.0,1.0,0.0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,baixo_gasto_pagamento_medio,331.209863,Good,1.0,1.0,1.0,1.0,0.0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,baixo_gasto_pagamento_baixo,223.451310,Good,1.0,1.0,1.0,1.0,0.0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,alto_gasto_pagamento_medio,341.489231,Good,1.0,1.0,1.0,1.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5776,7703,1,21.0,gerente_midia,15399.52,4.0,3.0,18.0,1.0,25.0,...,334.0,27.306661,alto_gasto_pagamento_baixos,353.646468,Standard,1.0,0.0,0.0,0.0,0.0
5777,7703,2,21.0,gerente_midia,15399.52,4.0,3.0,18.0,1.0,25.0,...,335.0,27.306661,baixo_gasto_pagamento_medio,310.582695,Standard,1.0,0.0,0.0,0.0,0.0
5778,7703,3,21.0,gerente_midia,15399.52,4.0,3.0,18.0,1.0,29.0,...,336.0,27.306661,baixo_gasto_pagamento_baixo,256.198913,Standard,1.0,0.0,0.0,0.0,0.0
5779,7703,4,21.0,gerente_midia,15399.52,4.0,3.0,18.0,1.0,30.0,...,337.0,27.306661,baixo_gasto_pagamento_baixo,263.558367,Standard,1.0,0.0,0.0,0.0,0.0


In [2]:
# verificar se temos valores vazios ou valores reconhecidos em formato errado
print(tabela.info())
print(tabela.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5781 entries, 0 to 5780
Data columns (total 25 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id_cliente                5781 non-null   int64  
 1   mes                       5781 non-null   int64  
 2   idade                     5781 non-null   float64
 3   profissao                 5781 non-null   object 
 4   salario_anual             5781 non-null   float64
 5   num_contas                5781 non-null   float64
 6   num_cartoes               5781 non-null   float64
 7   juros_emprestimo          5781 non-null   float64
 8   num_emprestimos           5781 non-null   float64
 9   dias_atraso               5781 non-null   float64
 10  num_pagamentos_atrasados  5780 non-null   float64
 11  num_verificacoes_credito  5780 non-null   float64
 12  mix_credito               5780 non-null   object 
 13  divida_total              5780 non-null   float64
 14  taxa_uso

# Apenas a ultima linha do DataFrame possui valores indefinidos

In [3]:
tabela = tabela.dropna(how = 'any', axis=0)

In [4]:
# verificar se temos valores vazios ou valores reconhecidos em formato errado
print(tabela.info())
print(tabela.columns)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5780 entries, 0 to 5779
Data columns (total 25 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id_cliente                5780 non-null   int64  
 1   mes                       5780 non-null   int64  
 2   idade                     5780 non-null   float64
 3   profissao                 5780 non-null   object 
 4   salario_anual             5780 non-null   float64
 5   num_contas                5780 non-null   float64
 6   num_cartoes               5780 non-null   float64
 7   juros_emprestimo          5780 non-null   float64
 8   num_emprestimos           5780 non-null   float64
 9   dias_atraso               5780 non-null   float64
 10  num_pagamentos_atrasados  5780 non-null   float64
 11  num_verificacoes_credito  5780 non-null   float64
 12  mix_credito               5780 non-null   object 
 13  divida_total              5780 non-null   float64
 14  taxa_uso

# Dataframe sem valores vazios, começamos a analíse

## Para fazer a previsão, os valores tem que está em formato numerico

In [5]:
from sklearn.preprocessing import LabelEncoder
# vai transformar as colunas de texto em números, ex: profissoes vai sair de cientista, professor, mecanico, etc para 0, 1, 2, etc
codificador = LabelEncoder()

# só não aplicamos na coluna de score_credito que é o nosso objetivo
for coluna in tabela.columns:
    if tabela[coluna].dtype == "object" and coluna != "score_credito":
        tabela[coluna] = codificador.fit_transform(tabela[coluna])

# verificando se realmente todas as colunas foram modificadas
print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5780 entries, 0 to 5779
Data columns (total 25 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id_cliente                5780 non-null   int64  
 1   mes                       5780 non-null   int64  
 2   idade                     5780 non-null   float64
 3   profissao                 5780 non-null   int64  
 4   salario_anual             5780 non-null   float64
 5   num_contas                5780 non-null   float64
 6   num_cartoes               5780 non-null   float64
 7   juros_emprestimo          5780 non-null   float64
 8   num_emprestimos           5780 non-null   float64
 9   dias_atraso               5780 non-null   float64
 10  num_pagamentos_atrasados  5780 non-null   float64
 11  num_verificacoes_credito  5780 non-null   float64
 12  mix_credito               5780 non-null   int64  
 13  divida_total              5780 non-null   float64
 14  taxa_uso

In [7]:
# escolhendo quais colunas vamos usar para treinar o modelo
# y é a coluna que queremos que o modelo calcule
# x vai todas as colunas que vamos usar para prever o score de credito, não vamos usar a coluna id_cliente porque ela é um numero qualquer que nao ajuda a previsao
x = tabela.drop(["score_credito", "id_cliente"], axis=1)
y = tabela["score_credito"]

from sklearn.model_selection import train_test_split

# separamos os dados em treino e teste. Treino vamos dar para os modelos aprenderem e teste vamos usar para ver se o modelo aprendeu corretamente
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, random_state=1)

In [8]:
from sklearn.neighbors import KNeighborsClassifier
modelo_knn = KNeighborsClassifier() # modelo do KNN (nearest neighbors - vizinhos mais proximos)
# treinando o modelo
modelo_knn.fit(x_treino, y_treino)

In [9]:
from sklearn.ensemble import RandomForestClassifier
modelo_arvore = RandomForestClassifier() # modelo arvore de decisao
modelo_arvore.fit(x_treino, y_treino)

In [12]:
from sklearn.metrics import accuracy_score

# calculamos as previsoes
previsao_arvore = modelo_arvore.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste.to_numpy())

# comparamos as previsoes com o y_teste
print('acuracia do randomforest: ', accuracy_score(y_teste, previsao_arvore))
print('acuracia do KNN: ', accuracy_score(y_teste, previsao_knn))



acuracia do randomforest:  0.831603229527105
acuracia do KNN:  0.7848904267589388


In [13]:
# fazendo novas previsões
novos_clientes = pd.read_csv("novos_clientes.csv")
display(novos_clientes)
for coluna in novos_clientes.columns:
    if novos_clientes[coluna].dtype == "object" and coluna != "score_credito":
        novos_clientes[coluna] = codificador.fit_transform(novos_clientes[coluna])

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,empresario,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,baixo_gasto_pagamento_baixo,312.487689,1,1,0,0,0
1,4,32.0,advogado,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,baixo_gasto_pagamento_medio,300.994163,0,0,0,0,1
2,2,48.0,empresario,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,34.235853,215.0,0.0,baixo_gasto_pagamento_alto,345.081577,0,1,0,1,0


In [15]:
previsao_knn = modelo_knn.predict(novos_clientes)
print('previsao com KNN é: ', previsao_knn)
previsoes_randomforest = modelo_arvore.predict(novos_clientes)
print('previsao com randomforest é: ', previsoes_randomforest)

previsao com KNN é:  ['Poor' 'Standard' 'Standard']
previsao com randomforest é:  ['Poor' 'Poor' 'Standard']


### O modelo random forest possui uma acuracia maior de 5% e foi suficente para apresentar uma classificação diferente.

In [19]:
# quais as caracteristicas mais importantes para definir o score de credito?
colunas = list(x_teste.columns)
importancia = pd.DataFrame(index=colunas, data=modelo_arvore.feature_importances_)
importancia = importancia * 100
print(importancia)

                                 0
mes                       4.552209
idade                     4.134992
profissao                 3.094352
salario_anual             4.650224
num_contas                3.431620
num_cartoes               3.925932
juros_emprestimo          8.053134
num_emprestimos           3.175624
dias_atraso               6.182962
num_pagamentos_atrasados  5.421289
num_verificacoes_credito  4.988487
mix_credito               8.321296
divida_total              9.767414
taxa_uso_credito          5.299829
idade_historico_credito   8.534365
investimento_mensal       4.184034
comportamento_pagamento   2.862813
saldo_final_mes           5.618580
emprestimo_carro          0.695097
emprestimo_casa           0.745216
emprestimo_pessoal        0.696828
emprestimo_credito        0.704141
emprestimo_estudantil     0.959562


# O metodo Knn não possui o metodo "feature_importances_"