## Importando a base de dados

In [1]:
import pandas as pd

tabela = pd.read_csv("clientes.csv")
display(tabela)

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,baixo_gasto_pagamento_baixo,223.451310,Good,1,1,1,1,0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,alto_gasto_pagamento_medio,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,alto_gasto_pagamento_alto,479.866228,Poor,1,0,0,0,1
99996,37932,5,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,alto_gasto_pagamento_medio,496.651610,Poor,1,0,0,0,1
99997,37932,6,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,alto_gasto_pagamento_alto,516.809083,Poor,1,0,0,0,1
99998,37932,7,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,baixo_gasto_pagamento_alto,319.164979,Standard,1,0,0,0,1


## Tratamento da Base de Dados

### Verificando Valores Vazios
Verificar se temos valores vazios ou valores reconhecidos em formato errado

In [2]:
print(tabela.info())
print(tabela.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  object 
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  object 
 13  divida_total              100000 non-null  fl

Podemos notar que não temos nenhumainformação vazia ou formatos errados. Isso quer dizer que nossa base de dados já está pronta para uso.

### Transformando as Colunas de Texto
Podemos observarque temosalgumas colunas com o tipo **object**. Isso na verdade é um texto. Por issom precisamos fazer um tratamento nessas colunas

Vamos utilizar a biblioteca [sklearn](https://scikit-learn.org/stable/index.html). Para instalar: `pip install scikit-learn`.     

O Objetivo de utilizar o codificador **LabelEncoder** é para transformar as informações de texto em números para que possamos trabalhar com os modelos de classificação.     

A única coluna de texto que não iremos alterar é a coluna de **score_credito**.

In [3]:
from sklearn.preprocessing import LabelEncoder
# vai transformar as colunas de texto em números. Ex.: profissoes vai sair de cientistas, professor ... para 0, 1, 2...
codificador = LabelEncoder()


# só não aplicamos na coluna de score_credito
for coluna in tabela.columns:
    if tabela[coluna].dtype == "object" and coluna != "score_credito":
        tabela[coluna] = codificador.fit_transform(tabela[coluna])

# verificando se realmente todas as colunas foram modificadas
for coluna in tabela.columns:
    if tabela[coluna].dtype == "object" and coluna != "score_credito":
        print(coluna)

In [4]:
display(tabela)

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,1,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,3,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,5,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,2,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,4,223.451310,Good,1,1,1,1,0
4,3392,5,23.0,2,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,2,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,11,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,0,479.866228,Poor,1,0,0,0,1
99996,37932,5,25.0,11,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,2,496.651610,Poor,1,0,0,0,1
99997,37932,6,25.0,11,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,0,516.809083,Poor,1,0,0,0,1
99998,37932,7,25.0,11,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,3,319.164979,Standard,1,0,0,0,1


## Modelos de Classificação

### Informações para Treinar o Modelo
Agora iremos escolher quais as colunas vamos utilizar para treinar o nosso modelo de classificação, que é o modelo que vai pegar algumas das informações que temos.     
Isso quer dizer que vamos separar nossa base de dados em 2, uma base de treino, para treinar o nosso modelo para  que ele consiga fazer as previsões e uma base de teste, que é a base que vamos utilizar para ver como está fazendo essa previsão.

In [5]:
# escolhendo quais colunas vamos usar para treinar o modelo
# y é a coluna que queremos que o modelo calcule
# x todas as colunas que vamos usar para prever o score de credito, não vamos usar a coluna id_cliente

x = tabela.drop(["score_credito", "id_cliente"], axis=1)
y = tabela["score_credito"]

from sklearn.model_selection import train_test_split

# separamos os dados em treino e teste. Treino vamos dar para os modelos aprenderem e teste vamos usar para ver se o modelo aprendeu corretamente
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, random_state=1)

### Importando e Treinando os Modelos
Iremos importar 2 modelos de classificação para treiná-los e verificar qual deles tem o melhor resultado para esse caso.

Iremos utilizar os modelos:
1. [Modelo Árvore de Decisão](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier)
2. [Modelo Vizinhos Mais Próximos](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn-neighbors-kneighborsclassifier)

Depois de importar esses modelos iremos treinar cada um deles.


In [6]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

modelo_arvore = RandomForestClassifier() # modelo árvore de decisão
modelo_knn = KNeighborsClassifier() # modelo do KNN (nearest neighbors - vizinhos mais próximos)

# Treinando os modelos
modelo_arvore.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

### Acurácia do modelo
Acurácia é a performance do modelo, ou seja, vai verificar quantas informações foram classificadas de forma correta.    
Neste exemplo, vai fazer uma verificação de acurácia do modelo se ele tiver "chutado" todos os scores dos clientes como **standard**. Lembrando que temos 3 tipos de score: Poor / Standard / Good

In [7]:
# se o nosso modelo chutasse tudo "Standard", qual seria a acurácia do modelo?

contagem_scores = tabela["score_credito"].value_counts()
print(contagem_scores['Standard'] / sum(contagem_scores))

0.53174


Isso quer dizer que ele acertou 53% das classificações

Agora iremos de fato calcular as precisões utilizando os modelos, a árvore de decisão e o KNN. Para isso vamos utilizar o **.predict** com cada um dos modelos para fazer essa previsão

In [8]:
from sklearn.metrics import accuracy_score

# calculamos as precisões
precisao_arvore = modelo_arvore.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste.to_numpy())

# comparamos as previsões com o y_teste
# esse score queremos o maior (mair acuracia)

print(accuracy_score(y_teste, precisao_arvore))
print(accuracy_score(y_teste, previsao_knn))



0.8274
0.7324


### Características importantes para definir o Score
Além de definir qual o modelo é melhor para fazer a nossa classificação, nós ainda podemos utilizar esse mesmo modelo para verificar quais as características mais importantes para definir o score de crédito.     

Assim você conseguiria melhorar ainda mais sua análise e mostrar para a empresa as características mais importantes para definir o score do cliente.

Logo abaixo podemos notar que as informações de divida_total, mix_credito e juros_empréstimo são características bem importantes.

In [9]:
# quais as caracteristicas mais importantes para definir o score de credito?

colunas = list(x_teste.columns)
importancia = pd.DataFrame(index=colunas, data=modelo_arvore.feature_importances_)
importancia = importancia * 100
print(importancia)

                                  0
mes                        4.026626
idade                      4.237036
profissao                  3.284555
salario_anual              5.099464
num_contas                 3.560197
num_cartoes                4.548411
juros_emprestimo           8.186859
num_emprestimos            3.021321
dias_atraso                6.469028
num_pagamentos_atrasados   4.372150
num_verificacoes_credito   4.880728
mix_credito                8.155759
divida_total              11.487073
taxa_uso_credito           5.067471
idade_historico_credito    7.494836
investimento_mensal        4.832284
comportamento_pagamento    2.350856
saldo_final_mes            5.401463
emprestimo_carro           0.696604
emprestimo_casa            0.730656
emprestimo_pessoal         0.695732
emprestimo_credito         0.708997
emprestimo_estudantil      0.691893
