# Projeto Python IA: Inteligência Artificial e Previsões

### Case: Score de Crédito dos Clientes

Você foi contratado por um banco para conseguir definir o score de crédito dos clientes. Você precisa analisar todos os clientes do banco e, com base nessa análise, criar um modelo que consiga ler as informações do cliente e dizer automaticamente o score de crédito dele: Ruim, Ok, Bom

Arquivos da aula: https://drive.google.com/drive/folders/1FbDqVq4XLvU85VBlVIMJ73p9oOu6u2-J?usp=drive_link

In [1]:
# Passo 1: Importar a base de dados
# Passo 2: Verificar informações vazias
# Passo 3: Fazer o tratamento na base de dados
# Passo 4: Selecionar as colunas de treino para modelo
# Passo 5: Treinar 2 modelos
# Passo 6: Verificar o melhor modelo
# Passo 7: Verificar quais as características mais importantes para definir o score do cliente

In [2]:
# Passo 1: Importar a base de dados

import pandas as pd

tabela = pd.read_csv("clientes.csv")
display(tabela)

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,baixo_gasto_pagamento_baixo,223.451310,Good,1,1,1,1,0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,alto_gasto_pagamento_medio,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,alto_gasto_pagamento_alto,479.866228,Poor,1,0,0,0,1
99996,37932,5,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,alto_gasto_pagamento_medio,496.651610,Poor,1,0,0,0,1
99997,37932,6,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,alto_gasto_pagamento_alto,516.809083,Poor,1,0,0,0,1
99998,37932,7,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,baixo_gasto_pagamento_alto,319.164979,Standard,1,0,0,0,1


- Temos muitas informações na tabela, são muitos dados a serem analisados

In [3]:
# Passo 2: Verificar informações vazias

display(tabela.info())
display(tabela.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  object 
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  object 
 13  divida_total              100000 non-null  fl

None

Index(['id_cliente', 'mes', 'idade', 'profissao', 'salario_anual',
       'num_contas', 'num_cartoes', 'juros_emprestimo', 'num_emprestimos',
       'dias_atraso', 'num_pagamentos_atrasados', 'num_verificacoes_credito',
       'mix_credito', 'divida_total', 'taxa_uso_credito',
       'idade_historico_credito', 'investimento_mensal',
       'comportamento_pagamento', 'saldo_final_mes', 'score_credito',
       'emprestimo_carro', 'emprestimo_casa', 'emprestimo_pessoal',
       'emprestimo_credito', 'emprestimo_estudantil'],
      dtype='object')

- Não temos informações vazias ou formatos errados nessa tabela;
- Nossa base de dados já está pronta para uso;
- *OBS:* algumas colunas possuem o tipo de informação *"object"*, que na verdade é um *texto*, porém os modelos de classificação não conseguem trabalhar com textos;

In [4]:
# Passo 3: Fazer o tratamento na base de dados

from sklearn.preprocessing import LabelEncoder

# Vai transformar as colunas de texto em números. Ex: profissões deixam de ser 'cientista', 'professor', 'mecânico' e passam a ser 0, 1, 2, etc
codificador = LabelEncoder() # O LabelEncoder é usado para converter variáveis categóricas em uma representação numérica

# Só não aplicamos na coluna de score_credito que é o nosso objetivo
for coluna in tabela.columns:
    if tabela[coluna].dtype == "object" and coluna != "score_credito":
        tabela[coluna] = codificador.fit_transform(tabela[coluna])

# Verificando se realmente todas as colunas foram modificadas
for coluna in tabela.columns:
    if tabela[coluna].dtype == "object"  and coluna != "score_credito":
        print(coluna)
display(tabela)

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,1,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,3,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,5,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,2,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,4,223.451310,Good,1,1,1,1,0
4,3392,5,23.0,2,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,2,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,11,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,0,479.866228,Poor,1,0,0,0,1
99996,37932,5,25.0,11,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,2,496.651610,Poor,1,0,0,0,1
99997,37932,6,25.0,11,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,0,516.809083,Poor,1,0,0,0,1
99998,37932,7,25.0,11,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,3,319.164979,Standard,1,0,0,0,1


In [5]:
# Passo 4: Selecionar as colunas de treino para o modelo

x = tabela.drop(["score_credito", "id_cliente"], axis=1)    # 'axis = 1' se refere ao eixo das COLUNAS, caso não especificado, ele é tido como 0 por padrão que signifca o eixo das LINHAS
y = tabela["score_credito"]

# y é a coluna que queremos que o modelo calcule
# x vai todas as colunas que vamos usar para prever o socre de crédito, não vamos usar a coluna 'id_cliente' porque ela é um número qualquer que não ajuda a previsão

from sklearn.model_selection import train_test_split        # importa a função 'train_test_split' do módulo 'model_selection'
# Separamos os dados em treino e teste. Treino vamos dar para os modelos aprenderem e teste vamos dar para ver se o modelo aprendeu corretamente
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, random_state=1)

# A ordem das variáveis é dada nessa ordem apenas por uma convenção entre os desenvolvedores

Separamos a base de dados em uma parte destinada a treino e outra a teste pois se utilizarmos a mesma base o modelo pode apenas decorar os resultados e o que queremos é que ele aprenda a fazer o cálculo da maneira correta. Dessa forma, ao separar a base em dados diferentes, vamos poder ver se o modelo realmente consegue fazer a previsão corretamente

In [6]:
# Passo 5: Treinar 2 modelos

from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

modelo_arvore = RandomForestClassifier()                    # Modelo árvore de decisão
modelo_knn = KNeighborsClassifier()                         # Modelo do KNN (Nearest Neighbors - vizinhos mais próximos)

# Treinando os modelos

modelo_arvore.fit(x_treino, y_treino)                       # Os argumentos passados para o treino é a primeira variável e os rótulos/targets é a segunda variável
modelo_knn.fit(x_treino, y_treino)

# Se o nosso modelo chutasse tudo "Standard", qual seria a acurácia do modelo?

contagem_scores = tabela["score_credito"].value_counts()
print(contagem_scores['Standard'] / sum(contagem_scores)) 

0.53174


1) Começamos importando dois modelos de classificação:
    - Primeiro, importamos o Modelo Árvore de Decisão do módulo 'ensemble' da biblioteca sklearn;
    - Segundo, importamos o modelo KNN (Nearest Neighbors) do módulo 'neighbors' da biblioteca  sklearn.

2) Instaciamos os dois objetos: 'modelo_arvore' e 'modelo_knn' para representar nossos modelos de classificação;

3) Após isso, vamos treinar ambos os modelos utilizando as variáveis definidas no bloco de código anterior:
    - A função ".fit()" ajusta o modelo especificado antes do "." aos dados de treinamento definidos no primeiro argumento que são definidos na variável 'x_treino';
    - Os rótulos/targets são definidos no segundo argumento dentro do parênteses.

4) Calculamos a acurácia de um suposto "modelo" que chuta todos os exemplos como "Standard", não fazendo qualquer predição real;
    - *`contagem_scores = tabela["score_credito"].value_counts()`*: Esse trecho do código conta o número de ocorrências de cada valor (value_counts) na coluna "score_credito" e armazena os resultados em um objeto chamado "contagem_scores";
    - *`contagem_scores['Standard'] / sum(contagem_scores)`*: Aqui calculamos a acurácia, que é definida pela divisão do número de predições corretas pelo número total de predições:
        - *`contagem_scores['Standard]`*: É o número de ocorrências da classe "Standard" na coluna "score_credito";
        - *`sum(contagem_scores)`*: É o número total de exemplos na coluna "score_credito", ou seja, a soma de todas as contagens de classe;
        - Sendo assim, esse código completo calcula a proporção de exemplos classificados corretamente como "Standard" em relação ao número total de exemplos.

In [7]:
#  Passo 6: Verificar o melhor modelo

from sklearn.metrics import accuracy_score

# Calculando as previsões
previsao_arvore = modelo_arvore.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste.to_numpy())   # '.to_numpy()' converte o dataframe em uma matriz NumPy, que é o formato esperado pelo KNN;

# Comparando as previsões com o 'y_teste'
print(accuracy_score(y_teste, previsao_arvore))
print(accuracy_score(y_teste, previsao_knn))

# Queremos o score com maior acurácia (porém o valor da acurácia tem que ser maior que a porcentagem definida pelo standar também [53%])



0.8269666666666666
0.7324


- No bloco de código acima nós testamos a acurácia de cada modelo;

1) Importamos 'accuracy_score' do módulo 'metrics' da biblioteca sklearn;

2) Calculamos as previsões:
    - O método 'predict()', utilizado para ambos os modelos, retorna as previsões do modelo para os dados de entrada fornecidos dentro dos parênteses, no nosso caso, os dados estão armazenados na variável 'x_teste'.
    - No cálculo para o modelo KNN, nós trasnformamos o DataFrame armazenado em 'x_teste' em uma matriz NumPy, pois esse é o formato esperado pelo modelo;

3) Comparamos as previsões com o 'y_teste':
    - A função 'accuracy_score()' compara os rótulos reais (y_teste) com as previsões feitas e retorna a propoção de previsões corretas em relação ao total de previsões;
    - Essa proporção é exibida através do 'print()'.

4) Por fim, decidimos usar o modelo de árvore de decisões, por ter tido uma proporção de acertos maior.

In [8]:
# Passo 7: Verificar quais as características mais importantes para definir o score do cliente

colunas = list(x_teste.columns)
importancia = pd.DataFrame(index=colunas, data=modelo_arvore.feature_importances_)
importancia = importancia * 100
print(importancia)

                                  0
mes                        3.944269
idade                      4.239075
profissao                  3.296106
salario_anual              5.064152
num_contas                 3.411813
num_cartoes                4.542403
juros_emprestimo           7.676841
num_emprestimos            3.132774
dias_atraso                6.389247
num_pagamentos_atrasados   4.587957
num_verificacoes_credito   4.728645
mix_credito                7.828968
divida_total              12.630463
taxa_uso_credito           5.049545
idade_historico_credito    7.349011
investimento_mensal        4.855934
comportamento_pagamento    2.341908
saldo_final_mes            5.380531
emprestimo_carro           0.702907
emprestimo_casa            0.740983
emprestimo_pessoal         0.705285
emprestimo_credito         0.699108
emprestimo_estudantil      0.702078
