# Projeto Python IA: Inteligência Artificial e Previsões

### Case: Análise de Crédito dos Clientes

Um banco deseja descobrir o score de crédito de seus clientes. Você foi contratado para analisar todos os clientes do banco e, com base nessa análise, criar um modelo que consiga ler as informações do cliente e dizer automaticamente o score de crédito dele: 
- Ruim 
- Médio 
- Bom


In [57]:
# Magic Commands

# %pip install scikit-learn     ---> Pacotes de código úteis para desenvolvimento de IA. (scikit-learn ver 1.3.1)
# %pip list                     ---> Esse comando mostra todos os pacotes Python instalados no environment.

In [58]:
# ETAPA 1: Importar a base de dados
import pandas as pd

tabela = pd.read_csv("clientes.csv")
display(tabela)

# Verificar se existem valores problemáticos na base de dados (ex: valores vazios)
display(tabela.info())

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,baixo_gasto_pagamento_baixo,223.451310,Good,1,1,1,1,0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,alto_gasto_pagamento_medio,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,alto_gasto_pagamento_alto,479.866228,Poor,1,0,0,0,1
99996,37932,5,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,alto_gasto_pagamento_medio,496.651610,Poor,1,0,0,0,1
99997,37932,6,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,alto_gasto_pagamento_alto,516.809083,Poor,1,0,0,0,1
99998,37932,7,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,baixo_gasto_pagamento_alto,319.164979,Standard,1,0,0,0,1


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  object 
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  object 
 13  divida_total              100000 non-null  fl

None

Na tabela acima, pode-se notar que existem algumas colunas que apresentam dados do tipo textual. Isso não é apropriado para uma IA ler.

É necessário fazer uma conversão pois máquinas não conseguem entender textos, apenas números.

A ferramenta utilizada para a conversão será o módulo LabelEncoder da biblioteca scikit-learn.

In [59]:
# ETAPA 2: Pré-processamento - Preparar a base de dados para a inteligência artificial
''' 
Colunas de texto (datatype 'object'): 
    - profissao
    - mix_credito
    - comportamento_pagamento
    - score_credito (<<<< PREVISÃO)
'''

# LABEL ENCODER ---- Transformam dados categóricos (textos, listas, objetos, etc) em representações numéricas e atualiza a base de dados
# É necessário fazer essa conversão pois máquinas não conseguem entender textos, apenas números
from sklearn.preprocessing import LabelEncoder as LE # 'sklearn' é o mesmo que 'scikit-learn'

codificador = LE()

# Transformar as colunas da tabela com informação textual em identificadores numéricos (0-11) de forma automática
tabela["profissao"] = codificador.fit_transform(tabela["profissao"])
tabela["mix_credito"] = codificador.fit_transform(tabela["mix_credito"])
tabela["comportamento_pagamento"] = codificador.fit_transform(tabela["comportamento_pagamento"])
#tabela["score_credito"] = codificador.fit_transform(tabela["score_credito"])

# display(tabela)
display(tabela.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  int32  
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  int32  
 13  divida_total              100000 non-null  fl

None

### Agora não existem mais valores com dados do tipo texto ('object') na tabela.

In [60]:
# Dados de x (valores usados para fazer a previsão) e dados de y (o dado a ser previsto) 
y = tabela["score_credito"] # o gabarito

# Jogando fora uma lista de dados que não vão ajudar a fazer a previsão (a própria previsão e o id do cliente)
x = tabela.drop(columns=["score_credito", "id_cliente"])

# TREINO & TESTE
''' Dividindo a base de dados em dados de treino & dados de teste
Dados de treino   ----> Usados pela IA p/ aprender (x, y)
Dados de teste    ----> Usados pela IA p/ verificar se aprendeu corretamente (x, y)
TREINO            ----> 70%
TESTE             ----> 30%
'''
from sklearn.model_selection import train_test_split

# Embaralhando as informações da tabela para a aprendizagem da IA
# train_test_split() automaticamente separa 70% p/ treino e 30% p/ teste, mas obtei por adicionar manualmente também
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, train_size=0.7) # random_state=1
# |
# +---> Criando variáveis de treino e teste


# ---------------------- CURIOSIDADE ---------------------- #
# joblib ---> Serve para a perpetualização da IA já treinada
'''
Joblib é uma biblioteca Python que fornece ferramentas para serialização ('pickling') fácil e eficiente de objetos Python.
Ela é usada especialmente com objetos usados em fluxos de trabalho de machine learning e análise de dados. 
É particularmente útil para salvar e carregar grandes estruturas de dados, como arrays NumPy e modelos de machine learning.
Isso é feito para exportar em um meio de armazenamento (geralmente como um arquivo no disco do seu computador) e também para 
posteriormente carregar (desserialização) esses objetos de volta na memória a partir desse meio de armazenamento.
'''

"\nJoblib é uma biblioteca Python que fornece ferramentas para serialização ('pickling') fácil e eficiente de objetos Python.\nEla é usada especialmente com objetos usados em fluxos de trabalho de machine learning e análise de dados. \nÉ particularmente útil para salvar e carregar grandes estruturas de dados, como arrays NumPy e modelos de machine learning.\nIsso é feito para exportar em um meio de armazenamento (geralmente como um arquivo no disco do seu computador) e também para \nposteriormente carregar (desserialização) esses objetos de volta na memória a partir desse meio de armazenamento.\n"

In [61]:
# ETAPA 3: Criar o modelo de IA 
#
#    Score crédito: Good (Bom), Standard (Médio), Poor (Ruim)
#   ==========================================================
#
# ---------------------- Modelos de algoritmos utilizados ---------------------- #

# Árvore de Decisão
from sklearn.ensemble import RandomForestClassifier

# KNN (k-nearest neighbors)
from sklearn.neighbors import KNeighborsClassifier

# Criando os modelos
modelo_tree = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()

# Treinando os dois modelos
# modelo_tree.fit(x_treino, y_treino)
# modelo_knn.fit(x_treino, y_treino)



In [62]:
# Treinando o modelo de árvore
modelo_tree.fit(x_treino, y_treino)

In [63]:
# Treinando o modelo KNN
modelo_knn.fit(x_treino, y_treino)

### Exemplo de representação simplificada de como um modelo de árvore de decisão opera

```
                    idade <= 30
                    /      \
               score_credito <= 0.6
               /            \
     comportamento_pagamento <= 0.3
    /      \                  \
dias_atraso <= 15    mix_credito <= 0.7
/           \        /           \
Rejeitado  Aprovado  Aprovado   Rejeitado
```

O nó raiz começa com a condição "idade <= 30". Se a idade do cliente for menor ou igual a 30 anos, a máquina seguirá para o nó da esquerda; caso contrário, seguirá para o nó da direita.

No nó da esquerda, a próxima condição é "score_credito <= 0.6". Se o score de crédito do cliente for igual ou melhor do que 0.6, a máquina seguirá para o nó da esquerda; caso contrário, seguirá para o nó da direita.

No nó da esquerda, a próxima condição é "comportamento_pagamento <= 0.3". Se o comportamento de pagamento do cliente for igual ou melhor do que 0.3, a aplicação é aprovada (Classificação: Aprovado). Caso contrário, é rejeitada (Classificação: Rejeitado).

No nó da direita do segundo nível, a máquina verifica "dias_atraso <= 15". Se o número de dias de atraso for menor ou igual a 15, a aplicação é rejeitada. Caso contrário, a máquina segue para o nó da direita do terceiro nível.

No nó da esquerda do terceiro nível, a máquina verifica "mix_credito <= 0.7". Se o mix de crédito do cliente for igual ou melhor do que 0.7, a aplicação é aprovada. Caso contrário, é rejeitada.

### Outro exemplo

```
                           idade <= 35
                           /      |       \
           salario_anual <= 60000   divida_total <= 5000
           /           |        \        /          \
score_credito <= 0.6  num_emprestimos <= 3   salario_anual > 40000
/      \          |                 |             |
Rejeitado  Aprovado   Aprovado      Aprovado     Rejeitado
```

O nó raiz começa com a condição "idade <= 35". Se a idade do cliente for menor ou igual a 35 anos, a máquina seguirá para o nó da esquerda; caso contrário, seguirá para o nó da direita.

No nó da esquerda, a próxima condição é "salario_anual <= 60000". Se o salário anual do cliente for menor ou igual a 60.000 unidades monetárias, a máquina seguirá para o nó da esquerda; caso contrário, seguirá para o nó da direita.

No nó da esquerda do segundo nível, a máquina verifica "score_credito <= 0.6". Se o score de crédito do cliente for igual ou melhor do que 0.6, a aplicação é aprovada (Classificação: Aprovado). Caso contrário, é rejeitada (Classificação: Rejeitado).

No nó da direita do segundo nível, a máquina verifica "divida_total <= 5000". Se a dívida total do cliente for menor ou igual a 5000 unidades monetárias, a máquina seguirá para o nó da esquerda; caso contrário, seguirá para o nó da direita.

No nó da esquerda do terceiro nível, a próxima condição é "num_emprestimos <= 3". Se o número de empréstimos do cliente for menor ou igual a 3, a aplicação é aprovada. Caso contrário, a máquina segue para o nó da direita do terceiro nível.

No nó da direita do terceiro nível, a máquina verifica "salario_anual > 40000". Se o salário anual do cliente for superior a 40.000 unidades monetárias, a aplicação é aprovada (Classificação: Aprovado). Caso contrário, é rejeitada (Classificação: Rejeitado).

In [64]:
# ETAPA 4: Escolher o melhor modelo (com base na acurácia - comparando os resultados das previsões com o gabarito da base de dados)
from sklearn.metrics import accuracy_score

# Fazendo o cálculo das previsões
# Passando dados de teste para o método .predict()
previsao_modelo_tree = modelo_tree.predict(x_teste)
previsao_modelo_knn = modelo_knn.predict(x_teste) # .to_numpy()

# Mostrando os resultados dos testes
print("Acurácia do modelo de árvore: \t\t", accuracy_score(y_teste, previsao_modelo_tree))
print("Acurácia do modelo KNN: \t\t", accuracy_score(y_teste, previsao_modelo_knn))

Acurácia do modelo de árvore: 		 0.8250333333333333
Acurácia do modelo KNN: 		 0.7357666666666667


## O melhor modelo com base nessas previsões é o modelo de árvore de decisão, com 82,7% de acurácia comparado aos 73,2% de acurácia do modelo KNN.
Isso significa que esse modelo pode ser escolhido com segurança de 82% de acerto em previsões futuras.

In [65]:
# ETAPA 5: Fazer novas previsões
novos_clientes = pd.read_csv("novos_clientes.csv")

novos_clientes["profissao"] = codificador.fit_transform(novos_clientes["profissao"])
novos_clientes["mix_credito"] = codificador.fit_transform(novos_clientes["mix_credito"])
novos_clientes["comportamento_pagamento"] = codificador.fit_transform(novos_clientes["comportamento_pagamento"])

display(novos_clientes)

previsoes = modelo_tree.predict(novos_clientes)
print("Previsões para a nova base de dados: ")
display(previsoes)

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,1,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,1,312.487689,1,1,0,0,0
1,4,32.0,0,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,2,300.994163,0,0,0,0,1
2,2,48.0,1,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,34.235853,215.0,0.0,0,345.081577,0,1,0,1,0


Previsões para a nova base de dados: 


array(['Poor', 'Good', 'Good'], dtype=object)

In [None]:
'''
Fato interessante: 

Quando aumentei o treino para .9 (90%) e diminuí o teste para somente 10%, 
obtive a previsão: array(['Poor', 'Good', 'Good'].

Ou seja, com uma mudança percentual dessas já é possível obter resultados diferentes.

No entanto, a acurácia do modelo de árvore subiu de 0.8274 (82,7%) para 0.8369 (83,6%) e 
a acurácia do modelo KNN subiu de 0,7324 (73,2%) para 0.7597 (75,97%).
Não foi uma diferença tão grande no percentual, mas foi uma diferença suficiente pra mudar um dos resultados.
'''

## Portanto, a previsão é:
Cliente 1 -------> 'Poor'       (Ruim)

Cliente 2 -------> 'Good'       (Boa)

Cliente 3 -------> 'Standard'   (Média)
