# Python Project: Credit Score

### Entendendo as necessidades do projeto

In [1]:
# Entender o problema e os desafios da empresa
# Carregar base de dados
# Preparar a base de dados
# Criar um modelo de IA, classificar o score do cliente
# Escolher melhor modelo
# Usar modelo em um cenário real

In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

### Carregando base de dados

In [None]:
tabela = pd.read_csv('clientes.csv')
display(tabela)

In [None]:
print(tabela.info())

### Tratamento de dados
Para um melhor tratamento de dados por meio de IA, é aconselhado que as colunas possuam informações em formato de numero, ou seja, todos os campos que estiverem com Dtype Objeto, deve ser tratado e transformado em numeral. Nesse caso será utilizado o *LabelEncoder* para transformar cada apções das colunas a seguir em numeros.

Profissao
mix_credito
comportamento_pagamento

In [None]:
codificator = LabelEncoder()
columns_to_encode = ['profissao', 'mix_credito', 'comportamento_pagamento']
tabela[columns_to_encode] = tabela[columns_to_encode].apply(codificator.fit_transform)
print(tabela.info())


### Separação para dados de teste e de treinamento

O campo que você deseja prever deve estar no eixo `Y`, ja os que serão utilizado para prver esse resultado deve estar no eixo `X`.

Para não tornar o aprendizado de maquina viciado, é necessário retirar todas as colunas desnecessarias do eixo X, ou seja, se formos utilizar a coluna `score_credito` como campo à ser previsto, ele deve ser removido, assim como o `id_cliente` por se tratar de um campo aleatório. Outro parametro a ser utilizado é o `axis`, caso possua valor 1, a remoção será realizada na coluna, caso possua valor 0 será realizado em linha.

In [5]:
y = tabela['score_credito']
drop_table = ['score_credito', 'id_cliente']
x = tabela.drop(drop_table, axis=1)

In [6]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y)

### Treinamento da base

In [None]:
model_forest_classifier = RandomForestClassifier()
model_knn = KNeighborsClassifier()

model_forest_classifier.fit(x_treino, y_treino)
model_knn.fit(x_treino, y_treino)

### Testando accuracy
Essa é uma etapa importante, ja que a base de dados pode ser treinada com diversos modelos, e após o treinamento e o teste deve ser selecionado o melhor para aplicar nos cenários reais.

In [None]:
forecast_tree_decision = model_forest_classifier.predict(x_teste)
knn_decision = model_knn.predict(x_teste.to_numpy())

print(f"Tree decision: {accuracy_score(y_teste, forecast_tree_decision)}")
print(f"Knn decision: {accuracy_score(y_teste, knn_decision)}")


### Utilizando dados reais

In [None]:
new_clients = pd.read_csv('novos_clientes.csv')

columns_to_encode = ['profissao', 'mix_credito', 'comportamento_pagamento']
new_clients[columns_to_encode] = new_clients[columns_to_encode].apply(codificator.fit_transform)
display(new_clients)

prevision = model_forest_classifier.predict(new_clients)
print(prevision)
