# Previsão de Score de Crédito com Machine Learning

Este projeto aplica algoritmos de machine learning supervisionado para prever o score de crédito de clientes com base em atributos como profissão, histórico de pagamento e mix de crédito. Foram comparados dois modelos (Random Forest e KNN), com avaliação de desempenho e aplicação prática em novos dados.

### Objetivo
Prever automaticamente o score de crédito de clientes: Ruim, Ok ou Bom.

### Etapas do Projeto
- Importação e visualização dos dados
- Preparação dos dados (Label Encoding)
- Divisão treino/teste
- Treinamento dos modelos
- Avaliação da acurácia
- Previsão em novos clientes
- Análise de importância das variáveis

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

### Importação e visualização dos dados

In [None]:
tabela = pd.read_csv("clientes.csv")
display(tabela)

In [None]:
display(tabela.info())

### Preparação dos dados (Label Encoding)

In [None]:
codificador = LabelEncoder()
codificador2 = LabelEncoder()
codificador3 = LabelEncoder()

tabela["profissao"] = codificador.fit_transform(tabela["profissao"])
tabela["mix_credito"] = codificador2.fit_transform(tabela["mix_credito"])
tabela["comportamento_pagamento"] = codificador3.fit_transform(tabela["comportamento_pagamento"])

display(tabela.info())

### Divisão treino/teste

In [None]:
y = tabela["score_credito"]
x = tabela.drop(columns=["score_credito", "id_cliente"])

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3)

### Treinamento dos modelos

In [None]:
modelo_arvoredecisao = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()

modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

### Avaliação da acurácia

In [None]:
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)

display(accuracy_score(y_teste, previsao_arvoredecisao))
display(accuracy_score(y_teste, previsao_knn))

### Previsão em novos clientes

In [None]:
tabela_novos_clientes = pd.read_csv("novos_clientes.csv")
display(tabela_novos_clientes)

tabela_novos_clientes["profissao"] = codificador.fit_transform(tabela_novos_clientes["profissao"])
tabela_novos_clientes["mix_credito"] = codificador2.fit_transform(tabela_novos_clientes["mix_credito"])
tabela_novos_clientes["comportamento_pagamento"] = codificador3.fit_transform(tabela_novos_clientes["comportamento_pagamento"])

display(modelo_arvoredecisao.predict(tabela_novos_clientes))

### Análise de importância das variáveis

In [None]:
colunas = list(x_teste.columns)
importancia = pd.DataFrame(index=colunas, data=modelo_arvoredecisao.feature_importances_)
importancia = importancia * 100
print(importancia)

### Melhorias Futuras
- Adicionar análise exploratória com visualizações (distribuição de variáveis, correlações etc)
- Testar outras métricas de desempenho como `precision`, `recall`, `f1-score`
- Salvar modelo e encoders com `joblib`
- Criar interface simples para entrada de novos dados (ex: Streamlit)