# Projeto: Previsão de Score de Crédito com Machine Learning
Versão final estável para portfólio (sem erros mesmo com dataset pequeno).

## 1. Importação das Bibliotecas

In [1]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score, classification_report

import joblib
import os

## 2. Carregamento do Dataset

In [2]:
tabela = pd.read_csv("data/clientes.csv")

print("Dimensão do dataset:", tabela.shape)
display(tabela.head())

Dimensão do dataset: (8, 5)


Unnamed: 0,id_cliente,idade,salario,score_credito,aprovado
0,1,25,3000,600,1
1,2,40,8000,750,1
2,3,30,2000,500,0
3,4,50,10000,820,1
4,5,22,1500,450,0


## 3. Pré-processamento dos Dados

In [3]:
# Remover coluna irrelevante (se existir)
tabela = tabela.drop(columns=["id_cliente"], errors="ignore")

# Encoding de variáveis categóricas
for coluna in tabela.columns:
    if tabela[coluna].dtype == "object":
        encoder = LabelEncoder()
        tabela[coluna] = encoder.fit_transform(tabela[coluna])

print("Dataset após tratamento:", tabela.shape)
display(tabela.head())

Dataset após tratamento: (8, 4)


Unnamed: 0,idade,salario,score_credito,aprovado
0,25,3000,600,1
1,40,8000,750,1
2,30,2000,500,0
3,50,10000,820,1
4,22,1500,450,0


## 4. Separação entre Variáveis e Alvo

In [4]:
X = tabela.drop("score_credito", axis=1)
y = tabela["score_credito"]

print("Entradas (X):", X.shape)
print("Alvo (y):", y.shape)

Entradas (X): (8, 3)
Alvo (y): (8,)


## 5. Divisão em Treino e Teste

In [5]:
# Observação:
# Este dataset é pequeno, então não utilizamos stratify para evitar erros de divisão.

X_treino, X_teste, y_treino, y_teste = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print("Treino:", X_treino.shape)
print("Teste:", X_teste.shape)

Treino: (5, 3)
Teste: (3, 3)


## 6. Treinamento do Modelo

In [6]:
modelo = RandomForestClassifier(random_state=42)
modelo.fit(X_treino, y_treino)

print("Modelo treinado com sucesso.")

Modelo treinado com sucesso.


## 7. Avaliação do Modelo

In [7]:
previsoes = modelo.predict(X_teste)

print("Acurácia:", accuracy_score(y_teste, previsoes))

print("\nRelatório de Classificação:")
print(classification_report(y_teste, previsoes, zero_division=0))

Acurácia: 0.0

Relatório de Classificação:
              precision    recall  f1-score   support

         450       0.00      0.00      0.00       0.0
         600       0.00      0.00      0.00       1.0
         680       0.00      0.00      0.00       1.0
         750       0.00      0.00      0.00       1.0
         790       0.00      0.00      0.00       0.0

    accuracy                           0.00       3.0
   macro avg       0.00      0.00      0.00       3.0
weighted avg       0.00      0.00      0.00       3.0



## 8. Importância das Variáveis

In [8]:
importancias = modelo.feature_importances_

df_importancia = pd.DataFrame({
    "Variável": X.columns,
    "Importância": importancias
}).sort_values(by="Importância", ascending=False)

display(df_importancia)

Unnamed: 0,Variável,Importância
0,idade,0.441362
1,salario,0.376197
2,aprovado,0.18244


## 9. Salvando o Modelo Treinado

In [9]:
os.makedirs("models", exist_ok=True)

joblib.dump(modelo, "models/modelo_credito.pkl")

print("Modelo salvo em: models/modelo_credito.pkl")

Modelo salvo em: models/modelo_credito.pkl


## Conclusão

Neste projeto, desenvolvi um modelo de Machine Learning para prever o score de crédito de clientes com base em dados históricos.

O pipeline incluiu:

- Carregamento do dataset  
- Pré-processamento de variáveis categóricas e numéricas  
- Treinamento de um modelo Random Forest  
- Avaliação com métricas de classificação  
- Análise de importância das variáveis  
- Salvamento do modelo para uso futuro  

Observação: o dataset utilizado é pequeno, portanto as métricas servem como demonstração do fluxo completo de Machine Learning.  
Em um cenário real, seria necessário um volume maior de dados para validação mais robusta.

Este notebook representa um projeto introdutório e funcional, adequado para portfólio na área de Ciência de Dados.
