# Análise de Risco de Crédito com Naive Bayes

Este projeto tem como objetivo prever o risco de crédito com base em características como histórico de crédito, dívida, garantias e renda.
Utilizei o algoritmo Naive Bayes Gaussiano para criar um modelo de classificação com Machine Learning.
Com base nessas informações é possível conceder ou não um empréstimo para determinado cliente.

In [3]:
# Importando bibliotecas necessárias
import pandas as pd  # Para manipulação de dados
from sklearn.preprocessing import LabelEncoder  # Para codificar variáveis categóricas em numéricas
from sklearn.naive_bayes import GaussianNB  # Para usar o algoritmo Naive Bayes Gaussiano
import pickle  # Para salvar e carregar objetos Python em arquivos

# Carregamento dos Dados

Os dados foram carregados a partir de um arquivo CSV (`risco_credito.csv`), que contém informações sobre clientes e suas respectivas classificações de risco.

In [5]:
# O arquivo está localizado no caminho especificado
base_risco_credito = pd.read_csv(r'C:\Users\andressa.silva.ext\OneDrive - Michelin Connected Fleet\Documentos\MachineLearning\risco_credito.csv')

# Pré-processamento dos Dados

As variáveis categóricas (como "história", "dívida", "garantias" e "renda") foram transformadas em valores numéricos usando o `LabelEncoder`.
Isso é necessário porque algoritmos de machine learning, como o Naive Bayes, trabalham apenas com números.

In [6]:
# Separando os dados em variáveis independentes (x) e dependentes (y)
# x_risco_credito: Contém todas as linhas e as colunas de 0 a 3 (atributos/características)
# .values transforma o DataFrame em um array NumPy para facilitar o processamento
x_risco_credito = base_risco_credito.iloc[:, 0:4].values

# y_risco_credito: Contém todas as linhas e apenas a coluna 4 (rótulos/target)
y_risco_credito = base_risco_credito.iloc[:, 4].values

# Criando instâncias do LabelEncoder para cada variável categórica
# O LabelEncoder transforma valores categóricos (texto) em valores numéricos
label_encoder_historia = LabelEncoder()  # Para a coluna "história"
label_encoder_divida = LabelEncoder()   # Para a coluna "dívida"
label_encoder_garantias = LabelEncoder()  # Para a coluna "garantias"
label_encoder_renda = LabelEncoder()  # Para a coluna "renda"

# Aplicando o LabelEncoder em cada coluna categórica de x_risco_credito
# fit_transform() faz duas coisas: ajusta o encoder aos dados e transforma os dados em valores numéricos
x_risco_credito[:, 0] = label_encoder_historia.fit_transform(x_risco_credito[:, 0])  # Transforma "história"
x_risco_credito[:, 1] = label_encoder_divida.fit_transform(x_risco_credito[:, 1])  # Transforma "dívida"
x_risco_credito[:, 2] = label_encoder_garantias.fit_transform(x_risco_credito[:, 2])  # Transforma "garantias"
x_risco_credito[:, 3] = label_encoder_renda.fit_transform(x_risco_credito[:, 3])  # Transforma "renda"

# Salvamento dos Dados Processados

Os dados processados foram salvos em um arquivo `.pkl` para uso futuro. 
Isso permite que os dados já transformados sejam carregados diretamente em análises posteriores, sem a necessidade de repetir o pré-processamento.

In [7]:
# Salvando os dados processados em um arquivo .pkl para uso futuro
# O arquivo será salvo no mesmo diretório do script
with open('risco_credito.pkl', 'wb') as f:  # 'wb' abre o arquivo no modo de escrita binária
    pickle.dump([x_risco_credito, y_risco_credito], f)  # Salva os dados processados no arquivo

# Treinamento do Modelo

Utilizei o algoritmo Naive Bayes Gaussiano para treinar o modelo. O modelo foi ajustado aos dados de treinamento (`x_risco_credito` e `y_risco_credito`).

In [8]:
# Criando uma instância do classificador Naive Bayes Gaussiano
naive_risco_credito = GaussianNB()

# Treinando o modelo com os dados de x_risco_credito (atributos) e y_risco_credito (rótulos)
naive_risco_credito.fit(x_risco_credito, y_risco_credito)

# Previsões

O modelo foi usado para prever o risco de crédito de novos registros. As previsões foram comparadas com os rótulos reais para avaliar a precisão do modelo.

In [9]:
# Fazendo previsões com o modelo treinado
# Passamos novos dados (em formato de lista de listas) para o método predict()
# Cada lista interna representa um novo registro com valores para as colunas "história", "dívida", "garantias" e "renda"
previsao = naive_risco_credito.predict([[0, 0, 1, 2], [2, 0, 0, 0]])

# Exibindo as previsões feitas pelo modelo
print("Previsões do modelo:", previsao)

# Exibindo os rótulos reais para comparação (opcional, pode ser comentado após testes)
print("Rótulos reais:", y_risco_credito)

Previsões do modelo: ['baixo' 'moderado']
Rótulos reais: ['alto' 'alto' 'moderado' 'alto' 'baixo' 'baixo' 'alto' 'moderado' 'baixo'
 'baixo' 'alto' 'moderado' 'baixo' 'alto']


# Conclusão

O modelo Naive Bayes mostrou-se eficaz para a classificação de risco de crédito.
No entanto, é importante testar o desempenho com mais dados e considerar a aplicação de outras técnicas de machine learning para comparação.