<a href="https://colab.research.google.com/github/JavaPedro/MachineLearning/blob/main/Classifica%C3%A7%C3%A3o_Risco_de_Cr%C3%A9dito.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Gerando Modelo de Machine Learning (Classificação)
# Preparação dos Dados e Treinamento do Modelo de Machine Learning.
# Autor: Pedro Arthur Fernandes - Data: 22/04/2023.

In [None]:
#Conjunto de importacoes
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

In [None]:
#Carrega o dataset com os dados para o treinamento e validacao
dados_risco_de_credito_treino = pd.read_csv("credit_risk_dataset.csv", encoding="utf-8")

In [None]:
dados_risco_de_credito_treino.head(5)

In [None]:
#Definição dos atributos que deverao ser treinados para gerar o modelo de classificacao
data_treino = np.array(dados_risco_de_credito_treino[['person_income', 'loan_amnt', 'loan_percent_income', 'cb_person_cred_hist_length']])
#Definição do atributo de classificacao
data_classif = np.array(dados_risco_de_credito_treino['loan_status'])

In [None]:
# Verificando o formato dos dados
dados_risco_de_credito_treino.shape

In [None]:
# Verificando as primeiras linhas do dataset
dados_risco_de_credito_treino.head(10)

In [None]:
# Verificando as últimas linhas do dataset
dados_risco_de_credito_treino.tail(5)

In [None]:
# Identificando a correlação entre as variáveis
# Correlação não implica causalidade
def plot_corr(dados_risco_de_credito_treino, size=10):
    corr = dados_risco_de_credito_treino.corr()    
    fig, ax = plt.subplots(figsize = (size, size))
    ax.matshow(corr)  
    plt.xticks(range(len(corr.columns)), corr.columns) 
    plt.yticks(range(len(corr.columns)), corr.columns) 

In [None]:
# Criando o gráfico
plot_corr(dados_risco_de_credito_treino)

In [None]:
#Definição dos conjuntos de treinamento e validação
x_treino, x_val, y_treino, y_val = train_test_split(data_treino, data_classif, test_size=0.30)

In [None]:
#Apresentação dos dados selecionados para o conjunto de treinamento e validação
print("-------------------------------------------------------")
print("Conjunto de Treinamento")
print(x_treino)
print("Conjunto de Validação")
print(x_val)
print("-------------------------------------------------------")

In [None]:
# Imprimindo os resultados
print("{0:0.2f}% nos dados de treino".format((len(x_treino)/len(dados_risco_de_credito_treino.index)) * 100))
print("{0:0.2f}% nos dados de teste".format((len(x_val)/len(dados_risco_de_credito_treino.index)) * 100))

In [None]:
# - Aplicando o Algoritmo com o Naive Bayes - GaussianNB.
#Treinamento do modelo com os dados atribuidos ao conjunto de treinamento
modelo_NB = GaussianNB()
modelo_NB.fit(x_treino, y_treino)

In [None]:
#Predição e acurácia para o conjunto de treinamento
print("Predicao para o conjunto de treinamento")
y_pred_treino = modelo_NB.predict(x_treino)
print("Acuracia para o conjunto de treinamento")
print(accuracy_score(y_treino, y_pred_treino))
print("Na Base de Treinamento")

In [None]:
#Predição e acurácia para o conjunto de validação
print("Predicao para o conjunto de validacao")
y_pred_val = modelo_NB.predict(x_val)
print("Acuracia para o conjunto de validacao")
print(accuracy_score(y_val, y_pred_val))
print("na Base de Teste e ou Validação")

In [None]:
from sklearn import metrics

In [None]:
# Criando uma Confusion Matrix
print("Confusion Matrix")

print("{0}".format(metrics.confusion_matrix(y_val, y_pred_val, labels = [1, 0])))
print("")

print("Classification Report")
print(metrics.classification_report(y_val, y_pred_val, labels = [1, 0]))

In [None]:
# Criando uma Curva Roc
print("Roc Curve")

In [None]:
# Otimizando o modelo com RandomForest
# Algoritmo 02 - RandomForest - Realizando operações com mais de um Algoritmo de Machine Learning (Classificação)
from sklearn.ensemble import RandomForestClassifier

In [None]:
modelo_v2 = RandomForestClassifier(random_state = 42)
modelo_v2.fit(x_treino, y_treino.ravel())

In [None]:
# Verificando os dados de treino
rf_predict_train = modelo_v2.predict(x_treino)
print("Exatidão (Accuracy): {0:.4f}".format(metrics.accuracy_score(y_treino, rf_predict_train)))

In [None]:
# Verificando nos dados de teste
rf_predict_test = modelo_v2.predict(x_val)
print("Exatidão (Accuracy): na Base de Teste {0:.4f}".format(metrics.accuracy_score(y_val, rf_predict_test)))
print()

In [None]:
# Validação do Modelo com a Matrix de Confusão
print("Confusion Matrix")

print("{0}".format(metrics.confusion_matrix(y_val, rf_predict_test, labels = [1, 0])))
print("")

print("Classification Report")
print(metrics.classification_report(y_val, rf_predict_test, labels = [1, 0]))

In [None]:
# Otimizando o modelo com RandomForest
# Algoritmo 02 - RandomForest - Realizando operações com mais de um Algoritmo de Machine Learning (Classificação)
from sklearn.linear_model import LogisticRegression

In [None]:
# Terceira versão do modelo usando Regressão Logística
modelo_v3 = LogisticRegression(C = 0.7, random_state = 42)
modelo_v3.fit(x_treino, y_treino.ravel())
lr_predict_test = modelo_v3.predict(x_val)

In [None]:
print("Exatidão (Accuracy): na Base de Teste {0:.4f}".format(metrics.accuracy_score(y_val, lr_predict_test)))
print()
print("Classification Report")
print(metrics.classification_report(y_val, lr_predict_test, labels = [1, 0]))

Com a base de dados, avaliamos o risco do crédito utilizando os parâmetros: renda, valor do empréstimo, histórico de crédito e percentual de entrada. 
Utilizando o status de empréstimo como referência.

In [None]:
#OS RESULTADOS FORAM: 
# Naive Bayes         = 78%
# Regressão Logística = 76%
# Random Forest       = 97% 
