## Análise de Risco Financeiro: Previsão de Aprovação de Crédito

Este repositório contém um projeto de análise de risco financeiro voltado para a previsão de aprovação de crédito. Através de algoritmos de classificação, o modelo busca identificar a probabilidade de aprovação de crédito com base em variáveis como renda, score de crédito, histórico de inadimplência, entre outras. O dataset foi previamente processado, incluindo o tratamento de valores nulos, outliers e a conversão de variáveis categóricas em numéricas, para garantir que os modelos possam ser aplicados corretamente.

O objetivo deste projeto é comparar diversos algoritmos de classificação e, posteriormente, adaptar o problema para regressão, permitindo prever valores contínuos relacionados ao risco financeiro.

In [78]:
# importando bibliotecas

import time
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

## Carregando dados

In [79]:
df = pd.read_csv('C:/Users/bianca/Documents/analise-risco-financeiro/dataset_aprovacao_credito_classificacao.csv', encoding='utf-8')
df.shape

(20000, 9)

In [80]:
df.head()

Unnamed: 0,Idade,Renda_Anual,Dividas,Score_Credito,Emprego,Historico_Pagamentos,Possui_Imovel,Possui_Carro,Aprovado_Credito
0,56,65528,16519,609,Autônomo,Ruim,0,1,0
1,69,51230,40645,742,Autônomo,Ruim,0,1,1
2,46,63242,2545,535,CLT,Bom,1,0,1
3,32,80883,14447,529,Empresário,Bom,0,0,0
4,60,113366,29959,553,CLT,Regular,1,0,0


In [81]:
# divisão dos dados em treino e teste

x = df.drop(columns= ['Aprovacao_Credito'])
y = df.Aprovacao_Credito

KeyError: "['Aprovacao_Credito'] not found in axis"

In [51]:
x_train, x_test, y_train, y_test = train_test_split (x,y, test_size = 0.2, random_state= 0)

In [52]:
x.shape

(1000, 8)

In [None]:
y.shape

(1000,)

In [54]:
# Criação de lista para armazenar resultados

resultados = []

## Treinamento Naive Bayes

In [55]:
model_nb = MultinomialNB()
model_nb.fit(x_train, y_train)
pred_nb = model_nb.predict(x_test)

In [56]:
accuracy_nb = accuracy_score(y_test, pred_nb)
accuracy_nb

0.605

In [57]:
resultados.append(["Naive Bayes", accuracy_nb])

## Treinamento KNN Classificação

In [58]:
model_knn = KNeighborsClassifier()
model_knn.fit(x_train, y_train)
pred_knn = model_knn.predict(x_test)

In [59]:
accuracy_knn = accuracy_score(pred_knn, y_test)
accuracy_knn

0.935

In [60]:
resultados.append(["KNN Classificação", accuracy_knn])

## Treinamento Árvore de Classificação

In [61]:
model_tree = DecisionTreeClassifier()
model_tree.fit(x_train, y_train)
pred_tree = model_tree.predict(x_test)

In [None]:
accuracy_tree = accuracy_score(y_test, pred_tree)
accuracy_tree

0.905

In [63]:
resultados.append(["Árvore de Classificação", accuracy_tree])

## Treinamento Regressão Logistica

In [None]:
model_reglog = LogisticRegression()
model_reglog.fit(x_train, y_train)
pred_reglog = model_reglog.predict(x_test)

STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [65]:
accuracy_reglog = accuracy_score(y_test, pred_reglog)
accuracy_reglog

0.935

In [66]:
resultados.append(["Regressão Logistica", accuracy_reglog])

## Treinamento SVM Classificação

In [67]:
model_svc = SVC()
model_svc.fit(x_train, y_train)
pred_svc = model_svc.predict(x_test)

In [68]:
accuracy_svc = accuracy_score(y_test, pred_svc)
accuracy_svc

0.935

In [69]:
resultados.append(["SVM Classificação", accuracy_svc])

## Comparação de Resultados

In [None]:
df_resultados = pd.DataFrame(resultados, columns=["Modelo", "Acurácia"])

In [82]:
df_resultados = df_resultados.sort_values(by="Acurácia", ascending=False)
df_resultados 

Unnamed: 0,Modelo,Acurácia
1,KNN Classificação,0.935
3,Regressão Logistica,0.935
4,SVM Classificação,0.935
2,Árvore de Classificação,0.905
0,Naive Bayes,0.605
