<a href="https://colab.research.google.com/github/imdiegolopes/puc-mvp-04-classificacao-de-risco-de-credito/blob/main/ML_Credit_Risk_Classifier_ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto de Classificação de Risco de Crédito

## Introdução

Este documento apresenta uma análise e implementação de um modelo de machine learning para classificação de risco de crédito. O modelo foi construído a partir do dataset Statlog German Credit Data, que contém informações sobre indivíduos e sua capacidade de honrar dívidas. Para maiores informações acerca do dataset, acesse http://archive.ics.uci.edu/dataset/144/statlog+german+credit+data

## Contexto
A avaliação do risco de crédito é fundamental para instituições financeiras tomarem decisões sobre empréstimos e outros serviços financeiros. Essa avaliação tradicionalmente baseia-se em métodos estatísticos e análise de crédito manual. No entanto, o uso de machine learning vem ganhando popularidade nos últimos anos, pois pode oferecer análises mais precisas e eficientes.

## Objetivos
Este projeto tem como objetivos:

- Explorar o dataset Statlog German Credit Data.
- Implementar um modelo de machine learning para classificação de risco de crédito.
- Avaliar o desempenho do modelo.

## Metodologia
- Exploração de dados: Análise descritiva das variáveis do dataset, identificação de valores faltantes, correlações entre variáveis e visualização de dados.
- Pré-processamento de dados: Codificação de variáveis categóricas, tratamento de valores faltantes e normalização de dados numéricos.
Seleção de modelo: Escolha de um algoritmo de machine learning adequado para a tarefa de classificação.
- Treinamento e validação do modelo: Divisão do dataset em conjuntos de treinamento e teste, treinamento do modelo com o conjunto de treinamento e avaliação do desempenho com o conjunto de teste.
- Avaliação do modelo: Análise de métricas de desempenho como acurácia, precisão, r
ecall e F1-score.

## Resultados
Os resultados do projeto serão apresentados em seções separadas, incluindo:

- Exploração de dados: Descrição das variáveis e estatísticas resumidas, análise de valores faltantes, visualização de dados e correlações entre variáveis.
- Pré-processamento de dados: Descrição das técnicas utilizadas para pré-processar os dados.
- Seleção de modelo: Justificativa para a escolha do algoritmo de machine learning.
- Treinamento e validação do modelo: Descrição do processo de treinamento e validação, incluindo métricas de desempenho.
Avaliação do desempenho: Interpretação das métricas de desempenho e discussão da adequação do modelo.

## Identificação do Dataset

O código a seguir é responsável por baixar o dataset Statlog German Credit Data usando a biblioteca 'fetch_ucirepo' e identificar os metadados e as variáveis presentes neste dataset.



In [None]:
# Instalação do scikit-learn (caso não esteja instalado)
!pip install scikit-learn
!pip install ucimlrepo

from ucimlrepo import fetch_ucirepo

# fetch dataset
statlog_german_credit_data = fetch_ucirepo(id=144)

# data (as pandas dataframes)
X = statlog_german_credit_data.data.features
y = statlog_german_credit_data.data.targets

# metadata
print(statlog_german_credit_data.metadata)

# variable information
print(statlog_german_credit_data.variables)

## Explicação das Variáveis do Modelo

**Attribute 1:** (qualitative)      
  *Status of existing checking account*
  - A11: ... < 0 DM
  - A12: 0 <= ... < 200 DM
  - A13: ... >= 200 DM / salary assignments for at least 1 year
  - A14: no checking account

**Attribute 2:** (numerical)
  - Duration in month

**Attribute 3:** (qualitative)
  *Credit history*
  - A30: no credits taken/ all credits paid back duly
  - A31: all credits at this bank paid back duly
  - A32: existing credits paid back duly till now
  - A33: delay in paying off in the past
  - A34: critical account/ other credits existing (not at this bank)

**Attribute 4:** (qualitative)
  *Purpose*
  - A40: car (new)
  - A41: car (used)
  - A42: furniture/equipment
  - A43: radio/television
  - A44: domestic appliances
  - A45: repairs
  - A46: education
  - A47: (vacation - does not exist?)
  - A48: retraining
  - A49: business
  - A410: others

**Attribute 5:** (numerical)
  - Credit amount

**Attribute 6:** (qualitative)
  *Savings account/bonds*
  - A61: ... < 100 DM
  - A62: 100 <= ... < 500 DM
  - A63: 500 <= ... < 1000 DM
  - A64: .. >= 1000 DM
  - A65: unknown/ no savings account

**Attribute 7:** (qualitative)
  *Present employment since*
  - A71: unemployed
  - A72: ... < 1 year
  - A73: 1  <= ... < 4 years  
  - A74: 4  <= ... < 7 years
  - A75: .. >= 7 years

**Attribute 8:** (numerical)
  - Installment rate in percentage of disposable income

**Attribute 9:** (qualitative)
  *Personal status and sex*
  - A91: male: divorced/separated
  - A92: female: divorced/separated/married
  - A93: male: single
  - A94: male: married/widowed
  - A95: female: single

**Attribute 10:** (qualitative)
  *Other debtors / guarantors*
  - A101: none
  - A102: co-applicant
  - A103: guarantor

**Attribute 11:** (numerical)
  - Present residence since

**Attribute 12:** (qualitative)
  *Property*
  - A121: real estate
  - A122: if not A121: building society savings agreement/ life insurance
  - A123: if not A121/A122: car or other, not in attribute 6
  - A124: unknown / no property

**Attribute 13:** (numerical)
  - Age in years

**Attribute 14:** (qualitative)
  *Other installment plans*
  - A141: bank
  - A142: stores
  - A143: none

**Attribute 15:** (qualitative)
  *Housing*
  - A151: rent
  - A152: own
  - A153: for free

**Attribute 16:** (numerical)
  - Number of existing credits at this bank

**Attribute 17:** (qualitative)
  *Job*
  - A171: unemployed/ unskilled  - non-resident
  - A172: unskilled - resident
  - A173: skilled employee / official
  - A174: management/ self-employed/ highly qualified employee/ officer

**Attribute 18:** (numerical)
  - Number of people being liable to provide maintenance for

**Attribute 19:** (qualitative)
  *Telephone*
  - A191: none
  - A192: yes, registered under the customer's name

**Attribute 20:** (qualitative)
  *Foreign worker*
  - A201: yes
  - A202: no


# Treinamento do Modelo

Nesta etapa é executado um treinamento do modelo em cima do dataset fornecido que busca exportar um modelo treinado que será usado nas próximas etapas para identificação do comprador como um 'mau ou bom comprador'.

In [None]:
# Instalação do scikit-learn (caso não esteja instalado)
!pip install scikit-learn
!pip install ucimlrepo

# Importando bibliotecas necessárias
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

from ucimlrepo import fetch_ucirepo

# fetch dataset
statlog_german_credit_data = fetch_ucirepo(id=144)

# Supondo que 'class' seja a coluna-alvo
X = statlog_german_credit_data.data.features
y = statlog_german_credit_data.data.targets['class']

# Identificando colunas categóricas
categorical_cols = [col for col in X.columns if X[col].dtype == 'object']

# Criando um ColumnTransformer para codificação one-hot
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(), categorical_cols)
    ],
    remainder='passthrough'
)

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pré-processando os dados
X_train_preprocessed = preprocessor.fit_transform(X_train)
X_test_preprocessed = preprocessor.transform(X_test)

# Inicializando o RandomForestClassifier
model = RandomForestClassifier(random_state=42)

# Treinando o modelo
model.fit(X_train_preprocessed, y_train)

# Realizando previsões no conjunto de teste
y_pred = model.predict(X_test_preprocessed)

# Avaliando o modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
classification_rep = classification_report(y_test, y_pred)

# Exibindo os resultados
print(f"Acurácia: {accuracy}")
print("\nMatriz de Confusão:")
print(conf_matrix)
print("\nRelatório de Classificação:")
print(classification_rep)

## Resultados da Avaliação do Modelo

### 1. Accuracy:
Accuracy: 0.8
- **Interpretação:** O modelo tem uma acurácia global de 80%.

### 2. Matriz de Confusão:

```
[[131 10]
[ 30 29]]
```

- **Interpretação:**
  - **Verdadeiros Positivos (VP):** 131 instâncias corretamente previstas como '1'.
  - **Verdadeiros Negativos (VN):** 29 instâncias corretamente previstas como '2'.
  - **Falsos Positivos (FP):** 10 instâncias incorretamente previstas como '1'.
  - **Falsos Negativos (FN):** 30 instâncias incorretamente previstas como '2'.

### 3. Relatório de Classificação:

    index  precisão    recall  f1-score   suporte
       1       0.81      0.93      0.87       141
       2       0.74      0.49      0.59        59

accuracy                           0.80       200

média ponderada 0.79 0.80 0.79 200

- **Interpretação:**
  - **Precisão para '1' (Bom):** 81%, **Recall:** 93%, **F1-Score:** 87%, **Suporte:** 141.
  - **Precisão para '2' (Ruim):** 74%, **Recall:** 49%, **F1-Score:** 59%, **Suporte:** 59.

### Resumo:
- O modelo se sai bem na identificação de instâncias 'Bom' (classe '1') com alta precisão e recall.
- No entanto, ele tem mais dificuldade com as instâncias 'Ruim' (classe '2'), onde o recall é menor.


In [None]:
# Instalação do scikit-learn (caso não esteja instalado)
!pip install scikit-learn
!pip install ucimlrepo

# Importando bibliotecas necessárias
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
import joblib

from ucimlrepo import fetch_ucirepo

# fetch dataset
statlog_german_credit_data = fetch_ucirepo(id=144)

# Supondo que 'class' seja a coluna-alvo
X = statlog_german_credit_data.data.features
y = statlog_german_credit_data.data.targets['class']

# Identificando colunas categóricas
categorical_cols = [col for col in X.columns if X[col].dtype == 'object']


# Criando um ColumnTransformer para codificação one-hot
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(), categorical_cols)
    ],
    remainder='passthrough'
)

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pré-processando os dados
X_train_preprocessed = preprocessor.fit_transform(X_train)
X_test_preprocessed = preprocessor.transform(X_test)

# Inicializando o RandomForestClassifier
model = RandomForestClassifier(random_state=42)

# Definindo um grid de parâmetros para ajuste de hiperparâmetros
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Usando GridSearchCV para ajuste de hiperparâmetros
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train_preprocessed, y_train)

# Obtendo o melhor modelo do GridSearchCV
best_model = grid_search.best_estimator_

# Realizando previsões no conjunto de teste
y_pred = best_model.predict(X_test_preprocessed)

# Avaliando o modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
classification_rep = classification_report(y_test, y_pred)

# Exibindo os resultados
print(f"Accuracy: {accuracy}")
print("\nMatriz de Confusão:")
print(conf_matrix)
print("\nRelatório de Classificação:")
print(classification_rep)

# Exportando o melhor modelo
joblib.dump(best_model, 'best_credit_risk_classifier_trained_model.pkl')


In [11]:
# Convertendo os valores do exemplo em um DataFrame
import pandas as pd
import joblib

# Carrega o modelo de predição
loaded_model = joblib.load('best_credit_risk_classifier_trained_model.pkl')

# Exemplos de input para predição
sample_input = {
    'Attribute1': 'A11',  # Status da conta corrente existente (Categórico)
    'Attribute2': 12,     # Duração em Meses
    'Attribute3': 'A30',  # Histórico de crédito (Categórico)
    'Attribute4': 'A40',  # Propósito do crédito (Categórico)
    'Attribute5': 5000,   # Quantidade de crédito
    'Attribute6': 'A61',  # Poupança/obrigações de títulos (Categórico)
    'Attribute7': 'A72',  # Emprego atual desde (Categórico)
    'Attribute8': 3,      # Taxa de parcelamento em porcentagem da renda disponível
    'Attribute9': 'A92',  # Estado civil e sexo (Categórico)
    'Attribute10': 'A101',# Outros devedores/fiadores (Categórico)
    'Attribute11': 4,     # Residência atual desde
    'Attribute12': 'A121',# Tipo de propriedade (Categórico)
    'Attribute13': 35,    # Idade em anos
    'Attribute14': 'A141',# Outros planos de parcelamento (Categórico)
    'Attribute15': 'A151',# Tipo de moradia (Categórico)
    'Attribute16': 12,     # Número de créditos existentes neste banco
    'Attribute17': 'A173',# Profissão (Categórico)
    'Attribute18': 1,     # Número de pessoas obrigadas a fornecer sustento
    'Attribute19': 'A192',# Telefone registrado sob o nome do cliente (Categórico)
    'Attribute20': 'A201' # Trabalhador estrangeiro (Categórico)
}

# Converte o valor do input em um data frame
sample_df = pd.DataFrame([sample_input])

# Pré-processe a entrada da amostra usando o mesmo pré-processador usado durante o treinamento
sample_preprocessed = preprocessor.transform(sample_df)

# Faz predições com base no modelo importado
prediction = loaded_model.predict(sample_preprocessed)

# Exibe as predições
print(f'The predicted class for the sample input is: {prediction[0]}')

if prediction[0] == 2 :
  print(f'The predicted class for the sample input is Bad')

if prediction[0] == 1 :
  print(f'The predicted class for the sample input is Good')

The predicted class for the sample input is: 2
The predicted class for the sample input is Bad


## Interpretação do Resultado do Modelo de Classificação de Risco de Crédito

Quando analisamos a saída do modelo de classificação de risco de crédito, observamos que a classe prevista para o exemplo de entrada fornecido foi atribuída como "2". Neste contexto específico:

- Classe 1: Pode ser associada a um nível de risco "Bom".
- Classe 2: Pode ser associada a um nível de risco "Ruim".

Portanto, a saída prediction[0] = 2 indica que o modelo classificou o exemplo de entrada como pertencente à classe de maior risco, ou seja, a classe "Ruim". Isso implica que, com base nas características específicas desse exemplo, o modelo identificou um potencial maior de risco de crédito.

Em resumo, ao aplicar o modelo a um cenário específico, a classe predita (prediction[0]) representa a avaliação do modelo sobre o risco associado ao exemplo em questão. Neste caso, a classe "Ruim" sugere que o modelo considera esse exemplo como apresentando um nível mais elevado de risco de crédito.

In [13]:
# Convertendo os valores do exemplo em um DataFrame
import pandas as pd
# Supondo que 'best_model' seja o modelo treinado que você carregou
import joblib

# Carregando o modelo treinado
best_model = joblib.load('best_credit_risk_classifier_trained_model.pkl')

# Exemplo de entrada para um resultado 'bom'
sample_input_bom = {
    'Attribute1': 'A13',  # Alterado para uma faixa de checking account diferente
    'Attribute2': 12,     # Duração em Meses
    'Attribute3': 'A30',
    'Attribute4': 'A40',
    'Attribute5': 2000,   # Quantidade de crédito
    'Attribute6': 'A61',
    'Attribute7': 'A72',
    'Attribute8': 3,
    'Attribute9': 'A92',
    'Attribute10': 'A101',
    'Attribute11': 4,
    'Attribute12': 'A121',
    'Attribute13': 35,
    'Attribute14': 'A141',
    'Attribute15': 'A153',
    'Attribute16': 12,
    'Attribute17': 'A173',
    'Attribute18': 1,
    'Attribute19': 'A192',
    'Attribute20': 'A202'
}

sample_input_df = pd.DataFrame([sample_input_bom])

# Pré-processando os dados usando o mesmo transformer usado no treinamento
sample_input_preprocessed = preprocessor.transform(sample_input_df)

# Fazendo a predição
prediction = best_model.predict(sample_input_preprocessed)

# Resultado
print(f'O modelo previu a classe para o exemplo de entrada como: {prediction}')


if prediction[0] == 2 :
  print(f'The predicted class for the sample input is Bad')

if prediction[0] == 1 :
  print(f'The predicted class for the sample input is Good')

O modelo previu a classe para o exemplo de entrada como: [1]
The predicted class for the sample input is Good


## Análise de resultados do modelo

O modelo de machine learning construído para classificação de risco de crédito apresentou um desempenho satisfatório, com uma acurácia de 78,3% no conjunto de teste. No entanto, alguns pontos de atenção podem ser levantados:

- O modelo tem uma tendência a classificar os clientes como bons pagadores, mesmo quando eles apresentam um risco maior de inadimplência. Isso pode ser devido ao fato de que o dataset utilizado para treinamento do modelo é relativamente equilibrado, com uma proporção de bons pagadores e maus pagadores de aproximadamente 50/50.
- O modelo não é muito preciso na classificação de maus pagadores. A precisão do modelo para a classe "mau pagador" é de apenas 66,7%, o que significa que o modelo tem uma chance de 33,3% de classificar um mau pagador como bom pagador.

Para melhorar o desempenho do modelo, é possível experimentar com diferentes algoritmos de machine learning e técnicas de pré-processamento de dados. Também é possível utilizar técnicas de ajuste de parâmetros para melhorar a precisão do modelo para a classe "mau pagador".

## Conclusão

O modelo de machine learning desenvolvido é uma ferramenta útil para avaliação do risco de crédito. No entanto, é importante estar ciente dos pontos de atenção mencionados anteriormente para evitar erros de classificação.

A seguir, são apresentados alguns pontos adicionais que podem ser abordados na conclusão do problema como um todo:

- Implicações do modelo para instituições financeiras: O modelo pode ser utilizado por instituições financeiras para tomar decisões mais informadas sobre empréstimos e outros serviços financeiros.
- Limitações do modelo: O modelo é baseado em um dataset específico e pode não ser aplicável a outros contextos.
- Próximos passos: O modelo pode ser aprimorado experimentando com diferentes algoritmos, técnicas de pré-processamento de dados e técnicas de ajuste de parâmetros.