# IESB
# Graduação em Ciência de Dados
## Disciplina - Mineração de Dados e Inteligência Computacional
## Avaliação - 04/05/2020

### Descrição
A base de dados "Home Equity" possui dados pessoas e informações de empréstimo de 5.960 empréstimos recentes. Para cada empréstimo existem 12 variáveis registradas.
A variável alvo (`BAD`) indica quando o cliente não pagou o empréstimo (valor 1), e quando ele honrou o compromisso (valor 0).

### Objetivo
Criar um modelo de ML usando RandomForest para prever se determinado cliente irá ou não honrar o empréstimo contraído.

O desempenho do modelo deve ser medido pela métrica de acurácia (`accuracy_score`).

### 1.Carregamento dos Dados

In [None]:
# Arquivo de dados
import numpy as np # linear algebra
import pandas as pd 
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [None]:
df = pd.read_csv('/kaggle/input/hmeq.csv')

df.head(10).T

### Verificação para saber se os dados foram importados corretamente

In [None]:
# Analisando o df
df.info()

### Pré-processamento dos dados (preenchimento de valores em branco, transformação de texto em número)

In [None]:

df['MORTDUE'] =  df['MORTDUE'].fillna(0)
df['VALUE'] = df['VALUE'].fillna(0)
df['REASON'] = df["REASON"].fillna("Nao Informado")
df['JOB'] = df['JOB'].fillna('Nao Informado')
df['YOJ'] = df['YOJ'].fillna(0)
df['DEROG'] = df['DEROG'].fillna(0)
df['DELINQ'] = df['DELINQ'].fillna(0)
df['CLAGE'] = df['CLAGE'].fillna(0)
df['NINQ'] = df['NINQ'].fillna(0)
df['CLNO'] = df['CLNO'].fillna(0)
df['DEBTINC'] = df["DEBTINC"].fillna(0)
df.head(10).T

In [None]:
df = pd.get_dummies(df, columns=["REASON","JOB"])
df.shape

In [None]:
df.head().T

In [None]:
# Verificando os tipos
df.info()

### Separar dados em treino e validação
### Instanciar e treinar uma RandomForest


In [None]:
from sklearn.model_selection import train_test_split

# Dividindo em treino e teste
train, test = train_test_split(df, test_size=0.2, random_state=42)

# Dividindo em treino e validação
train, valid = train_test_split(train, test_size=0.2, random_state=42)

train.shape, valid.shape, test.shape

In [None]:
import seaborn as sn
import matplotlib.pyplot as plt

plt.figure(figsize=(18,18))


corrMatrix = df.corr()
sn.heatmap(corrMatrix, annot=True)
plt.show()

In [None]:
# Selecionando as colunas para treinamento
removed = ['BAD']

# Lista das features
feats = [c for c in train.columns if c not in removed]

In [None]:
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(random_state=42)

In [None]:
# Treinar o modelo
rf.fit(train[feats], train['BAD'])

In [None]:
preds_val = rf.predict(valid[feats])


### Avaliação da performance do modelo pela métrica de acurácia (accuracy_score).


In [None]:
# Escolher a métrica para verificar o desempenho do modelo
from sklearn.metrics import accuracy_score

In [None]:
# Medir o desempenho na base de validação (acurácia)
accuracy_score(valid['BAD'], preds_val)

#### Acurácia 
- Mostra entre todas as classifições,quantas o modelo classificou corretamente.
- O modelo teve a perfomace de 89.62%, classificou 89.62% dos dados corretamente


In [None]:
import scikitplot as skplt

In [None]:
skplt.metrics.plot_confusion_matrix(valid['BAD'], preds_val)

### A precisão pode ser usada em uma situação em que os Falsos Positivos são considerados mais prejudiciais que os Falsos Negativos. 
Nesse caso, ao classificar uma pessoa como bom, é necessário que o modelo esteja correto, mesmo que acabe classificando adimplentes como ruim (Falso Negativo) no processo. O modelo precisa ser preciso na suas classificações, pois se o modelo classificar alguém como bom,mas na verdade ele é um mau pagador isso irá gerar perda de dinheiro para o banco.


### O recall pode ser usada em uma situação em que os Falsos Negativos são considerados mais prejudiciais que os Falsos Positivos. 
Por exemplo, o modelo deve de qualquer maneira encontrar todos os que podem ser inadimplentes, mesmo que classifique alguns possíveis adimplentes como possiveis inadimplentes (situação de Falso Positivo) no processo. Ou seja, o modelo deve ter alto recall, pois classificar inadimplentes como adimplentes pode não ser favoravel para o banco.

In [None]:
# Melhorando o desempenho do RF Classifier
rf2 = RandomForestClassifier(random_state=42, n_estimators=200, max_depth=4, min_samples_split=5)

# Treinando o modelo
rf2.fit(train[feats], train['BAD'])

In [None]:
# Verificando a acurácia da nova RF
preds_test2 = rf2.predict(test[feats])

accuracy_score(test['BAD'], preds_test2)

In [None]:
# Plotando a matriz de confusao para os dados de teste da RF2
skplt.metrics.plot_confusion_matrix(test['BAD'], preds_test2)

# Bônus

Após terminar o exercício e verificar que está cumprindo todos os itens a serem avaliados, você pode fazer os itens a seguir para ganhar pontos extra na prova:

**Bônus 1:**
    
Plote uma matriz de confusão nas previsões dos dados de validação.

**Bônus 2:**
    
Explique o que é `precisão` na matriz de confusão acima e dê 1 exemplo onde isso pode ser útil.

**Bônus 3:**
    
Explique o que é `recall` na matriz de confusão acima e dê 1 exemplo onde isso pode ser útil.