# IESB
# Pós Graduação em Ciência de Dados
## Disciplina - Data Mining e Machine Learning II
## Prova - 10/09/2018

### Descrição
A base de dados "Home Equity" possui dados pessoas e informações de empréstimo de 5.960 empréstimos recentes. Para cada empréstimo existem 12 variáveis registradas.
A variável alvo (`BAD`) indica quando o cliente não pagou o empréstimo (valor 1), e quando ele honrou o compromisso (valor 0).

### Objetivo
Criar um modelo de ML usando RandomForrest para prever se determinado cliente irá ou não honrar o empréstimo contraído.

O desempenho do modelo deve ser medido pela métrica de acurácia (`accuracy_score`).

In [None]:
# Arquivo de dados
import os
print(os.listdir("../input"))

**Itens avaliados:**

1. Carregamento dos dados
2. Verificação para saber se os dados foram importados corretamente
3. Pré-processamento dos dados (preenchimento de valores em branco, transformação de texto em número)
4. Separar dados em treino e validação
5. Instanciar e treinar uma `RandomForest`
6. Avaliação da performance do modelo pela métrica de acurácia (`accuracy_score`).

# Carregamento dos dados

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('../input/hmeq.csv')

In [None]:
df.head()

In [None]:
df.fillna(df.mean(), inplace=True)

In [None]:
df.info()

In [None]:
for col in df.columns:
    if df[col].dtype == 'object':
        df[col]= df[col].astype('category').cat.codes

In [None]:
df.info()

In [None]:
df.sample(12)

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
train, teste = train_test_split(df, test_size=0.3, random_state=42)

In [None]:
train.shape

In [None]:
teste.shape

In [None]:
train, teste = train_test_split(df, test_size=0.3, random_state=42)

In [None]:
train, valid = train_test_split(train, random_state=42)

In [None]:
train.shape, valid.shape, teste.shape

In [None]:
from sklearn.tree import DecisionTreeRegressor

In [None]:
dt = DecisionTreeRegressor(random_state=42, max_depth=2)

In [None]:
feats = [c for c in df.columns if c not in ['BAD']]

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
clf = RandomForestClassifier(random_state=42)

In [None]:
clf.fit(train[feats], train['BAD'])

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
accuracy_score(valid['BAD'], clf.predict(valid[feats]))

# Bônus

Após terminar o exercício e verificar que está cumprindo todos os itens a serem avaliados, você pode fazer os itens a seguir para ganhar pontos extra na prova:

**Bônus 1:**
    
Compare a performance do seu modelo, com a performance de um modelo que sempre prevê a classe majoritária.

**Bônus 2:**
    
Plote uma matriz de confusão nas previsões dos dados de validação.

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
confusion_matrix(valid['BAD'], clf.predict(valid[feats]))

In [None]:
cm = confusion_matrix(valid['BAD'], clf.predict(valid[feats]))

In [None]:
import itertools
import matplotlib.pyplot as plt
def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

In [None]:
plot_confusion_matrix(cm, ['False', 'True'])

**Bônus 3:**
    
Explique o que é `precisão` na matriz de confusão acima e dê 1 exemplo onde isso pode ser útil.

Precisão é a porcentagem de taxa de acerto, ou seja, quando o resultado é o mesmo definino pelo modelo.
Ou seja, quando o modelo por exemplo na matriz de confusão acima, define como positivo e o resultado é realmente positivo, e vice versa.

**Bônus 4:**
    
Explique o que é `recall` na matriz de confusão acima e dê 1 exemplo onde isso pode ser útil.

**Bônus 5:**
    
Plote o gráfico da curva de `Precisão` e `Recall` e explique o que esse gráfico está mostrando.

In [None]:
from sklearn.metrics import precision_recall_curve

In [None]:
precisions, recalls, thresholds = precision_recall_curve(valid['BAD'], clf.predict_proba(valid[feats]).T[1])

In [None]:
def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
    plt.plot(thresholds, precisions[:-1], "b--", label="Precision")
    plt.plot(thresholds, recalls[:-1], "g-", label="Recall")
    plt.xlabel("Threshold")
    plt.legend(loc="upper left")
    plt.ylim([0, 1])

In [None]:
plot_precision_recall_vs_threshold(precisions, recalls, thresholds)

**Bônus 6**

Plote a `.feature_importances_` da `RandomForest` em forma de gráfico de barras horizontal. Explique o que esse gráfico significa.

In [None]:
pd.Series(clf.feature_importances_, index=feats).sort_values().plot.barh()

**Bônus 7**

A partir do resultado da questão 6 e da descrição dos dados disponível em https://www.kaggle.com/ajay1735/hmeq-data determine uma estratégia para diminuir o número de clientes que não paguem os seus empréstimos.      
        