#                          Classificação utilizando Decision Trees

**Introdução**
Esse código irá identificar o risco de emprétimos bancários utilizando árvore de decisão com os dados disponíveis no [GitHub Decision Tree](https://raw.githubusercontent.com/PECCE-IFSC/Oficina_2019/master/credit.csv).

O _dataset_ que será analisado contém as seguintes colunas:
* **checking_balance** : Saldo bancário;
* **months_loan_duration**: Em quantos meses o empréstimo será quitado;
* **purpose**: Motivo do empréstimo;
* **amount**: Valor desejado;
* **savings_balance**: Economias;
* **employment_length**: Há quanto tempo a pessoa está trabalhando;
* **installment_rate**: Taxa de parcelamento;
* **personal_status**: Estado Civil;
* **other_debtors**: outros fiadores;
* **residence_history**: Histórico de residências;
* **property**: Propriedades;
* **age**: Idade;
* **installment_plan**: Plano de parcelamento;
* **housing**: Tipo de moradia - aluguel,  casa própria ...
* **existing_credits**: Crédito existente; 
* **default**: Empréstimo pago ou não - 1:pago, 2:não pago;
* **dependents**: Dependentes;
* **telephone**: Telefone;
* **foreign_worker**: Trabalhador estrangeiro
* **job**: Ocupação - empresário, empregado.....

## 1 Coleta dos dados

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [None]:
# importar os dados 
file = pd.read_csv("https://raw.githubusercontent.com/PECCE-IFSC/Oficina_2019/master/credit.csv")
# verificar características de cada coluna. 
file.head()

In [None]:
# verificar as dimensões do Data frame
print(file.shape)

## 2 Analisar a relevância de cada característica

* Utiliza-se a biblioteca `matplotlib` para gerar um [histograma](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.hist.html), para analisar a relação entre as características do conjunto de dados

In [None]:
# É uma palavra chave para que os gráficos sejam mostrados no seu notebook
%matplotlib inline  

# Primeiro determina-se o tamanho desejado da figura que será gerada
plt.figure(figsize=(10,6))
# Análise da coluna 'default' em relação a coluna 'age'
# Para poder analisar melhor os resultados, para cada resposta de 'default', o histograma é gerado com uma cor diferente
file[file['default']==1]['age'].hist(alpha=0.5,color='blue',
                                              bins=30,label='Default = Pagou')
file[file['default']==2]['age'].hist(alpha=0.5,color='red',
                                              bins=30,label='Default = Não Pagou')
plt.legend()
plt.xlabel('Age')

In [None]:
plt.figure(figsize=(10,6))
# Análise da coluna 'default' em relação a coluna 'months_loan_duration'
file[file['default']==1]['months_loan_duration'].hist(alpha=0.5,color='blue',
                                              bins=30,label='Default = Pagou')
file[file['default']==2]['months_loan_duration'].hist(alpha=0.5,color='red',
                                              bins=30,label='Default = Não Pagou')
plt.legend()
plt.xlabel('months_loan_duration')

* Utiliza-se a biblioteca `seaborn`, similar a biblioteca `matplotlib`, para gerar um [gráfico de barra](https://seaborn.pydata.org/generated/seaborn.countplot.html).

In [None]:
plt.figure(figsize=(11,7))
# Análise da coluna 'default' em relação a coluna 'housing'
colors = ["blue", "red"]
sns.countplot(x='housing',hue='default',data=file,palette= sns.xkcd_palette(colors))

### Exercício
* Analise uma característica diferente das citadas anteriormente

## 3 Preparação dos dados

* Utilizou-se a função **LabelEncoder()** para transformar as características com dados nominais em dados numéricos.
* A função **LabelEncoder.fit_transform** ajusta as características e retorna os dados codificados

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in ['checking_balance', 'savings_balance', 
            'employment_length', 'credit_history', 
            'purpose', 'personal_status', 'other_debtors', 
            'property', 'installment_plan', 'housing', 
            'telephone', 'foreign_worker', 'job']:
    file[col] = le.fit_transform(file[col])

### Exercício
* Verifique os tipos de dados de cada coluna após a codificação

In [None]:
# verificar os tipos dos dados 


## 4 Separação dos dados 
* Utilizou-se a função **train_test_split** para separar os dados em teste e treino, 10% (`test_size = 0.1`) e 90%, respectivamente

In [None]:
from sklearn.model_selection import train_test_split
credit_train, credit_test = train_test_split(file, test_size = 0.1, 
                                             random_state = 123)

In [None]:
# Separou-se a coluna 'default' de credit_train, armazenando-a em train_labels
train_labels = credit_train.pop('default')

### Exercício
* Separar a coluna `default` do `credit_test`, armazenando-o em `test_labels`

In [None]:
# Separar a coluna 'default' de credit_test


##  5 Treinar o modelo
### Exercício
* A partir da biblioteca **sklearn.tree** importou-se a classe `DecisionTreeClassifier`
* Crie uma instância da classe com a função  **DecisionTreeClassifier(max_depth=)**, utilize a profundidade (`max_depth`) igual a 4.
* Treine o algorítmo DecisionTreeClassifier, utilizando a função **DecisionTreeClassifier.fit(x_train, y_train)**, passando como paramêtros a variável `credit_train` (x_train) e a variável `train_labels` (y_train)
* Com a função **DecisionTreeClassifier.predict(x_test)**, teste o código usando a variável `credit_test`.

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Crie um instância da classe 

# Treine o algoritmo DecisionTreeClassifier

# Teste o algoritmo


## 6 Avaliando o desempenho do modelo
* A partir da biblioteca **sklearn.metrics** importaram-se as funções `accuracy_score` e `confusion_matrix`
* Calculou-se a exatidão utilizando a função **accuracy_score**

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix

confusion_matrix_ = pd.DataFrame (confusion_matrix(test_labels, y_predict), 
                                  columns =['Previsto como Pagamento Realizado', 'Previsto como Pagamento Não Realizado'], 
                                  index =['Pagamento Realizado', 'Pagamento Não Realizado'])

print(accuracy_score (test_labels, y_predict))
confusion_matrix_

## 7 Exportar a árvore de decisão
* Para visualizar a árvore de decisão é necessário criar um arquivo em formato DOT, utilizando a função **export_graphviz**, e então utilizar o seguinte site: [Graphviz](http://www.webgraphviz.com/) para exibir a árvore com os dados gerados.

In [None]:
from sklearn.tree import export_graphviz
with open("CREDIT_TREE.txt", "w") as f:
    f = export_graphviz(DTC, out_file=f, class_names = ['pagou', 'nao pagou'],
                        filled = True, feature_names = list(credit_test.columns))
    