# Classificação utilizando Decision Trees

**Introdução**
Esse código irá identificar o risco de emprétimos bancários utilizando árvore de decisão

**1 Exercício: Coleta dos dados**

* Importe os dados do arquivo 'credit.csv'. **fonte**: [GitHub Decision Tree](https://github.com/PECCE-IFSC/DecisionTree_Credit/blob/master/credit.csv).
* Verifique as características de cada coluna.
* Verfifique as dimensões do Data frame.


In [8]:
import pandas as pd
# importar os dados 
file = pd.read_csv("credit.csv")

# verificar características de cada coluna. 
file.columns
# verificar as dimensões do Data frame
print(file.shape)

(1000, 21)


**2 Preparação dos dados**

* Utilizou-se a função **LabelEncoder()** para transformar as características com dados nominais em dados numéricos.
* A função **LabelEncoder.fit_transform** ajusta as características e retorna os dados codificados

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in ['checking_balance', 'savings_balance', 
            'employment_length', 'credit_history', 
            'purpose', 'personal_status', 'other_debtors', 
            'property', 'installment_plan', 'housing', 
            'telephone', 'foreign_worker', 'job']:
    file[col] = le.fit_transform(file[col])

**Exercício**
* Verifique os tipos de dados de cada coluna após a codificação

In [None]:
# verificar os tipos dos dados 
file.head()

**3 Separação dos dados**
* Utilizou-se a função **train_test_split** para separar os dados em teste e treino, 10% (`test_size = 0.1`) e 90%, respectivamente

In [None]:
from sklearn.model_selection import train_test_split
credit_train, credit_test = train_test_split(file, test_size = 0.1, 
                                             random_state = 123)

**Exercício**
* Separar a coluna `default` do `credit_train` e `credit_test`, armazenando-os em `train_labels` e `test_labels`,  respectivamente.

In [None]:
# Separar a coluna 'default' de credit_train
train_labels = credit_train.pop('default')

# Separar a coluna 'default' de credit_test
test_labels = credit_test.pop('default')

**4 Exercício: Treinar o modelo**
* A partir da biblioteca **sklearn.tree** importou-se a classe `DecisionTreeClassifier`
* Crie uma instância da classe com a função  **DecisionTreeClassifier()**, utilize a profundidade (`max_depth`) igual a 4.
* Treine o algorítmo DecisionTreeClassifier, utilizando a função **DecisionTreeClassifier.fit()**
* Com a função **DecisionTreeClassifier.predict()**, teste o código usando o DataFrame `credit_data`.

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Crie um instância da classe
DTC = DecisionTreeClassifier(max_depth = 4)

# Treine o algoritmo DecisionTreeClassifier
DTC = DTC.fit(credit_train, train_labels)

# Teste o algoritmo
y_predict = DTC.predict(credit_test)


**5 Avaliando o desempenho do modelo**
* A partir da biblioteca **sklearn.metrics** importaram-se as funções `accuracy_score` e `confusion_matrix`
* Calculou-se a exatidão utilizando a função **accuracy_score**

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix

confusion_matrix_ = pd.DataFrame (confusion_matrix(test_labels, y_predict), 
                                  columns =['Predicted Positive', 'Predicted Negative'], 
                                  index =['Actual Positive', 'Actual Negative'])

print(accuracy_score (test_labels, y_predict))
confusion_matrix_

**6 Exportar a árvore de decisão**
* Para visualizar a árvore de decisão é necessário criar um arquivo em formato DOT, utilizando a função **export_graphviz**, e então utilizar o seguinte site: [Graphviz](http://www.webgraphviz.com/) para exibir a árvore com os dados gerados.

In [None]:
from sklearn.tree import export_graphviz
with open("CREDIT_TREE.txt", "w") as f:
    f = export_graphviz(DTC, out_file=f)
    