<a href="https://colab.research.google.com/github/LucasPequenoSterzeck/Machine_Learning_LPS/blob/main/Decision_Tree.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Método de aprendizado supervisionado **Arvore de Decisão**

Árvores de decisão (Decision Tree), como o próprio nome sugere, é um dos métodos mais utilizados para a tomada de decisão. Essa abordagem é amplamente utilizada em modelos de machine learning, mas também encontra espaço em outras áreas, como a pesquisa operacional. 

<img src='https://miro.medium.com/max/1400/1*kvRHlVdWHIsXYafrTocD4Q.png' width='1150'>


## Algumas Vantagens das árvores de decisão:

1. É um modelo intuitivo e simples de interpretar. Além disso, as árvores de decisão podem ser visualizadas.
2. Não necessita de grandes pré-processamento de dados, como a normalização ou escalonamento de dados.
3. Utiliza o modelo conhecido como caixa branca. Ou seja, as decisões que o modelo toma podem ser explicadas e interpretadas.

## Desvantagens:

1. Pode criar regras muito complexas, que vão gerar overfitting nos dados.
2. Podem ser instáveis, então pequenas variações podem gerar modelos de árvore completamente diferentes.
3. Para ter predições mais robustas, é aconselhável fazer ensembles.

(Extraído Sigmoidal)

In [5]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Criação do DataFrame
df = pd.read_csv('https://raw.githubusercontent.com/ronaldolagepessoa/machine-learning/master/dados/exemplo3.csv')

# Separação de inputs e output
X = df.drop('risco', axis=1)
y = df.risco

# Binarização dos inputs categóricos
onehot = OneHotEncoder(sparse=False, drop="first")
X_bin = onehot.fit_transform(X.select_dtypes(include=['object']))

# Normalização dos inputs numéricos
mmscaler = MinMaxScaler()
X_num = mmscaler.fit_transform(X.select_dtypes(exclude=['object']))

# Junção dos inputs
X_all = np.append(X_num, X_bin, axis=1)

# Divisão dos conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X_all, y, test_size=1/3, random_state=42)

## Aplicando o classificador Decision Tree

Para aplicar o classifador, faremos a importação da classe DecisionTreeClassifier presente no subpacote sklearn.tree.

**Parâmetros mais importantes:**

> max_depth: profundidade máxima da árvore;

> max_leaf_nodes: número máximo de folhas.

Faremos, inicialmente, a criação de uma DT sem pré configuração de parâmetros. Nesse caso, tanto a profundidade como o número de folhas serão incrementadas até que a entropia das folhas seja igual a zero.

In [9]:
from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)

print(f'Precisão de: {round(accuracy_score(y_test, dt.predict(X_test))*100,1)} %')

Precisão de: 75.5 %


In [10]:
dt.get_depth()

25

In [11]:
dt.get_n_leaves()

315

Após a manutenção temos o novo valor abaixo:

In [14]:
dt2 = DecisionTreeClassifier(max_depth=14, max_leaf_nodes=20)
dt2.fit(X_train, y_train)

print(f'Precisão de: {round(accuracy_score(y_test, dt2.predict(X_test))*100,1)} %')

Precisão de: 84.1 %
