# Decision Tree
---
**Aula Prática 06**: Decision Tree para classificação


**Objetivo**: Treinar um modelo de classificação utilizando árvores de decisão.

**Banco de Dados**: Breast Cancer Wisconsin Dataset

**Fonte**: Disponível via `sklearn`
**Descrição**: As features são computadas a partir de uma imagem digitalizada de uma aspiração por agulha fina (FNA) de uma massa mamária. Elas descrevem as características dos núcleos celulares presentes na imagem.
Estrutura do Dataset:
1. ID number
2. Diagnóstico: 0 = Maligno, 1 = Benigno
3. Features (3-32): Dez características reais são computadas para cada núcleo celular:
* Raio: Média das distâncias do centro aos pontos no perímetro
* Textura: Desvio padrão dos valores de escala de cinza
* Perímetro
* Área
* Suavidade: Variação local nos comprimentos dos raios
* Compacidade: (Perímetro^2 / Área) - 1.0
* Concavidade: Severidade das porções côncavas do contorno
* Pontos Côncavos: Número de porções côncavas do contorno
* Simetria
* Dimensão Fractal: ("Aproximação da linha costeira" - 1)


## Import das principais funções e leitura dos dados


---



In [None]:
import pandas as pd
import numpy as np
from sklearn import datasets

In [None]:
data = datasets.load_breast_cancer()

In [None]:
df = pd.DataFrame(data.data, columns=data.feature_names)

In [None]:
target = pd.DataFrame(data.target, columns=['Target'])
df = pd.concat([df, target], axis=1)

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.describe().T

## Treino de modelo de decision tree
---

Para treinar um modelo de classificação, utilizaremos o pacote `sklearn`.


### Separação dos Dados em Treino e Teste
O primeiro passo para treinar um modelo é separar os dados em conjuntos de treino e teste. Para isso, utilizaremos a função `train_test_split`:

``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
* X: DataFrame contendo as features do modelo.
* Y: DataFrame contendo a variável target.
* test_size: Percentual de dados que será utilizado para teste (neste caso, 30%).
* random_state: Controla a aleatoriedade da divisão dos dados, garantindo reprodutibilidade.

Separar os dados em treino e teste é crucial para que possamos treinar o modelo com um conjunto de dados e avaliá-lo com outro, garantindo uma avaliação imparcial da performance do modelo.


### Treinamento do Modelo
Agora que já possuímos os dados de treino e teste, vamos treinar o nosso modelo de árvore de decisão:

``` python
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
model.fit(X_train, Y_train)
```

No código acima, o objeto `model` é do tipo `DecisionTreeClassifier`. Ele será utilizado para ajustar o modelo, realizar predições e armazenar a árvore de decisão.

Para fazer predições e acessar a importância das features, utilizamos os seguintes métodos:


``` python
# Para fazer predições de classes
Y_predict = model.predict(X_test)

# Para fazer predições de probabilidade
Y_proba = model.predict_proba(X_test)

# Para acessar a importância das features
importancias = model.feature_importances_

```

### Parâmetros da Decision Tree
Alguns parâmetros importantes da `DecisionTreeClassifier`:

* `criterion`: Critério para quebra de um nó. Default é `gini`, mas também pode ser `entropy` e `log_loss`.
* `max_depth`: Profundidade máxima da árvore. Default é None, o que faz com que as folhas sejam puras (observações menores que `min_samples_split`).
* `min_samples_split`: Mínimo de amostras para separação. Default: 2.
* `min_samples_leaf`: Mínimo de amostras em cada folha. Só será considerada quebra com no mínimo esse tamanho de amostra. Default: 1.
* `random_state`: Semente para aleatoriedade.



### Avaliação do modelo
Para avaliar o modelo treinado, utilizaremos as métricas vistas na aula teórica:

``` python
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve, RocCurveDisplay

# Métricas: acurácia, precisão, recall, f1-score
print(classification_report(Y_test, Y_predict))

# Matriz de confusão
print(confusion_matrix(Y_test, Y_predict))

# AUC
roc_auc = roc_auc_score(Y_test, Y_proba[:, 1])
fpr, tpr, thresholds = roc_curve(Y_test, Y_proba[:, 1])
display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc)
display.plot()
```


Também é possível obter cada uma das métricas individualmente:
``` python
from sklearn.metrics import recall_score, precision_score, f1_score, accuracy_score


recall = recall_score(Y_test, Y_predict, pos_label=1)
precision = precision_score(Y_test, Y_predict, pos_label=1)
f1 = f1_score(Y_test, Y_predict, pos_label=1)
accuracy = accuracy_score(Y_test, Y_predict)
```


### Primeiro modelo

---

Exercício:
1. Separe os dados em treino e teste, utilizando 30% dos dados para o conjunto de teste. Faça a divisão com todas as variáveis.
2. Treine um modelo de árvore de decisão.
3. Faça as análises de apuração do modelo utilizando as métricas de avaliação.

In [None]:
X = pd.DataFrame(data.data, columns=data.feature_names)
Y = data.target

### Exercício:
1. Treine um novo modelo:
* Configure o parâmetro `max_depth` para 4.
2. Encontre o melhor limiar:
* Busque o limiar que proporciona a melhor acurácia.
3. Identifique a feature mais importante:
* Determine qual feature possui a maior importância no modelo.

Dica:
Para realizar a busca do melhor limiar, siga os passos abaixo:
1. Gere o score de probabilidade:
* Utilize o método `predict_proba()` para obter as probabilidades preditas pelo modelo.
* Para acessar `P(Y=1)`, utilize `predict_proba()[:, 1]`.
2. Percorra uma lista de valores de limiar:
* Para cada valor de limiar, calcule a acurácia.
* Obtenha o limiar que resulta na maior acurácia.