# Decision Tree

 A árvore de decisão é um modelo de aprendizado de máquina, que utiliza os conceitos de árvores, normalmente o conceito de árvoree binária, como no exemplo abaixo.

<center>

![image.png](../figures/decison_tree_ex.png)

</center>

 Além de que ela será do tipo de aprendizado supervisionado, onde iremos passar suas entradas, e principalmente, as suas saídas, para que assim o nosso modelo possa associar cada característica a cada rótulo.

## Instalando o scikit-learn, que utiliza uma versão otimizada do algoritmo CART.

Aqui iremos utilizar como base, o scikit-learn (Machine Learning in Python), uma biblioteca em Python que faz uso de ferramentas e técnicas para o aprendizado de máquina. Basicamente ela usa uma versão otimizada do algoritmo CART (Classification and Regression Trees). Classificação e regressão são de uma forma resumida, os tipos de saídas que seram retornadas.

**Árvores de decisão para classificação:** 
- A saída irá retornar um valor específico ou uma classe, como por exemplo: (Cachorro, 1, Não Spam, Doente).

**Árvores de decisão para regressão:** 
- A saída irá retornar um valor contínuo, como por exemplo: (2.34, 10, 1.9999).

In [3]:
pip install -U scikit-learn


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.1.2 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


## Importando o Pandas e lendo o dataset tratado, transformando-o em um DataFrame

In [4]:
import pandas as pd

df = pd.read_csv('dataset_tratado.csv')


## Armazenando nas variáveis nossas colunas referentes a características e rótulos do nosso DataFrame

In [5]:
X = df.iloc[:, :-1]  # Armazenando todas as colunas de características, exceto a última pois ela é a coluna de rótulo
y = df.iloc[:, -1]   # Armazenado a última coluna, que será o nosso rótulo


## Dividindo os dados em um conjunto de treino, e outro conjunto para teste

Aqui neste momento, utilizamos cerca de 20% dos dados do nosso Dataset apenas para teste, enquanto o restante dos dados serão usados apenas para treinar o modelo.

In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 20% dos dados serão usados para teste, e o restante para treino


## Criando um modelo e treinando-o

In [7]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X_train, y_train)


O nosso modelo será do tipo classifier (classificação), pois diferente do modelo de regressão, aqui nos buscamos um retorno basicamente sendo "sim" ou "não", 1 para positivo e 0 para negativo, referente a situação do paciente em ter uma futura insuficiência cardíaca crónica.

## Aplicando as métricas no modelo

In [8]:
from sklearn.metrics import classification_report
# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular e imprimir as métricas

print(classification_report(y_test, y_pred, zero_division=0))

              precision    recall  f1-score   support

           0       0.83      0.83      0.83       260
           1       0.45      0.44      0.44        80

    accuracy                           0.74       340
   macro avg       0.64      0.64      0.64       340
weighted avg       0.74      0.74      0.74       340

