<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/2s2024/TIC/Aula_07_Floresta_Aleatoria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Floresta aleatória**

Na aula anterior, vimos o método da Árvore de Decisão. Nesse método, percebemos que há uma aleatoriedade nas partições dos nós até convergir para o treinamento final do modelo. Além disso, vimos que uma árvore de decisão é sensível ao *overfitting*. Principalmente se consideramos um grsnde número de partições do espaço de atributos.

Uma forma de contornar essa sensibilidade ao *overfitting* e criar um modelo de classificação mais robusto seria treinar diversas árvores de decisão e verificar qual seria a "classificação média" ou "vencedora" desse conjunto. A Floresta Aleatória é um algoritmo de aprendizado de máquina que usa essa estratégia. Cada árvore é treinada em um subconjunto aleatório dos dados, usando uma estratégia de *bagging*, e o resultado médio das classificações de cada modelo individual leva a um modelo mais robusto e menos sensível ao *overfitting*.

# Exemplos

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_random_forest.png'>

Fonte: [Random Forest and how it works](https://medium.com/@rdhawan201455/random-forest-and-how-it-works-67f408e43a43)

# Etapas

As etapas de uma floresta aleatória que diferem tal método de uma simples árvore de decisão são as seguintes:

- *Bagging* (método de reamostragem): A floresta aleatória é composta por várias árvores de decisão. Para treinar cada árvore de decisão e ajustar um modelo mais robusto, dentre os dados separados para treinamento, selecionamos um subconjunto de dados aleatoriamente (não o total dos dados de treinamento). A estratégia utilizada é com reposição, ou seja, a mesma amostra poderá ser selecionada para compor os dados de treinamento da árvore. Além disso, a mesma amostra pode ser selecionada para treinar diferentes árvores de decisão. No entanto, essa seleção aleatória muito provavelmente vai levar a árvores treinadas com dados diferentes. Além disso, neste procedimento, em muitos nós a partição é realizada a partir de atributos que não são necessariamente os melhores para separar os dados. Isto aumenta a chance de todos os atributos serem utilizados na partição. Consequentemente, aumenta-se a diversidade da floresta aleatória.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_random_forest_bagging.png'>

Fonte: [O que é e como funciona o algoritmo RandomForest - Didática Tech](https://didatica.tech/o-que-e-e-como-funciona-o-algoritmo-randomforest/)


- Aleatoriedade na seleção dos atributos: Outro componente aleatório na floresta aleatória é a determinação, em cada etapa de partição dos dados (nos nós), de quais atributos são considerados para ramificar a árvore. Ou seja, do total de atributos no conjunto de dados, selecionamos aleatoriamente um subconjunto para ser considerado na próxima ramificação da árvore. Esse processo é repetido em cada ramificação. Como resultado, temos árvores bem diferentes, aumentando ainda mais a diversidade da floresta aleatória.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_random_forest_subfeatures.png'>

Fonte: [O que é e como funciona o algoritmo RandomForest - Didática Tech](https://didatica.tech/o-que-e-e-como-funciona-o-algoritmo-randomforest/)

- *Ensemble* na etapa de classificação: Uma vez treinadas as árvores de decisão, para classificar uma nova amostra, coletamos o resutlado de cada árvore. A amostra será classificada de acordo com a classe vencedora. Esse procedimento é conhecido como *ensemble*. Consiste na estratégia de explorar resultados de modelos diferentes de aprendizado de máquina para extrair um resultado mais robusto.

# Vantagens

- Robustez: Ao criar um conjunto de árvores de decisão com componentes aleatórios, o *ensemble* se baseia em máquinas treinadas diversas, o que contribui para a robustez da classificação.

- Redução de *overfitting*: O uso do *ensemble* também reduz a chance de *overfitting*, uma vez que resultados enviesados em uma única árvore de decisão não terá um grande impacto na determinação da classe pela maioria das árvores do modelo. Ou seja, a floresta aleatória é menos sensível à *outliers* no modelo.

- Embora até agora vimos apenas o problema de classificação, uma floresta aleatória também pode ser usada para problemas de regressão.

# Desvantagens

- Custo computacional. Via de regra, quanto maior o número de árvores de decisão, maior a diversidade e, consequentemente, maior a robustez do modelo. No entanto, lembre-se que cada árvore de decisão precisa ser treinada. Sendo assim, quanto maior o número de árvores consideradas, maior o tempo gasto no treinamento da floresta aleatória. Isso traz uma dificuldade no método, que pode demorar levar muito tempo para treinar o modelo.

- Interpretabilidade: Interpretar o resultado de uma classificação se torna mais complicada em um *ensemble* do que em um único modelo. Então, em comparação com uma única árvore de decisão onde conseguimos entender as partições ao longo da árvore, uma floresta aleatória tem essa dificuldade de interpretação. Há muitas árvores (e partições) para serem analisadas ao mesmo tempo.

## Exercício usando o `sklearn`: Banknote Autentication

Agora vamos aplicar a floresta aleatória no mesmo conjunto de dados utilizado na aula sobre árvores de decisão. Esse conjunto de dados, chamado [Banknote Autentication](https://archive.ics.uci.edu/dataset/267/banknote+authentication), descreve 1372 cédulas a partir de quatro características extraídas de cada uma delas: *variance*, *skewness*, *curtosis* e *entropy*. Essas características são extraídas das imagens a partir de uma transformação usada em processamento de sinais (*Wavelet Transform*), a qual permite representar uma imagem a partir de medidades numéricas/estatísticas. Além dessas características, também temos a informação se cada cédula é verdadeira (classe 1) ou falsa (classe 0).

Veja na sequência uma descrição desse conjunto de dados.





In [None]:
# Importando bibliotecas

import pandas                  as pd
#import numpy                   as np
#import matplotlib.pyplot       as plt
#import seaborn                 as sns

#import warnings
#warnings.filterwarnings("ignore")

notes = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_banknotes.csv")
notes.head()

In [None]:
# Explorando os dados (númerro de linhas e colunas)
notes.shape

In [None]:
# Explorando os dados (classes)
notes.authentic.value_counts()

In [None]:
# Explorando os dados (dados faltantes)
notes.isnull().sum()

In [None]:
# Explorando os dados (tipo de dados)
notes.dtypes

### Floresta aleatória: Treinamento e Teste

Lembrando que os conjuntos de Treinamento e Teste são produzidos aleatoriamente. No entanto, ao definir o `seed` (semente de geração aleatória), garantimos a mesma separação para diferentes execuções do comando. Ou seja, nesse caso, garantimos a reprodutibilidade das execuções.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# Preparando os dados
X = notes.drop(columns=['authentic'])
y = notes['authentic']

# Separando os dados de Treinamento e Teste
seed = 1984
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=seed)

# Declarando o Modelo
clf = RandomForestClassifier(random_state=seed)

# Aprendizado
clf.fit(X_train, y_train)                  # Emprega o conjunto de treinamento
y_pred = clf.predict(X_test)


### Avaliando o ajuste

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

In [None]:
# Matriz de confusão
cm = confusion_matrix(y_test, y_pred)
cm

In [None]:
# Acuracia
accuracy = accuracy_score(y_test, y_pred)
accuracy

In [None]:
# classification_report (exibe outras medidas de desempenho de um classificador)
print(classification_report(y_test, y_pred))

### Comparando com uma única árvore de decisão



In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(criterion='entropy',random_state=seed)

# Aprendizado
model.fit(X_train, y_train)                  # Emprega o conjunto de treinamento
y_pred = model.predict(X_test)

# Matriz de confusão
cm = confusion_matrix(y_test, y_pred)
print(cm)

# Acuracia
accuracy = accuracy_score(y_test, y_pred)
print(accuracy)



### Exibindo o conjunto de árvores de decisão

Como a floresta aleatória engloba um conjunto de árvores de decisão, podemos plotar tais árvores para analisar o que foi obtido no treinamento do modelo.

In [None]:
# Tree Visualisation
from sklearn.tree import export_graphviz
#from IPython.display import Image
import graphviz

for i in range(3):
    tree = clf.estimators_[i]
    dot_data = export_graphviz(tree,
                               feature_names=X_train.columns,
                               filled=True,
                               max_depth=2, # Comando que indica o tamanho da árvore que quer plotar (número de partições)
                               impurity=False,
                               proportion=True)
    graph = graphviz.Source(dot_data)
    display(graph)

### Interpretando o modelo

Embora a floresta aleatória é mais complicado de interpretar em comparação com uma árvore de decisão, há um comando no `sklearn` que permite identificar a importância de cada atributo na classificação das amostras com base em um *score* interno ao modelo. Esse *score* é calculado automaticamente na etapa de treinamento.

In [None]:
# Cria um vetor contendo as importâncias atribuídas a cada atributo na base de dados usada no treinamento
feature_importances = pd.Series(clf.feature_importances_, index=X_train.columns).sort_values(ascending=False)

# Plot
feature_importances.plot.bar();

Esse resulado nos diz então que o atributo *variance* é o que mais contribui para distinguir (e classificar) as amostras. Por outro lado, *entropy* não tem um impacto tão grande. Essa análise é interessante em um campo de estudo chamado de *Feature Engineering* (ou, mais precisamente, *Feature Selection*), o qual explora o quanto cada atributo contribui no modelo treinado. Caso haja atributos com pouca contribuição, os mesmos podem ser removidos da base de dados sem muito prejuízo para a máquina treinada.

Lembre-se: quanto menor o número de atributos, mais simples é o modelo e mais fácil ele pode ser interpretado. Além, é claro, de reduzir o tempo computacional.

### Opções código

- **n_estimators**: Número de árvores de decisão que serão consideradas no *ensemble*. Lembre-se que quanto maior esse número, maior (geralmente) o desempenho do modelo e maior é tempo computacional.

- **max_features** {“sqrt”, “log2”, None}: Número de atributos considerados na seleção do subconjunto para particionar cada nó das árvores. Por padrão, considera-se `sqrt`, ou seja, esse número como a raiz quadrada do número total de atributos.

- **min_samples_leaf** (Número Mínimo de Amostras em uma Folha): Se o número de amostras em uma folha para cada árvore de decisão for menor do que o valor definido em **min_samples_leaf**, então a divisão (split) não será realizada e a folha será considerada pura.

- **min_samples_split** (Número Mínimo de Amostras para Divisão):
número mínimo de amostras necessárias para realizar uma divisão em um nó (um ponto onde a árvore se ramifica) em cada árvore de decisão. Se o número de amostras em um nó for menor do que o valor definido em min_samples_split, então a divisão não será realizada, e esse nó se tornará uma folha (caso contrário, a árvore continuará dividindo).

- **max_depth** (Profundidade Máxima da Árvore):
Define o número máximo de níveis ou camadas que cada árvore de decisão pode ter a partir do nó raiz (o topo da árvore).


## Exercício usando o `sklearn`: Heart Disease

Vamos aplicar a árvore de decisão nos dados de predição de doença cardiovascular. Veja, novamente, os dados abaixo.

In [None]:
import pandas as pd
dados = pd.read_csv('https://raw.githubusercontent.com/GuilhermePelegrina/Mackenzie/main/Datasets/data_heart_statlog_cleveland.csv')
dados.head()

Note que, embora todas as informações sejam numéricas, há atributos que são categóricos. E se não tratarmos tais atributos como categóricos, isso traz um problema para o modelo, uma vez que ele vai considerar uma ordem de grandeza entre esses atributos. Não só ordem de grandeza, mas a relação de ordem entre eles. *chest pain type*, por exemplo, possui 4 categorias: `typical` (1), `typical angina` (2), `non-anginal pain` (3) e `asymptomatic` (4). E dizer que uma categoria possui valor 1 e outra valor 3 não tem muito sentido, tanto numéricos quano de ordenamento (um maior que o outro). Veja abaixo uma descrição completa dos dados:

1. Age:Patients Age in years (Numeric)

2. Sex:Gender of patient (Male - 1, Female - 0) (Nominal)

3. Chest Pain Type:Type of chest pain experienced by patient categorized into 1 typical, 2 typical angina, 3 non- anginal pain, 4 asymptomatic (Nominal)

4. resting bp s:Level of blood pressure at resting mode in mm/HG (Numerical)

5. cholestrol:Serum cholestrol in mg/dl (Numeric)

6. fasting blood sugar:Blood sugar levels on fasting > 120 mg/dl represents as 1 in case of true and 0 as false (Nominal)

7. resting ecg:Result of electrocardiogram while at rest are represented in 3 distinct values 0 : Normal 1: Abnormality in ST-T wave 2: Left ventricular hypertrophy (Nominal)

8. max heart rate:Maximum heart rate achieved (Numeric)

9. exercise angina:Angina induced by exercise 0 depicting NO 1 depicting Yes (Nominal)

10. oldpeak:Exercise induced ST-depression in comparison with the state of rest (Numeric)

11. ST slope:ST segment measured in terms of slope during peak exercise 0: Normal 1: Upsloping 2: Flat 3: Downsloping (Nominal) Target variable:

12. target:It is the target variable which we have to predict 1 means patient is suffering from heart risk and 0 means patient is normal.

Então, nesse tipo de cenário é necessário tratar essas informações como categóricas. Uma forma de fazer isso e deixar mais clara as informações contidas nos dados consiste em transformar os valores numéricos nas categorias que os mesmos representam. Veja como fica no código abaixo.

In [None]:
import numpy as np

sex1, sex2 = dados.sex==1, dados.sex==0
dados['sex'] = np.select([sex1, sex2], ['male', 'female'], default=None)

pain1, pain2, pain3, pain4 = dados['chest pain type']==1, dados['chest pain type']==2, dados['chest pain type']==3, dados['chest pain type']==4
dados['chest pain type'] = np.select([pain1, pain2, pain3, pain4], ['typical', 'typical angina', 'non-anginal pain', 'asymptomatic'], default=None)

ecg1, ecg2, ecg3 = dados['resting ecg']==0, dados['resting ecg']==1, dados['resting ecg']==2
dados['resting ecg'] = np.select([ecg1, ecg2, ecg3], ['Normal', 'Abnormality', 'Hypertrophy'], default=None)

exercise1, exercise2 = dados['exercise angina']==1, dados['exercise angina']==0
dados['exercise angina'] = np.select([exercise1, exercise2], ['male', 'female'], default=None)

slope1, slope2, slope3, slope4 = dados['ST slope']==0, dados['ST slope']==1, dados['ST slope']==2, dados['ST slope']==3
dados['ST slope'] = np.select([slope1, slope2, slope3, slope4], ['Normal', 'Upsloping', 'Flat', 'Downsloping'], default=None)

In [None]:
dados.head()

Agora podemos tratar esse dado da maneira correta e aplicar a Árvore de Decisão.

In [None]:
# Preparando os dados
X = dados.drop(columns=['target'])
y = dados['target']

# Lidando com variáveis categóricas
X = pd.get_dummies(X) # Dessa forma, já transformamos as dummies em categóricas no próprio DataFrame

X.head()


In [None]:
# Separando os dados de Treinamento e Teste
seed = 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y, random_state=seed)

# Declarando o Modelo
clf = RandomForestClassifier(random_state=seed, n_estimators=5, max_depth = 3)

# Aprendizado
clf.fit(X_train, y_train)                  # Emprega o conjunto de treinamento
y_pred = clf.predict(X_test)

print(classification_report(y_test, y_pred))

### Otimizando o modelo (*Hyperparameter Tuning*)

Vimos que há diversas customizações no modelo de floresta aleatória (assim como em outros modelos já vistos nesta disciplina). Em aprendizado de máquina, é comum explorar configurações diferentes do modelo para encontrar melhores desempenhos. Essa busca, otimizando os parâmetros do modelo, é chamada de Refinamento dos Hiperparâmetros (ou *Hyperparameter Tuning*). Vamos ver no código abaixo como fazemos isso com a floresta aleatória (para outros métodos, apenas ajuste o modelo e os elementos que serão otimizados).

In [None]:
from scipy.stats import randint # randint(a,b) indica um número aleatório inteiro entre a e b
from sklearn.model_selection import RandomizedSearchCV # Função de tuning

# Cria os possíveis valores (intervalos) que os parâmetros podem assumir
param_dist = {'n_estimators': randint(50,500),
              'max_depth': randint(1,20)}

# Defini o modelo (sem parâmetros à princípio - apenas o random_state, que poderia ser removido)
rf = RandomForestClassifier(random_state = 2)

# Use random search to find the best hyperparameters
rand_search = RandomizedSearchCV(rf,                                # Modelo definido
                                 param_distributions = param_dist,  # Intervalos de busca predefinidos
                                 n_iter=10,                          # Número de iterações (modelos avaliados) que selecionará aleatoriamente valores dentro dos intervalos
                                 cv=5)                              # Número de folds na validação cruzada

# Encontra o melhor modelo dentre os possíveis testados
rand_search.fit(X_train, y_train)

# Salva como um novo objeto o melhor modelo encontrado
best_rf = rand_search.best_estimator_

# Imprime os parâmetros que levaram ao melhor modelo
print('Hiperparâmetros:',  rand_search.best_params_)

In [None]:
# Testando o desempenho

best_rf.fit(X_train, y_train)                  # Emprega o conjunto de treinamento
y_pred = clf.predict(X_test)

print(classification_report(y_test, y_pred))