# **Otimiza√ß√£o e Florestas Aleat√≥rias**

## **Bibliotecas**

In [None]:
import os  # M√≥dulo para interagir com o sistema operacional (manipular diret√≥rios, arquivos, etc.)

import numpy as np  # Biblioteca fundamental para computa√ß√£o num√©rica com arrays e fun√ß√µes matem√°ticas

import matplotlib.pyplot as plt  # Biblioteca para cria√ß√£o de gr√°ficos e visualiza√ß√µes

import pandas as pd  # Biblioteca para manipula√ß√£o e an√°lise de dados tabulares (DataFrames)

import seaborn as sns  # Biblioteca para visualiza√ß√£o de dados baseada no matplotlib, com temas e paletas de cores aprimoradas

from IPython.display import display, Markdown  # Para exibir objetos em Jupyter Notebooks de forma interativa

from sklearn.datasets import load_iris  # Fun√ß√£o para carregar o dataset Iris, cl√°ssico para classifica√ß√£o

from sklearn.model_selection import train_test_split, cross_validate  # Para dividir o dataset em treino e teste e realizar valida√ß√£o cruzada

from sklearn.tree import DecisionTreeClassifier  # Modelo de √Årvore de Decis√£o para tarefas de classifica√ß√£o

from sklearn.tree import DecisionTreeRegressor  # Modelo de √Årvore de Decis√£o para tarefas de regress√£o

from sklearn import datasets  # Subm√≥dulo para carregar diversos datasets de exemplo do scikit-learn

from sklearn.metrics import accuracy_score, mean_squared_error, confusion_matrix  # M√©tricas para avaliar desempenho de modelos de classifica√ß√£o e regress√£o


## **Otimiza√ß√£o de Hiperpar√¢metros**

### **Grid Search**

Depois de selecionar uma **lista de modelos promissores** de **√Årvore de Decis√£o**, o pr√≥ximo passo √© realizar o **ajuste fino** (**fine-tuning**) para otimizar o desempenho.

#### üîπ Ajuste Manual

Uma op√ß√£o seria ajustar os **hiperpar√¢metros** manualmente, testando v√°rias combina√ß√µes at√© encontrar a melhor.  

‚û°Ô∏è No entanto, isso seria um **processo muito demorado** e **pouco eficiente**, j√° que h√° muitas combina√ß√µes poss√≠veis para experimentar.


#### üîπ Grid Search com Scikit-Learn

Em vez disso, podemos usar a classe `GridSearchCV` do **Scikit-Learn**.  

‚úÖ Ela automatiza a busca pelas melhores combina√ß√µes de **hiperpar√¢metros**:  
- Voc√™ informa **quais hiperpar√¢metros** deseja ajustar.  
- Define **quais valores** quer testar para cada um.  

‚û°Ô∏è O `GridSearchCV` ent√£o realiza a **valida√ß√£o cruzada** para avaliar **todas as combina√ß√µes poss√≠veis** e identificar aquela que resulta no **melhor desempenho**.


In [None]:
# ‚úÖ Carregar e preparar o dataset Iris
iris = load_iris()  # Carrega o famoso conjunto de dados Iris diretamente do scikit-learn

# Selecionamos apenas duas das quatro features dispon√≠veis para simplificar a an√°lise e visualiza√ß√£o
X = iris.data[:, [0, 1]]  # Usamos apenas as features nas posi√ß√µes 0 e 1 (comprimento e largura da s√©pala)

# Guardamos os nomes das features escolhidas para refer√™ncia
feature_names = [iris.feature_names[0], iris.feature_names[1]]

# O alvo original possui tr√™s classes: Setosa (0), Versicolor (1) e Virginica (2)
y = iris.target  # Vetor com as classes originais

# ‚úÖ Dividir o dataset em treino (90%) e teste (10%) com estratifica√ß√£o
# Aqui usamos train_test_split para dividir os dados em:
# - Conjunto de treino: 90% dos dados
# - Conjunto de teste: 10% dos dados
# O par√¢metro stratify=y √© essencial pois garante que a propor√ß√£o entre as tr√™s classes
# ser√° a mesma tanto no conjunto de treino quanto no de teste.
# Isso evita problemas como desbalanceamento ap√≥s a divis√£o.
X_train, X_test, y_train, y_test = train_test_split(
    X, y,                  # Features e alvo original (multiclasse)
    test_size=0.1,        # 10% dos dados para teste
    random_state=42,      # Semente para garantir reprodutibilidade
    stratify=y            # Mant√©m a propor√ß√£o de cada classe na divis√£o
)


In [None]:
from sklearn.model_selection import GridSearchCV

# Definindo o modelo
modelo = DecisionTreeClassifier(random_state=42)

In [None]:
# Definindo o grid de hiperpar√¢metros para ajuste fino da √Årvore de Decis√£o

hiperparam_grid = [
    # 'criterion' define a fun√ß√£o usada para medir a qualidade de uma divis√£o:
    # - 'gini': √≠ndice de Gini, padr√£o, mede impureza.
    # - 'entropy': usa a entropia da informa√ß√£o (teoria da informa√ß√£o).
    {'criterion': ['gini', 'entropy'],

    # 'max_depth' limita a profundidade m√°xima da √°rvore.
    # - Evita √°rvores muito profundas, que podem levar a overfitting.
    # - None: permite que a √°rvore cres√ßa at√© esgotar as divis√µes poss√≠veis.
    'max_depth': [3, 5, 10, None]},

    # 'min_samples_split' √© o n√∫mero m√≠nimo de amostras necess√°rias para dividir um n√≥ interno.
    # - Valores maiores evitam divis√µes baseadas em poucas amostras, reduzindo overfitting.
    {'min_samples_split': [2, 5, 10],

    # 'min_samples_leaf' √© o n√∫mero m√≠nimo de amostras que um n√≥ folha deve conter.
    # - Garante que folhas n√£o sejam criadas com poucos exemplos.
    # - Valores maiores tornam a √°rvore mais "generalista".
    'min_samples_leaf': [1, 2, 4]}
]

In [None]:
# Configurando o GridSearchCV para encontrar a melhor combina√ß√£o de hiperpar√¢metros

# - modelo: inst√¢ncia do classificador (ex.: DecisionTreeClassifier) que ser√° ajustada.
# - param_grid: dicion√°rio com os hiperpar√¢metros e os valores previamente definidos para teste.
# - cv=5: valida√ß√£o cruzada com 5 subdivis√µes (folds).
#   ‚Üí Cada combina√ß√£o de hiperpar√¢metros ser√° avaliada 5 vezes, com diferentes divis√µes dos dados.
# - scoring='accuracy': a m√©trica usada para avaliar a performance ser√° a acur√°cia.
# - return_train_score=True: salva tamb√©m as pontua√ß√µes obtidas nos dados de treinamento, al√©m das de valida√ß√£o.

grid_search = GridSearchCV(
    estimator=modelo,             # Modelo base a ser ajustado com diferentes hiperpar√¢metros
    param_grid=hiperparam_grid,   # Grid contendo os hiperpar√¢metros e valores que ser√£o testados
    cv=5,                         # Valida√ß√£o cruzada com 5 folds
    scoring='accuracy',           # Crit√©rio de avalia√ß√£o: acur√°cia
    return_train_score=True       # Armazena tamb√©m os scores obtidos no conjunto de treino
)


#### üéØ Explica√ß√£o conceitual da estrutura `param_grid` com m√∫ltiplos dicion√°rios:

O `param_grid` √© uma **lista de dicion√°rios**, onde cada dicion√°rio representa um **subconjunto de combina√ß√µes de hiperpar√¢metros** que ser√£o testadas separadamente.

##### Como funciona a busca:

O Scikit-Learn ir√° **primeiro explorar todas as combina√ß√µes poss√≠veis** de hiperpar√¢metros dentro do **primeiro dicion√°rio**:

- `'criterion'`: 2 valores (`'gini'` ou `'entropy'`).
- `'max_depth'`: 4 valores (`3`, `5`, `10`, ou `None`).

**Total de combina√ß√µes no primeiro dicion√°rio:**

2 √ó 4 = **8 combina√ß√µes**

Depois, o Scikit-Learn explorar√° todas as combina√ß√µes no **segundo dicion√°rio**:

- `'min_samples_split'`: 3 valores (`2`, `5`, `10`).
- `'min_samples_leaf'`: 3 valores (`1`, `2`, `4`).

**Total de combina√ß√µes no segundo dicion√°rio:**

3 √ó 3 = **9 combina√ß√µes**

‚úÖ **Logo, o `GridSearchCV` ir√° testar no total:**

8 + 9 = **17 combina√ß√µes de hiperpar√¢metros**


#### üéØ Explica√ß√£o detalhada da configura√ß√£o do ``GridSearchCV()``:

- **`estimator`**: √© o modelo de base que ser√° ajustado com diferentes combina√ß√µes de hiperpar√¢metros ‚Äî neste caso, uma **√Årvore de Decis√£o**.
  
- **`param_grid`**: define as combina√ß√µes de hiperpar√¢metros que ser√£o testadas.
  
  ‚û°Ô∏è O Scikit-Learn ir√° explorar **todas as combina√ß√µes poss√≠veis dentro de cada dicion√°rio** do `param_grid`, mas **n√£o mistura os dicion√°rios entre si**.

- **`cv=5`**: significa que ser√° utilizada a **valida√ß√£o cruzada com 5 folds**.
  
  ‚û°Ô∏è Para cada combina√ß√£o de hiperpar√¢metros, o modelo ser√° treinado e avaliado **5 vezes**, cada vez com uma divis√£o diferente dos dados.

- **`scoring='accuracy'`**: define que a **m√©trica de avalia√ß√£o ser√° a acur√°cia**, ou seja, a **propor√ß√£o de previs√µes corretas feitas pelo modelo**.


##### Quantos modelos o `GridSearchCV` vai treinar?

Como explicado acima:

‚û°Ô∏è **17 combina√ß√µes no total** (8 do primeiro dicion√°rio + 9 do segundo).

‚û°Ô∏è **Cada combina√ß√£o ser√° avaliada com 5 folds**.

**Logo:**

17 √ó 5 = **85 rodadas de treinamento**

##### Dica sobre ajuste de hiperpar√¢metros:

Quando **n√£o se tem ideia** de qual valor escolher para um hiperpar√¢metro, uma abordagem comum √© testar valores em **escala logar√≠tmica**, como pot√™ncias de 10 (por exemplo: `0.01`, `0.1`, `1`, `10`, `100`).

‚û°Ô∏è Para buscas mais refinadas, pode-se usar **intervalos menores**.

‚û°Ô∏è O importante √© **explorar um espa√ßo representativo de possibilidades**.


##### Como funciona a busca com m√∫ltiplos dicion√°rios no `param_grid`:

O `GridSearchCV` **n√£o combina par√¢metros de dicion√°rios diferentes**.

1. Ele primeiro avalia **todas as combina√ß√µes do primeiro dicion√°rio**.
2. Depois, avalia **todas as combina√ß√µes do segundo dicion√°rio**.

---

***Exemplo:***

- No primeiro dicion√°rio temos **3 valores de A** e **4 de B** ‚Üí ent√£o s√£o 3√ó4 = **12 combina√ß√µes**.
- No segundo dicion√°rio, temos **2 valores de C** e **3 de D** ‚Üí ent√£o s√£o 2√ó3 = **6 combina√ß√µes**.

**Total de combina√ß√µes a testar:**

12 + 6 = **18**.

**Cada combina√ß√£o ser√° avaliada com `cv` subdivis√µes**, por exemplo:

18 √ó 5 = **90 treinos**.

---

#### Resumo pr√°tico:

- `param_grid` aceita uma **lista de dicion√°rios**.
- O Scikit-Learn ir√° fazer a busca **separada por cada dicion√°rio**.
- O **n√∫mero total de combina√ß√µes** √© a **soma das combina√ß√µes de cada dicion√°rio**.
- O **n√∫mero total de treinamentos** √©:



>Agora vamos para a aplica√ß√£o do `fit()` do `GridSearchCV` no dataset Iris
>
>Ap√≥s configurar o `GridSearchCV`, o pr√≥ximo passo √© **ajust√°-lo aos dados de treinamento** usando o m√©todo `fit()`.

In [None]:
grid_search.fit(X_train, y_train)

>Podemos visualizar os hiperpar√¢metros que geraram o melhor modelo (estimador):

In [None]:
grid_search.best_params_

>Podemos visualizar tamb√©m o melhor modelo (estimador) diretamente:

In [None]:
grid_search.best_estimator_

>E tamb√©m o score alcan√ßado por esse melhor modelo:

In [None]:
grid_search.best_score_

>##### **Explorando Cada Combina√ß√£o Testada: Resultados Detalhados da Valida√ß√£o Cruzada**
>
>Quando realizamos uma busca por hiperpar√¢metros com `GridSearchCV`, o objetivo n√£o √© encontrar a melhor acur√°cia de um √∫nico teste, mas sim uma **acur√°cia m√©dia validada** que seja robusta. Para cada combina√ß√£o de hiperpar√¢metros avaliada, o algoritmo executa uma **valida√ß√£o cruzada completa**. Isso significa que, se definimos `cv=5`, o modelo √© treinado e avaliado cinco vezes com essa mesma configura√ß√£o de par√¢metros, gerando cinco pontua√ß√µes de acur√°cia individuais.
>
>A **m√©dia dessas cinco acur√°cias** √© o que chamamos de `mean_test_score`. √â essa m√©dia ‚Äî um indicador mais confi√°vel da capacidade de generaliza√ß√£o daquela combina√ß√£o de hiperpar√¢metros ‚Äî que o processo de busca utiliza para comparar e identificar as melhores configura√ß√µes.
>
>Abaixo, voc√™ encontrar√° os **scores m√©dios de teste** para cada uma das configura√ß√µes avaliadas, demonstrando o desempenho consistente de cada conjunto de par√¢metros.

In [None]:
cvres = grid_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(mean_score, params)

### **Busca Aleat√≥ria (Randomized Search)**

A abordagem de busca em grade (*Grid Search*) funciona bem quando voc√™ est√° explorando relativamente poucas combina√ß√µes de hiperpar√¢metros, como no exemplo que usamos. Por√©m, quando o espa√ßo de busca dos hiperpar√¢metros √© muito grande, geralmente √© prefer√≠vel usar o `RandomizedSearchCV`.

Essa classe pode ser usada de forma bem semelhante ao `GridSearchCV`, mas, ao inv√©s de testar todas as combina√ß√µes poss√≠veis, ela avalia um n√∫mero fixo de combina√ß√µes aleat√≥rias. Ou seja, em cada itera√ß√£o, o `RandomizedSearchCV` seleciona um valor aleat√≥rio para cada hiperpar√¢metro.

Essa abordagem traz dois benef√≠cios principais:

1. Se voc√™ permitir que a busca aleat√≥ria rode, por exemplo, 1.000 itera√ß√µes, ela explorar√° 1.000 combina√ß√µes diferentes de hiperpar√¢metros. Isso √© muito mais abrangente do que o `GridSearchCV`, que testa um n√∫mero fixo e menor de combina√ß√µes.

2. Definindo o n√∫mero de itera√ß√µes, voc√™ tem mais controle sobre o or√ßamento computacional que deseja dedicar √† busca pelos melhores hiperpar√¢metros.

No nosso caso, com o modelo de √Årvore de Decis√£o e os hiperpar√¢metros que definimos, usar o `RandomizedSearchCV` pode ser interessante caso queira testar muitas combina√ß√µes diferentes sem gastar tanto tempo quanto o `GridSearchCV` exigiria.

#### Como funciona o RandomizedSearchCV:

- Ele testa um n√∫mero fixo (`n_iter`) de combina√ß√µes aleat√≥rias de hiperpar√¢metros em vez de todas as poss√≠veis, como no `GridSearchCV`.
- Para isso, voc√™ deve informar um dicion√°rio (`param_distributions`) com os hiperpar√¢metros que quer testar, podendo ser listas de valores ou distribui√ß√µes estat√≠sticas para amostragem.
- O n√∫mero de itera√ß√µes (`n_iter`) controla quantas combina√ß√µes aleat√≥rias ser√£o avaliadas.
- A busca √© feita via valida√ß√£o cruzada para garantir uma boa generaliza√ß√£o.
- O melhor modelo, segundo a m√©trica escolhida, pode ser re-treinado com todos os dados para uso posterior.

---

#### Par√¢metros principais para usar no nosso caso:

- `estimador`: o seu modelo de √Årvore de Decis√£o (`DecisionTreeClassifier` ou `DecisionTreeRegressor`).
- `param_distributions`: um dicion√°rio com os hiperpar√¢metros, por exemplo:

```python
param_distributions = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}
```

Vamos l√°!!!

>Vamos importar e criar o modelo:

In [None]:
from sklearn.model_selection import RandomizedSearchCV

# Seu modelo base
dt = DecisionTreeClassifier(random_state=42)

>Vamos definir os ***HIPERPAR√ÇMETROS:***

In [None]:
# Dicion√°rio dos hiperpar√¢metros para busca aleat√≥ria
hiperparam_distributions = {
    # 'criterion': define o crit√©rio para medir a qualidade da divis√£o nos n√≥s da √°rvore.
    # Pode ser 'gini' (√≠ndice de Gini) ou 'entropy' (entropia da informa√ß√£o).
    'criterion': ['gini', 'entropy'],

    # 'max_depth': limita a profundidade m√°xima da √°rvore.
    # Valores menores ajudam a evitar overfitting, None permite crescimento ilimitado.
    'max_depth': [3, 5, 10, None],

    # 'min_samples_split': n√∫mero m√≠nimo de amostras necess√°rias para dividir um n√≥ interno.
    # Valores maiores impedem divis√µes baseadas em poucas amostras, reduzindo overfitting.
    'min_samples_split': range(1, 21),

    # 'min_samples_leaf': n√∫mero m√≠nimo de amostras que um n√≥ folha deve conter.
    # Evita criar folhas com poucas amostras, o que torna a √°rvore mais robusta.
    'min_samples_leaf': [1, 2, 4]
}

>Vamos configurar o **Random Search:**

In [None]:
random_search = RandomizedSearchCV(
    estimator=dt,                # O modelo estimador a ser ajustado, aqui uma √Årvore de Decis√£o (dt)
    param_distributions=hiperparam_distributions,  # Dicion√°rio com as distribui√ß√µes dos hiperpar√¢metros para amostragem aleat√≥ria
    n_iter=20,                 # N√∫mero de combina√ß√µes aleat√≥rias a serem testadas (itera√ß√µes)
    scoring='accuracy',         # M√©trica usada para avaliar o desempenho dos modelos durante a valida√ß√£o cruzada
    cv=5,                      # N√∫mero de folds para valida√ß√£o cruzada (5-fold cross-validation)
    random_state=42,            # Semente para garantir a reprodutibilidade da amostragem aleat√≥ria
    
    n_jobs=-1,                  # Utiliza todos os processadores dispon√≠veis para paralelizar o processo
                               # Isso significa que o RandomizedSearchCV executar√° m√∫ltiplas avalia√ß√µes
                               # em paralelo, aproveitando todos os n√∫cleos do computador, 
                               # acelerando significativamente o tempo de execu√ß√£o, principalmente 
                               # em m√°quinas com m√∫ltiplos n√∫cleos ou processadores.

    verbose=1                   # Define o n√≠vel de verbosidade da sa√≠da durante a execu√ß√£o
                               # verbose=1 mostra informa√ß√µes b√°sicas sobre o progresso da busca,
                               # como quais combina√ß√µes est√£o sendo testadas e quantas ainda faltam.
                               # Pode ser aumentado para n√≠veis maiores para mais detalhes ou diminu√≠do para
                               # menos mensagens.
)


#### üéØ Explica√ß√£o da quantidade de treinamentos no RandomizedSearchCV

No caso do **RandomizedSearchCV**, a l√≥gica da quantidade de treinamentos √© um pouco diferente do **GridSearchCV**, pois o Randomized Search **n√£o testa todas as combina√ß√µes poss√≠veis**, mas sim um n√∫mero fixo de amostras aleat√≥rias dentro do espa√ßo de hiperpar√¢metros definido.

##### Como funciona a busca no RandomizedSearchCV:

- Voc√™ define um **dicion√°rio ou lista de distribui√ß√µes/lists de hiperpar√¢metros** para o modelo.

- Em vez de testar todas as combina√ß√µes poss√≠veis, o `RandomizedSearchCV` **sorteia aleatoriamente** um n√∫mero fixo (`n_iter`) de combina√ß√µes para testar.

- Cada uma dessas combina√ß√µes √© avaliada usando valida√ß√£o cruzada.

##### Quantidade total de treinamentos:

- `n_iter`: n√∫mero total de **combina√ß√µes aleat√≥rias** de hiperpar√¢metros que ser√£o testadas.

- `cv`: n√∫mero de folds da valida√ß√£o cruzada (quantas vezes cada combina√ß√£o ser√° avaliada).

**F√≥rmula para o total de treinamentos:**
$$
\text{Total de treinamentos}= n_{iter} \text{√ó cv}
$$

>Agora vamos treinar o modelo atrav√©s do Random Search:

In [None]:
# Ajustando o modelo
random_search.fit(X_train, y_train)

Podemos identificar o melhor modelo:

In [None]:
# Melhor combina√ß√£o encontrada
display(Markdown(f"""
- A melhor combina√ß√£o de hiperpar√¢metros encontrada, com maior acur√°cia, foi: 
```json
{random_search.best_params_}
```

- Com acur√°cia igual a: {random_search.best_score_:.2f}
"""))

>Se quisermos, podemos visualizar todas combina√ß√µes com seus respctivos scores:

In [None]:
cvres = random_search.cv_results_

# Itera sobre os resultados e exibe cada combina√ß√£o como Markdown
for i, (mean_score, params) in enumerate(zip(cvres["mean_test_score"], cvres["params"])):
    
    display(Markdown(f"""
### üìä Combina√ß√£o {i + 1}

- Acur√°cia M√©dia: `{mean_score:.4f}`

- Par√¢metros:
```json
{params}
```
"""))

### **Testando e Salvando o Melhor Modelo Ajustado**

In [None]:
# Acessa o melhor modelo treinado
melhor_modelo = random_search.best_estimator_

# Faz previs√µes na amostra de teste
y_pred = melhor_modelo.predict(X_test)

Vamos importar uma fun√ß√£o que gera um relat√≥rio com m√©tricas de avalia√ß√£o de modelos de classifica√ß√£o. Ele √© amplamente usado para analisar o desempenho de classificadores em tarefas supervisionadas, seu nome √© ``classification_report()``:

In [None]:
from sklearn.metrics import classification_report

**Relat√≥rio de Classifica√ß√£o: `classification_report()`**

Fun√ß√£o do scikit-learn para avaliar m√©tricas de classifica√ß√£o em problemas de aprendizado supervisionado.

**Par√¢metros Principais:**

| Par√¢metro | Tipo | Descri√ß√£o |
|-----------|------|-----------|
| `y_true` | array-like | Valores reais (ground truth) - Representa o eixo vertical na matriz de confus√£o |
| `y_pred` | array-like | Valores preditos pelo modelo - Representa o eixo horizontal na matriz de confus√£o |
| `labels` | array | (Opcional) Lista de classes a serem inclu√≠das no relat√≥rio |
| `target_names` | array | (Opcional) Nomes amig√°veis para as classes (na mesma ordem dos labels) |
| `sample_weight` | array | (Opcional) Pesos para cada amostra |
| `digits` | int | (Padr√£o=2) N√∫mero de casas decimais para formata√ß√£o |
| `output_dict` | bool | (Padr√£o=False) Se True, retorna como dicion√°rio |
| `zero_division` | str/float | (Padr√£o='warn') Como lidar com divis√£o por zero |

**M√©tricas Reportadas:**

O relat√≥rio apresenta 4 m√©tricas fundamentais para cada classe:

1. **Precision (Precis√£o)**
   - F√≥rmula: $\dfrac{TP}{TP + FP}$
   - Interpreta√ß√£o: Capacidade do modelo de n√£o classificar inst√¢ncias negativas como positivas

2. **Recall (Revoca√ß√£o/Sensibilidade)**
   - F√≥rmula: $\dfrac{TP}{TP + FN}$
   - Interpreta√ß√£o: Capacidade do modelo de encontrar todas as inst√¢ncias positivas

3. **F1-Score**
   - F√≥rmula: $2 \times \dfrac{precision \times recall}{precision + recall}$
   - Interpreta√ß√£o: M√©dia harm√¥nica entre precision e recall

4. **Support**
   - Interpreta√ß√£o: N√∫mero de ocorr√™ncias reais da classe no conjunto de dados

**Dicas de Interpreta√ß√£o**

1. **Macro avg**: M√©dia aritm√©tica simples das m√©tricas por classe (todas classes tem igual peso)
2. **Weighted avg**: M√©dia ponderada pelo support (n√∫mero de exemplos) de cada classe
3. **Accuracy**:
    - Acur√°cia geral do modelo:
$$
\dfrac{TP + TN}{TOTAL}
$$

4. Para problemas desbalanceados, prefira observar o weighted avg ou m√©tricas por classe
5. Quando `output_dict=True`, o retorno pode ser convertido diretamente para pandas DataFrame:

#### **Teste**

In [None]:
# C√°lculo das m√©tricas
acc = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred, output_dict=False)
conf_matrix = confusion_matrix(y_test, y_pred)

In [None]:
# C√°lculo das m√©tricas
acc = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred, output_dict=False)
conf_matrix = confusion_matrix(y_test, y_pred)

In [None]:
# Formata√ß√£o e exibi√ß√£o com Markdown
display(Markdown(f"""
### ‚úÖ Resultados do Modelo na Amostra de Teste

#### **Acur√°cia**: `{acc:.4f}`

---

#### üìù Relat√≥rio de Classifica√ß√£o

```json
{report}
```
---

#### üìä Matriz de Confus√£o

```json
{conf_matrix}
```

"""))

#### **Salvando e Carregando Modelos com ``joblib``**

O ``joblib`` √© uma das escolhas da comunidade de Machine Learning para **persistir** modelos treinados, especialmente aqueles do scikit-learn. **Persistir** um modelo significa salv√°-lo em um arquivo para que voc√™ possa reutiliz√°-lo mais tarde, sem ter que trein√°-lo novamente. Isso √© crucial em ambientes de produ√ß√£o, onde o tempo de treinamento pode ser longo.

In [None]:
import joblib

In [None]:
# Salvar o modelo
joblib.dump(melhor_modelo, 'melhor_modelo.pkl')

# Depois, para carregar:
# melhor_modelo = joblib.load('melhor_modelo.pkl')

## **Florestas Aleat√≥rias**

### **Ensemble Learning (Aprendizado por Assembleia/Agrupamento)**

Suponha que voc√™ fa√ßa uma pergunta complexa para milhares de pessoas aleat√≥rias e, em seguida, agregue as respostas delas. Em muitos casos, essa resposta agregada ser√° melhor do que a resposta de um especialista. Isso √© conhecido como **sabedoria da multid√£o**.

Da mesma forma, quando voc√™ agrega as previs√µes de v√°rios modelos preditores (como classificadores ou regressores), frequentemente obt√©m previs√µes melhores do que se usasse apenas o melhor modelo individualmente. Um grupo de preditores √© chamado de **ensemble**; por isso, essa t√©cnica √© conhecida como **Aprendizado em Conjunto** (*Ensemble Learning*), e um algoritmo que implementa essa t√©cnica √© chamado de **m√©todo de Ensemble**.

Por exemplo, √© poss√≠vel treinar v√°rios classificadores de **√Årvores de Decis√£o**, cada um utilizando um subconjunto aleat√≥rio diferente do conjunto de treinamento. Para fazer previs√µes, voc√™ coleta as previs√µes de todas as √°rvores individuais e ent√£o escolhe a classe que recebeu mais votos. Esse conjunto de √Årvores de Decis√£o √© chamado de **Floresta Aleat√≥ria** (*Random Forest*), e apesar de sua simplicidade, √© um dos algoritmos de **Machine Learning** mais poderosos atualmente.


### **Classificadores por Vota√ß√£o: o gancho para Bagging**

![image-2.png](attachment:image-2.png)

Imagine que voc√™ treinou diversos classificadores, cada um com cerca de **80% de acur√°cia** ‚Äî por exemplo, uma Regress√£o Log√≠stica, uma SVM, uma Floresta Aleat√≥ria e um K-Nearest Neighbors. 

Uma maneira simples de criar um classificador ainda melhor √© **agregar as previs√µes** de cada modelo e escolher a classe que receber a **maioria dos votos**. Esse modelo √© chamado de **classificador por vota√ß√£o r√≠gida** (*hard voting classifier*).

Surpreendentemente, essa abordagem pode alcan√ßar uma **acur√°cia superior** √† de qualquer classificador individual. Mesmo que cada modelo seja apenas **um pouco melhor que o acaso**, quando combinados e desde que sejam **suficientemente diversos**, o ensemble pode se tornar um **forte preditor**.

Essa ideia se apoia na **Lei dos Grandes N√∫meros**, um princ√≠pio fundamental da Estat√≠stica. Ele afirma que, √† medida que realizamos um n√∫mero cada vez maior de experimentos independentes, a m√©dia dos resultados tende a se aproximar da probabilidade real.

![image.png](attachment:image.png)

No contexto de ensembles, pense em cada classificador como uma **moeda levemente viciada**, com uma chance um pouco maior que 51% de acertar. Isoladamente, eles s√£o apenas **aprendizes fracos** ‚Äî fazem previs√µes um pouco melhores que o puro acaso. Mas, quando combinamos muitas dessas previs√µes atrav√©s do **voto da maioria**, conseguimos um **resultado global muito mais confi√°vel**.

Por exemplo, se tivermos 1.000 classificadores, cada um acertando apenas **51% das vezes**, ao combinar suas previs√µes pela maioria de votos, podemos atingir uma **acur√°cia superior a 75%**. Esse ganho ocorre porque os erros de cada classificador tendem a se **compensar** mutuamente, desde que sejam suficientemente **independentes**.

Assim como em repetidos lan√ßamentos de uma moeda viciada, onde a propor√ß√£o de caras se aproxima da probabilidade real conforme o n√∫mero de lan√ßamentos cresce, o mesmo acontece com classificadores: **quanto mais previsores, maior a estabilidade e a precis√£o do ensemble**.

In [None]:
from sklearn.datasets import make_moons # Importa a fun√ß√£o make_moons do m√≥dulo datasets da biblioteca scikit-learn
                                       # Essa fun√ß√£o √© usada para gerar um dataset sint√©tico (artificial)
                                       # que se assemelha a duas "luas" interligadas ou meias-luas.
                                       # √â um dataset muito popular para testar algoritmos de classifica√ß√£o
                                       # n√£o-lineares, pois as classes n√£o s√£o linearmente separ√°veis.

X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [None]:
from sklearn.linear_model import LogisticRegression # Importa o classificador de Regress√£o Log√≠stica
from sklearn.ensemble import RandomForestClassifier # Importa o classificador RandomForest (Floresta Aleat√≥ria)
from sklearn.svm import SVC                         # Importa o classificador Support Vector Machine (M√°quina de Vetor de Suporte)

from sklearn.ensemble import VotingClassifier # Importa o classificador de Vota√ß√£o (VotingClassifier)

In [None]:
# Inicializa um classificador de Regress√£o Log√≠stica.
# LogisticRegression √© um modelo linear simples, mas eficaz, para problemas de classifica√ß√£o.
# solver="lbfgs": Define o algoritmo a ser usado para otimiza√ß√£o, ou seja, como o modelo
#                  ir√° "aprender" e ajustar seus pesos para minimizar o erro (fun√ß√£o de custo).
#                  O "lbfgs" (Limited-memory Broyden‚ÄìFletcher‚ÄìGoldfarb‚ÄìShanno) √© um algoritmo
#                  da fam√≠lia dos m√©todos quase-Newton, que √© eficiente e robusto para muitos
#                  datasets, especialmente quando o dataset n√£o √© muito grande. Ele tenta
#                  encontrar o m√≠nimo da fun√ß√£o de custo de forma iterativa, aproximando
#                  a segunda derivada (Hessiana) para determinar a dire√ß√£o de ajuste dos pesos.
#                  √â um bom padr√£o e geralmente funciona bem para a maioria dos datasets.
# random_state=42: Garante que os resultados sejam reproduz√≠veis.
log_clf = LogisticRegression(solver="lbfgs", random_state=42)
# random_state=42: Garante que os resultados sejam reproduz√≠veis. Se voc√™ rodar o c√≥digo
#                  v√°rias vezes, com o mesmo random_state, obter√° sempre os mesmos resultados.
log_clf = LogisticRegression(solver="lbfgs", random_state=42)

# Inicializa um classificador RandomForest.
# RandomForestClassifier √© um algoritmo de ensemble (conjunto) que constr√≥i m√∫ltiplas
# √°rvores de decis√£o durante o treinamento e gera a classe que √© a moda (a mais comum)
# das classes previstas pelas √°rvores individuais. √â robusto e geralmente performa bem.
# n_estimators=100: Define o n√∫mero de √°rvores de decis√£o na floresta. Mais √°rvores
#                   geralmente resultam em maior precis√£o, mas aumentam o tempo de treinamento.
# random_state=42: Garante a reprodutibilidade dos resultados da floresta aleat√≥ria.
rnd_clf = RandomForestClassifier(n_estimators=100, random_state=42)

# Inicializa um classificador Support Vector Machine (SVM).
# SVC √© um algoritmo poderoso para classifica√ß√£o, que busca encontrar o hiperplano
# ideal que melhor separa as classes no espa√ßo de features.
# gamma="scale": Define como o kernel (fun√ß√£o que mapeia os dados para um espa√ßo de dimens√£o superior)
#                impacta as amostras de treinamento. "scale" usa 1 / (n_features * X.var()),
#                o que √© um bom padr√£o e autom√°tico para a maioria dos casos.
# random_state=42: Garante a reprodutibilidade dos resultados para o SVM.
svm_clf = SVC(gamma="scale", random_state=42)

In [None]:
# estimators: √â uma lista de tuplas, onde cada tupla cont√©m:
#             - um nome curto (string) para o classificador (ex: 'lr' para Logistic Regression).
#             - a inst√¢ncia do classificador j√° inicializada (ex: log_clf).
#             Esses classificadores individuais ser√£o treinados e suas previs√µes combinadas.
estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)],
#
# voting: Define a estrat√©gia de vota√ß√£o usada para combinar as previs√µes dos classificadores base.
#         Existem duas op√ß√µes principais:
#         - 'hard' (Vota√ß√£o R√≠gida/Majorit√°ria): O VotingClassifier prev√™ a classe que recebe
#           o maior n√∫mero de votos da maioria dos classificadores individuais. Por exemplo,
#           se tr√™s classificadores preveem [0, 0, 1], a previs√£o final ser√° 0.
#           √â mais simples e exige que os classificadores retornem r√≥tulos de classe discretos.
#         - 'soft' (Vota√ß√£o Suave/Ponderada): Se os classificadores base puderem estimar
#           probabilidades de classe (m√©todo predict_proba), o VotingClassifier soma as
#           probabilidades previstas para cada classe por todos os classificadores e prev√™
#           a classe com a maior probabilidade m√©dia (ou ponderada). Isso geralmente
#           resulta em um desempenho melhor, pois considera a confian√ßa de cada classificador.
#           Para 'soft' voting, os estimadores devem ter o atributo 'predict_proba'.
voting_clf = VotingClassifier(
    estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)],
    voting='hard')

In [None]:
for clf in (log_clf, rnd_clf, svm_clf, voting_clf):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

- ‚û°Ô∏è **Importante:** m√©todos de ensemble funcionam melhor quando os classificadores s√£o o mais **independentes** poss√≠vel, ou seja, cometem **erros diferentes**.

Esse conceito nos leva naturalmente ao estudo de t√©cnicas mais sofisticadas de combina√ß√£o de modelos, como o **Bagging** (*Bootstrap Aggregating*), onde m√∫ltiplos classificadores s√£o treinados em **subconjuntos aleat√≥rios dos dados** para reduzir a vari√¢ncia e melhorar o desempenho.

### **Bagging (Bootstrap Aggregating)**

![image.png](attachment:image.png)

Segundo **[Breiman (1996)](https://sci2s.ugr.es/keel/pdf/algorithm/articulo/1996-ML-Breiman-Bagging%20Predictors.pdf)**, O Bootstrap cria **replica√ß√µes do conjunto de aprendizado** ao amostrar com reposi√ß√£o, simulando o que aconteceria ao coletarmos novos conjuntos da mesma distribui√ß√£o.

Imagine que voc√™ tem um conjunto de dados de tamanho `N`. O Bootstrap consiste em criar novos conjuntos de dados, chamados de **amostras bootstrap**, pegando `N` elementos aleat√≥rios do conjunto original, **com a possibilidade de repetir elementos**.

‚û°Ô∏è Isso significa que:  
- Alguns elementos podem aparecer mais de uma vez na mesma amostra.  
- Outros podem n√£o aparecer.

**Exemplo:**  
Se o conjunto original tem 5 elementos: `{A, B, C, D, E}`, uma amostra bootstrap poderia ser: `{B, D, D, A, E}`.

Esse processo √© repetido muitas vezes, criando v√°rias amostras bootstrap. Cada uma delas √© usada para **treinar um modelo diferente**.

**Resumo visual:**  
Conjunto original ‚Üí v√°rias amostras com reposi√ß√£o ‚Üí v√°rios modelos.

**Curiosidade importante:**  
Quando fazemos uma amostra bootstrap com tamanho `N`, aproximadamente **37%** dos elementos do conjunto original **n√£o aparecem** nessa amostra.  
Isso ocorre porque a chance de um elemento n√£o ser escolhido √© aproximadamente `1/e ‚âà 0.37`.

---

#### Bagging ‚Äî como o Bootstrap √© usado para melhorar modelos

**Bagging** √© a sigla para "**Bootstrap Aggregating**", ou seja, **Agrega√ß√£o via Bootstrap**.

A ideia do Bagging √© usar o Bootstrap para criar v√°rias amostras, treinar v√°rios modelos, e depois **combinar esses modelos** para fazer uma previs√£o **mais robusta**.

**Passos do Bagging:**  
1. Criar v√°rias amostras bootstrap a partir do conjunto de dados original.  
2. Treinar um modelo em cada amostra.  
3. Quando for fazer uma previs√£o, **combinar as previs√µes** de todos os modelos.

‚û°Ô∏è **Como combinar?**  
- Problema de **regress√£o**: tirar a **m√©dia** das previs√µes.  
- Problema de **classifica√ß√£o**: fazer uma **vota√ß√£o** e escolher a classe mais votada.

**Resumo visual:**  
V√°rias amostras ‚Üí v√°rios modelos ‚Üí agrega√ß√£o (m√©dia ou vota√ß√£o).

---

#### Por que o Bagging funciona?

O Bagging melhora os resultados principalmente quando o modelo que estamos usando √© **inst√°vel**.

‚û°Ô∏è **O que √© um modelo inst√°vel?**  
√â um modelo que, se voc√™ mudar um pouco os dados de treinamento, ele muda bastante suas previs√µes.

**Exemplos de modelos inst√°veis:**  
- √Årvores de decis√£o  
- Redes neurais  
- Sele√ß√£o de vari√°veis na regress√£o  

**Exemplos de modelos est√°veis:**  
- K-vizinhos mais pr√≥ximos (KNN)

‚úÖ Bagging funciona muito bem com modelos inst√°veis ‚Üí **melhora a precis√£o**.  
‚ùå Bagging n√£o melhora (ou pode at√© piorar) modelos est√°veis.

‚û°Ô∏è **Por que melhora?**  
Ao treinar v√°rios modelos em amostras ligeiramente diferentes, os **erros de cada um tendem a se compensar** quando combinamos.  
Isso reduz a **vari√¢ncia** do modelo e torna a previs√£o **mais confi√°vel**.

---

#### Exemplo cl√°ssico: √Årvores de decis√£o com Bagging

- Com uma √∫nica √°rvore: uma pequena mudan√ßa nos dados pode mudar muito a √°rvore.  
- Com Bagging: v√°rias √°rvores treinadas em diferentes amostras ‚Üí combina√ß√£o das previs√µes ‚Üí resultado **mais est√°vel e preciso**.

‚û°Ô∏è Assim nasceu o **Random Forest**:  
Bagging de v√°rias √°rvores de decis√£o, com algumas melhorias adicionais.

---

#### ‚úÖ **Duvidas que podem surgir**: ‚ÄúPor que repetir valores? N√£o vai enviesar?‚Äù  

Parece contraintuitivo, mas **n√£o √© um problema**.

‚û°Ô∏è O objetivo do Bootstrap n√£o √© aumentar a variabilidade dos dados, mas entender como o modelo se comporta quando os dados mudam um pouco.

Repetir valores cria **varia√ß√µes artificiais** da amostra, simulando o que aconteceria se colet√°ssemos novas amostras.

‚û°Ô∏è O Bootstrap ajuda a medir:  
- Como o modelo se altera quando os dados mudam.  
- A variabilidade ou estabilidade do modelo.

**Sobre enviesar:**  
O Bootstrap **n√£o aumenta o vi√©s**; ele √© usado para **estimar incerteza** (como vari√¢ncia e intervalo de confian√ßa).  
O vi√©s vem da escolha da t√©cnica e dos dados originais, n√£o do Bootstrap.

**Dado interessante:**  
Mesmo com essa amostragem com reposi√ß√£o, cerca de **37%** dos dados da amostra original **n√£o aparecem** em cada amostra bootstrap.

---

#### ‚úÖ Por fim: qual o benef√≠cio?

Quando usamos **Bagging** (Bootstrap + Agrega√ß√£o), como no **Random Forest**, essa reamostragem e repeti√ß√£o ajudam a **reduzir a vari√¢ncia** do modelo e melhorar a **generaliza√ß√£o**.

‚û°Ô∏è Para modelos **inst√°veis**, como √°rvores de decis√£o, isso √© **muito poderoso**.

---

#### ‚úÖ Exemplo pr√°tico:

Amostra original: `[10, 12, 15, 18, 20]` ‚Üí `n = 5`

**Etapa 1 ‚Äî Criando uma amostra Bootstrap:**  
- Sorteio 1: 15  
- Sorteio 2: 12  
- Sorteio 3: 15 (repetido)  
- Sorteio 4: 20  
- Sorteio 5: 10  

Nova amostra bootstrap: `[15, 12, 15, 20, 10]`  

‚úÖ Repetimos o 15  
‚úÖ N√£o pegamos o 18

‚û°Ô∏è **Isso √© normal e esperado no Bootstrap!**

---

**Etapa 2 ‚Äî Por que repetir?**  
Para criar v√°rias vers√µes da nossa amostra, como se tiv√©ssemos coletado v√°rias vezes, simulando a **incerteza natural**.

---

**Etapa 3 ‚Äî Isso n√£o vai enviesar?**  
N√£o!  
- O Bootstrap **n√£o serve** para mudar os dados ou o modelo, mas para medir a **incerteza**.  
- O vi√©s vem da t√©cnica ou dos dados originais.

---

**Etapa 4 ‚Äî E a variabilidade?**  
Mesmo com repeti√ß√µes, h√° variabilidade suficiente.

‚û°Ô∏è Em cada amostra bootstrap, cerca de **37% dos dados ficam de fora**.

**Exemplo:**  
Bootstrap 1: falta o 18  
Bootstrap 2: falta o 10 e o 12  
Bootstrap 3: falta o 20

Essa diversidade entre as amostras √© essencial para:  
‚úÖ Testar a **robustez** do modelo  
‚úÖ Construir **intervalos de confian√ßa**  
‚úÖ Estimar a **variabilidade** da estat√≠stica

---

#### ‚úÖ Resumindo a ideia com este fluxograma mental:

1. S√≥ tenho uma amostra ‚Üí preciso gerar outras para simular coletas.  
2. Fa√ßo Bootstrap ‚Üí reamostro com reposi√ß√£o ‚Üí gera amostras ligeiramente diferentes.  
3. Repeti√ß√µes ocorrem? ‚Üí Sim, mas isso √© bom ‚Üí cria varia√ß√µes que simulam novas coletas.  
4. Vai enviesar? ‚Üí N√£o!  
   - O vi√©s est√° no modelo ou na amostra original.  
   - O Bootstrap ajuda a avaliar a **incerteza**.  
5. Variabilidade suficiente? ‚Üí Sim!  
   - Porque, em m√©dia, **37% dos dados n√£o aparecem** em cada amostra bootstrap ‚Üí isso gera diversidade.

---

#### ‚úÖ Conclus√£o:

- **Bootstrap** ‚Üí t√©cnica de reamostragem com reposi√ß√£o ‚Üí cria novas amostras para estimar a **incerteza**.  
- **Bagging** ‚Üí usa o Bootstrap para gerar v√°rios modelos e combinar ‚Üí reduz a **vari√¢ncia** e melhora a **precis√£o**.

‚û°Ô∏è Essencial para modelos **inst√°veis**, como **√°rvores de decis√£o** ‚Üí exemplo cl√°ssico: **Random Forest**.


### **Bagging no ``Sckit-Learn``**

O Scikit-Learn oferece uma API simples para **bagging** atrav√©s da classe `BaggingClassifier` (ou `BaggingRegressor` para problemas de regress√£o).

O c√≥digo a seguir, por exemplo, treina um *ensemble* de 500 classificadores de √Årvore de Decis√£o. Cada um desses classificadores √© treinado em 100 inst√¢ncias de treinamento, que s√£o amostradas aleatoriamente do conjunto de treinamento **com reposi√ß√£o**. Este √© um exemplo cl√°ssico de **bagging**. Se voc√™ preferir usar **pasting** (amostragem sem reposi√ß√£o), basta definir o par√¢metro `bootstrap=False`.

O par√¢metro `n_jobs` indica ao Scikit-Learn o n√∫mero de n√∫cleos da CPU a serem utilizados para o treinamento e as previs√µes. Definir `n_jobs=-1` instrui o Scikit-Learn a usar todos os n√∫cleos dispon√≠veis.

In [None]:
from sklearn.ensemble import BaggingClassifier

In [None]:
# Cria√ß√£o de um BaggingClassifier
bag_clf = BaggingClassifier(
    base_estimator=DecisionTreeClassifier(),  # Estimador base: uma √°rvore de decis√£o
    n_estimators=500,                         # N√∫mero de estimadores: 500 √°rvores ser√£o treinadas
    max_samples=100,                          # Cada √°rvore ser√° treinada com uma amostra aleat√≥ria de 100 observa√ß√µes (com reposi√ß√£o)
    bootstrap=True,                           # Amostragem com reposi√ß√£o (bootstrap), fundamental para o m√©todo Bagging
    random_state=42                           # Semente para reprodutibilidade dos resultados
)

# Treinamento do modelo Bagging com os dados de treinamento
bag_clf.fit(X_train, y_train)

# Predi√ß√£o usando o modelo treinado nos dados de teste
y_pred = bag_clf.predict(X_test)

In [None]:
print(accuracy_score(y_test, y_pred))

>Vamos fazer uma √°rvore de decis√£o para comparar:

In [None]:
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)
y_pred_tree = tree_clf.predict(X_test)
print(accuracy_score(y_test, y_pred_tree))

>**Faremos um gr√°fico para comparar:**

In [None]:
from matplotlib.colors import ListedColormap

def plot_decision_boundary(clf, X, y, axes=[-1.5, 2.45, -1, 1.5], alpha=0.5, contour=True):
    x1s = np.linspace(axes[0], axes[1], 100)
    x2s = np.linspace(axes[2], axes[3], 100)
    x1, x2 = np.meshgrid(x1s, x2s)
    X_new = np.c_[x1.ravel(), x2.ravel()]
    y_pred = clf.predict(X_new).reshape(x1.shape)
    custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])
    plt.contourf(x1, x2, y_pred, alpha=0.3, cmap=custom_cmap)
    if contour:
        custom_cmap2 = ListedColormap(['#7d7d58','#4c4c7f','#507d50'])
        plt.contour(x1, x2, y_pred, cmap=custom_cmap2, alpha=0.8)
    plt.plot(X[:, 0][y==0], X[:, 1][y==0], "yo", alpha=alpha)
    plt.plot(X[:, 0][y==1], X[:, 1][y==1], "bs", alpha=alpha)
    plt.axis(axes)
    plt.xlabel(r"$x_1$", fontsize=18)
    plt.ylabel(r"$x_2$", fontsize=18, rotation=0)

In [None]:
fig, axes = plt.subplots(ncols=2, figsize=(10,4), sharey=True)
plt.sca(axes[0])
plot_decision_boundary(tree_clf, X, y)
plt.title("√Årvores de Decis√£o", fontsize=14)
plt.sca(axes[1])
plot_decision_boundary(bag_clf, X, y)
plt.title("√Årvores de Decis√£o com Bagging", fontsize=14)
plt.ylabel("")
plt.show()

### **Random Forests**

Como j√° discutimos, uma **Random Forest** √© um *ensemble* (conjunto) de **√Årvores de Decis√£o**, geralmente treinadas usando o m√©todo **bagging** (ou, em alguns casos, **pasting**). Normalmente, o par√¢metro `max_samples` √© definido para o tamanho total do conjunto de treinamento.

Em vez de construir um `BaggingClassifier` e passar-lhe um `DecisionTreeClassifier`, voc√™ pode, de forma mais conveniente e otimizada, usar a classe **`RandomForestClassifier`** diretamente (de maneira similar, existe a classe `RandomForestRegressor` para tarefas de regress√£o).

O c√≥digo a seguir, por exemplo, utiliza todos os n√∫cleos de CPU dispon√≠veis para treinar um classificador Random Forest com 500 √°rvores. Cada uma dessas √°rvores √© limitada a um m√°ximo de 16 n√≥s, o que ajuda a controlar a complexidade e evitar o *overfitting*.

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
# Cria√ß√£o de um RandomForestClassifier
rnd_clf = RandomForestClassifier(
    n_estimators=500,      # N√∫mero de √°rvores de decis√£o na floresta. Mais √°rvores podem reduzir o overfitting, mas aumentam o custo computacional.
    max_leaf_nodes=16,     # N√∫mero m√°ximo de folhas em cada √°rvore, controlando a complexidade e ajudando a evitar overfitting.
    random_state=42        # Semente para garantir reprodutibilidade dos resultados.
)

# Treinamento do modelo Random Forest com os dados de treinamento
y_pred_rf = rnd_clf.fit(X_train, y_train)

In [None]:
y_pred_rf

#### Hiperpar√¢metros da Random Forest

Com algumas poucas exce√ß√µes, um `RandomForestClassifier` possui **todos os hiperpar√¢metros de um `DecisionTreeClassifier`** (que controlam como as √°rvores individuais s√£o constru√≠das) **mais todos os hiperpar√¢metros de um `BaggingClassifier`** (que controlam o *ensemble* como um todo).

#### Aleatoriedade Adicional em Random Forests

O algoritmo Random Forest introduz uma **aleatoriedade adicional** no processo de crescimento das √°rvores. Em vez de procurar pela **melhor** caracter√≠stica entre **todas** as caracter√≠sticas dispon√≠veis ao dividir um n√≥ (como acontece em uma √Årvore de Decis√£o padr√£o), ele busca a melhor caracter√≠stica apenas dentro de um **subconjunto aleat√≥rio de caracter√≠sticas**.

##### √Årvore de Decis√£o Padr√£o: A Busca Exaustiva

Imagine que voc√™ tem um conjunto de dados com **100 caracter√≠sticas** (colunas). Quando uma **√Årvore de Decis√£o padr√£o** precisa dividir um n√≥ (ou seja, decidir qual "pergunta" fazer para separar os dados da melhor forma), ela faz o seguinte:

* **Avalia CADA uma das 100 caracter√≠sticas.** Para cada caracter√≠stica, ela testa diferentes pontos de corte (se a caracter√≠stica √© num√©rica) ou categorias (se √© categ√≥rica).
* **Calcula a "qualidade" de cada poss√≠vel divis√£o.** Essa "qualidade" √© medida por crit√©rios como `gini` (impureza Gini) ou `entropy` (ganho de informa√ß√£o), que indicam o qu√£o bem a divis√£o separa as classes.
* **Escolhe a caracter√≠stica e o ponto de corte que resultam na MELHOR divis√£o.** Ela busca exaustivamente a melhor op√ß√£o entre todas as 100 caracter√≠sticas.

Essa busca exaustiva √© eficiente para uma √∫nica √°rvore, mas pode levar a √°rvores muito **correlacionadas** quando usadas em um *ensemble*. Se muitas √°rvores veem os mesmos dados e buscam a "melhor" caracter√≠stica sempre, elas tendem a tomar decis√µes muito parecidas, o que limita a diversidade do *ensemble*.

---

##### Random Forest: A Busca com Aleatoriedade Extra

√â aqui que a **Random Forest** introduz sua aleatoriedade e sua genialidade. Em vez de avaliar todas as 100 caracter√≠sticas, quando uma √°rvore em uma Random Forest vai dividir um n√≥:

* **Ela seleciona aleatoriamente um *subconjunto* de caracter√≠sticas.** Por exemplo, se voc√™ tem 100 caracter√≠sticas, a Random Forest pode ser configurada para considerar apenas 10 caracter√≠sticas aleat√≥rias para cada divis√£o. **Importante:** Essas 10 caracter√≠sticas s√£o escolhidas *aleatoriamente a cada n√≥* que precisa ser dividido. A pr√≥xima divis√£o no mesmo n√≥, ou uma divis√£o em outro n√≥, pode usar um subconjunto diferente de 10 caracter√≠sticas.
* **Dentro desse subconjunto aleat√≥rio, ela busca a "melhor" caracter√≠stica.** Ou seja, ela ainda procura a melhor divis√£o, mas agora ela s√≥ tem, por exemplo, 10 caracter√≠sticas para escolher, em vez de 100.
* **Escolhe a melhor caracter√≠stica e ponto de corte DENTRO DO SUBCONJUNTO.**

##### Como ele faz isso (o "como")?

O processo interno √© gerenciado pelo algoritmo. Quando voc√™ define um `RandomForestClassifier`, existe um hiperpar√¢metro chamado `max_features` (ou similar, dependendo da biblioteca), que controla o tamanho desse subconjunto aleat√≥rio de caracter√≠sticas.

* **`max_features='sqrt'` (padr√£o comum para classifica√ß√£o):** Significa que para cada divis√£o, a √°rvore considerar√° um n√∫mero de caracter√≠sticas igual √† raiz quadrada do n√∫mero total de caracter√≠sticas. Se voc√™ tem 100 caracter√≠sticas, ela selecionar√° aleatoriamente $\sqrt{100} = 10$ caracter√≠sticas para cada divis√£o.
* **`max_features='log2'`:** Seleciona um n√∫mero de caracter√≠sticas igual ao logaritmo de base 2 do n√∫mero total de caracter√≠sticas.
* **`max_features=0.5` (valor decimal):** Considera 50% das caracter√≠sticas totais.
* **`max_features=N` (inteiro):** Considera exatamente N caracter√≠sticas.

##### Exemplo:

Se voc√™ tem `X_data` com 100 colunas (caracter√≠sticas) e `max_features='sqrt'`:

1.  A √°rvore 1 da Random Forest precisa dividir o n√≥ A.
2.  Ela olha para as 100 colunas de `X_data` e *aleatoriamente* seleciona 10 colunas (ex: colunas 5, 12, 23, 30, 45, 51, 60, 78, 89, 95).
3.  Ela avalia qual dessas 10 colunas oferece a melhor divis√£o.
4.  No mesmo n√≥ A, se precisasse de outra divis√£o (o que n√£o acontece, pois divide uma vez s√≥ por n√≥), ou em um n√≥ filho B:
5.  Ela *novamente* selecionaria aleatoriamente outras 10 colunas (ex: colunas 2, 15, 28, 33, 40, 52, 65, 71, 80, 99).
6.  E assim por diante.

---

##### A Vantagem: Diversidade e Redu√ß√£o de Vari√¢ncia

Essa aleatoriedade na sele√ß√£o de caracter√≠sticas √© crucial. Ela for√ßa as √°rvores a explorarem diferentes aspectos dos dados e a n√£o se concentrarem sempre nas caracter√≠sticas mais "√≥bvias" ou fortes. Isso leva a:

* **Menos Correla√ß√£o:** As √°rvores no *ensemble* se tornam menos correlacionadas entre si.
* **Maior Diversidade:** Cada √°rvore √© ligeiramente diferente das outras.
* **Melhor Generaliza√ß√£o:** Quando voc√™ combina previs√µes de v√°rias √°rvores diversas, os erros individuais tendem a se cancelar, levando a uma redu√ß√£o significativa da **vari√¢ncia** do modelo e a um desempenho geral melhor em dados n√£o vistos.

Ent√£o, sim, a Random Forest realmente busca a "melhor" caracter√≠stica, mas ela limita essa busca a um subconjunto aleat√≥rio, promovendo a diversidade e a robustez do *ensemble*.

---

Essa abordagem resulta em uma **maior diversidade de √°rvores** dentro do *ensemble*. Por sua vez, essa diversidade (novamente) troca um **vi√©s ligeiramente maior** por uma **vari√¢ncia significativamente menor**, o que geralmente leva a um modelo geral **melhor e mais robusto**.

O `BaggingClassifier` a seguir √©, a grosso modo, equivalente ao `RandomForestClassifier` que vimos anteriormente, demonstrando como essa aleatoriedade extra √© implementada:

In [None]:
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(max_features="sqrt", max_leaf_nodes=16),
    n_estimators=500, random_state=42)

>Aqui geramos as estima√ß√µes pelo modelo de **Random Forest** anterior com a finanlidade de comparar com o modelo **Bagging de Decision Tree**:

In [None]:
y_pred_rf = rnd_clf.predict(X_test)

>Treinamos o **Bagging Decision Tree:**

In [None]:
bag_clf.fit(X_train, y_train)
y_pred = bag_clf.predict(X_test)

>E comparamos eles no final:

In [None]:
np.sum(y_pred == y_pred_rf) / len(y_pred)