# Random Forest
Random Forest é um algoritmo de aprendizado de máquina. Ele é usado tanto para problemas de classificação quanto para problemas de regressão, em vez de usar uma única árvore de decisão, o Random Forest usa várias árvores de decisão e combina as previsões de todas elas para obter um resultado final mais preciso e robusto.
# Etapas
1.	**Amostragem Bootstrap:**
 - Assim como no Bagging, o Random Forest começa criando várias amostras do conjunto de dados original, usando a técnica de amostragem com reposição. Isso significa que alguns dados podem aparecer várias vezes em uma mesma amostra.
 - Cada amostra bootstrap será usada para treinar uma árvore de decisão diferente.
2.	**Construção das Árvores de Decisão:**
 - Para cada amostra bootstrap, uma árvore de decisão é construída. No entanto, o Random Forest introduz uma aleatoriedade adicional durante a construção das árvores: 
    - Em cada nó da árvore, em vez de considerar todas as variáveis para encontrar a melhor divisão, apenas um subconjunto aleatório de variáveis é considerado.
    - Essa aleatoriedade ajuda a reduzir a correlação entre as árvores, tornando o modelo mais robusto e menos propenso a overfitting.
3.	**Previsões das Árvores:**
- Depois que todas as árvores de decisão são construídas, cada uma delas faz sua própria previsão para um novo dado.
- As previsões das árvores são combinadas para gerar a previsão final do Random Forest. A forma de combinar as previsões depende do tipo de problema: 
    - Classificação: A previsão final é a classe que recebeu mais votos das árvores (votação majoritária).
    - Regressão: A previsão final é a média das previsões das árvores.
# Bagging e Random Forest

- **Bagging:** 
    - Cria múltiplas árvores de decisão a partir de amostras bootstrap do conjunto de dados original.
    - Cada árvore considera todas as variáveis ao tomar decisões.  
- **Random Forest:** 
    - Adiciona uma camada extra de aleatoriedade: cada árvore considera apenas um subconjunto aleatório de variáveis ao tomar decisões.

    
O Random Forest introduz mais aleatoriedade do que o Bagging, o que ajuda a reduzir ainda mais a correlação entre as árvores e a melhorar a precisão do modelo.


# Exemplo

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

In [2]:
#Carregando o dataset iris
iris = load_iris()
X, y = iris.data, iris.target

In [3]:
#Dividindo o dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
#cria o modelo Random Forest
random_forest_model = RandomForestClassifier(n_estimators=100, random_state=42)

In [None]:
#Treina o modelo Random Forest
random_forest_model.fit(X_train, y_train)

In [None]:
#Faz a predição do modelo Random Forest
y_pred = random_forest_model.predict(X_test)

In [7]:
#Calcula a acurácia do modelo Random Forest
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo Random Forest: {accuracy:.2f}")

Acurácia do modelo Random Forest: 1.00


**Análise da acurácia do data set Iris**
- Uma acurácia de 1.00 (ou 100%) no conjunto de teste é um forte indício de overfitting
- O conjunto é muito simples, o que facilita a obtenção de alta acurácia.
- O data set é relativamente pequeno e bem comportado. Em conjuntos de dados assim, é mais fácil para um modelo complexo "memorizar" os dados de treinamento, resultando em alta acurácia no teste, mas baixa generalização para dados novos.