# Random Forest

Random Forest é um algoritmo de aprendizado de máquina que faz parte dos métodos de *ensemble learning*, onde múltiplos modelos (nesse caso, múltiplas árvores de decisão) são treinados e combinados para obter uma previsão mais precisa e robusta. Ele é amplamente utilizado para problemas de classificação e regressão, pois reduz o risco de overfitting em comparação com uma única árvore de decisão.

## Como Funciona o Random Forest?

O Random Forest funciona criando um conjunto de árvores de decisão (floresta), onde cada árvore é treinada com um subconjunto aleatório dos dados de treinamento. Isso acontece em duas etapas principais:

1. **Bagging**: Cada árvore recebe um conjunto de dados diferente, criado por amostragem aleatória com substituição do conjunto de dados original (ou seja, um mesmo dado pode ser repetido várias vezes em uma mesma árvore).
2. **Divisão Aleatória de Atributos**: Para cada divisão de nó na árvore, apenas um subconjunto aleatório dos atributos (ou variáveis) é considerado para escolher a melhor divisão. Isso garante que as árvores sejam mais diversas entre si.

Durante a fase de previsão:
- **Classificação**: Cada árvore vota na classe que considera correta, e a classe mais votada é a previsão final (votação majoritária).
- **Regressão**: A média das previsões de todas as árvores é calculada para fornecer o valor final.

Essa combinação de múltiplas árvores torna o modelo mais robusto e menos propenso ao overfitting, pois erros individuais de cada árvore tendem a se compensar.

## Vantagens do Random Forest

- **Redução do Overfitting**: Comparado a uma única árvore de decisão, o Random Forest tende a não se ajustar demais aos dados de treinamento.
- **Robustez a Outliers e Variabilidade**: É um método robusto a ruído e outliers.
- **Flexibilidade**: Pode ser usado para problemas de classificação e regressão.
- **Importância de Variáveis**: Random Forest fornece uma medida da importância das variáveis, ajudando a identificar quais atributos mais contribuem para o modelo.

## Aplicação do Random Forest com Scikit-Learn

A biblioteca Scikit-Learn oferece uma implementação simples do Random Forest, tanto para classificação quanto para regressão. Abaixo está um exemplo básico para aplicar Random Forest em um problema de classificação usando Scikit-Learn:


In [3]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# Carrega um dataset exemplo (Iris)
data = load_iris()
X = data.data
y = data.target

# Divide os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Inicializa o modelo Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)

# Treina o modelo
model.fit(X_train, y_train)

# Faz previsões
y_pred = model.predict(X_test)

# Avalia o modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy * 100:.2f}%")

Acurácia do modelo: 100.00%


## Parâmetros Importantes
Alguns dos parâmetros mais importantes do `RandomForestClassifier` ou `RandomForestRegressor`  no Scikit-Learn incluem:

- `n_estimators`: número de árvores na floresta.
- `max_features`: número máximo de variáveis a serem consideradas para cada divisão de nó.
- `max_depth`: profundidade máxima de cada árvore, para controlar o tamanho e evitar o overfitting.
- `random_state`: semente para garantir reprodutibilidade.

O Random Forest é um dos métodos preferidos para dados tabulares e fornece um bom equilíbrio entre precisão e interpretabilidade. É amplamente utilizado em aplicações de classificação, previsão de séries temporais, e até mesmo em sistemas de recomendação.