Primeiro se define Parâmetros Iniciais:
- número de árvores de decisão a serem criadas
- profundidade máxima das árvores
- número mínimo de amostras para dividir um nó
- número de features a considerar em cada divisão

Depois, se cria as Árvores
Para cada árvore do ensemble:

- É criado uma amostra bootstrap dos dados de treinamento (com reposição), e construida uma árvore de decisão usando esta amostra
- Em cada nó, é selecionado aleatoriamente um subconjunto de features, assim se encontra a melhor divisão baseada nessas features
- Se continua dividindo recursivamente até atingir os critérios de parada.

Após isso é feito o treinamento do Modelo:

- É treinado cada árvore independentemente usando sua amostra bootstrap
- Não há poda (prunning) das árvores, possibilitando que elas crescam completamente

Por ultimo temos a previsão, avaliação e ajuste:
- Previsão para classificação:
    - Cada árvore "vota" em uma classe
    - A classe mais votada é a previsão final do modelo
- Previsão para regressão:
    - Cada árvore faz uma previsão numérica
    - A média das previsões de todas as árvores é a previsão final

- Avaliação do Modelo para classificação: acurácia, precisão, recall, F1-score, AUC-ROC
- Avaliação do Modelo para regressão: MSE, RMSE, MAE, R²

- Ajuste de Hiperparâmetros:
    - Uso de validação cruzada para otimizar hiperparâmetros
    - Ajuste de parâmetros como número de árvores, profundidade máxima, etc.


Random Forest é um algoritmo de aprendizado de máquina usado para classificação e regressão. Ele funciona criando várias árvores de decisão e combinando seus resultados para melhorar a precisão e evitar overfitting, combinanddo essas arvoes de decisão/regressão.

In [11]:
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X, y = make_classification(
    n_samples=1000, 
    n_features=10,
    n_informative=5,
    random_state=42
)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

rf_model = RandomForestClassifier(
    n_estimators=100, 
    max_features='sqrt',
    bootstrap=True,
    max_depth=10, 
    random_state=42
)

rf_model.fit(X_train, y_train)

y_pred = rf_model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do Random Forest: {accuracy:.4f}")

Acurácia do Random Forest: 0.9400
