# Passo a passo para o algoritmo de Random Forest (RF)

**Passo 1:** É necessário preparar o conjunto de dados original.
    
**Passo 2:** É necessário decidir o númeero de árvores que queremos (pode ser tipicamente representado como *n_estimators* ou *B*)
    
**Passo 3:** Para cada uma das *B* árvores, é necessário:
        
**a.** Realizar uma amostragem do conjunto de dados com substituição (bootstrap) para criar um subconjunto.

**b.** Em vez de usar todos os recursos para dividir cada nó da árvore, podemos selecionar um subconjunto aleatório de recursos (isso introduz mais diversidade). Esse número é geralmente representado como 
*m*, e uma regra geral comum para classificação é usar *m = V|número total de recursos*.

**c.** Após é necessário treinar uma árvore dee decisão neste subconjunto de dados usando apenas o subconjunto de recursos selecionados em cada divisão.

**Passo 4:** Quando for realizar uma previsão:

- Se o problema for de regressão, calcular a média das previsões de cada chave.
- Se o problema for classificação, tomar a classe mais votada de todas as árvores como previsão final.

# Explicação sobre o Random Forest

Random Forest é um método de aprendizado de conjunto que combina várias árvores de decisão para produzir um modelo mais forte e robusto. A "floresta" é criada treinando cada árvore em um subconjunto diferente de dados (usando a técnica de bootstrap) e em um subconjunto de recursos. A introdução de aleatoriedade na seleção de recursos para cada divisão ajuda a tornar o modelo mais diversificado, reduzindo o risco de ajuste excessivo.

Ao fazer previsões, a Random Forest considera o resultado de cada árvore individual e faz uma decisão com base na maioria (para classificação) ou na média (para regressão).

# Diferença entre Bagging e Random Forest

Ambos, Bagging e Random Forest, são técnicas de aprendizado de conjunto que usam a amostragem bootstrap para treinar modelos em subconjuntos de dados. A diferença principal é:

**Bagging:** A técnica de Bagging treina vários modelos (geralmente do mesmo tipo) em diferentes subconjuntos de dados, mas usando todos os recursos disponíveis para cada modelo.

**Random Forest:** Random Forest também treina vários modelos, mas especificamente árvores de decisão, e para cada árvore, não apenas um subconjunto de dados é usado, mas também um subconjunto de recursos é selecionado aleatoriamente para cada divisão.

#  Implementação em Python do Random Forest

In [3]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Gerar um conjunto de dados de exemplo
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Inicializar o RandomForest Classifier
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# Treinar o modelo
rf.fit(X_train, y_train)

# Previsões
y_pred = rf.predict(X_test)

# Avaliar a acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do Random Forest: {accuracy:.2f}")

Acurácia do Random Forest: 0.86


Usamos a classe RandomForestClassifier do scikit-learn, que implementa o algoritmo Random Forest para modelos de classificação. Há também uma versão para regressão chamada RandomForestRegressor.