In [None]:
#Passo a Passo do Algoritmo Random Forest

#1. Preparar o Dataset
#Separe o dataset em X (features) e y (target).

#Faça a limpeza dos dados (nulos, normalização se necessário).

#Divida em treino e teste.

#2. Definir Parâmetros da Floresta
#n_estimators: número de árvores na floresta.

#max_features: número de atributos aleatórios para cada divisão (split).

#Outros parâmetros: max_depth, min_samples_split, etc.

#3. Para cada árvore da floresta:
# a. Bootstrap (Amostragem com reposição)
#Gere um subconjunto do conjunto de treino com reposição.

# b. Seleção aleatória de atributos
#Em cada nó da árvore, em vez de usar todos os atributos, escolha aleatoriamente um subconjunto deles.

#O melhor split é escolhido somente entre esses atributos selecionados.

# c. Treinar a árvore
#Construa uma árvore de decisão sem poda (ela cresce até o limite).

#4. Fazer Previsões
#Cada árvore faz sua própria previsão:

#Classificação: voto da maioria.

#Regressão: média das previsões.

#5. Avaliar o Modelo Final
#Use métricas apropriadas para comparar previsões com valores reais:

#Classificação: accuracy, f1, roc_auc.

#Regressão: MSE, R², etc.



In [None]:
#Random Forest é tipo um time de árvores de decisão. Em vez de confiar só em uma árvore pra fazer uma previsão, ele monta várias. Cada uma dessas árvores é treinada com um pedaço diferente dos dados. E mais: cada árvore só pode olhar pra algumas variáveis por vez, não todas. Isso força elas a pensarem de jeitos diferentes.

#No final, cada árvore dá uma resposta, e o Random Forest junta tudo:
#– Se for um problema de classificação, ele vê qual resposta apareceu mais entre as árvores.
#– Se for um problema de regressão (prever um número), ele faz a média.

#A ideia é que, com várias árvores trabalhando juntas, o modelo fica mais estável, mais preciso e menos propenso a errar feio com dados que nunca viu.

#É tipo não depender da opinião de uma só "cabeça", mas ouvir várias visões e decidir com base nisso.



In [None]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from collections import Counter

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

n_trees = 10                    
max_features = int(np.sqrt(X.shape[1])) 
random_state = 42
np.random.seed(random_state)

floresta = []

for i in range(n_trees):
    indices = np.random.choice(len(X_train), size=len(X_train), replace=True)
    X_boot = X_train[indices]
    y_boot = y_train[indices]

    features_idx = np.random.choice(X.shape[1], size=max_features, replace=False)
    X_boot_sub = X_boot[:, features_idx]
    
    arvore = DecisionTreeClassifier()
    arvore.fit(X_boot_sub, y_boot)
    
    floresta.append((arvore, features_idx))

def rf_predict(X):
    predicoes = []
    
    for arvore, features_idx in floresta:
        X_sub = X[:, features_idx]
        predicoes.append(arvore.predict(X_sub))
        
    predicoes = np.array(predicoes).T
    
    final_preds = [Counter(amostra).most_common(1)[0][0] for amostra in predicoes]
    return np.array(final_preds)

y_pred = rf_predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f"Acurácia da Random Forest (manual): {acc:.4f}")
