# Tarefa 2

### 1. Monte um passo a passo para o algoritmo RF

Semelhante ao Bagging, o Random Forest segue os seguintes passos:

<b> 1. Bootstrap + Feature Selection (Amostragem e Seleção de Atributos): </b>

    Amostragem com reposição (Bootstrap): Semelhante ao Bagging, o primeiro passo no Random Forest é realizar a amostragem aleatória com reposição. A partir do conjunto de dados original, são criadas várias amostras bootstrap, ou seja, subconjuntos de dados de treinamento com reposição, onde alguns exemplos podem ser selecionados mais de uma vez e outros podem ser omitidos.

    Seleção aleatória de atributos (Feature Selection): Diferente do Bagging, onde todas as variáveis estão disponíveis para cada divisão da árvore, no Random Forest, em cada divisão de cada árvore, apenas um subconjunto aleatório de variáveis é considerado.

    Para problemas de classificação, geralmente é recomendado selecionar a raiz quadrada do número total de variáveis.
    Para problemas de regressão, um terço das variáveis é frequentemente utilizado.

<b> 2. Modelagem com Árvores de Decisão: </b>

    Em cada subconjunto bootstrap gerado no passo anterior, uma árvore de decisão é treinada de forma independente, utilizando o subconjunto de variáveis aleatórias selecionado.
    A árvore é construída recursivamente, dividindo os dados em nós com base nos atributos selecionados. O processo de construção continua até que a árvore atinja um critério de parada, como profundidade máxima ou número mínimo de amostras por nó.

<b> 3. Agregação (Combinação das Previsões): </b>
    
    Após o treinamento das árvores, o Random Forest realiza a agregação das previsões de todas as árvores de decisão para formar uma previsão final. A forma de agregação depende do tipo de problema:

    Classificação: A previsão final é obtida através de votação majoritária, ou seja, a classe mais frequentada entre as previsões das árvores é selecionada como a classe final.
    Regressão: A previsão final é obtida através da média das previsões de todas as árvores.
    
    Isso resulta em uma previsão final mais robusta e confiável do que as previsões individuais de cada árvore.

### 2. Explique com suas palavras o Random forest

O Random Forest é uma técnica avançada de combinação de modelos que utiliza o conceito de Bagging e o aprimora, especificamente para árvores de decisão.

Assim como o Bagging, o Random Forest treina vários modelos independentes em subconjuntos de dados aleatórios chamados de amostras bootstrap. No entanto, o que diferencia o Random Forest é o uso de seleção aleatória de atributos em cada divisão da árvore de decisão, além da amostragem dos dados.

Essa abordagem tem dois principais benefícios:

Redução da variância: A aleatoriedade adicional na escolha de atributos em cada divisão reduz a correlação entre as árvores, o que diminui a variância do modelo e melhora sua generalização.
Menor risco de overfitting: Como as árvores são mais independentes, o modelo tende a ter uma maior capacidade de generalização, minimizando o risco de overfitting.
No final, o Random Forest combina as previsões de suas múltiplas árvores de decisão para fazer uma previsão final de forma mais robusta, utilizando votação para classificação e média para regressão.

### 3. Qual a diferença entre Bagging e Random Forest?

A principal diferença entre o Bagging e o Random Forest está na seleção aleatória de atributos. O Bagging cria múltiplos modelos independentes a partir de amostras aleatórias do conjunto de dados original, mas utiliza todas as variáveis disponíveis para cada modelo. Já o Random Forest adiciona um nível extra de aleatoriedade ao selecionar um subconjunto aleatório de atributos para cada divisão da árvore, o que torna as árvores mais independentes entre si.

| Característica                     | Bagging                                          | Random Forest                                                                 |
|-------------------------------------|-------------------------------------------------|-------------------------------------------------------------------------------|
| **Base Learners**                   | Qualquer modelo (geralmente árvores de decisão) | Árvores de Decisão                                                            |
| **Amostragem (Bootstrap)**          | Sim                                             | Sim                                                                           |
| **Seleção Aleatória de Atributos**  | Não                                             | Sim (apenas um subconjunto de atributos é considerado em cada divisão)        |
| **Agregação de Resultados**         | Votação (classificação) / Média (regressão)     | Votação (classificação) / Média (regressão)                                   |
| **Vantagem Principal**              | Reduz a variância entre os modelos              | Reduz ainda mais a variância e melhora a generalização ao reduzir a correlação entre as árvores |

Conclusão:
O Random Forest funciona melhor que o Bagging porque as árvores de decisão são mais independentes entre si, graças à seleção aleatória de atributos em cada divisão. Isso leva a uma menor correlação entre as árvores, melhorando a robustez do modelo e sua capacidade de generalização. Como resultado, o Random Forest é mais eficiente e preciso, principalmente quando comparado ao Bagging.



### 4. (Opcional) Implementar em python o código do Bagging

In [1]:
import numpy as np
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.feature_selection import SelectKBest, f_classif

# Gerar um conjunto de dados de classificação fictício
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, random_state=42)

# Seleção de features: Escolher as K melhores características
k = 5  # Número de melhores features a serem selecionadas
selector = SelectKBest(score_func=f_classif, k=k)
X_new = selector.fit_transform(X, y)  # Aplicar a seleção de features

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.2, random_state=42)

# Etapa 1 - Bootstrap: Gerando subconjuntos de dados com reposição
n_estimators = 10  # Número de modelos na técnica de Bagging

# Criar os conjuntos de treinamento com reposição
bootstrap_samples = [np.random.choice(X_train.shape[0], size=X_train.shape[0], replace=True) for _ in range(n_estimators)]

# Etapa 2 - Modelagem: Treinando múltiplos modelos com os subconjuntos criados
models = []
for i in range(n_estimators):
    model = DecisionTreeClassifier(random_state=42)
    model.fit(X_train[bootstrap_samples[i]], y_train[bootstrap_samples[i]])
    models.append(model)

# Etapa 3 - Agregação: Fazendo previsões com os modelos e agregando os resultados
# Aqui usamos BaggingClassifier para simplificar o processo de agregação.
bagging = BaggingClassifier(estimator=DecisionTreeClassifier(), n_estimators=n_estimators, random_state=42)

# Treinar o modelo de Bagging
bagging.fit(X_train, y_train)

# Fazer previsões
y_pred = bagging.predict(X_test)

# Avaliar a acurácia do modelo de Bagging
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy of Bagging Model: {accuracy:.4f}")

# Comparação com agregação manual das previsões individuais
individual_predictions = [model.predict(X_test) for model in models]
aggregated_predictions = np.array(individual_predictions).T
aggregated_predictions = [np.bincount(pred).argmax() for pred in aggregated_predictions]

# Avaliação da acurácia da agregação manual
aggregated_accuracy = accuracy_score(y_test, aggregated_predictions)
print(f"Accuracy of Aggregated Predictions (Manual): {aggregated_accuracy:.4f}")

# Mostrar as features mais importantes selecionadas
selected_features = selector.get_support(indices=True)
print(f"Features selecionadas: {selected_features}")

Accuracy of Bagging Model: 0.9450
Accuracy of Aggregated Predictions (Manual): 0.9550
Features selecionadas: [0 3 4 5 6]
