# Tarefa 02 Módulo 23 Combinação de Modelos


## 1). Monte um passo a passo para o Random Forest:

### Processo de Random Forest: Um Passo a Passo

#### 1. **Bootstrap com Feature Selection**

Para iniciar o processo de Random Forest, primeiro aplicamos o método Bootstrap em conjunto com a seleção de características (Feature Selection). Imagine que você possui um conjunto de dados com várias linhas e colunas. Aplicando o Bootstrap, geramos múltiplos novos conjuntos de dados a partir do original, cada um com o mesmo número de linhas, mas com um subconjunto de colunas. 

Existem duas fórmulas comuns para decidir quantas colunas serão selecionadas em cada subconjunto:
- Para problemas de classificação, o número de colunas é determinado pela raiz quadrada do total de colunas (√p).
- Para problemas de regressão, utilizamos um terço do total de colunas (p/3).

Após selecionar as colunas, repetimos a amostragem das linhas, permitindo que algumas linhas se repitam e outras sejam excluídas. Continuamos esse processo até gerar o número necessário de novos conjuntos de dados para a nossa análise.

#### 2. **Construção da Random Forest**

Na etapa de construção da Random Forest, utilizamos os subconjuntos de dados gerados na etapa anterior para treinar várias árvores de decisão. Cada árvore é treinada em um conjunto de dados ligeiramente diferente, o que contribui para a diversidade do modelo. Essa coleção de árvores de decisão forma a chamada "Floresta Aleatória" (Random Forest), que é essencial para aumentar a precisão e reduzir o overfitting em comparação com uma única árvore de decisão.

#### 3. **Agregação (Bagging)**

Finalmente, chegamos à etapa de agregação, conhecida como Bagging (Bootstrap Aggregating). Nessa fase, combinamos os resultados das diferentes árvores de decisão. Para problemas de classificação, coletamos as predições de cada árvore e selecionamos a classe mais votada (1 ou 0) como o resultado final. Em problemas de regressão, calculamos a média das predições das árvores. Esse processo de agregação ajuda a melhorar a robustez e a precisão do modelo, proporcionando uma predição mais confiável e estável.

---

# 2). Monte um passo a passo para o Random Forest:

Este é um processo que ajuda a melhorar a robustez e a precisão de um modelo final, combinando os resultados de várias árvores treinadas em diferentes amostras do dataset original, e a Random forest funciona melhor que o Bagging, pois as árvores amostradas são mais independentes (menor correlação), há mais vantagens utilizando a "Sabedora das multidões" e é bastante robusto a overtfitting.

# 3). Implemente em python o código do bagging:
    - Bootstrap
    - Modelagem
    - Agregação
    

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report
import numpy as np

In [2]:
# Definindo os dados
dados = {
    'Coluna1': [1, 2, 3, 4],
    'Coluna2': ['A', 'B', 'C', 'D'],
    'Coluna3': [10.5, 23.6, 35.7, 47.8],
    'Coluna4': [True, False, True, False],
    'Coluna5': [100, 200, 300, 400],
    'Coluna6': [0.1, 0.2, 0.3, 0.4],
    'Coluna7': ['X', 'Y', 'Z', 'W'],
    'Coluna8': [500, 600, 700, 800],
    'Coluna9': [1.1, 2.2, 3.3, 4.4]
}

df = pd.DataFrame(dados)

print(df)


   Coluna1 Coluna2  Coluna3  Coluna4  Coluna5  Coluna6 Coluna7  Coluna8  \
0        1       A     10.5     True      100      0.1       X      500   
1        2       B     23.6    False      200      0.2       Y      600   
2        3       C     35.7     True      300      0.3       Z      700   
3        4       D     47.8    False      400      0.4       W      800   

   Coluna9  
0      1.1  
1      2.2  
2      3.3  
3      4.4  


In [3]:
# Pré-processamento dos dados
label_encoders = {}
for col in ['Coluna2', 'Coluna4', 'Coluna7']:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le

print("\nDataset Após Label Encoding:")
print(df)

# Separando features e target
X = df.drop('Coluna1', axis=1)
y = df['Coluna1']

# Verificando a distribuição das classes no target
print("\nDistribuição das Classes:")
print(y.value_counts())

# Dividindo o dataset em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Treinando o modelo Random Forest
random_forest = RandomForestClassifier(n_estimators=10, random_state=42)
random_forest.fit(X_train, y_train)

# Fazendo previsões e avaliando o modelo
y_pred = random_forest.predict(X_test)

# Avaliando a precisão com zero_division ajustado
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred, zero_division=0)

print(f'\nAccuracy: {accuracy:.2f}')
print('Classification Report:')
print(report)


Dataset Após Label Encoding:
   Coluna1  Coluna2  Coluna3  Coluna4  Coluna5  Coluna6  Coluna7  Coluna8  \
0        1        0     10.5        1      100      0.1        1      500   
1        2        1     23.6        0      200      0.2        2      600   
2        3        2     35.7        1      300      0.3        3      700   
3        4        3     47.8        0      400      0.4        0      800   

   Coluna9  
0      1.1  
1      2.2  
2      3.3  
3      4.4  

Distribuição das Classes:
Coluna1
1    1
2    1
3    1
4    1
Name: count, dtype: int64

Accuracy: 0.00
Classification Report:
              precision    recall  f1-score   support

           1       0.00      0.00      0.00       0.0
           2       0.00      0.00      0.00       1.0

    accuracy                           0.00       1.0
   macro avg       0.00      0.00      0.00       1.0
weighted avg       0.00      0.00      0.00       1.0




### Observações

- **Pequeno Tamanho do Dataset**: O dataset é pequeno para simplificar o exemplo, mas em aplicações reais, recomenda-se usar um conjunto de dados maior.
- **Diversidade nas Amostras de Bootstrap**: A diversidade nas amostras geradas pelo bootstrap ajuda a criar um modelo mais robusto, minimizando o overfitting.