**1. Importar Bibliotecas**

In [28]:
import pandas as pd
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score

* pandas: usado para manipulação de dados.
* BaggingClassifier: é o classificador de Bagging do scikit-learn, que permite usar qualquer modelo base em uma abordagem de Bagging.
* DecisionTreeClassifier: aqui, será o modelo base, ou seja, um modelo individual que será replicado várias vezes no Bagging.
* train_test_split: para dividir o conjunto de dados entre treino e teste.
* load_iris: fornece o conjunto de dados Iris, útil para teste de algoritmos de classificação.
* accuracy_score: calcula a acurácia das previsões.

**2. Carregar e Preparar o Conjunto de Dados**

In [32]:
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

* load_iris: carrega o conjunto de dados Iris.
* X e y: X armazena as características (variáveis independentes), e y armazena a variável alvo (classes de espécies de plantas neste caso).

**3. Dividir o Conjunto de Dados em Treino e Teste**

In [36]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

* train_test_split: divide X e y em subconjuntos de treino e teste, com 70% dos dados para treino e 30% para teste. O parâmetro random_state garante que a divisão seja reprodutível.

**4. Configurar o Modelo de Bagging**

In [40]:
bagging_model = BaggingClassifier(
    estimator=DecisionTreeClassifier(), # Modelo base
    n_estimators=10,                    # Número de modelos base
    random_state=42,
    bootstrap=True                      # Habilitar amostragem com reposição
)


* base_estimator: define o modelo base que será utilizado em cada amostra (neste caso, uma árvore de decisão).
* n_estimators: define o número de amostras (ou modelos base) que serão usados no Bagging; aqui, 10 árvores de decisão serão treinadas em subconjuntos de dados diferentes.
* bootstrap=True: ativa a amostragem com reposição, onde cada amostra é gerada aleatoriamente a partir dos dados originais, mas permite repetições de amostras.

**5. Treinar o Modelo de Bagging**

In [44]:
bagging_model.fit(X_train, y_train)

* fit: treina o modelo de Bagging nas amostras de treino, criando 10 modelos de árvores de decisão, cada um treinado em uma amostra gerada com reposição.

**6. Fazer Previsões no Conjunto de Teste**

In [48]:
y_pred = bagging_model.predict(X_test)

* predict: usa cada árvore de decisão treinada para fazer previsões no conjunto de teste. O resultado final é a votação majoritária entre os modelos (no caso de classificação).

**7. Avaliar a Acurácia do Modelo**

In [52]:
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo com Bagging: {accuracy:.2f}")

Acurácia do modelo com Bagging: 1.00


* accuracy_score: compara as previsões com os rótulos reais no conjunto de teste e calcula a acurácia, uma métrica comum para classificação. O valor é exibido no formato percentual.

**Explicação Simplificada**

Bagging é uma técnica usada para aumentar a precisão dos modelos de aprendizado de máquina. Funciona ao criar diversos modelos usando partes diferentes de um mesmo conjunto de dados. No Bagging, a combinação das previsões de vários modelos diminui a chance de erros, tornando o resultado final mais confiável.

Esse método é especialmente eficaz com modelos que variam muito, como as árvores de decisão. Ao "unir" várias árvores treinadas em conjuntos de dados ligeiramente diferentes, o modelo final se torna mais estável e funciona melhor ao fazer previsões em dados novos.
