# Exercicio 1 módulo 23 - **Combinação de Modelos I**

### 1- Monte um passo a passo para o **Bagging**

**Passo 1**

* **Preparação dos dados**
1. Carregue os dados 
2. Certifique-se de que os dados já estejam *normalizados e padronizados*
3. Os divida em treino e teste

**Passo 2**

* **Gerar subconjuntos dos dados ( *Bootstrap* )**
1. A partir do conjunto de treino **original** gere multiplos subconjuntos de dados
2. Para cada subconjunto use a técnica **Amostra com Reposição**, ou seja, escolha amostras *aleatórias* e permita *repetições*

**Passo 3**

* **Treinar um modelo para cada *subconjunto* gerado**
1. Para cada *subconjunto* criado, treine ele em um **modelo independente** ( *exemplo: Arvore de regressão* )

**Passo 4**
* **Fazer previsões**
1. Após todos os *subconjuntos* serem treinados, utilize eles para fazer **previsões** sobre os dados de testes

**Passo 5**
* **Agregar as previsões**
1. Combine a **previsão dos subconjuntos** para chegar a uma **previsão final**
   1. Para problemas de **classificação** se utiliza a *votação majoritária*
   2. Para problemas de **regressão**, se utiliza a *média das previsões*
   

### 2- Explique em suas palavras o **Bagging**

* Analogia com uma *Salada de Frutas*

1. Você possui uma **Salada de Frutas** *( dataframe )*.
   
2. Em sua **Salada de Frutas** você possui diversas **frutas**, cada uma com suas **propriedades** como **cor**, **tamanho**, **nutrientes** etc... *( Linhas e colunas* ).
   
3. você então, pega com uma **grande colher** um **numero X** de **frutas sortidas**, você então anota quais frutas foram pegas e as devolve a salada de frutas *( Subconjuntos com o método *Amostragem com reposição )*.
   
4. Após **repetir esse processo enumeras vezes**, você percebe que anotou diversas vezes e muitas até possuíam as mesmas frutas repetidas vezes.
   
5. Depois de analisar as anotações com cuidado você pode ver qual fruta se repete mais vezes, qual cor se repete mais frequentemente, a média do tamanho entre as frutas e diversas informações.

---
   
* Explicação de forma mais técnica para: **Bootstrap Aggregating** *( Bagging )*

O método **Bagging** ( do inglês, *Bootstrap Aggregating* ) é uma técnica de aprendizado de máquina utilizado para melhorar a precisão de modelos. Ele funciona criando múltiplos subconjuntos da base de dados original, treinando modelos separados em cada subconjunto e, em seguida, combinando os resultados para obter uma previsão final mais robusta.



### 3 (opcional) - Implementar em **Python** o código do *Bagging*

* Nesse caso, ao implementar o código do *bagging* tentei utilizar a analogia com a **salada de frutas** para maior compreensão.

In [1]:
import numpy                 as     np
import pandas                as     pd


from sklearn.ensemble        import BaggingClassifier
from sklearn.tree            import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics         import accuracy_score
from sklearn.metrics         import confusion_matrix
from sklearn.metrics         import classification_report
from sklearn.model_selection import cross_val_score

from sklearn.datasets        import load_iris  # O dataset Iris do sklearn será a nossa salada de frutas

In [2]:
# 1. Preparando nossa "Salada de Frutas"

data = load_iris()  # Neste caso, é uma salada com 3 tipos de frutas (classes) e várias propriedades.
X, y = data.data, data.target  # X são as propriedades (cor, tamanho, etc.) e y são os tipos de fruta.b

In [3]:
# Visualização do dataframe para melhor comrpeensão do que a nossa salada de fruta se trata

iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
class_mapping = {0: 'setosa', 1: 'versicolor', 2: 'virginica'}
df['class'] = df['target'].map(class_mapping)

df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,class
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


In [4]:
# 2. Dividir a Salada em Treino e Teste (separando um pouco para experimentarmos depois)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=27)

# 3. Usando uma "Grande Colher" para pegar subconjuntos da salada
bagging_model = BaggingClassifier(
    estimator=DecisionTreeClassifier(),  
    n_estimators=15,  # Número de colheres, ou quantas vezes vamos pegar subconjuntos da salada.
    random_state=27
)

# 4. Treinando o modelo (Anotando as frutas de cada colherada)
# O modelo de Bagging agora vai pegar 15 subconjuntos diferentes da salada, com reposição, e anotar as frutas de cada colher.
bagging_model.fit(X_train, y_train)

# 5. Fazendo previsões (Combinando nossas anotações)
# Usamos o modelo treinado para prever qual fruta mais aparece, usando os dados de teste.
y_pred = bagging_model.predict(X_test)

In [5]:
# 6.1. Avaliando os resultados
# Acuracia.
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

Accuracy: 91.11%


* Um bom desempenho geral do sistema

In [6]:

# Matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred)
print("Matriz de Confusão:\n", conf_matrix)

Matriz de Confusão:
 [[12  0  0]
 [ 0 14  2]
 [ 0  2 15]]


Significado: A matriz de confusão mostra as previsões corretas e incorretas para cada classe.
* Linha 1 (Setosa): Previsões corretas para a classe Setosa são 12 (nenhum erro).
* Linha 2 (Versicolor): 14 previsões corretas e 2 incorretas, onde duas foram classificadas como Virginica.
* Linha 3 (Virginica): 16 previsões corretas e 1 incorreta, onde uma foi classificada como Versicolor.

**Interpretação**: A classe Setosa é perfeitamente classificada, enquanto as classes Versicolor e Virginica têm pequenos erros. Esses erros são uma indicação de que o modelo ocasionalmente confunde essas duas classes.

In [7]:
# 6.3 Avaliando os resultados
# Relatório de Classificação
report = classification_report(y_test, y_pred, target_names=data.target_names)
print("Relatório de Classificação:\n", report)

Relatório de Classificação:
               precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        12
  versicolor       0.88      0.88      0.88        16
   virginica       0.88      0.88      0.88        17

    accuracy                           0.91        45
   macro avg       0.92      0.92      0.92        45
weighted avg       0.91      0.91      0.91        45



* **Precisão**: Mede a proporção de previsões corretas para uma classe específica. Exemplo: para Versicolor, 93% das previsões que o modelo classificou como Versicolor eram realmente Versicolor.

* **Revocação**: Mede a capacidade do modelo de encontrar todas as instâncias reais de uma classe. Exemplo: Virginica tem recall de 0.94, significando que ele detectou 94% dos Virginicas no conjunto de teste.

* **F1-Score**: Combina precisão e revocação em uma única métrica equilibrada. Quanto maior o F1-score, melhor o modelo está em evitar tanto falsos positivos quanto falsos negativos.

* **Interpretação**: O modelo tem ótimo desempenho para a *classe Setosa* (1.00 para todas as métricas) e também funciona bem com *Versicolor e Virginica*, embora haja uma pequena confusão entre elas, conforme mostrado pela ligeira queda nos **F1-scores** (0.90 e 0.91).

In [8]:
# 6.4 Avaliando os resultados
# Probabilidade das previsões
y_prob = bagging_model.predict_proba(X_test)
print("Probabilidades das Previsões:\n", y_prob)

Probabilidades das Previsões:
 [[0.         0.         1.        ]
 [1.         0.         0.        ]
 [0.         0.         1.        ]
 [0.         0.         1.        ]
 [0.         1.         0.        ]
 [0.         1.         0.        ]
 [0.         1.         0.        ]
 [0.         0.         1.        ]
 [0.         0.         1.        ]
 [1.         0.         0.        ]
 [0.         1.         0.        ]
 [0.         0.8        0.2       ]
 [1.         0.         0.        ]
 [0.         1.         0.        ]
 [0.         1.         0.        ]
 [0.         1.         0.        ]
 [1.         0.         0.        ]
 [0.         0.         1.        ]
 [0.         0.         1.        ]
 [0.         0.         1.        ]
 [0.         1.         0.        ]
 [1.         0.         0.        ]
 [0.         1.         0.        ]
 [1.         0.         0.        ]
 [0.         0.         1.        ]
 [0.         0.06666667 0.93333333]
 [0.         1.         0.       

**Interpretação**: As probabilidades mostram a "certeza" do modelo em cada previsão. Probabilidades como **[0, 0.766, 0.233]** indicam que o modelo não está totalmente seguro sobre uma única classe, o que pode indicar instâncias mais difíceis de classificar corretamente.

In [9]:
# 6.5 Avaliando os resultados
# Validação cruzada
scores = cross_val_score(bagging_model, X, y, cv=5)
print("Validação Cruzada - Acurácias em cada divisão:", scores)
print("Média da Validação Cruzada:", scores.mean())

Validação Cruzada - Acurácias em cada divisão: [0.96666667 0.96666667 0.9        1.         1.        ]
Média da Validação Cruzada: 0.9666666666666668


**Acurácias em cada divisão**: [0.96666667, 0.96666667, 0.9, 0.96666667, 1.0]

**Média da Validação Cruzada**: 0.96

**Interpretação**: O desempenho do modelo é consistente e alto em todos os subconjuntos, o que sugere que ele generaliza bem e tem um desempenho estável em diferentes divisões dos dados.