```` Bagging (Bootstrap Aggregating)```` é uma técnica de aprendizado de máquina que melhora a precisão
de modelos, combinando múltiplos modelos de previsão para reduzir a variabilidade do modelo
original. A principal ideia do bagging é criar diferentes subconjuntos de dados de treinamento a partir
de amostras com reposição (bootstrap) e treinar um modelo para cada um desses subconjuntos. A
previsão final é feita combinando as previsões dos modelos individuais, geralmente por votação
(para classificação) ou média (para regressão).
Aqui está um passo a passo para entender como o bagging funciona:


`1. Preparação dos Dados

    Dados Originais: Comece com um conjunto de dados de treinamento DD, com NN amostras.


 2. Criação de Subconjuntos de Dados com Reposição (Bootstrap)

    Crie KK subconjuntos de dados. Cada subconjunto é gerado amostrando aleatoriamente NN exemplos do conjunto original DD, com reposição. Isso significa que um mesmo exemplo pode ser selecionado várias vezes ou não ser selecionado.
    Cada subconjunto pode ter exemplos repetidos, mas a quantidade de exemplos no subconjunto será sempre a mesma do conjunto original.


3. Treinamento de Múltiplos Modelos

    Para cada um dos KK subconjuntos de dados criados, treine um modelo de aprendizado de máquina. Esse modelo pode ser qualquer tipo de modelo, como árvores de decisão, regressão, redes neurais, entre outros.
    O treinamento ocorre de forma independente para cada subconjunto.


4. Previsão com Modelos Individuais

    Quando for fazer uma previsão para novos dados, passe os dados de entrada para cada um dos KK modelos treinados.
    Cada modelo fará uma previsão com base nos dados de entrada. Se for um modelo de classificação, ele retorna uma classe. Se for regressão, ele retorna um valor contínuo.


5. Combinação das Previsões

    Classificação: Use a votação majoritária (a classe que recebeu o maior número de votos entre os modelos é a classe final escolhida).
    Regressão: Faça a média das previsões de todos os modelos (a previsão final será a média de todos os valores previstos pelos modelos).

6. Resultado Final

    A previsão final do bagging é mais robusta do que a previsão de um único modelo. Isso acontece porque a média ou votação ajuda a reduzir o risco de overfitting e a variabilidade associada a modelos individuais, resultando em um modelo mais estável e preciso.

7. Exemplo Prático:

Vamos supor que você tem 3 subconjuntos de dados e treina 3 modelos de árvore de decisão. Cada modelo fará uma previsão para um dado de entrada:

    Modelo 1: Previsão = Classe A
    Modelo 2: Previsão = Classe B
    Modelo 3: Previsão = Classe A

Usando votação majoritária, a classe final será Classe A, pois foi a mais votada (2 votos contra 1).
Benefícios do Bagging:

    Redução de Variância: Como a técnica faz uso de múltiplos modelos, a variabilidade das previsões é reduzida.
    Menos Overfitting: Ao usar múltiplos modelos treinados em subconjuntos diferentes dos dados, o bagging pode reduzir o overfitting em relação ao modelo único.
    Robustez: A técnica é menos sensível a ruídos e outliers nos dados.

Modelos Populares Usando Bagging:

    Random Forest: Uma extensão do bagging, onde se aplica bagging em árvores de decisão, mas com um detalhe adicional: para cada nó de cada árvore, escolhe-se aleatoriamente um subconjunto de variáveis para fazer a divisão, aumentando a diversidade entre as árvores e tornando o modelo ainda mais robusto.

Em resumo, o bagging é uma maneira de melhorar a precisão e robustez dos modelos de aprendizado de máquina, reduzindo o overfitting e variabilidade, ao combinar múltiplos modelos treinados em subconjuntos diferentes dos dados.

"O Bagging é uma técnica de machine learning que eu não conhecia até o momento. Neste módulo, aprendi como ela é aplicada na criação de subconjuntos de dados, onde dados aleatórios são amostrados para formar novos conjuntos. Depois, cada subconjunto é usado para treinar um modelo diferente. Quando é necessário fazer previsões, os resultados de todos os modelos são combinados. A previsão final é obtida a partir da combinação das respostas dos modelos, como uma votação para classificação ou uma média para regressão. Essa técnica ajuda a aumentar a precisão e a robustez do modelo, diminuindo a variabilidade e o risco de overfitting."


In [31]:
import numpy as np
import pandas as pd
from prompt_toolkit.key_binding.bindings.named_commands import beginning_of_history

In [32]:
previsao_renda = pd.read_csv('previsao_de_renda.csv')
previsao_renda

Unnamed: 0.1,Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,0,2015-01-01,15056,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.602740,1.0,8060.34
1,1,2015-01-01,9968,M,True,True,0,Assalariado,Superior completo,Casado,Casa,28,7.183562,2.0,1852.15
2,2,2015-01-01,4312,F,True,True,0,Empresário,Superior completo,Casado,Casa,35,0.838356,2.0,2253.89
3,3,2015-01-01,10639,F,False,True,1,Servidor público,Superior completo,Casado,Casa,30,4.846575,3.0,6600.77
4,4,2015-01-01,7064,M,True,False,0,Assalariado,Secundário,Solteiro,Governamental,33,4.293151,1.0,6475.97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14995,14995,2016-03-01,16006,F,False,True,0,Empresário,Secundário,Solteiro,Casa,48,13.887671,1.0,7990.58
14996,14996,2016-03-01,3722,F,False,True,0,Pensionista,Superior completo,Solteiro,Casa,57,,1.0,10093.45
14997,14997,2016-03-01,6194,F,True,True,0,Assalariado,Superior completo,Casado,Casa,45,7.832877,2.0,604.82
14998,14998,2016-03-01,4922,M,True,False,0,Empresário,Superior completo,Casado,Casa,36,4.298630,2.0,3352.27


In [60]:
# Realizar os dummies
previsao_renda_dummy = pd.get_dummies(previsao_renda, columns=['tipo_renda', 'educacao', 'estado_civil', 'tipo_residencia'])
previsao_renda_dummy.dtypes

DecisionTreeClassifier(random_state=0)    bool
dtype: object

Esse trecho de código tem a função de dividir os dados em conjuntos de treino e teste, um passo essencial no treinamento de modelos de Machine Learning.

In [38]:
# Split into train and test
from sklearn.model_selection import train_test_split, cross_val_score

X = previsao_renda.drop("renda", axis=1)
y = previsao_renda.renda

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

### Treinar um modelo de aprendizado de máquina
Criaremos um pipeline simples de aprendizado de máquina e ajustaremos um conjunto de dados de treinamento a ele. O pipeline normalizará os dados antes de alimentar as entradas do classificador de árvore de decisão.

In [106]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeRegressor

pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('regressor', DecisionTreeRegressor(max_depth=3))
])

pipe.fit(X_train, y_train)


Avaliaremos um modelo de árvore de decisão para que possamos compará-lo com o modelo de conjunto.
Geraremos relatórios de classificação fazendo previsões em uma planilha de dados de teste.

In [107]:
from sklearn.metrics import classification_report
y_test = y_test.astype(int)
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.60      0.52      0.56        82
           1       0.50      0.57      0.53        68

    accuracy                           0.55       150
   macro avg       0.55      0.55      0.55       150
weighted avg       0.55      0.55      0.55       150





Para entender melhor o desempenho do modelo, faremos uma validação cruzada e calcularemos as pontuações correspondentes.

In [99]:
cv_scores = cross_val_score(clf, X_train, y_train, cv=5)
print(f"cross validation scores: {cv_scores}")
print(f"Mean CV accuracy: {np.mean(cv_scores):.2f}")

cross validation scores: [0.65714286 0.74285714 0.74285714 0.82857143 0.77142857]
Mean CV accuracy: 0.75


Esse código implementa ensemble learning usando Bagging e também treina um modelo individual de árvore de decisão para comparação. Vamos detalhar cada parte.

In [109]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
bagging_classifier = BaggingClassifier(estimator=pipeline, n_estimators=50, random_state=42)
bagging_classifier.fit(X_train, y_train)
y_pred = bagging_classifier.predict(X_test)

clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       0.90      0.80      0.85        82
           1       0.79      0.90      0.84        68

    accuracy                           0.85       150
   macro avg       0.85      0.85      0.85       150
weighted avg       0.85      0.85      0.85       150



Esse trecho de código gera previsões no conjunto de teste e exibe métricas de avaliação do modelo de classificação.

In [104]:
y_pred = bagging_classifier.predict(X_test)
print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       0.90      0.80      0.85        82
           1       0.79      0.90      0.84        68

    accuracy                           0.85       150
   macro avg       0.85      0.85      0.85       150
weighted avg       0.85      0.85      0.85       150



Esse trecho de código realiza validação cruzada para avaliar o desempenho do modelo bagging_classifier de forma mais robusta.

In [105]:
cv_scores = cross_val_score(bagging_classifier, X_train, y_train, cv=5)
print(f"cross validation scores: {cv_scores}")
print(f"Mean CV accuracy: {np.mean(cv_scores):.2f}")

cross validation scores: [0.77142857 0.91428571 0.85714286 0.88571429 0.84285714]
Mean CV accuracy: 0.85
