<a href="https://colab.research.google.com/github/andres-merino/AprendizajeAutomaticoInicial-05-N0105/blob/main/2-Notebooks/17_2-Boosting-Bagging.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<table style="border: none; border-collapse: collapse;">
    <tr>
        <td style="width: 20%; vertical-align: middle; padding-right: 10px;">
            <img src="https://i.imgur.com/nt7hloA.png" width="100">
        </td>
        <td style="width: 2px; text-align: center;">
            <font color="#0030A1" size="7">|</font><br>
            <font color="#0030A1" size="7">|</font>
        </td>
        <td>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="5">
                <b>Escuela de Ciencias Físicas y Matemática</b>
            </font> </p>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="4">
                Aprendizaje Automático Inicial &bull; Bosques Aleatorios
            </font></p>
            <p style="font-style: oblique;"><font color="#0030A1" size="3">
                Andrés Merino &bull; 2024-02
            </font></p>
        </td>  
    </tr>
</table>

---
## <font color='264CC7'> Introducción </font>

Este notebook está diseñado como una guía introductoria para implementar bosques aleatorios en Python. 



Los paquetes necesarios son:

In [1]:
import pandas as pd  # Manejo de datos
import matplotlib.pyplot as plt  # Visualización
import numpy as np

from sklearn.model_selection import train_test_split # División de datos
from sklearn.metrics import mean_squared_error, accuracy_score, confusion_matrix, classification_report

from sklearn.ensemble import BaggingClassifier, GradientBoostingClassifier


---
## <font color='264CC7'> Ejemplo práctico </font>


### <font color='264CC7'> Preprocesamiento de datos </font>

Primero leamos los datos y seleccionemos las columnas que utilizaremos:

In [2]:
# Leer los datos
data = pd.read_csv('https://raw.githubusercontent.com/andres-merino/AprendizajeAutomaticoInicial-05-N0105/refs/heads/main/2-Notebooks/datos/Pokemon.csv')
# Tomo las columnas de interés
numeric_cols = ['Attack', 'Defense', 'Speed', 'Sp. Atk', 'Sp. Def', 'HP']
class_col = ['Stage']
data = data[['Name', *numeric_cols, *class_col]]
# Muestro los primeros registros
display(data.head())

Unnamed: 0,Name,Attack,Defense,Speed,Sp. Atk,Sp. Def,HP,Stage
0,Bulbasaur,49,49,45,65,65,45,1
1,Ivysaur,62,63,60,80,80,60,2
2,Venusaur,82,83,80,100,100,80,3
3,Charmander,52,43,65,60,50,39,1
4,Charmeleon,64,58,80,80,65,58,2


Revisemos los datos:

In [3]:
data.describe()

Unnamed: 0,Attack,Defense,Speed,Sp. Atk,Sp. Def,HP,Stage
count,151.0,151.0,151.0,151.0,151.0,151.0,151.0
mean,72.549669,68.225166,68.933775,67.139073,66.019868,64.211921,1.582781
std,26.596162,26.916704,26.74688,28.534199,24.197926,28.590117,0.676832
min,5.0,5.0,15.0,15.0,20.0,10.0,1.0
25%,51.0,50.0,46.5,45.0,49.0,45.0,1.0
50%,70.0,65.0,70.0,65.0,65.0,60.0,1.0
75%,90.0,84.0,90.0,87.5,80.0,80.0,2.0
max,134.0,180.0,140.0,154.0,125.0,250.0,3.0


Dividimos los datos en los conjuntos de entrenamiento y prueba.

In [4]:
X = data[numeric_cols]

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, data['Stage'], test_size=0.2, random_state=42, stratify=data['Stage'])

### <font color='264CC7'> Modelo Bagging </font>

Entrenamos el modelo:

In [5]:
# Crear y entrenar un arbol con ganancia de información
modelo = BaggingClassifier()
modelo.fit(X_train, y_train)

Revisamos la precisión del modelo:

In [6]:
# Realizar predicciones y evaluar el modelo
y_pred = modelo.predict(X_test)

# Precisión del modelo con dos decimales
accuracy = round(accuracy_score(y_test, y_pred), 2)
print("Precisión del modelo:", accuracy)

# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusión:")
print(cm)

# Reporte de clasificación
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))


Precisión del modelo: 0.77
Matriz de confusión:
[[12  3  1]
 [ 1 11  0]
 [ 0  2  1]]
Reporte de clasificación:
              precision    recall  f1-score   support

           1       0.92      0.75      0.83        16
           2       0.69      0.92      0.79        12
           3       0.50      0.33      0.40         3

    accuracy                           0.77        31
   macro avg       0.70      0.67      0.67        31
weighted avg       0.79      0.77      0.77        31



<div style="background-color: #edf1f8; border-color: #264CC7; border-left: 5px solid #264CC7; padding: 0.5em;">
<strong>Ejercicio:</strong><br>
Ajusta el hiperparámetro `n_estimators` a 100 y analiza el impacto en la precisión.
</div>
</br>

### <font color='264CC7'> Modelo Boosting </font>

Entrenamos el modelo:

In [7]:
# Crear y entrenar un arbol con ganancia de información
modelo = GradientBoostingClassifier()
modelo.fit(X_train, y_train)

Revisamos la precisión del modelo:

In [8]:
# Realizar predicciones y evaluar el modelo
y_pred = modelo.predict(X_test)

# Precisión del modelo con dos decimales
accuracy = round(accuracy_score(y_test, y_pred), 2)
print("Precisión del modelo:", accuracy)

# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusión:")
print(cm)

# Reporte de clasificación
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))


Precisión del modelo: 0.77
Matriz de confusión:
[[12  4  0]
 [ 1 10  1]
 [ 0  1  2]]
Reporte de clasificación:
              precision    recall  f1-score   support

           1       0.92      0.75      0.83        16
           2       0.67      0.83      0.74        12
           3       0.67      0.67      0.67         3

    accuracy                           0.77        31
   macro avg       0.75      0.75      0.74        31
weighted avg       0.80      0.77      0.78        31



<div style="background-color: #edf1f8; border-color: #264CC7; border-left: 5px solid #264CC7; padding: 0.5em;">
<strong>Ejercicio:</strong><br>
Ajusta el hiperparámetro `n_estimators` a 100 y analiza el impacto en la precisión.
</div>
</br>