![image info](https://raw.githubusercontent.com/albahnsen/MIAD_ML_and_NLP/main/images/banner_1.png)

# Taller: Construcción e implementación de árboles de decisión y métodos de ensamblaje

En este taller podrá poner en práctica los sus conocimientos sobre construcción e implementación de árboles de decisión y métodos de ensamblajes. El taller está constituido por 9 puntos, 5 relacionados con árboles de decisión (parte A) y 4 con métodos de ensamblaje (parte B).

## Parte A - Árboles de decisión

En esta parte del taller se usará el conjunto de datos de Capital Bikeshare de Kaggle, donde cada observación representa el alquiler de bicicletas durante una hora y día determinado. Para más detalles puede visitar los siguientes enlaces: [datos](https://archive.ics.uci.edu/ml/machine-learning-databases/00275/Bike-Sharing-Dataset.zip), [dicccionario de datos](https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset#).

### Datos prestamo de bicicletas

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Importación de librerías
%matplotlib inline
import pandas as pd
import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor, export_graphviz

In [None]:
# Lectura de la información de archivo .csv
bikes = pd.read_csv('https://raw.githubusercontent.com/davidzarruk/MIAD_ML_NLP_2023/main/datasets/bikeshare.csv', index_col='datetime', parse_dates=True)

# Renombrar variable "count" a "total"
bikes.rename(columns={'count':'total'}, inplace=True)

# Crear la hora como una variable 
bikes['hour'] = bikes.index.hour

# Visualización de los datos
bikes.head()

### Punto 1 - Análisis descriptivo

Ejecute las celdas 1.1 y 1.2. A partir de los resultados realice un análisis descriptivo sobre las variables "season" y "hour", escriba sus inferencias sobre los datos. Para complementar su análisis puede usar métricas como máximo, mínimo, percentiles entre otros.

In [None]:
# Celda 1.1
bikes.groupby('season').total.mean()


In [None]:
# Frecuencia de cada estación
station_counts = bikes['season'].value_counts()
print("la frecuencia de cada estación es: "+ str (station_counts))
import matplotlib.pyplot as plt
# Crear el histograma
plt.bar(station_counts.index, station_counts.values)

# Agregar etiquetas y título
plt.xlabel('Estación')
plt.ylabel('Frecuencia')
plt.title('Frecuencia de Estaciones del Año')

# Mostrar el gráfico
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Crear el diagrama de cajas
plt.figure(figsize=(8, 6))
sns.boxplot(x='season', y='total', data=bikes)

# Agregar etiquetas y título
plt.xlabel('Estación del Año')
plt.ylabel('Cantidad Total de Bicicletas Alquiladas')
plt.title('Diagrama de Caja de Alquiler de Bicicletas por Estación del Año')

# Mostrar el gráfico
plt.show()

### Análisis descriptivo variable "season":
A partir del diccionario sabemos que la variable contiene 4 categorías (1:winter, 2:spring, 3:summer, 4:fall), el analisis preliminar permite saber que en verano se tiene el mayor promedio de alquiler de bicicletas, mientras que en invierno este promedio es el mas bajo, siendo un poco menos de la mitad del promedio de alquileres de verano. 
El análisis de la frecuencia de la variable season sugiere que los datos tienen una distribucion relativamente uniforme o equilibrada entre estaciones.
El análisis de cajas y bigotes para la cantidad de bicicletas alquiladas por estación, muestra la presencia de datos atípicos.

In [None]:
# Celda 1.2
bikes.groupby('hour').total.mean()

In [None]:
# Calcular el promedio de la variable 'total' agrupado por la variable 'hour'
hourly_mean = bikes.groupby('hour')['total'].mean()

# Imprimir estadísticas descriptivas
print("Estadísticas Descriptivas de la Cantidad Total de Bicicletas Alquiladas por Hora:")
print(hourly_mean.describe())

In [None]:
#diagrama de caja para Hour
# Crear el diagrama de caja
plt.figure(figsize=(10, 6))
sns.boxplot(x='hour', y='total', data=bikes)

# Agregar etiquetas y título
plt.xlabel('Hora del Día')
plt.ylabel('Cantidad Total de Bicicletas Alquiladas')
plt.title('Diagrama de Caja de Alquiler de Bicicletas por Hora del Día')

# Rotar etiquetas del eje x para mayor legibilidad
plt.xticks(rotation=45)

# Mostrar el gráfico
plt.show()

### Análisis descriptivo de "hour"
La variable hour contiene informacion de las horas de alquiler de las bicicletas, se puede ver que la hora con mayor cantidad de bicicletas alquiladas es aproximadamente 469 bicicletas, esto sucede a las 17 horas, la minima cantidad de bicicletas alquiladas es aproximadamente 6 y ocurre a las 4 de la mañana, el promedio de bicicletas alquiladas por hora es 191 con una desviación estándar de 133, lo que implica que los datos son muy variados en lo que respecta al total de bicicletas alquiladas por hora. El 75% de los valores del total de bicicletas alquiladas por hora está por debajo de 257 y el 25% por debajo de  71 bicicletas alquiladas por hora. Por último se puede ver que el 50% de las horas tienen un total de bicicletas alquiladas igual o menor que  212.
Finalmente podemos observar que algunas horas, especialmente las de menor cantidad de bicicletas alquiladas presentan datos atípicos.

### Punto 2 - Análisis de gráficos

Primero ejecute la celda 2.1 y asegúrese de comprender el código y el resultado. Luego, en cada una de celdas 2.2 y 2.3 escriba un código que genere una gráfica del número de bicicletas rentadas promedio para cada valor de la variable "hour" (hora) cuando la variable "season" es igual a 1 (invierno) e igual a 3 (verano), respectivamente. Analice y escriba sus hallazgos.

In [None]:
# Celda 2.1 - rentas promedio para cada valor de la variable "hour"
bikes.groupby('hour').total.mean().plot()

In [None]:
# Celda 2.2 - "season"=1 escriba su código y hallazgos 
# renta de Bicicletas en Invierno
# Se filtra el DataFrame para incluir solo las filas donde "season" sea igual a 1
bikes_season_1 = bikes[bikes['season'] == 1]

# Calcular la renta promedio para cada valor de la variable "hour" en los datos filtrados
rentas_promedio_season_1 = bikes_season_1.groupby('hour')['total'].mean()

# Graficar los resultados
rentas_promedio_season_1.plot()


In [None]:
# Celda 2.3 - "season"=3 escriba su código y hallazgos 
# Filtrar el DataFrame para incluir solo las filas donde "season" sea igual a 3
bikes_season_2 = bikes[bikes['season'] == 3]

# Calcular la renta promedio para cada valor de la variable "hour" en los datos filtrados
rentas_promedio_season_2 = bikes_season_2.groupby('hour')['total'].mean()

# Graficar los resultados
rentas_promedio_season_2.plot()

### Hallazgos del punto 2
- En el gráfico de la celda 2.1 se puede observar cómo se distribuye el numero promedio de bicicletas rentadas por hora, podemos notar que este promedio es menor en las primeras horas del día y al final del día, con los picos entre las 5 y 10 am y en la tarde entre las 15 y las primeras horas de la noche, se puede observar la influencia del máximo encontrado en los datos analizados en el punto 1 a las 17 horas.
- Gráfico de la celda 2.2 (Invierno) : en el invierno el comportamiento general de variabilidad de renta promedio de bicicletas gráficamente es semejante al 2.1, sin embargo los rango son mucho más bajos, disminuye notablemente en invierno el promedio de bicicletas rentadas. El pico de renta que se encontraba en la mañana en por encima de 300 en el gráfico de 2.1, en invierno se sitúa por debajo de 250, gual pasa con la cantidad de bicicletas rentadas en las horas de la tarde.
- Gráfico 2.3 (Verano): En verano,se encuentran los mayores promedio de bicicletas rentadas por hora, con el pico mas alto en las horas de la tarde, el cual se encuentra por encima de 500, superando al encontrado en el gráfico del total (celda 2.1). Lo mismo ocurre con el pico de renta promedio situado entre las 5 y 10 am, el cual se encuentra por encima de los dos gráficos anteriores. Al igual que en los dos gráficos anteriores, los valores más bajos se encuentran entre las 0 y 5 horas y despues de las 20 horas.

### Punto 3 - Regresión lineal
En la celda 3 ajuste un modelo de regresión lineal a todo el conjunto de datos, utilizando "total" como variable de respuesta y "season" y "hour" como las únicas variables predictoras, teniendo en cuenta que la variable "season" es categórica. Luego, imprima los coeficientes e interprételos. ¿Cuáles son las limitaciones de la regresión lineal en este caso?

In [None]:
# Celda 3
from sklearn.linear_model import LinearRegression

# Obtener las variables predictoras y la variable de respuesta
X = bikes[['season', 'hour']]
y = bikes['total']

# Ajustar el modelo de regresión lineal
model = LinearRegression()
model.fit(X, y)

# Coeficientes del modelo
coef_season = model.coef_[0]  # Coeficiente para 'season'
coef_hour = model.coef_[1]    # Coeficiente para 'hour'
intercepto = model.intercept_  # Término independiente

print("Coeficientes del modelo:")
print("Coeficiente para 'season':", coef_season)
print("Coeficiente para 'hour':", coef_hour)
print("Intercepto:", intercepto)
from sklearn.metrics import mean_squared_error, r2_score

# Hacer predicciones con el modelo de regresión lineal
predictions = model.predict(X)

# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y, predictions)
print("R^2 Score:", r2)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y, predictions)
print("Mean Squared Error:", mse)
mae = np.mean(np.abs(y, predictions))
print("MAE:", mae)


In [None]:
from scipy.stats import f_oneway
#prueba para mirar la linealidad de la relación entre estaciones y promedio de renta de bicicletas
# Dividir los datos en grupos según la estación del año
winter_rentals = bikes[bikes['season'] == 1]['total']
spring_rentals = bikes[bikes['season'] == 2]['total']
summer_rentals = bikes[bikes['season'] == 3]['total']
fall_rentals = bikes[bikes['season'] == 4]['total']

# Realizar la prueba ANOVA si p es <0.05 indica diferencia significativa
anova_results = f_oneway(winter_rentals, spring_rentals, summer_rentals, fall_rentals)

# Imprimir el resultado
print("Valor p de la prueba ANOVA:", anova_results.pvalue)
import matplotlib.pyplot as plt

# Calcular la cantidad promedio de bicicletas alquiladas para cada estación del año
mean_rentals_by_season = bikes.groupby('season')['total'].mean()

# Crear el gráfico de barras
plt.bar(mean_rentals_by_season.index, mean_rentals_by_season)
plt.xlabel('Estación del Año')
plt.ylabel('Cantidad Promedio de Bicicletas Alquiladas')
plt.title('Cantidad Promedio de Bicicletas Alquiladas por Estación del Año')
plt.xticks([1, 2, 3, 4], ['Invierno', 'Primavera', 'Verano', 'Otoño'])

# Mostrar el gráfico
plt.show()

### Interpretación resultados punto 3
Para este caso puede interpretarse el coeficiente para "Hour" como que en promedio por cada hora adicional se aumente el numero de bicicletas rentadas en 10.5 unidades manteniendo constante la estación del año.
Para el caso de la variable "Season", los resultados del modelo de regresión lineal indican que hay un aumento de 26.9 unidades de bicicletas rentadas, manteniendo constante la variable hour. Sin embargo al tener en cuenta que las categorías (1, 2, 3 y 4) correspondientes a las estaciones del año (invierno, primavera, verano y otoño) respectivamente, no varian de manera lineal con el numero de bicicletas alquiladas. Por lo tanto no puede afirmarse que cuando pasamos de una estación a otra, las bicicletas alquiladas aumentan en un numero fijo, esto tambien se puede ver en el gráfico de promedios de bicicletas alquiladas por estacion por año. 
El hecho de la relacion no lineal mencionada, limita la utilidad de un modelo de regresión lineal para este caso y sería mejor indagar con otros modelos que puedan reflejar mejor la complejidad de la relación entre estas variables.

### Punto 4 - Árbol de decisión manual
En la celda 4 cree un árbol de decisiones para pronosticar la variable "total" iterando **manualmente** sobre las variables "hour" y  "season". El árbol debe tener al menos 6 nodos finales.

In [None]:
# Celda 4
from sklearn.model_selection import train_test_split

# Seleccionamos las variables predictoras (X) y la variable objetivo (y)
X = bikes[['hour', 'season']]
y = bikes['total']
# Definición de parámetros y criterios de parada
max_depth = None  # Profundidad máxima del árbol. None significa que los nodos se expanden hasta que todas las hojas sean puras o hasta que contengan menos ejemplos que min_samples_split.
num_pct = 10  # Número de puntos de corte a considerar al dividir un nodo.
max_features = None  # Número de características a considerar al buscar la mejor división. None significa que se usarán todas las características.
min_gain = 0.001  # Ganancia mínima requerida para dividir un nodo.

#funcion para calcular el Gini Index
def gini(y):
    if y.shape[0] == 0:
        return 0
    else:
        return 1 - (y.mean()**2 + (1 - y.mean())**2)

# Definición de la función gini_imputiry para calular la ganancia de una variable predictora j dado el punto de corte k
def gini_impurity(X_col, y, split):
    filter_l = X_col < split
    y_l = y.loc[filter_l]
    y_r = y.loc[~filter_l]
    
    n_l = y_l.shape[0]
    n_r = y_r.shape[0]
    
    gini_y = gini(y)
    gini_l = gini(y_l)
    gini_r = gini(y_r)
    
    gini_impurity_ = gini_y - (n_l / (n_l + n_r) * gini_l + n_r / (n_l + n_r) * gini_r)
    
    return gini_impurity_

import numpy as np

def best_split(X, y, num_pct=10):
    features = range(X.shape[1])
    best_split = [0, 0, 0]  # j, split, gain

    # Para todas las variables
    for j in features:
        splits = np.percentile(X.iloc[:, j], np.arange(0, 100, 100.0 / (num_pct+1)).tolist())
        splits = np.unique(splits)[1:]

        # Para cada partición
        for split in splits:
            gain = gini_impurity(X.iloc[:, j], y, split)
            
            if gain > best_split[2]:
                best_split = [j, split, gain]
    
    return best_split

In [None]:
# Obtención de la variable 'j', su punto de corte 'split' y su ganancia 'gain'
j, split, gain = best_split(X, y, 5)
j, split, gain

In [None]:
# División de las observaciones usando la mejor variable 'j' y su punto de corte 'split'
filter_l = X.iloc[:, j] < split

y_l = y.loc[filter_l]
y_r = y.loc[~filter_l]

In [None]:
y.shape[0], y_l.shape[0], y_r.shape[0]
y.mean(), y_l.mean(), y_r.mean()

In [None]:
def tree_grow(X, y, level=0, min_gain=0.001, max_depth=None, min_leaf_nodes=6, num_pct=10):
    
    # Si solo es una observación
    if X.shape[0] == 1:
        tree = dict(y_pred=y.iloc[:1].values[0], y_prob=0.5, level=level, split=-1, n_samples=1, gain=0)
        return tree
    
    # Calcular la mejor división
    j, split, gain = best_split(X, y, num_pct)
    
    # Guardar el árbol y estimar la predicción
    y_pred = int(y.mean() >= 0.5) 
    y_prob = (y.sum() + 1.0) / (y.shape[0] + 2.0)  # Corrección Laplace 
    
    tree = dict(y_pred=y_pred, y_prob=y_prob, level=level, split=-1, n_samples=X.shape[0], gain=gain)
    # Revisar el criterio de parada 
    if gain < min_gain or X.shape[0] < min_leaf_nodes:
        return tree
    if max_depth is not None:
        if level >= max_depth:
            return tree   
    
    # Continuar creando la partición
    filter_l = X.iloc[:, j] < split
    X_l, y_l = X.loc[filter_l], y.loc[filter_l]
    X_r, y_r = X.loc[~filter_l], y.loc[~filter_l]
    tree['split'] = [j, split]

    # Siguiente iteración para cada partición
    
    tree['sl'] = tree_grow(X_l, y_l, level + 1, min_gain=min_gain, max_depth=max_depth, min_leaf_nodes=min_leaf_nodes, num_pct=num_pct)
    tree['sr'] = tree_grow(X_r, y_r, level + 1, min_gain=min_gain, max_depth=max_depth, min_leaf_nodes=min_leaf_nodes, num_pct=num_pct)
    
    return tree

# Aplicación de la función tree_grow
tree_grow(X, y, level=0, min_gain=0.001, max_depth=3, num_pct=10)

### Punto 5 - Árbol de decisión con librería
En la celda 5 entrene un árbol de decisiones con la **librería sklearn**, usando las variables predictoras "season" y "hour" y calibre los parámetros que considere conveniente para obtener un mejor desempeño. Recuerde dividir los datos en conjuntos de entrenamiento y validación para esto. Comente el desempeño del modelo con alguna métrica de desempeño de modelos de regresión y compare desempeño con el modelo del punto 3.

In [None]:
# Celda 5
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

# Dividir los datos en conjuntos de entrenamiento y validación
X_train, X_val, y_train, y_val = train_test_split(bikes[['season', 'hour']], bikes['total'], test_size=0.2, random_state=42)

# Instanciar el modelo de árbol de decisiones
tree_reg = DecisionTreeRegressor(max_depth=3, min_samples_leaf=5, random_state=42)

# Ajustar el modelo a los datos de entrenamiento
tree_reg.fit(X_train, y_train)

# Hacer predicciones en los datos de validación
predictions = tree_reg.predict(X_val)

# Evaluar el desempeño del modelo utilizando MSE
mse = mean_squared_error(y_val, predictions)
print("Mean Squared Error:", mse)
import numpy as np

# Calcular el MAE
mae = np.mean(np.abs(y_val - predictions))
print("MAE:", mae)

# otra métrica de regresión es el coeficiente de determinación (R^2)
r2 = tree_reg.score(X_val, y_val)
print("R^2 Score:", r2)


Respecto al modelo del punto 3, presenta un MSE menor, también el MAE es aproximadamente la mitad del estimado y el coeficiente de determinación (R^2) también presenta una notable mejora, aumentando al doble. estos valores indican que el modelo del punto 5 presenta un mejor desempeño que el del punto 3. el valor del coeficiente de determinación indica que el modelo explica el 45.8% de la varianza en el promedio total de bicicletas rentadas y el MAE indica que en promedio las predicciones difieren de los datos reales en aproximadamente 92 bicicletas.

Valores obtenidos en punto 3
R^2 Score: 0.18805882759715697
Mean Squared Error: 26640.03254457677
MAE: 191.57413191254824

## Parte B - Métodos de ensamblajes
En esta parte del taller se usará el conjunto de datos de Popularidad de Noticias Online. El objetivo es predecir si la notica es popular o no, la popularidad está dada por la cantidad de reacciones en redes sociales. Para más detalles puede visitar el siguiente enlace: [datos](https://archive.ics.uci.edu/ml/datasets/online+news+popularity).

### Datos popularidad de noticias

In [None]:
# Lectura de la información de archivo .csv
df = pd.read_csv('https://raw.githubusercontent.com/davidzarruk/MIAD_ML_NLP_2023/main/datasets/mashable.csv', index_col=0)
df.head()

In [None]:
# Definición variable de interes y variables predictoras
X = df.drop(['url', 'Popular'], axis=1)
y = df['Popular']
y.mean()

In [None]:
# División de la muestra en set de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

### Punto 6 - Árbol de decisión y regresión logística
En la celda 6 construya un árbol de decisión y una regresión logística. Para el árbol calibre al menos un parámetro y evalúe el desempeño de cada modelo usando las métricas de Accuracy y F1-Score.

In [None]:
# Celda 6
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Instanciar y entrenar el modelo de árbol de decisión
tree_model = DecisionTreeClassifier(max_depth=5)
tree_model.fit(X_train, y_train)

# Realizar predicciones con el modelo de árbol de decisión
tree_predictions = tree_model.predict(X_test)

# Calcular la precisión y el F1-score del árbol de decisión
tree_accuracy = accuracy_score(y_test, tree_predictions)
tree_f1 = f1_score(y_test, tree_predictions)

# Instanciar y entrenar el modelo de regresión logística
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)

# Realizar predicciones con el modelo de regresión logística
logistic_predictions = logistic_model.predict(X_test)

# Calcular la precisión y el F1-score de la regresión logística
logistic_accuracy = accuracy_score(y_test, logistic_predictions)
logistic_f1 = f1_score(y_test, logistic_predictions)

# Mostrar los resultados
print("Resultados del árbol de decisión:")
print("Accuracy:", tree_accuracy)
print("F1-score:", tree_f1)
print("\nResultados de la regresión logística:")
print("Accuracy:", logistic_accuracy)
print("F1-score:", logistic_f1)

Se encontraron resultados semejantes para los dos metodos teniendo en cuenta que el parámetro escogido en el caso del arbol fue max_depth=5 (profundidad máxima del árbol). En detalle se puede decir que el árbol tiene un mejor accuracy, es decir predice ligeramente mejor las noticias que realmente son populares de acuerdo a las reacciones en redes sociales, respecto al F1-score la diferencia tampoco es muy notable, sin embargo estan mejor los resultados del arbol de decisión en cuanto a su equilibrio entre precisión y sensibilidad. Cabe resaltar que el F1_score ayuda a entender el rendimiento del modelo incluso si las clases estuvieran desbalanceadas.

### Punto 7 - Votación Mayoritaria
En la celda 7 elabore un esamble con la metodología de **Votación mayoritaria** compuesto por 300 muestras bagged donde:

-las primeras 100 muestras vienen de árboles de decisión donde max_depth tome un valor de su elección\
-las segundas 100 muestras vienen de árboles de decisión donde min_samples_leaf tome un valor de su elección\
-las últimas 100 muestras vienen de regresiones logísticas

Evalúe cada uno de los tres modelos de manera independiente utilizando las métricas de Accuracy y F1-Score, luego evalúe el ensamble de modelos y compare los resultados. 

Nota: 

Para este ensamble de 300 modelos, deben hacer votación mayoritaria. Esto lo pueden hacer de distintas maneras. La más "fácil" es haciendo la votación "manualmente", como se hace a partir del minuto 5:45 del video de Ejemplo práctico de emsablajes en Coursera. Digo que es la más fácil porque si hacen la votación mayoritaria sobre las 300 predicciones van a obtener lo que se espera.

Otra opción es: para cada uno de los 3 tipos de modelos, entrenar un ensamble de 100 modelos cada uno. Predecir para cada uno de esos tres ensambles y luego predecir como un ensamble de los 3 ensambles. La cuestión es que la votación mayoritaria al usar los 3 ensambles no necesariamente va a generar el mismo resultado que si hacen la votación mayoritaria directamente sobre los 300 modelos. Entonces, para los que quieran hacer esto, deben hacer ese último cálculo con cuidado.

Para los que quieran hacerlo como ensamble de ensambles, digo que se debe hacer el ensamble final con cuidado por lo siguiente. Supongamos que:

* para los 100 árboles del primer tipo, la votación mayoritaria es: 55% de los modelos predicen que la clase de una observación es "1"
* para los 100 árboles del segundo tipo, la votación mayoritaria es: 55% de los modelos predicen que la clase de una observación es "1"
* para las 100 regresiones logísticas, la votación mayoritaria es: 10% de los modelos predicen que la clase de una observación es "1"

Si se hace la votación mayoritaria de los 300 modelos, la predicción de esa observación debería ser: (100*55%+100*55%+100*10%)/300 = 40% de los modelos votan porque la predicción debería ser "1". Es decir, la predicción del ensamble es "0" (dado que menos del 50% de modelos predijo un 1).

Sin embargo, si miramos cada ensamble por separado, el primer ensamble predice "1", el segundo ensamble predice "1" y el último ensamble predice "0". Si hago votación mayoritaria sobre esto, la predicción va a ser "1", lo cual es distinto a si se hace la votación mayoritaria sobre los 300 modelos.

In [None]:
# Celda 7
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import VotingClassifier
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear modelos de árboles de decisión con max_depth=5
decision_trees_max_depth = [
    ('decision_tree_max_depth_' + str(i), DecisionTreeClassifier(max_depth=5)) for i in range(100)
]

# Crear modelos de árboles de decisión con min_samples_leaf=5
decision_trees_min_samples_leaf = [
    ('decision_tree_min_samples_leaf_' + str(i), DecisionTreeClassifier(min_samples_leaf=5)) for i in range(100)
]

# Crear modelos de regresión logística
logistic_reg_models = [
    ('logistic_regression_' + str(i), LogisticRegression(max_iter=1000)) for i in range(100)
]

# Unir todos los modelos en una sola lista
all_models = decision_trees_max_depth + decision_trees_min_samples_leaf + logistic_reg_models

# Crear el ensamble utilizando la metodología de votación mayoritaria
ensemble = VotingClassifier(estimators=all_models, voting='hard')

# Entrenar el ensamble
ensemble.fit(X_train, y_train)

# Evaluar el ensamble
y_pred_ensemble = ensemble.predict(X_test)
accuracy_ensemble = accuracy_score(y_test, y_pred_ensemble)
f1_ensemble = f1_score(y_test, y_pred_ensemble)
print("\nResultados del ensamble:")
print(f"Accuracy = {accuracy_ensemble:.4f}, F1-Score = {f1_ensemble:.4f}")

In [None]:
# Evaluación de cada modelo individualmente
def evaluate_model(model, X_train, X_test, y_train, y_test):
    model_name, model_instance = model
    model_instance.fit(X_train, y_train)
    y_pred = model_instance.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    print(f"Modelo {model_name}: Accuracy = {accuracy:.4f}, F1-Score = {f1:.4f}")

# Calcular y mostrar las métricas para cada modelo
for model in all_models:
    evaluate_model(model, X_train, X_test, y_train, y_test)

Los resultados indican que el ensamblaje genera un rendimiento ligeramente mejor o similar a los que presentan los diferentes modelos evaluados por medio de la exactitud y el F1-score.Sin embargo en cuanto al F1-Score los resultados son algo inferiores a los obtenidos con un arbol de decision variando la profundidad máxima.

### Punto 8 - Votación Ponderada
En la celda 8 elabore un ensamble con la metodología de **Votación ponderada** compuesto por 300 muestras bagged para los mismos tres escenarios del punto 7. Evalúe los modelos utilizando las métricas de Accuracy y F1-Score

In [None]:
# Celda 8
from sklearn.ensemble import BaggingClassifier

# Unir todos los modelos en una sola lista
all_models = decision_trees_max_depth + decision_trees_min_samples_leaf + logistic_reg_models

# Crear el clasificador de votación ponderada
voting_clf = VotingClassifier(estimators=all_models, voting='soft')

# Crear el clasificador bagged para el ensamble
bagging_clf = BaggingClassifier(base_estimator=voting_clf, n_estimators=300, random_state=42)

# Entrenar el modelo de ensamble
bagging_clf.fit(X_train, y_train)

# Predecir con el modelo de ensamble en el conjunto de prueba
y_pred = bagging_clf.predict(X_test)

# Calcular métricas de evaluación
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average='macro')

print("Accuracy del modelo de ensamble:", accuracy)
print("F1-Score del modelo de ensamble:", f1)


### Punto 9 - Comparación y análisis de resultados
En la celda 9 comente sobre los resultados obtenidos con las metodologías usadas en los puntos 7 y 8, compare los resultados y enuncie posibles ventajas o desventajas de cada una de ellas.

In [None]:
# Celda 9