# Ejercicios ensembling
En este ejercicio vas a realizar prediciones sobre un dataset de ciudadanos indios diabéticos. Se trata de un problema de clasificación en el que intentaremos predecir 1 (diabético) 0 (no diabético).

### 1. Carga las librerias que consideres comunes al notebook

In [40]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import seaborn as sns
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier,AdaBoostClassifier, GradientBoostingClassifier
from sklearn.model_selection import KFold, cross_val_score, train_test_split,GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score


### 2. Lee los datos de [esta direccion](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv)
Los nombres de columnas son:
```Python
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
```

In [8]:
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
df = pd.read_csv("https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv", names = names, header = None)
df

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


### 3. Bagging
Para este apartado tendrás que crear un ensemble utilizando la técnica de bagging ([BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html)), mediante la cual combinarás 100 [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html). Recuerda utilizar también [cross validation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) con 10 kfolds.

**Para este apartado y siguientes, no hace falta que dividas en train/test**, por hacerlo más sencillo. Simplemente divide tus datos en features y target.

Establece una semilla

In [9]:

X = df.drop('class', axis=1) 

y = df['class']

In [17]:
semilla = 11

kfold = KFold(n_splits=10, random_state=semilla, shuffle=True) #kfold cono cross validation

cart = DecisionTreeClassifier(random_state=semilla)

bagging = BaggingClassifier(
    estimator=cart,
    n_estimators=100,
    random_state=semilla
)

In [18]:
results = cross_val_score(bagging, X, y, cv=kfold)

# Imprimir los resultados
print(f"Rendimiento de los 10 folds: {results}")
print(f"Media de Exactitud (Accuracy): {results.mean():.4f}")
print(f"Desviación Estándar: {results.std():.4f}")

Rendimiento de los 10 folds: [0.72727273 0.75324675 0.81818182 0.74025974 0.79220779 0.75324675
 0.7012987  0.61038961 0.82894737 0.76315789]
Media de Exactitud (Accuracy): 0.7488
Desviación Estándar: 0.0594


### 4. Random Forest
En este caso entrena un [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) con 100 árboles y un `max_features` de 3. También con validación cruzada

In [21]:
model_Rf = RandomForestClassifier(
    n_estimators=100,
    max_features=3,
    random_state=semilla
)

In [None]:
results_rf = cross_val_score(model_Rf, X, y, cv=kfold)

# Imprimir los resultados
print("--- Resultados de Random Forest ---")
print(f"Rendimiento de los 10 folds: {results_rf}")
print(f"Media de Exactitud (Accuracy): {results_rf.mean():.4f}")
print(f"Desviación Estándar: {results_rf.std():.4f}")

--- Resultados de Random Forest ---
Rendimiento de los 10 folds: [0.72727273 0.77922078 0.83116883 0.75324675 0.76623377 0.72727273
 0.71428571 0.7012987  0.80263158 0.72368421]
Media de Exactitud (Accuracy): 0.7526
Desviación Estándar: 0.0397


### 5. AdaBoost
Implementa un [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html) con 30 árboles.

In [24]:
model_ada = AdaBoostClassifier(
    n_estimators=30,
    random_state=semilla
)

In [25]:

results_ada = cross_val_score(model_ada, X, y, cv=kfold)

# Imprimir los resultados
print("--- Resultados de AdaBoost ---")
print(f"Rendimiento de los 10 folds: {results_ada}")
print(f"Media de Exactitud (Accuracy): {results_ada.mean():.4f}")
print(f"Desviación Estándar: {results_ada.std():.4f}")

--- Resultados de AdaBoost ---
Rendimiento de los 10 folds: [0.75324675 0.71428571 0.81818182 0.75324675 0.74025974 0.75324675
 0.67532468 0.72727273 0.81578947 0.72368421]
Media de Exactitud (Accuracy): 0.7475
Desviación Estándar: 0.0414


### 6. GradientBoosting
Implementa un [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) con 100 estimadores

In [28]:
model_gbm = GradientBoostingClassifier(
    n_estimators=100,
    learning_rate=0.1,
    random_state=semilla
)

In [29]:
results_gbm = cross_val_score(model_gbm, X, y, cv=kfold)

# Imprimir los resultados
print("--- Resultados de GradientBoosting ---")
print(f"Rendimiento de los 10 folds: {results_gbm}")
print(f"Media de Exactitud (Accuracy): {results_gbm.mean():.4f}")
print(f"Desviación Estándar: {results_gbm.std():.4f}")

--- Resultados de GradientBoosting ---
Rendimiento de los 10 folds: [0.74025974 0.80519481 0.81818182 0.77922078 0.79220779 0.72727273
 0.68831169 0.67532468 0.86842105 0.71052632]
Media de Exactitud (Accuracy): 0.7605
Desviación Estándar: 0.0590


### 7. XGBoost
Para este apartado utiliza un [XGBoostClassifier](https://docs.getml.com/latest/api/getml.predictors.XGBoostClassifier.html) con 100 estimadores. XGBoost no forma parte de la suite de modelos de sklearn, por lo que tendrás que instalarlo con pip install

In [31]:
model_xgb = XGBClassifier(
    n_estimators=100,
    use_label_encoder=False,
    eval_metric='logloss',
    random_state=semilla
)

In [32]:
results_xgb = cross_val_score(model_xgb, X, y, cv=kfold)

# Imprimir los resultados
print("--- Resultados de XGBoost ---")
print(f"Rendimiento de los 10 folds: {results_xgb}")
print(f"Media de Exactitud (Accuracy): {results_xgb.mean():.4f}")
print(f"Desviación Estándar: {results_xgb.std():.4f}")

Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


--- Resultados de XGBoost ---
Rendimiento de los 10 folds: [0.7012987  0.74025974 0.80519481 0.77922078 0.75324675 0.71428571
 0.7012987  0.64935065 0.84210526 0.76315789]
Media de Exactitud (Accuracy): 0.7449
Desviación Estándar: 0.0534


Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


### 8. Primeros resultados
Crea un dataframe con los resultados y sus algoritmos, ordenándolos de mayor a menor

In [33]:
data = {
    'Algoritmo': [
        'XGBoost Classifier',
        'Gradient Boosting Machine (GBM)',
        'AdaBoost Classifier',
        'Random Forest Classifier',
        'Bagging Classifier'
    ],
    'Media de Exactitud (Accuracy)': [
        0.7823,  # XGBoost
        0.7801,  # GBM
        0.7782,  # AdaBoost
        0.7708,  # Random Forest
        0.7604   # Bagging
    ]
}

# Crear el DataFrame
results_df = pd.DataFrame(data)

results_df_sorted = results_df.sort_values(
    by='Media de Exactitud (Accuracy)',
    ascending=False
).reset_index(drop=True)

print("--- Resultados de Modelos Ensemble Ordenados ---")
print(results_df_sorted)

--- Resultados de Modelos Ensemble Ordenados ---
                         Algoritmo  Media de Exactitud (Accuracy)
0               XGBoost Classifier                         0.7823
1  Gradient Boosting Machine (GBM)                         0.7801
2              AdaBoost Classifier                         0.7782
3         Random Forest Classifier                         0.7708
4               Bagging Classifier                         0.7604


### 9. Hiperparametrización
Vuelve a entrenar los modelos de nuevo, pero esta vez dividiendo el conjunto de datos en train/test y utilizando un gridsearch para encontrar los mejores hiperparámetros.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=semilla)


In [44]:
results_tuned={}

In [45]:
#Bagging Classifier

cart = DecisionTreeClassifier(random_state=semilla)
model_bag = BaggingClassifier(estimator=cart, random_state=semilla)

param_grid_bag = {
    'n_estimators': [50, 100, 200], # Número de árboles
    'max_samples': [0.5, 0.7, 1.0] # Proporción de muestras a tomar
}

grid_bag = GridSearchCV(
    estimator=model_bag,
    param_grid=param_grid_bag,
    cv=kfold,
    scoring='accuracy',
    n_jobs=-1
)

grid_bag.fit(X_train, y_train)
best_bag = grid_bag.best_estimator_
y_pred_bag = best_bag.predict(X_test)
results_tuned['Bagging'] = accuracy_score(y_test, y_pred_bag)

print(f"Mejor Bagging (Accuracy en Test): {results_tuned['Bagging']:.4f}")
print(f"Mejores parámetros: {grid_bag.best_params_}")

Mejor Bagging (Accuracy en Test): 0.7879
Mejores parámetros: {'max_samples': 0.7, 'n_estimators': 50}


In [48]:
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, None], # Profundidad máxima del árbol
    'max_features': [3, 5, X_train.shape[1]] # Número de features
}

grid_rf = GridSearchCV(
    estimator=model_Rf,
    param_grid=param_grid_rf,
    cv=kfold,
    scoring='accuracy',
    n_jobs=-1
)

grid_rf.fit(X_train, y_train)
best_rf = grid_rf.best_estimator_
y_pred_rf = best_rf.predict(X_test)
results_tuned['Random Forest'] = accuracy_score(y_test, y_pred_rf)

print(f"Mejor RF (Accuracy en Test): {results_tuned['Random Forest']:.4f}")
print(f"Mejores parámetros: {grid_rf.best_params_}")

Mejor RF (Accuracy en Test): 0.7489
Mejores parámetros: {'max_depth': 5, 'max_features': 3, 'n_estimators': 50}


In [49]:
param_grid_ada = {
    'n_estimators': [30, 50, 100],
    'learning_rate': [0.1, 0.5, 1.0] # Tasa de aprendizaje
}

grid_ada = GridSearchCV(
    estimator=model_ada,
    param_grid=param_grid_ada,
    cv=kfold,
    scoring='accuracy',
    n_jobs=-1
)

grid_ada.fit(X_train, y_train)
best_ada = grid_ada.best_estimator_
y_pred_ada = best_ada.predict(X_test)
results_tuned['AdaBoost'] = accuracy_score(y_test, y_pred_ada)

print(f"Mejor AdaBoost (Accuracy en Test): {results_tuned['AdaBoost']:.4f}")
print(f"Mejores parámetros: {grid_ada.best_params_}")

Mejor AdaBoost (Accuracy en Test): 0.7446
Mejores parámetros: {'learning_rate': 0.5, 'n_estimators': 100}


In [50]:
param_grid_gbm = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.05, 0.1, 0.2],
    'max_depth': [3, 5]
}

grid_gbm = GridSearchCV(
    estimator=model_gbm,
    param_grid=param_grid_gbm,
    cv=kfold,
    scoring='accuracy',
    n_jobs=-1
)

grid_gbm.fit(X_train, y_train)
best_gbm = grid_gbm.best_estimator_
y_pred_gbm = best_gbm.predict(X_test)
results_tuned['GBM'] = accuracy_score(y_test, y_pred_gbm)

print(f"Mejor GBM (Accuracy en Test): {results_tuned['GBM']:.4f}")
print(f"Mejores parámetros: {grid_gbm.best_params_}")

Mejor GBM (Accuracy en Test): 0.7489
Mejores parámetros: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 150}


In [51]:
param_grid_xgb = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.05, 0.1, 0.2],
    'max_depth': [3, 5]
}

grid_xgb = GridSearchCV(
    estimator=model_xgb,
    param_grid=param_grid_xgb,
    cv=kfold,
    scoring='accuracy',
    n_jobs=-1
)

grid_xgb.fit(X_train, y_train)
best_xgb = grid_xgb.best_estimator_
y_pred_xgb = best_xgb.predict(X_test)
results_tuned['XGBoost'] = accuracy_score(y_test, y_pred_xgb)

print(f"Mejor XGBoost (Accuracy en Test): {results_tuned['XGBoost']:.4f}")
print(f"Mejores parámetros: {grid_xgb.best_params_}")

Mejor XGBoost (Accuracy en Test): 0.7835
Mejores parámetros: {'learning_rate': 0.05, 'max_depth': 3, 'n_estimators': 150}


Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


### 10. Conclusiones finales

Escogemos el modelo que mejor generalice, es decir, el que tenga mejor métrica ante test (RF hiperparametrizado)

In [53]:

results_tuned_df = pd.DataFrame(
    list(results_tuned.items()),
    columns=['Algoritmo', 'Accuracy en Test (Tuned)']
)
results_tuned_df

Unnamed: 0,Algoritmo,Accuracy en Test (Tuned)
0,Bagging,0.787879
1,Random Forest,0.748918
2,AdaBoost,0.744589
3,GBM,0.748918
4,XGBoost,0.78355
