# Ejercicios ensembling
En este ejercicio vas a realizar prediciones sobre un dataset de ciudadanos indios diabéticos. Se trata de un problema de clasificación en el que intentaremos predecir 1 (diabético) 0 (no diabético).

### Lee los datos de [esta direccion](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv)
Los nombres de columnas son:
```Python
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
```

### Bagging
Para este apartado tendrás que crear un ensemble utilizando la técnica de bagging ([BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html)), mediante la cual combinarás 100 [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html). Recuerda utilizar también [cross validation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) con 10 kfolds.

**Para este apartado y siguientes, no hace falta que dividas en train/test**, por hacerlo más sencillo. Simplemente divide tus datos en features y target.

Establece una semilla

### Random Forest
En este caso entrena un [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) con 100 árboles y un `max_features` de 3. También con validación cruzada

### AdaBoost
Implementa un [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html) con 30 árboles.

### GradientBoosting
Implementa un [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) con 100 estimadores

### XGBoost
Para este apartado utiliza un [XGBoostClassifier](https://docs.getml.com/latest/api/getml.predictors.XGBoostClassifier.html) con 100 estimadores. XGBoost no forma parte de la suite de modelos de sklearn, por lo que tendrás que instalarlo con pip install

### Primeros resultados
Crea un dataframe con los resultados y sus algoritmos, ordenándolos de mayor a menor 

In [16]:
import pandas as pd

# Cargar los datos
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" 

# Leer el archivo CSV desde la URL 
data = pd.read_csv(url, header=None)

# Asignar nombres de columnas
data.columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] 

# Guardar el archivo CSV localmente
data.to_csv("pima-indians-diabetes.csv", index=False, header=False)

# Mostrar las primeras filas del dataframe
print(data.head()) 

   preg  plas  pres  skin  test  mass   pedi  age  class
0     6   148    72    35     0  33.6  0.627   50      1
1     1    85    66    29     0  26.6  0.351   31      0
2     8   183    64     0     0  23.3  0.672   32      1
3     1    89    66    23    94  28.1  0.167   21      0
4     0   137    40    35   168  43.1  2.288   33      1


In [17]:
import pandas as pd 

# Dividir en características y objetivo
X = data.drop('class', axis=1)
y = data['class']

# Semilla para reproducibilidad
random_state = 42 

In [18]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

# Crear y entrenar el modelo Bagging
bagging_model = BaggingClassifier(estimator=DecisionTreeClassifier(random_state=random_state),
                                  n_estimators=100, random_state=random_state)

# Validación cruzada
cv_scores_bagging = cross_val_score(bagging_model, X, y, cv=10, scoring='accuracy')

# Resultados
bagging_mean_accuracy = cv_scores_bagging.mean()
print(f'Bagging Mean Accuracy: {bagging_mean_accuracy}') 

Bagging Mean Accuracy: 0.7708133971291866


In [19]:
from sklearn.ensemble import RandomForestClassifier

# Crear y entrenar el modelo Random Forest
rf_model = RandomForestClassifier(n_estimators=100, max_features=3, random_state=random_state)

# Validación cruzada
cv_scores_rf = cross_val_score(rf_model, X, y, cv=10, scoring='accuracy')

# Resultados
rf_mean_accuracy = cv_scores_rf.mean()
print(f'Random Forest Mean Accuracy: {rf_mean_accuracy}') 

Random Forest Mean Accuracy: 0.768198906356801


In [30]:
from sklearn.ensemble import AdaBoostClassifier

# Crear y entrenar el modelo AdaBoost
ada_model = AdaBoostClassifier(estimator=DecisionTreeClassifier(random_state=random_state), 
                               n_estimators=30, random_state=random_state, algorithm='SAMME')

# Validación cruzada
cv_scores_ada = cross_val_score(ada_model, X, y, cv=10, scoring='accuracy')

# Resultados
ada_mean_accuracy = cv_scores_ada.mean()
print(f'AdaBoost Mean Accuracy: {ada_mean_accuracy}') 

AdaBoost Mean Accuracy: 0.6990772385509229


In [21]:
from sklearn.ensemble import GradientBoostingClassifier

# Crear y entrenar el modelo Gradient Boosting
gb_model = GradientBoostingClassifier(n_estimators=100, random_state=random_state)

# Validación cruzada
cv_scores_gb = cross_val_score(gb_model, X, y, cv=10, scoring='accuracy')

# Resultados
gb_mean_accuracy = cv_scores_gb.mean()
print(f'Gradient Boosting Mean Accuracy: {gb_mean_accuracy}') 

Gradient Boosting Mean Accuracy: 0.7604066985645933


In [11]:
pip install --user xgboost

Collecting xgboost
  Downloading xgboost-2.1.0-py3-none-win_amd64.whl.metadata (2.1 kB)
Downloading xgboost-2.1.0-py3-none-win_amd64.whl (124.9 MB)
   ---------------------------------------- 0.0/124.9 MB ? eta -:--:--
   ---------------------------------------- 0.0/124.9 MB ? eta -:--:--
   ---------------------------------------- 0.2/124.9 MB 3.6 MB/s eta 0:00:35
   ---------------------------------------- 0.9/124.9 MB 6.8 MB/s eta 0:00:19
   ---------------------------------------- 1.5/124.9 MB 8.6 MB/s eta 0:00:15
    --------------------------------------- 2.1/124.9 MB 9.5 MB/s eta 0:00:13
    --------------------------------------- 2.7/124.9 MB 10.2 MB/s eta 0:00:12
   - -------------------------------------- 3.2/124.9 MB 10.2 MB/s eta 0:00:12
   - -------------------------------------- 3.8/124.9 MB 10.6 MB/s eta 0:00:12
   - -------------------------------------- 4.4/124.9 MB 10.8 MB/s eta 0:00:12
   - -------------------------------------- 5.1/124.9 MB 11.1 MB/s eta 0:00:11
   


[notice] A new release of pip is available: 24.0 -> 24.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [31]:
import xgboost as xgb 
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris

# Crear y entrenar el modelo XGBoost 
random_state = 42
xgb_model = xgb.XGBClassifier(n_estimators=100, random_state=random_state, eval_metric='mlogloss')

# Validación cruzada
cv_scores_xgb = cross_val_score(xgb_model, X, y, cv=10, scoring='accuracy')

# Resultados
xgb_mean_accuracy = cv_scores_xgb.mean()
print(f'XGBoost Mean Accuracy: {xgb_mean_accuracy}')  

XGBoost Mean Accuracy: 0.7434723171565276


In [23]:
# Crear DataFrame con los resultados
results = pd.DataFrame({
    'Algorithm': ['Bagging', 'RandomForest', 'AdaBoosting', 'GradientBoosting', 'XGB'],
    'cv_mean_accuracy': [bagging_mean_accuracy, rf_mean_accuracy, ada_mean_accuracy, gb_mean_accuracy, xgb_mean_accuracy]
})

# Ordenar de mayor a menor
results = results.sort_values(by='cv_mean_accuracy', ascending=False)

print(results) 

          Algorithm  cv_mean_accuracy
0           Bagging          0.770813
1      RandomForest          0.768199
3  GradientBoosting          0.760407
4               XGB          0.743472
2       AdaBoosting          0.699077


### Hiperparametrización
Vuelve a entrenar los modelos de nuevo, pero esta vez dividiendo el conjunto de datos en train/test y utilizando un gridsearch para encontrar los mejores hiperparámetros. 

In [29]:
from sklearn.model_selection import GridSearchCV, train_test_split

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)

# GridSearch para RandomForest
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_features': [2, 3, 4],
    'max_depth': [None, 10, 20]
}

grid_search_rf = GridSearchCV(estimator=RandomForestClassifier(random_state=random_state), 
                              param_grid=param_grid_rf, 
                              cv=5, 
                              scoring='accuracy')

grid_search_rf.fit(X_train, y_train)
best_rf_model = grid_search_rf.best_estimator_
rf_best_score = grid_search_rf.best_score_

# GridSearch para AdaBoost
param_grid_ada = {
    'n_estimators': [30, 50, 100],
    'learning_rate': [0.01, 0.1, 1],
    'algorithm': ['SAMME']
}

grid_search_ada = GridSearchCV(estimator=AdaBoostClassifier(estimator=DecisionTreeClassifier(random_state=random_state), random_state=random_state), 
                               param_grid=param_grid_ada, 
                               cv=5, 
                               scoring='accuracy')

grid_search_ada.fit(X_train, y_train)
best_ada_model = grid_search_ada.best_estimator_
ada_best_score = grid_search_ada.best_score_

# GridSearch para GradientBoosting
param_grid_gb = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}

grid_search_gb = GridSearchCV(estimator=GradientBoostingClassifier(random_state=random_state), 
                              param_grid=param_grid_gb, 
                              cv=5, 
                              scoring='accuracy')

grid_search_gb.fit(X_train, y_train)
best_gb_model = grid_search_gb.best_estimator_
gb_best_score = grid_search_gb.best_score_

# GridSearch para XGBoost
param_grid_xgb = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}

grid_search_xgb = GridSearchCV(estimator=xgb.XGBClassifier(random_state=random_state, eval_metric='mlogloss'), 
                               param_grid=param_grid_xgb, 
                               cv=5, 
                               scoring='accuracy')

grid_search_xgb.fit(X_train, y_train)
best_xgb_model = grid_search_xgb.best_estimator_
xgb_best_score = grid_search_xgb.best_score_

# Resultados de GridSearch
grid_results = pd.DataFrame({
    'Algorithm': ['RandomForest', 'AdaBoosting', 'GradientBoosting', 'XGB'],
    'Best CV Score': [rf_best_score, ada_best_score, gb_best_score, xgb_best_score]
})

print(grid_results) 

          Algorithm  Best CV Score
0      RandomForest       0.776903
1       AdaBoosting       0.719832
2  GradientBoosting       0.776903
3               XGB       0.780168


### Conclusiones finales

Redacta la información relativa a qué atributos parecen ser los más importantes, qué modelo parece ofrecer un mejor rendimiento y con qué parámetros. 

In [26]:
# Atributos importantes del mejor modelo de RandomForest
importances = best_rf_model.feature_importances_
feature_names = X.columns
feature_importances = pd.DataFrame({'Feature': feature_names, 'Importance': importances}).sort_values(by='Importance', ascending=False)

print("Feature Importances from the best RandomForest model:")
print(feature_importances)

# Conclusión sobre el mejor modelo
best_algorithm = grid_results.loc[grid_results['Best CV Score'].idxmax()]['Algorithm']
best_params = grid_search_rf.best_params_ if best_algorithm == 'RandomForest' else \
              grid_search_ada.best_params_ if best_algorithm == 'AdaBoosting' else \
              grid_search_gb.best_params_ if best_algorithm == 'GradientBoosting' else \
              grid_search_xgb.best_params_

print(f'El mejor algoritmo es {best_algorithm} con los parámetros {best_params}') 

Feature Importances from the best RandomForest model:
  Feature  Importance
1    plas    0.253925
5    mass    0.167603
7     age    0.143691
6    pedi    0.124735
2    pres    0.090587
4    test    0.078246
0    preg    0.075036
3    skin    0.066176
El mejor algoritmo es XGB con los parámetros {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 50}
