# Ejercicios ensembling
En este ejercicio vas a realizar prediciones sobre un dataset de ciudadanos indios diabéticos. Se trata de un problema de clasificación en el que intentaremos predecir 1 (diabético) 0 (no diabético).

### 1. Carga las librerias que consideres comunes al notebook

In [1]:
import pandas as pd
import numpy as np
import os
import seaborn as sns
import matplotlib.pyplot as plt

### 2. Lee los datos de [esta direccion](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv)
Los nombres de columnas son:
```Python
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
```

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv', names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'])


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   preg    768 non-null    int64  
 1   plas    768 non-null    int64  
 2   pres    768 non-null    int64  
 3   skin    768 non-null    int64  
 4   test    768 non-null    int64  
 5   mass    768 non-null    float64
 6   pedi    768 non-null    float64
 7   age     768 non-null    int64  
 8   class   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [4]:
df.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [5]:
X = df[['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age']]
y = df['class']

### 3. Bagging
Para este apartado tendrás que crear un ensemble utilizando la técnica de bagging ([BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html)), mediante la cual combinarás 100 [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html). Recuerda utilizar también [cross validation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) con 10 kfolds.

**Para este apartado y siguientes, no hace falta que dividas en train/test**, por hacerlo más sencillo. Simplemente divide tus datos en features y target.

Establece una semilla

In [None]:
from sklearn.svm import SVC
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

estimator = DecisionTreeClassifier(max_depth=5,random_state=42)

bag_clf = BaggingClassifier(
    estimator = estimator,
    n_estimators=100, # Cantidad de árboles
    max_samples=100, # Muestras utilizadas en bootstrapping
    bootstrap=True, # Usamos bootstrapping: muestreo con reemplazo.
    max_features = 3, # Features que utiliza en el bootstrapping. Cuanto más bajo, mejor generalizará y menos overfitting
    random_state=42)

# bag_clf.fit(X, y)


In [None]:
from sklearn import model_selection

kfold = model_selection.KFold(n_splits = 10, random_state=42,shuffle=True) #partimos los datos

result_cv = model_selection.cross_val_score(bag_clf,X,y, cv=kfold, scoring='accuracy' )

print(f"Puntuaciones de validación cruzada: {result_cv}")
print(f"Precisión media: {result_cv.mean():.4f} ± {result_cv.std():.4f}")

### 4. Random Forest
En este caso entrena un [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) con 100 árboles y un `max_features` de 3. También con validación cruzada

In [None]:
from sklearn.ensemble import RandomForestClassifier

rnd_clf = RandomForestClassifier(n_estimators=100,
                                 max_features=3,
                                 random_state=42)


In [None]:
from sklearn import model_selection

kfold = model_selection.KFold(n_splits = 10, random_state=42,shuffle=True) #partimos los datos

result_cv = model_selection.cross_val_score(rnd_clf,X,y, cv=kfold, scoring='accuracy' )

print(f"Puntuaciones de validación cruzada: {result_cv}")
print(f"Precisión media: {result_cv.mean():.4f} ± {result_cv.std():.4f}")

### 5. AdaBoost
Implementa un [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html) con 30 árboles.

In [None]:
from sklearn.ensemble import AdaBoostClassifier

estimator = DecisionTreeClassifier(max_depth=5)

ada_clf = AdaBoostClassifier(estimator = estimator,
                             n_estimators=30,
                             learning_rate=0.5,
                             random_state=42)

In [None]:
from sklearn import model_selection

kfold = model_selection.KFold(n_splits = 10, random_state=42,shuffle=True) #partimos los datos

result_cv = model_selection.cross_val_score(ada_clf,X,y, cv=kfold, scoring='accuracy' )

print(f"Puntuaciones de validación cruzada: {result_cv}")
print(f"Precisión media: {result_cv.mean():.4f} ± {result_cv.std():.4f}")

### 6. GradientBoosting
Implementa un [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) con 100 estimadores

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

gbct = GradientBoostingClassifier(max_depth=10,
                                 n_estimators=100,
                                 learning_rate=1.0,
                                 random_state=42)

kfold = model_selection.KFold(n_splits = 10, random_state=42,shuffle=True) #partimos los datos

result_cv = model_selection.cross_val_score(gbct,X,y, cv=kfold, scoring='accuracy' )

print(f"Puntuaciones de validación cruzada: {result_cv}")
print(f"Precisión media: {result_cv.mean():.4f} ± {result_cv.std():.4f}")

### 7. XGBoost
Para este apartado utiliza un [XGBoostClassifier](https://docs.getml.com/latest/api/getml.predictors.XGBoostClassifier.html) con 100 estimadores. XGBoost no forma parte de la suite de modelos de sklearn, por lo que tendrás que instalarlo con pip install

In [None]:
import xgboost

xgb_clas = xgboost.XGBClassifier(random_state=42)




In [None]:
kfold = model_selection.KFold(n_splits = 10, random_state=42,shuffle=True) #partimos los datos

result_cv = model_selection.cross_val_score(xgb_clas,X,y, cv=kfold, scoring='accuracy' )

print(f"Puntuaciones de validación cruzada: {result_cv}")
print(f"Precisión media: {result_cv.mean():.4f} ± {result_cv.std():.4f}")

### 8. Primeros resultados
Crea un dataframe con los resultados y sus algoritmos, ordenándolos de mayor a menor

In [None]:
modelos = [bag_clf,rnd_clf,ada_clf, gbct,xgb_clas]
medias = []
for modelo in modelos:
    result_cv = model_selection.cross_val_score(modelo,X,y, cv=kfold, scoring='accuracy' )
    medias.append(result_cv.mean())


In [None]:
print(medias)

In [None]:
datos={
    'modelos': ['bag_clf','rnd_clf','ada_clf', 'gbct','xgb_clas'],
    'media': medias    
}

resultados =  pd.DataFrame(datos)
resultados

### 9. Hiperparametrización
Vuelve a entrenar los modelos de nuevo, pero esta vez dividiendo el conjunto de datos en train/test y utilizando un gridsearch para encontrar los mejores hiperparámetros.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
X_train.shape

In [None]:
from sklearn.model_selection import GridSearchCV
# modelo bag_clf

param_grid = {
    'n_estimators': [150, 100, 200],
    'max_samples': [100,150,200],# número de muestras
    'max_features': [4,6,8], # número de columnas que tiene que tener en cuenta
    'estimator__max_depth':[2,3,4,5],
    'estimator__min_samples_split':[3,4,5]
}

grid_search = GridSearchCV(
    estimator=bag_clf,
    param_grid=param_grid,
    cv=5,                    # 5-fold cross validation
    scoring='accuracy',      # Métrica a optimizar
    n_jobs=-1,              # Usar todos los cores del CPU
    verbose=2               # Mostrar progreso detallado
)

grid_search.fit(X_train, y_train)

print(f"Mejores parámetros: {grid_search.best_params_}")
print(f"Mejor puntuación: {grid_search.best_score_:.4f}")
best_model_bag_clf = grid_search.best_estimator_
best_model_bag_clf_score = grid_search.best_score_

#Evaluo 


In [None]:
from sklearn.model_selection import GridSearchCV
# modelo rnd_clf

param_grid = {
    'n_estimators': [150, 100, 200],
    'max_depth': [3,4,5,6],
    'max_features': [3,4,5]
}

grid_search = GridSearchCV(
    estimator=rnd_clf,
    param_grid=param_grid,
    cv=5,                    # 5-fold cross validation
    scoring='accuracy',      # Métrica a optimizar
    n_jobs=-1,              # Usar todos los cores del CPU
    verbose=2               # Mostrar progreso detallado
)

grid_search.fit(X_train, y_train)

print(f"Mejores parámetros: {grid_search.best_params_}")
print(f"Mejor puntuación: {grid_search.best_score_:.4f}")
best_model_rnd_clf = grid_search.best_estimator_
best_model_rnd_clf_score = grid_search.best_score_

In [None]:
## modelo ada_clf
param_grid = {
    'n_estimators': [50, 100, 70,40],
    'learning_rate': [1.25, 0.75, 1.0]
}

grid_search = GridSearchCV(
    estimator=ada_clf,
    param_grid=param_grid,
    cv=5,                    # 5-fold cross validation
    scoring='accuracy',      # Métrica a optimizar
    n_jobs=-1,              # Usar todos los cores del CPU
    verbose=2               # Mostrar progreso detallado
)

grid_search.fit(X_train, y_train)

print(f"Mejores parámetros: {grid_search.best_params_}")
print(f"Mejor puntuación: {grid_search.best_score_:.4f}")
best_model_ada_clf = grid_search.best_estimator_
best_model_ada_clf_score = grid_search.best_score_



In [None]:
## modelo gbct
param_grid = {
    'n_estimators': [75, 100, 150],
    'learning_rate': [0.1, 0.25, 0.5],
    'max_depth': [2, 3, 4],
    'min_samples_split': [2, 5, 7],
    'min_samples_leaf': [7, 5,3]
}

grid_search = GridSearchCV(
    estimator=gbct,
    param_grid=param_grid,
    cv=5,                    # 5-fold cross validation
    scoring='accuracy',      # Métrica a optimizar
    n_jobs=-1,              # Usar todos los cores del CPU
    verbose=2               # Mostrar progreso detallado
)

grid_search.fit(X_train, y_train)

print(f"Mejores parámetros: {grid_search.best_params_}")
print(f"Mejor puntuación: {grid_search.best_score_:.4f}")
best_model_gbct = grid_search.best_estimator_
best_model_gbct_score = grid_search.best_score_


In [None]:
#modelo XGboost

param_grid = {
    'n_estimators': [30,50, 100, 150],
    'learning_rate': [0.01, 0.05, 0.1, 0.5, 1.0],
    'max_depth': [3,4, 5,6, 2]
}

grid_search = GridSearchCV(
    estimator=xgb_clas,
    param_grid=param_grid,
    cv=5,                    # 5-fold cross validation
    scoring='accuracy',      # Métrica a optimizar
    n_jobs=-1,              # Usar todos los cores del CPU
    verbose=2               # Mostrar progreso detallado
)

grid_search.fit(X_train, y_train)

print(f"Mejores parámetros: {grid_search.best_params_}")
print(f"Mejor puntuación: {grid_search.best_score_:.4f}")
best_model_xgb_clas = grid_search.best_estimator_
best_model_xgb_clas_score = grid_search.best_score_


In [None]:
mejores_modelos = ['best_model_bag_clf','best_model_rnd_clf', 'best_model_ada_clf', 'best_model_gbct', 'best_model_xgb_clas']
best_scores = [best_model_bag_clf_score,best_model_rnd_clf_score, best_model_ada_clf_score, best_model_gbct_score, best_model_xgb_clas_score]


datos_best={
    'mejores_modelos': ['best_model_bag_clf','best_model_rnd_clf', 'best_model_ada_clf', 'best_model_gbct', 'best_model_xgb_clas'],
    'best_scores': best_scores   
}

resultados =  pd.DataFrame(datos_best)
resultados

### 10. Conclusiones finales

Según mis datos el mejor es el RND_CLF, se depende de los parametros para poder estimar bien un modelo. 