# Ejercicios ensembling
En este ejercicio vas a realizar prediciones sobre un dataset de ciudadanos indios diabéticos. Se trata de un problema de clasificación en el que intentaremos predecir 1 (diabético) o 0 (no diabético). Para facilitarnos las cosas, vamos a coger un dataset donde todas las variables son numércias.

## 1. Carga las librerías que consideres comunes al notebook

In [108]:
import pandas as pd
import numpy as np

## 2. Lee los datos de esta [dirección](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv)
Los nombres de columnas son:
```Python
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
```

In [148]:
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

df = pd.read_csv(url, header=None)
df.columns = names
df[df.columns[:-1]]

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33
...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63
764,2,122,70,27,0,36.8,0.340,27
765,5,121,72,23,112,26.2,0.245,30
766,1,126,60,0,0,30.1,0.349,47


In [112]:
# Definimos un diccionario para llevar los scores:
scores = {}

## 3. Bagging
Para este apartado tendrás que crear un ensemble utilizando la técnica de bagging ([BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html)), mediante la cual combinarás 100 [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html). Recuerda utilizar también [cross validation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) con 10 kfolds.

**Para este apartado y siguientes, no hace falta que dividas en train/test**, por hacerlo más sencillo. Simplemente divide tus datos en features y target.

Además, para poder reproducir el algoritmo numerosas veces, establece una semilla.

In [77]:
array = df.values
X = array[:, 0:8]
Y = array[:, 8]
seed = 42

np.random.seed(seed)

In [78]:
# from sklearn.pipeline import Pipeline
# from sklearn.model_selection import GridSearchCV, cross_val_score
# from sklearn.preprocessing import StandardScaler
# from sklearn.feature_selection import SelectKBest
# from sklearn.ensemble import BaggingClassifier
# from sklearn.tree import DecisionTreeClassifier

# bag_clf = BaggingClassifier(
#     base_estimator=DecisionTreeClassifier(random_state=42),
#     max_samples=1.0,
#     bootstrap=True,
#     random_state=42)

# pipe = Pipeline([('scaler', StandardScaler()), ('selector', SelectKBest()), ('bag', bag_clf)])

# params = {
#     'selector__k': np.arange(5, 10),
#     'bag__n_estimators': [100, 250, 500, 750, 1000]
# }

# gs_pipe = GridSearchCV(pipe,
#                       params,
#                       cv = 10,
#                       scoring='accuracy',
#                       n_jobs=-1,
#                       verbose=1)

In [79]:
# gs_pipe.fit(X, Y)

In [80]:
# gs_pipe.best_estimator_.score(X_test, y_test)

In [81]:
# cross_val_score(
#     BaggingClassifier(
#         base_estimator=DecisionTreeClassifier(random_state=42),
#         n_estimators=750,
#         bootstrap=True, 
#         random_state=42),
#     X_train, y_train, cv=10, scoring='accuracy').mean()

In [114]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

model = BaggingClassifier(base_estimator=DecisionTreeClassifier(), n_estimators=100)

cross_val_score(model, X, Y, cv=10).mean()

0.7604408749145591

In [115]:
scores.update({'Bagging': cross_val_score(model, X, Y, cv=10).mean()})

## 4. Random Forest
En este caso entrena un [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) con 100 árboles y un `max_features` de 3. También con validación cruzada

In [124]:
from sklearn.ensemble import RandomForestClassifier

# Esta forma es más rápida, es como lo anterior, pero más rápido (sin hacer el bagging).
model = RandomForestClassifier(n_estimators=100, max_features=3, random_state=42)

model.fit(X, Y)

cross_val_score(model, X, Y, cv=10, scoring ='accuracy').mean()

0.768198906356801

In [125]:
scores.update({'Random Forest': cross_val_score(model, X, Y, cv=10).mean()})

## 5. AdaBoost
Implementa un [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html) con 30 árboles.

In [127]:
from sklearn.ensemble import AdaBoostClassifier

model = AdaBoostClassifier(n_estimators=30)

cross_val_score(model, X, Y, cv=10).mean()

0.746120984278879

In [128]:
scores.update({'AdaBoost': cross_val_score(model, X, Y, cv=10).mean()})

## 6. GradientBoosting
Implementa un [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) con 100 estimadores

In [129]:
from sklearn.ensemble import GradientBoostingClassifier

model = GradientBoostingClassifier(n_estimators=100)

cross_val_score(model, X, Y, cv=10).mean()

0.7604066985645933

In [130]:
scores.update({'GradientBoosting': cross_val_score(model, X, Y, cv=10).mean()})

## 7. XGBoost
Para este apartado utiliza un [XGBoostClassifier](https://docs.getml.com/latest/api/getml.predictors.XGBoostClassifier.html) con 100 estimadores. XGBoost no forma parte de la suite de modelos de sklearn, por lo que tendrás que instalarlo con pip install

In [None]:
# from xgboost import XGBClassifier

# model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', n_estimators=100)

# cross_val_score(model, X, Y, cv=10).mean()

In [135]:
import xgboost

model = xgboost.XGBClassifier(use_label_encoder=False, eval_metric='logloss', n_estimators=100)

cross_val_score(model, X, Y, cv=10).mean()

0.7357142857142857

In [136]:
scores.update({'XGBoost': cross_val_score(model, X, Y, cv=10).mean()})

## 8. Resultados
Crea un series con los resultados y sus algoritmos, ordenándolos de mayor a menor

In [137]:
df = pd.DataFrame({'models': list(scores.keys()), 'score': list(scores.values())})

df.sort_values("score", ascending=False)

Unnamed: 0,models,score
1,Random Forest,0.768199
3,GradientBoosting,0.763004
0,Bagging,0.757775
2,AdaBoost,0.746121
4,XGBoost,0.735714


## 9. Deja volar tu lado data scientist

En base a todo lo que has aprendido hasta ahora, sobre todo esta semana, prueba diferentes técnicas para obtener el mejor score posible: nuevas variables, sleección de las mejores, varaición de parámetros... Todo lo que se te ocurra para obtener el mejor resultado