# Ejercicios ensembling
En este ejercicio vas a realizar prediciones sobre un dataset de ciudadanos indios diabéticos. Se trata de un problema de clasificación en el que intentaremos predecir 1 (diabético) 0 (no diabético). Todas las variables son numércias.

### 1. Carga las librerias que consideres comunes al notebook

In [2]:
import pandas as pd
import numpy as np

### 2. Lee los datos de [esta direccion](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv)
Los nombres de columnas son:
```Python
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
```

In [3]:
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

df = pd.read_csv(url, names=names)
df.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### 3. Bagging
Para este apartado tendrás que crear un ensemble utilizando la técnica de bagging ([BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html)), mediante la cual combinarás 100 [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html). Recuerda utilizar también [cross validation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) con 10 kfolds.

**Para este apartado y siguientes, no hace falta que dividas en train/test**, por hacerlo más sencillo. Simplemente divide tus datos en features y target.

Establece una semilla

In [4]:
array = df.values
X = array[:, 0:8]
Y = array[:, 8]
seed=7

In [5]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import model_selection

kfold = model_selection.KFold(n_splits=10)
cart = DecisionTreeClassifier()
num_trees = 100

model = BaggingClassifier(base_estimator = cart,
                         n_estimators = num_trees,
                         random_state = seed)

res_bg = model_selection.cross_val_score(model, X, Y, cv=kfold).mean()

### 4. Random Forest
En este caso entrena un [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) con 100 árboles y un `max_features` de 3. También con validación cruzada

In [6]:
from sklearn.ensemble import RandomForestClassifier

num_trees = 100
max_features = 3
model = RandomForestClassifier(n_estimators = num_trees, max_features = max_features)
res_rfc = model_selection.cross_val_score(model, X, Y, cv=kfold).mean()

### 5. AdaBoost
Implementa un [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html) con 30 árboles.

In [7]:
from sklearn.ensemble import AdaBoostClassifier

num_trees = 30

model = AdaBoostClassifier(n_estimators = num_trees, random_state=seed)
res_abc = model_selection.cross_val_score(model, X, Y, cv=kfold).mean()

### 6. GradientBoosting
Implementa un [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) con 100 estimadores

In [8]:
from sklearn.ensemble import GradientBoostingClassifier

num_trees = 100

model = GradientBoostingClassifier(n_estimators = num_trees, random_state=seed)
res_gbc = model_selection.cross_val_score(model, X, Y, cv=kfold).mean()

### 7. XGBoost
Para este apartado utiliza un [XGBoostClassifier](https://docs.getml.com/latest/api/getml.predictors.XGBoostClassifier.html) con 100 estimadores. XGBoost no forma parte de la suite de modelos de sklearn, por lo que tendrás que instalarlo con pip install

In [9]:
#!pip install xgboost

In [10]:
from xgboost import XGBClassifier

model = XGBClassifier(n_estimators = 100)
res_xgb = model_selection.cross_val_score(model, X, Y, cv=kfold).mean()

### 8. Resultados
Crea un series con los resultados y sus algoritmos, ordenándolos de mayor a menor

In [11]:
resul = [res_xgb, res_gbc, res_abc, res_rfc, res_bg]
algori = ["XGBoost", "GradientBoosting", "Ada Boost", "Random Forest", "Bagging DT"]

resultados = pd.Series(resul, algori).sort_values(ascending=False)
resultados

Bagging DT          0.772044
Random Forest       0.770745
GradientBoosting    0.768199
Ada Boost           0.760458
XGBoost             0.739559
dtype: float64