# Ejercicios ensembling
En este ejercicio vas a realizar prediciones sobre un dataset de ciudadanos indios diabéticos. Se trata de un problema de clasificación en el que intentaremos predecir 1 (diabético) 0 (no diabético). Todas las variables son numércias.

### 1. Carga las librerias que consideres comunes al notebook

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

### 2. Lee los datos de [esta direccion](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv)
Los nombres de columnas son:
```Python
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
```

In [4]:
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
df = pd.read_csv(url, names=names)
df.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   preg    768 non-null    int64  
 1   plas    768 non-null    int64  
 2   pres    768 non-null    int64  
 3   skin    768 non-null    int64  
 4   test    768 non-null    int64  
 5   mass    768 non-null    float64
 6   pedi    768 non-null    float64
 7   age     768 non-null    int64  
 8   class   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


### 3. Bagging
Para este apartado tendrás que crear un ensemble utilizando la técnica de bagging ([BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html)), mediante la cual combinarás 100 [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html). Recuerda utilizar también [cross validation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) con 10 kfolds.

**Para este apartado y siguientes, no hace falta que dividas en train/test**, por hacerlo más sencillo. Simplemente divide tus datos en features y target.

Establece una semilla

In [113]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

X = df.iloc[:, :-1]
y = df.iloc[:, -1]

tree_clf = DecisionTreeClassifier(random_state=42)

bag_clf = BaggingClassifier(base_estimator=tree_clf, n_estimators=100, random_state=42)

kf = KFold(n_splits=10, random_state=42)

cvs = cross_val_score(bag_clf, X, y, scoring='accuracy', cv=kf).mean()
cvs

serie = pd.Series(data = [cvs], index = ['Bagging'])



### 4. Random Forest
En este caso entrena un [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) con 100 árboles y un `max_features` de 3. También con validación cruzada

In [115]:
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(n_estimators=310, max_features=3, random_state=42)
kf = KFold(n_splits=10)
cvs = cross_val_score(rf_clf, X, y, scoring='accuracy', cv=kf).mean()
cvs

serie = pd.concat([serie,pd.Series(data = [cvs], index = ['RandomForestClassifier'])])

### 5. AdaBoost
Implementa un [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html) con 30 árboles.

In [116]:
from sklearn.ensemble import AdaBoostClassifier

tree_clf = DecisionTreeClassifier(max_depth=2)

ada_clf = AdaBoostClassifier(base_estimator=tree_clf, n_estimators=38, random_state=42, learning_rate=0.701)

kf = KFold(n_splits=10)
cvs = cross_val_score(ada_clf, X, y, scoring='accuracy', cv=kf).mean()
cvs

serie = pd.concat([serie,pd.Series(data = [cvs], index = ['AdaBoostClassifier'])])

### 6. GradientBoosting
Implementa un [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) con 100 estimadores

In [117]:
from sklearn.ensemble import GradientBoostingClassifier

gbct = GradientBoostingClassifier(max_depth=3, n_estimators=100, learning_rate=0.2, random_state=42)

kf = KFold(n_splits=10)
cvs = cross_val_score(gbct, X, y, scoring='accuracy', cv=kf).mean()
cvs

serie = pd.concat([serie,pd.Series(data = [cvs], index = ['GradientBoostingClassifier'])])

### 7. XGBoost
Para este apartado utiliza un [XGBoostClassifier](https://docs.getml.com/latest/api/getml.predictors.XGBoostClassifier.html) con 100 estimadores. XGBoost no forma parte de la suite de modelos de sklearn, por lo que tendrás que instalarlo con pip install

In [118]:
from xgboost import XGBClassifier

xgb_reg = XGBClassifier(random_state=42, n_estimators=300, gamma=22)

kf = KFold(n_splits=10)
cvs = cross_val_score(xgb_reg, X, y, scoring='accuracy', cv=kf).mean()
cvs

serie = pd.concat([serie,pd.Series(data = [cvs], index = ['XGBClassifier'])])



### 8. Resultados
Crea un series con los resultados y sus algoritmos, ordenándolos de mayor a menor

In [119]:
serie.sort_values(ascending=False)

RandomForestClassifier        0.778571
Bagging                       0.775974
XGBClassifier                 0.773445
GradientBoostingClassifier    0.770796
AdaBoostClassifier            0.764252
dtype: float64