In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
path = '../datasets/heart.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,52,1,0,125,212,0,1,168,0,1.0,2,2,3,0
1,53,1,0,140,203,1,0,155,1,3.1,0,0,3,0
2,70,1,0,145,174,0,1,125,1,2.6,0,0,3,0
3,61,1,0,148,203,0,1,161,0,0.0,2,1,3,0
4,62,0,0,138,294,1,1,106,0,1.9,1,3,2,0


In [3]:
features = df.drop(['target'], axis=1)
target = df['target']
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.35, random_state=42)

## KNeighborsClassifier
La K en el nombre de este clasificador representa los k vecinos más cercanos, donde k es un valor entero especificado por el usuario. Por lo tanto, como sugiere el nombre, este clasificador implementa el aprendizaje basado en los k vecinos más cercanos. La elección del valor de k depende de los datos.

<img src=../images/KNN.png alt="drawing" width="400"/>

In [4]:
from sklearn.neighbors import KNeighborsClassifier

model_knn = KNeighborsClassifier()
model_knn.fit(X_train, y_train)
knn_predict = model_knn.predict(X_test)
print('KNeighbors Clasifier = {}'.format(accuracy_score(knn_predict,y_test)))

KNeighbors Clasifier = 0.6908077994428969


# Ensembles
Un ensemble es un conjunto de modelos de machine learning. Cada modelo produce una predicción diferente. Las predicciones de los distintos modelos se combinan para obtener una única predicción.
La ventaja que obtenemos al combinar modelos diferentes es que como cada modelo funciona de forma diferente, sus errores tienden a compensarse. Esto resulta en un mejor error de generalización.
Hay varias formas de construir estos ensembles:
* votación por mayoría
* bagging
* boosting
* stacking

[Source](https://www.iartificial.net/ensembles-voting-bagging-boosting-stacking/)

## Bagging
Cuando usamos bagging, también combinamos varios modelos de machine learning. A diferencia del voto por mayoría, la forma de conseguir que los errores se compensen entre sí, es que cada modelo se entrena con subconjuntos del conjunto de entrenamiento. Estos subconjuntos se forman eligiendo muestras aleatoriamente (con repetición) del conjunto de entrenamiento.

Los resultados se combinan, para problemas de clasificación, igual que hemos visto en la votación por mayoría, con el voto suave para los modelos que den probabilidades. Para problemas de regresión, normalmente se utiliza la media aritmética.

<img src='../images/bagging.jpg' alt="drawing" width="600"/>

Los bosques aleatorios (random forests), no son ni más ni menos, que un ensemble de árboles de decisión combinados con bagging. Aunque bagging se puede usar con cualquier modelo, la opción de usarlo con árboles de decisión es muy popular por motivos de rendimiento. Normalmente, es muy rápido construir un árbol de decisión. 


In [5]:
from sklearn.ensemble import BaggingClassifier

model_bag = BaggingClassifier(base_estimator=KNeighborsClassifier(), n_estimators=50)
model_bag.fit(X_train, y_train)
bag_predict = model_bag.predict(X_test)
print('Bagging Clasifier = {}'.format(accuracy_score(bag_predict,y_test)))

Bagging Clasifier = 0.7298050139275766


## Boosting
En el boosting, cada modelo intenta arreglar los errores de los modelos anteriores. Por ejemplo, en el caso de clasificación, el primer modelo tratará de aprender la relación entre los atributos de entrada y el resultado. Seguramente cometerá algunos errores. Así que el segundo modelo intentará reducir estos errores. Esto se consigue dándole más peso a las muestras mal clasificadas y menos peso a las muestras bien clasificadas. Para problemas de regresión, las predicciones con un mayor error cuadrático medio tendrán más peso para el siguiente modelo.

Hay muchas implementaciones de ensembles que usan boosting. El primero fue el [AdaBoost](https://fhernanb.github.io/libro_mod_pred/adaboost.html). Los más usados actualmente son [xgboost](https://xgboost.readthedocs.io/en/latest/), [CatBoost](https://en.wikipedia.org/wiki/Catboost) y [LightGBM](http://datascience.recursos.uoc.edu/es/lightgbm/).

<img src='../images/boosting.png' alt="drawing" width="600"/>

In [6]:
from sklearn.ensemble import GradientBoostingClassifier

model_boost = GradientBoostingClassifier(n_estimators=50)
model_boost.fit(X_train, y_train)
boost_predict = model_boost.predict(X_test)
print('Gradient Boosting Clasifier = {}'.format(accuracy_score(boost_predict,y_test)))

Gradient Boosting Clasifier = 0.935933147632312


<img src='../images/bagging-and-boosting.png' alt="drawing" width="600"/>