# ENSEMBLES

In [32]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import VotingClassifier, RandomForestClassifier, BaggingClassifier, AdaBoostClassifier, GradientBoostingClassifier
from sklearn.ensemble import VotingRegressor, RandomForestRegressor, BaggingRegressor, AdaBoostRegressor, GradientBoostingRegressor

from sklearn.metrics import accuracy_score


## 1) VOTING CLASSIFIER

Se entrenan varios modelos (pueden ser diferentes algoritmo o iguales con diferentes parametros) y aplicando el hard o soft voting obtenemos un resultado.

In [13]:
df=pd.read_csv('./Teoria/data/titanic_modified.csv')
X=df[['Pclass','Sex','Age','SibSp','Parch']]
y=df['Survived']
x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.20, random_state=22)

In [21]:
#Creamos los objetos
logistic_reg=LogisticRegression(random_state=22)
tree_1=DecisionTreeClassifier(max_depth=8, random_state=22)
forest=RandomForestClassifier(n_estimators=10, max_depth=8, random_state=22)

#Estimators: etiquetamos los objetos creados
estimators=[('Logistica', logistic_reg),('Decision_Tree', tree_1),('Decision_Forest',forest)]

#Combinamos los objetos y decidimos manera de votacion (hard/soft)
voting_clasi=VotingClassifier(estimators=estimators, voting='hard')

#Entrenamiento
voting_clasi.fit(x_train,y_train)

#test
y_pred=voting_clasi.predict(x_test)

#Resultado: acuracy
print('Accuracy Test: ', accuracy_score(y_test,y_pred))
y_pred_train=voting_clasi.predict(x_train)
print('Accuracy Train: ', accuracy_score(y_train,y_pred_train))


Accuracy Test:  0.7988826815642458
Accuracy Train:  0.8806179775280899


Si queremos visualizar el resultado que obtiene cada algoritmo por separado:

In [22]:
for algoritmo in (logistic_reg,tree_1,forest):
    algoritmo.fit(x_train,y_train)
    y_pred=algoritmo.predict(x_test)
    print(algoritmo.__class__.__name__,accuracy_score(y_test,y_pred))

LogisticRegression 0.7877094972067039
DecisionTreeClassifier 0.7988826815642458
RandomForestClassifier 0.7821229050279329


## 2) BAGGING CLASSIFIER

Sistema de clasificacion por votación de algoritmos. Se comparan algoritmos de mismo tipo. Lo que hace es dividir los datos y con cada uno gace un algoritmo (podemos dividir el set de datos con reemplazamiento (bagging) o sin reemplazamiento (pasting). Mejor bagging)

In [29]:
#Creamos el algoritmo que queremos usar
tree=DecisionTreeClassifier(max_depth=4, random_state=22)

#Creamos el objeto de bagging
bagging=BaggingClassifier(estimator=tree,
                          n_estimators=10, #En cuantos subconjuntos dividimos el set de datos. Cada subconjunto un algoritmo.
                          max_samples=100, #Numero maximo de datos para cada stimator
                          bootstrap=True, #Bagging (reemplazo). False (sin reemplazo): pasting
                          random_state=22)

#Entrenamiento
bagging.fit(x_train,y_train)

#Test
y_pred=bagging.predict(x_test)

#Resultado: acuracy
print('Accuracy Test: ', accuracy_score(y_test,y_pred))
y_pred_train=bagging.predict(x_train)
print('Accuracy Train: ', accuracy_score(y_train,y_pred_train))

Accuracy Test:  0.7597765363128491
Accuracy Train:  0.8356741573033708


## 3) RANDOM FOREST


Varios decion tree. Seria una mezcla de decision tree y Bagging.

In [27]:
# Creamos el objeto
forest=RandomForestClassifier(n_estimators=150,
                              max_leaf_nodes=16,
                              random_state=22)

#Entrenamiento
forest.fit(x_train, y_train)

#Test
y_pred=forest.predict(x_test)

#Resultado: acuracy
print('Accuracy Test: ', accuracy_score(y_test,y_pred))
y_pred_train=forest.predict(x_train)
print('Accuracy Train: ', accuracy_score(y_train,y_pred_train))

Accuracy Test:  0.7877094972067039
Accuracy Train:  0.8525280898876404


## 4) ADABOOST

Boosting. Los algoritmos se construyen de manera secuencial y no de manera independiente como los vistos hasta este punto.


In [30]:
#Creamos el modelo (estimator) que queremos usar
tree=DecisionTreeClassifier(max_depth=4, random_state=22)

#Creamos el objeto de Boosting (adaboost)
ada=AdaBoostClassifier(estimator=tree,
                       n_estimators=50,
                       learning_rate=0.1,
                       random_state=22)

#Entrenamiento
ada.fit(x_train,y_train)

#Test
y_pred=ada.predict(x_test)

#Resultado: acuracy
print('Accuracy Test: ', accuracy_score(y_test,y_pred))
y_pred_train=ada.predict(x_train)
print('Accuracy Train: ', accuracy_score(y_train,y_pred_train))

Accuracy Test:  0.7821229050279329
Accuracy Train:  0.9157303370786517


In [31]:
ada.feature_importances_

array([0.13487256, 0.16283439, 0.50786648, 0.11645305, 0.07797352])

## 5) GRADIENT BOOSTING

Boosting. Los algoritmos se construyen de manera secuencial y no de manera independiente como los vistos hasta este punto. Funciona unicamente con ARBOLES. A DIFERENCIA DEAL aDABOOST ESTE ALGORITMO SE CENTRA EN MINIMIZAR ERRORES.

In [33]:
#Creamos el objeto de Boosting (adaboost). Dentro tenemos los parametros del tree (ya que solo funciona con este algoritmo)
gradient=GradientBoostingClassifier(n_estimators=50,
                                    learning_rate=1,
                                    random_state=22)

#Entrenamiento
gradient.fit(x_train,y_train)

#Test
y_pred=gradient.predict(x_test)

#Resultado: acuracy
print('Accuracy Test: ', accuracy_score(y_test,y_pred))
y_pred_train=gradient.predict(x_train)
print('Accuracy Train: ', accuracy_score(y_train,y_pred_train))

Accuracy Test:  0.7932960893854749
Accuracy Train:  0.9115168539325843


## 6) XG BOOST