# Ensambles y potenciación (Boosting)

### Ensamble

Un ensamble es un conjunto de modelos para resolver el mismo problema. La fortaleza de los ensambles es que el error medio de un grupo de modelos es menos significativo que sus errores individuales.

Ya conoces uno de los tipos de modelos de ensamble: el bosque aleatorio. En un bosque aleatorio se promedian los resultados de los alumnos base o débiles (modelos que componen el ensamble). Los clasificadores base para un bosque aleatorio son árboles de decisión.

### Potenciacion  (Boosting)

Otro enfoque para la construcción de ensambles es la potenciación, donde cada modelo posterior considera los errores del anterior y, en la predicción final, los pronósticos de los alumnos básicos. Echa un vistazo:



# Regularizaciónd de potenciación del gradiente

La regularización se puede utilizar para reducir el sobreajuste durante la potenciación del gradiente.
Si se han reducido los pesos en una regresión lineal, entonces la regularización de potenciación del gradiente es:

- reducción del tamaño del paso;
- ajuste de los parámetros del árbol;
- aleatorización de submuestras para estudiantes base bᵢ.

Reduce el tamaño del paso. Revisa la fórmula para calcular predicciones en el paso N:

$a_n = a_{n-1}(x) + y_N b_N(x)$

- a = prediccion
- N = numero de modelos
- X = matriz
- y = Ponderación (peso)
- b = prediccion del modelo
- k = modelo


Cuando un algoritmo toma pasos que son demasiado grandes, este recuerda rápidamente el conjunto de entrenamiento. Esto da como resultado un sobreajuste del modelo.

Introduce el coeficiente η, que controla la tasa de aprendizaje y puede usarse para reducir el tamaño del paso:

$a_n = a_{n-1}(x) +\eta + y_N b_N(x)$

- a = prediccion
- N = numero de modelos
- X = matriz
- $\eta$ = tasa de aprendizaje
- y = Ponderación (peso)
- b = prediccion del modelo



# Librerias para potenciación de gradiente

Veamos estas librerías para potencciación del gradiente: XGBoost, LightGBM y CatBoost


Veamos cada una:

- XGBoost (potenciación del gradiente extrema) es una librería popular de potenciación del gradiente en Kaggle. Código abierto. Lanzada en 2014.

- LightGBM (máquina ligera de potenciación del gradiente). Desarrollada por Microsoft. Entrenamiento de potenciación del gradiente rápido y preciso. Funciona directamente con características categóricas. Lanzada en 2017. Comparación con XGBoost: https://lightgbm.readthedocs.io/en/latest/Experiments.html (materiales en inglés).

- CatBoost (potenciación categórica). Desarrollada por Yandex. Superior a otros algoritmos en términos de métricas de evaluación. Aplica varias técnicas de codificación para características categóricas (LabelEncoding, One-Hot Encoding). Lanzada en 2017. Comparación con XGBoost y LightGBM: https://catboost.ai/#benchmark (materiales en inglés).

| Librería  | Tratamiento de características categóricas | Velocidad |
|-----------|-------------------------------------------|-----------|
| XGBoost   | No                                        | Baja      |
| LightGBM  | Sí                                        | Alta      |
| CatBoost  | Sí                                        | Alta      |


In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from catboost import CatBoostClassifier
from sklearn.metrics import roc_auc_score

data = pd.read_csv('D:/Tripleten/datasets/travel_insurance_us.csv')


In [14]:
features_train, features_valid, target_train, target_valid = train_test_split(
    data.drop('Claim', axis=1), data.Claim, test_size=0.25, random_state=12345
)

cat_features = [
    'Agency',
    'Agency Type',
    'Distribution Channel',
    'Product Name',
    'Destination',
    'Gender'
]

model = CatBoostClassifier(loss_function='Logloss',iterations=150, random_seed=12345)

model.fit(features_train, target_train, cat_features=cat_features, verbose=10)

probabilities_valid = model.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
print(roc_auc_score(target_valid, probabilities_one_valid))



CatBoostError: Invalid type for cat_feature[non-default value idx=0,feature_idx=8]=nan : cat_features must be integer or string, real number values and NaN values should be converted to string.

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from catboost import CatBoostClassifier
from sklearn.metrics import roc_auc_score

data = pd.read_csv('D:/Tripleten/datasets/travel_insurance_us.csv')

cat_features = [
    'Agency',
    'Agency Type',
    'Distribution Channel',
    'Product Name',
    'Destination',
    'Gender'
]

# Handle NaN values in categorical features
data[cat_features] = data[cat_features].fillna('nan')

features_train, features_valid, target_train, target_valid = train_test_split(
    data.drop('Claim', axis=1), data.Claim, test_size=0.25, random_state=12345
)

model = CatBoostClassifier(loss_function='Logloss', iterations=150, random_seed=12345)

model.fit(features_train, target_train, cat_features=cat_features, verbose=20)

y_pred = model.predict(features_valid)
probabilities_valid = model.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
print(roc_auc_score(target_valid, probabilities_one_valid))

Learning rate set to 0.277333
0:	learn: 0.4688641	total: 37.3ms	remaining: 5.56s
20:	learn: 0.0676325	total: 702ms	remaining: 4.31s
40:	learn: 0.0655294	total: 1.49s	remaining: 3.96s
60:	learn: 0.0650206	total: 2.4s	remaining: 3.51s
80:	learn: 0.0643558	total: 3.39s	remaining: 2.89s
100:	learn: 0.0636229	total: 4.21s	remaining: 2.04s
120:	learn: 0.0629009	total: 5.08s	remaining: 1.22s
140:	learn: 0.0620025	total: 6s	remaining: 383ms
149:	learn: 0.0618044	total: 6.41s	remaining: 0us
0.8247370519512989


In [11]:
prediction_df = pd.DataFrame(y_pred)

prediction_df.value_counts()

0
0    12665
Name: count, dtype: int64