### Ejercicios del tema de Ensemble Learning y Random Forests

*Hugo Díaz Díaz* (*hdiazd00@estudiantes.unileon.es*)

*Correo profesional: hugo.didi.contacto@gmail.com*

---


## Parte teórica (opcional)

### 1. Si has entrenado cinco modelos diferentes con exactamente los mismos datos de entrenamiento, y todos logran una precisión del 95%, ¿hay alguna posibilidad de combinar estos modelos para obtener mejores resultados? Si es así, ¿cómo? Si no, ¿por qué?

Sí, se pueden combinar.
Si los cinco modelos no cometen exactamente los mismos errores, es decir, son lo suficientemente diversos en cuanto a algoritmo, hiperparámetros inicializaciones... un ensemble (por ejemplo, un clasificador de votación dura o suave) puede mejorar un poco la precisión respecto a cada modelo individual, porque promediar las predicciones reduce la varianza del sistema. Si fueran prácticamente idénticos, la mejora sería nula.

### 2. ¿Cuál es la diferencia entre clasificadores de voto duro y voto suave?

En voto duro cada modelo da una clase y la salida final es la clase más votada. En voto suave, cada modelo da probabilidades por clase, se promedian esas probabilidades y se elige la de mayor probabilidad media. El voto suave suele ir mejor porque tiene en cuenta el grado de confianza de los modelos.

### 3. ¿Es posible acelerar el entrenamiento de un ensemble de bagging distribuyéndolo entre múltiples servidores? ¿Qué pasa con los ensembles de pasting, boosting, random forests o stacking?

En bagging y pasting cada modelo se entrena de forma independiente en un subconjunto de datos, así que se pueden repartir entre varios núcleos/servidores sin problema. Lo mismo vale para los Random Forests, que son básicamente bagging de árboles. En boosting (AdaBoost, Gradient Boosting) los modelos se entrenan secuencialmente, cada uno corrige al anterior, así que no se puede paralelizar la secuencia. En stacking, los modelos base sí se pueden entrenar en paralelo, pero el meta-modelo va después con sus salidas.

### 4. ¿Cuál es el beneficio de la evaluación out-of-bag?

En bagging, cada modelo solo ve alrededor del 63 % de las instancias de entrenamiento, el resto se consideran out-of-bag para ese modelo. Eso permite usarlas como “test interno” sin tener que reservar un conjunto de validación separado, aprovechando todos los datos tanto para entrenar como para estimar el rendimiento del ensemble.

### 5. ¿Qué hace que los Extra-Trees sean más aleatorios que los Random Forests regulares? ¿Cómo puede ayudar esta aleatoriedad extra? ¿Son los Extra-Trees más lentos o más rápidos que los Random Forests regulares?

Los Extra-Trees son más aleatorios porque, además de muestrear características como en un Random Forest, eligen los umbrales de corte de forma totalmente aleatoria en cada nodo, en vez de buscar el mejor split. Esta aleatoriedad extra reduce la correlación entre árboles, baja la varianza (aunque suba un poco el sesgo) y suele mejorar la generalización. Al no buscar el mejor umbral, suelen ser más rápidos de entrenar que un Random Forest estándar.

### 6. Si tu ensemble de AdaBoost subajusta los datos de entrenamiento, ¿qué hiperparámetros deberías ajustar y cómo?

Si mi ensemble de **AdaBoost** está subajustando (no llega a aprender bien ni siquiera el conjunto de entrenamiento), lo que necesito es darle más capacidad al modelo. Desde el punto de vista de los hiperparámetros, las opciones típicas son:

- Aumentar `n_estimators`, es decir, añadir más clasificadores débiles al ensemble para que tenga más pasos de corrección de errores. 

- Hacer el estimador base algo más complejo (por ejemplo, árboles con mayor `max_depth` en lugar de simples decision stumps).

- Y, si sigo muy corto, se puede subir ligeramente `learning_rate`, porque una tasa de aprendizaje muy baja actúa como una regularización fuerte y puede estar frenando demasiado las correcciones.

### 7. Si tu ensemble de Gradient Boosting sobreajusta el conjunto de entrenamiento, ¿deberías aumentar o disminuir la tasa de aprendizaje?

En **Gradient Boosting**, el hiperparámetro `learning_rate` controla cuánto corrige cada nuevo árbol los errores de los anteriores. Un valor alto hace que cada árbol “empuje” mucho y es fácil que el modelo sobreajuste al conjunto de entrenamiento. Cuando veo overfitting, lo que debo hacer es disminuir la tasa de aprendizaje y, en compensación, permitir más árboles (`n_estimators` más grande). En las transparencias se comenta precisamente que valores bajos de `learning_rate` requieren más árboles pero tienden a generalizar mejor gracias a esta estrategia de *shrinkage*.

---

## Parte práctica (obligatoria)

### Ejercicio 8

Carga los datos MNIST (introducidos en el Capítulo 3) y divídelos en un conjunto de entrenamiento, un conjunto de validación y un conjunto de prueba (por ejemplo, usa 50,000 instancias para entrenamiento, 10,000 para validación y 10,000 para prueba).

- Luego entrena varios clasificadores, como un clasificador Random Forest, un clasificador Extra-Trees y un SVM.
- A continuación, intenta combinarlos en un ensemble que supere a todos en el conjunto de validación, utilizando un clasificador de voto suave o duro.
- Una vez que hayas encontrado uno, pruébalo en el conjunto de prueba.
- ¿Cuánto mejor se desempeña en comparación con los clasificadores individuales?

Primero se cargan los datos de MNIST desde `fetch_openml`. Después se normalizan las imágenes y se realiza la partición en conjuntos de entrenamiento, validación y prueba con el esquema 50k/10k/10k.

In [48]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"

import numpy as np

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Where to save the figures
import os
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "ensembles"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

from sklearn.datasets import fetch_openml
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier, VotingClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

np.random.seed(42)

In [49]:
mnist = fetch_openml('mnist_784', version=1, as_frame=False)

X = mnist["data"]
y = mnist["target"].astype(np.uint8)  # etiquetas como enteros

# Normalización sencilla [0, 1]
X = X / 255.0

# División 60k / 10k (como en el libro) y luego 50k / 10k / 10k
X_train_full, X_test = X[:60000], X[60000:]
y_train_full, y_test = y[:60000], y[60000:]

X_train, X_val = X_train_full[:50000], X_train_full[50000:]
y_train, y_val = y_train_full[:50000], y_train_full[50000:]

X_train.shape, X_val.shape, X_test.shape


((50000, 784), (10000, 784), (10000, 784))

En la siguiente celda se definen tres clasificadores distintos sobre el conjunto de entrenamiento: un Random Forest, un Extra-Trees y un SVM con kernel RBF. Para que el SVM sea computacionalmente manejable, se entrena sobre un subconjunto del conjunto de entrenamiento, mientras que la validación se hace siempre sobre las 10.000 instancias de validación.

In [50]:
# Modelos base: Random Forest, Extra-Trees y SVM
rf_clf = RandomForestClassifier(
    n_estimators=100,
    max_features="sqrt",
    n_jobs=-1,
    random_state=42
)

et_clf = ExtraTreesClassifier(
    n_estimators=100,
    max_features="sqrt",
    n_jobs=-1,
    random_state=42
)

# Para el SVM se usa un subconjunto del entrenamiento por coste computacional
svm_train_size = 10000
X_train_svm = X_train[:svm_train_size]
y_train_svm = y_train[:svm_train_size]

svm_clf = SVC(
    kernel="rbf",
    gamma="scale",
    C=10,
    probability=True,  # necesario para voto suave
    random_state=42
)


A continuación, se entrenan los modelos con sus respectivos datos de entrenamiento y se evalúan en el conjunto de validación, de forma que se tenga una referencia del rendimiento individual.

In [51]:
# Entrenamiento de los modelos individuales
rf_clf.fit(X_train, y_train)
et_clf.fit(X_train, y_train)
svm_clf.fit(X_train_svm, y_train_svm)

# Evaluación en el conjunto de validación
y_val_pred_rf = rf_clf.predict(X_val)
y_val_pred_et = et_clf.predict(X_val)
y_val_pred_svm = svm_clf.predict(X_val)

val_acc_rf = accuracy_score(y_val, y_val_pred_rf)
val_acc_et = accuracy_score(y_val, y_val_pred_et)
val_acc_svm = accuracy_score(y_val, y_val_pred_svm)

val_acc_rf, val_acc_et, val_acc_svm


(0.9734, 0.9743, 0.9706)

En este punto se dispone de las precisiones en validación de cada clasificador por separado. Los resultados obtenidos han sido aproximadamente 0.9734 para Random Forest, 0.9743 para Extra-Trees y 0.9706 para el SVM. Aunque Extra-Trees destaca ligeramente, las tres métricas son muy similares y ya bastante altas, lo que indica que todos los modelos capturan bien la estructura del problema. Aun así, es razonable pensar que sus errores no son totalmente coincidentes, especialmente entre los modelos basados en árboles y el SVM, por lo que la combinación de sus predicciones puede aportar una mejora adicional.

El siguiente paso consiste, por tanto, en construir un ensemble de votación que combine estos modelos. Se intentó utilizar un `VotingClassifier` con voto suave, ya que aprovecha las probabilidades de los modelos base y suele ofrecer un rendimiento algo superior. Sin embargo, dado que el SVM se reentrena internamente sobre las 50.000 instancias cuando se llama a fit() del VotingClassifier, el tiempo de cómputo se vuelve excesivo. Por ello, se opta por implementar manualmente el voto suave: se obtienen las probabilidades `predict_proba` de cada clasificador base, se promedian y se escoge la clase con mayor probabilidad media, reproduciendo el comportamiento del voto suave sin forzar un nuevo entrenamiento costoso del SVM.

In [52]:
def soft_voting_predict(models, X):
    """
    Realiza voto suave a partir de una lista de modelos que implementan predict_proba.
    Devuelve las clases predichas por el ensemble.
    """
    # Se acumulan las probabilidades de cada modelo
    proba_list = [clf.predict_proba(X) for clf in models]
    avg_proba = np.mean(proba_list, axis=0)
    # Se escoge la clase con mayor probabilidad media
    return np.argmax(avg_proba, axis=1)


A continuación se evalúa este ensemble de voto suave sobre el conjunto de validación y se compara su precisión con la de los clasificadores individuales.

In [53]:
# Ensemble de voto suave sobre el conjunto de validación
base_models = [rf_clf, et_clf, svm_clf]

y_val_pred_ensemble = soft_voting_predict(base_models, X_val)
val_acc_ensemble = accuracy_score(y_val, y_val_pred_ensemble)

val_acc_rf, val_acc_et, val_acc_svm, val_acc_ensemble


(0.9734, 0.9743, 0.9706, 0.9759)

En nuestro caso concreto, las precisiones en validación han sido 97,34% para Random Forest, 97,43% para Extra-Trees y 97,06% para el SVM, mientras que el ensemble de voto suave alcanza 97,59%. Es decir, el ensemble mejora ligeramente al mejor modelo individual (Extra-Trees) en unas dos décimas porcentuales, lo que confirma que los modelos aportan información complementaria y que la agregación de sus probabilidades permite corregir algunos errores que cometen por separado.

Una vez comprobado que el ensemble funciona bien en validación, el siguiente paso consiste en evaluar tanto los modelos individuales como el ensemble sobre el conjunto de prueba, usando exactamente los modelos ya entrenados.

In [54]:
# Evaluación de los modelos individuales en el conjunto de prueba
y_test_pred_rf = rf_clf.predict(X_test)
y_test_pred_et = et_clf.predict(X_test)
y_test_pred_svm = svm_clf.predict(X_test)

test_acc_rf = accuracy_score(y_test, y_test_pred_rf)
test_acc_et = accuracy_score(y_test, y_test_pred_et)
test_acc_svm = accuracy_score(y_test, y_test_pred_svm)

# Evaluación del ensemble de voto suave en el conjunto de prueba
y_test_pred_ensemble = soft_voting_predict(base_models, X_test)
test_acc_ensemble = accuracy_score(y_test, y_test_pred_ensemble)

test_acc_rf, test_acc_et, test_acc_svm, test_acc_ensemble


(0.968, 0.9703, 0.9684, 0.9721)

En los resultados obtenidos en el conjunto de prueba, las precisiones han sido 96,8% para Random Forest, 97,03% para Extra-Trees y 96,84% para el SVM, mientras que el ensemble de voto suave alcanza 97,21%. Es decir, el ensemble mejora ligeramente al mejor modelo individual (Extra-Trees) en unas pocas décimas, cumpliendo el objetivo del ejercicio: se consigue un rendimiento algo superior y un comportamiento más estable que cualquiera de los clasificadores por separado.

### Ejercicio 9

Ejecuta los clasificadores individuales del ejercicio anterior para hacer predicciones en el conjunto de validación, y crea un nuevo conjunto de entrenamiento con las predicciones resultantes:

- Cada instancia de entrenamiento es un vector que contiene el conjunto de predicciones de todos tus clasificadores para una imagen, y el objetivo es la clase de la imagen.
- Entrena un clasificador en este nuevo conjunto de entrenamiento. ¡Felicidades, acabas de entrenar un blender, y junto con los clasificadores forman un ensemble de stacking! Ahora evaluemos el ensemble en el conjunto de prueba.
- Para cada imagen en el conjunto de prueba, haz predicciones con todos tus clasificadores, luego alimenta las predicciones al blender para obtener las predicciones del ensemble.
- ¿Cómo se compara con el clasificador de votación que entrenaste anteriormente?

En este ejercicio se construye un ensemble de tipo stacking utilizando los tres modelos del ejercicio 8 (Random Forest, Extra-Trees y SVM) como clasificadores base. El blender se entrena a partir de las predicciones que estos modelos realizaron sobre el conjunto de validación, que ya se calcularon previamente.

Se asume que ya están definidos y entrenados `rf_clf`, `et_clf`, `svm_clf`, y que se dispone de `X_val`, `y_val`, `X_test`, `y_test`, así como de las predicciones en validación:

In [55]:
# Ya calculadas en el ejercicio 8
# y_val_pred_rf = rf_clf.predict(X_val)
# y_val_pred_et = et_clf.predict(X_val)
# y_val_pred_svm = svm_clf.predict(X_val)

A partir de estas predicciones se construye el nuevo conjunto de entrenamiento para el blender. Cada instancia de este conjunto contiene las tres predicciones de los modelos base para una misma imagen, y la etiqueta real sigue siendo `y_val`.

In [56]:
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Construcción del conjunto de entrenamiento del blender
X_blend = np.c_[y_val_pred_rf, y_val_pred_et, y_val_pred_svm]
y_blend = y_val

X_blend.shape, y_blend.shape

((10000, 3), (10000,))

A continuación se entrena el clasificador que actuará como blender. Se utiliza una regresión logística, que suele funcionar bien como meta-modelo al aprender a ponderar y combinar las salidas de los modelos base.

In [57]:
# Definición y entrenamiento del blender
blender = LogisticRegression(
    max_iter=1000,
    random_state=42
)

blender.fit(X_blend, y_blend)


0,1,2
,"penalty  penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Specify the norm of the penalty: - `None`: no penalty is added; - `'l2'`: add a L2 penalty term and it is the default choice; - `'l1'`: add a L1 penalty term; - `'elasticnet'`: both L1 and L2 penalty terms are added. .. warning::  Some penalties may not work with some solvers. See the parameter  `solver` below, to know the compatibility between the penalty and  solver. .. versionadded:: 0.19  l1 penalty with SAGA solver (allowing 'multinomial' + L1) .. deprecated:: 1.8  `penalty` was deprecated in version 1.8 and will be removed in 1.10.  Use `l1_ratio` instead. `l1_ratio=0` for `penalty='l2'`, `l1_ratio=1` for  `penalty='l1'` and `l1_ratio` set to any float between 0 and 1 for  `'penalty='elasticnet'`.",'deprecated'
,"C  C: float, default=1.0 Inverse of regularization strength; must be a positive float. Like in support vector machines, smaller values specify stronger regularization. `C=np.inf` results in unpenalized logistic regression. For a visual example on the effect of tuning the `C` parameter with an L1 penalty, see: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.",1.0
,"l1_ratio  l1_ratio: float, default=0.0 The Elastic-Net mixing parameter, with `0 <= l1_ratio <= 1`. Setting `l1_ratio=1` gives a pure L1-penalty, setting `l1_ratio=0` a pure L2-penalty. Any value between 0 and 1 gives an Elastic-Net penalty of the form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning::  Certain values of `l1_ratio`, i.e. some penalties, may not work with some  solvers. See the parameter `solver` below, to know the compatibility between  the penalty and solver. .. versionchanged:: 1.8  Default value changed from None to 0.0. .. deprecated:: 1.8  `None` is deprecated and will be removed in version 1.10. Always use  `l1_ratio` to specify the penalty type.",0.0
,"dual  dual: bool, default=False Dual (constrained) or primal (regularized, see also :ref:`this equation `) formulation. Dual formulation is only implemented for l2 penalty with liblinear solver. Prefer `dual=False` when n_samples > n_features.",False
,"tol  tol: float, default=1e-4 Tolerance for stopping criteria.",0.0001
,"fit_intercept  fit_intercept: bool, default=True Specifies if a constant (a.k.a. bias or intercept) should be added to the decision function.",True
,"intercept_scaling  intercept_scaling: float, default=1 Useful only when the solver `liblinear` is used and `self.fit_intercept` is set to `True`. In this case, `x` becomes `[x, self.intercept_scaling]`, i.e. a ""synthetic"" feature with constant value equal to `intercept_scaling` is appended to the instance vector. The intercept becomes ``intercept_scaling * synthetic_feature_weight``. .. note::  The synthetic feature weight is subject to L1 or L2  regularization as all other features.  To lessen the effect of regularization on synthetic feature weight  (and therefore on the intercept) `intercept_scaling` has to be increased.",1
,"class_weight  class_weight: dict or 'balanced', default=None Weights associated with classes in the form ``{class_label: weight}``. If not given, all classes are supposed to have weight one. The ""balanced"" mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as ``n_samples / (n_classes * np.bincount(y))``. Note that these weights will be multiplied with sample_weight (passed through the fit method) if sample_weight is specified. .. versionadded:: 0.17  *class_weight='balanced'*",
,"random_state  random_state: int, RandomState instance, default=None Used when ``solver`` == 'sag', 'saga' or 'liblinear' to shuffle the data. See :term:`Glossary ` for details.",42
,"solver  solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' Algorithm to use in the optimization problem. Default is 'lbfgs'. To choose a solver, you might want to consider the following aspects: - 'lbfgs' is a good default solver because it works reasonably well for a wide  class of problems. - For :term:`multiclass` problems (`n_classes >= 3`), all solvers except  'liblinear' minimize the full multinomial loss, 'liblinear' will raise an  error. - 'newton-cholesky' is a good choice for  `n_samples` >> `n_features * n_classes`, especially with one-hot encoded  categorical features with rare categories. Be aware that the memory usage  of this solver has a quadratic dependency on `n_features * n_classes`  because it explicitly computes the full Hessian matrix. - For small datasets, 'liblinear' is a good choice, whereas 'sag'  and 'saga' are faster for large ones; - 'liblinear' can only handle binary classification by default. To apply a  one-versus-rest scheme for the multiclass setting one can wrap it with the  :class:`~sklearn.multiclass.OneVsRestClassifier`. .. warning::  The choice of the algorithm depends on the penalty chosen (`l1_ratio=0`  for L2-penalty, `l1_ratio=1` for L1-penalty and `0 < l1_ratio < 1` for  Elastic-Net) and on (multinomial) multiclass support:  ================= ======================== ======================  solver l1_ratio multinomial multiclass  ================= ======================== ======================  'lbfgs' l1_ratio=0 yes  'liblinear' l1_ratio=1 or l1_ratio=0 no  'newton-cg' l1_ratio=0 yes  'newton-cholesky' l1_ratio=0 yes  'sag' l1_ratio=0 yes  'saga' 0<=l1_ratio<=1 yes  ================= ======================== ====================== .. note::  'sag' and 'saga' fast convergence is only guaranteed on features  with approximately the same scale. You can preprocess the data with  a scaler from :mod:`sklearn.preprocessing`. .. seealso::  Refer to the :ref:`User Guide ` for more  information regarding :class:`LogisticRegression` and more specifically the  :ref:`Table `  summarizing solver/penalty supports. .. versionadded:: 0.17  Stochastic Average Gradient (SAG) descent solver. Multinomial support in  version 0.18. .. versionadded:: 0.19  SAGA solver. .. versionchanged:: 0.22  The default solver changed from 'liblinear' to 'lbfgs' in 0.22. .. versionadded:: 1.2  newton-cholesky solver. Multinomial support in version 1.6.",'lbfgs'


Una vez entrenado el blender, se evalúa el ensemble de stacking en el conjunto de prueba. Para cada imagen de X_test se generan primero las predicciones de los tres clasificadores base y con ellas se construye el vector de entrada para el blender, que devuelve la predicción final del ensemble. Al final, se compara este rendimiento con el del clasificador de votación suave obtenido en el ejercicio 8, cuyo accuracy en test se había guardado en test_acc_ensemble.

In [58]:
# Predicciones de los modelos base en el conjunto de prueba
y_test_pred_rf = rf_clf.predict(X_test)
y_test_pred_et = et_clf.predict(X_test)
y_test_pred_svm = svm_clf.predict(X_test)

# Construcción del conjunto de test para el blender
X_test_blend = np.c_[y_test_pred_rf, y_test_pred_et, y_test_pred_svm]

# Predicciones finales del ensemble de stacking
y_test_pred_stack = blender.predict(X_test_blend)

stack_acc = accuracy_score(y_test, y_test_pred_stack)

test_acc_ensemble, stack_acc # se comparan con el ensemble del ejercicio anterior


(0.9721, 0.9582)

En este punto se puede comparar de forma directa el ensemble de votación suave con el stacking. En nuestro caso, el clasificador de voto suave alcanza una precisión en test de 97,21%, mientras que el ensemble de stacking obtiene 95,82%. Es decir, lejos de mejorar al voto suave, el blender rinde claramente peor. Esto sugiere que, con la configuración utilizada (blender entrenado solo a partir de las predicciones discretas de los modelos base), el stacking no consigue explotar de manera efectiva la información disponible y probablemente esté sobreajustando al conjunto de validación o perdiendo matices que sí están presentes en las probabilidades del voto suave. Para este problema concreto y con esta implementación, puede concluirse que el ensemble de votación es la estrategia de combinación más adecuada, tanto en términos de rendimiento como de simplicidad.

#### Mejora del modelo de stacking

Para mejorar la capacidad del ensemble de stacking, se podrían considerar varios cambios: en lugar de usar solo las clases predichas por cada modelo base, se utilizan sus probabilidades `predict_proba`. De esta forma, el blender recibe mucha más información (confianza de cada modelo en cada dígito) y tiene más margen para superar al ensemble de votación suave del ejercicio 8.

In [59]:
# Probabilidades de los modelos base en el conjunto de validación
val_proba_rf = rf_clf.predict_proba(X_val)
val_proba_et = et_clf.predict_proba(X_val)
val_proba_svm = svm_clf.predict_proba(X_val)

# Cada modelo produce 10 probabilidades (una por dígito 0–9)
# Se concatenan: [probas RF | probas ET | probas SVM] → 30 características por imagen
X_blend = np.c_[val_proba_rf, val_proba_et, val_proba_svm]
y_blend = y_val

X_blend.shape, y_blend.shape

((10000, 30), (10000,))

De nuevo, se entrena el blender:

In [60]:
# Definición y entrenamiento del blender sobre las probabilidades
blender = LogisticRegression(
    max_iter=1000,
    random_state=42
)

blender.fit(X_blend, y_blend)


0,1,2
,"penalty  penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Specify the norm of the penalty: - `None`: no penalty is added; - `'l2'`: add a L2 penalty term and it is the default choice; - `'l1'`: add a L1 penalty term; - `'elasticnet'`: both L1 and L2 penalty terms are added. .. warning::  Some penalties may not work with some solvers. See the parameter  `solver` below, to know the compatibility between the penalty and  solver. .. versionadded:: 0.19  l1 penalty with SAGA solver (allowing 'multinomial' + L1) .. deprecated:: 1.8  `penalty` was deprecated in version 1.8 and will be removed in 1.10.  Use `l1_ratio` instead. `l1_ratio=0` for `penalty='l2'`, `l1_ratio=1` for  `penalty='l1'` and `l1_ratio` set to any float between 0 and 1 for  `'penalty='elasticnet'`.",'deprecated'
,"C  C: float, default=1.0 Inverse of regularization strength; must be a positive float. Like in support vector machines, smaller values specify stronger regularization. `C=np.inf` results in unpenalized logistic regression. For a visual example on the effect of tuning the `C` parameter with an L1 penalty, see: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.",1.0
,"l1_ratio  l1_ratio: float, default=0.0 The Elastic-Net mixing parameter, with `0 <= l1_ratio <= 1`. Setting `l1_ratio=1` gives a pure L1-penalty, setting `l1_ratio=0` a pure L2-penalty. Any value between 0 and 1 gives an Elastic-Net penalty of the form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning::  Certain values of `l1_ratio`, i.e. some penalties, may not work with some  solvers. See the parameter `solver` below, to know the compatibility between  the penalty and solver. .. versionchanged:: 1.8  Default value changed from None to 0.0. .. deprecated:: 1.8  `None` is deprecated and will be removed in version 1.10. Always use  `l1_ratio` to specify the penalty type.",0.0
,"dual  dual: bool, default=False Dual (constrained) or primal (regularized, see also :ref:`this equation `) formulation. Dual formulation is only implemented for l2 penalty with liblinear solver. Prefer `dual=False` when n_samples > n_features.",False
,"tol  tol: float, default=1e-4 Tolerance for stopping criteria.",0.0001
,"fit_intercept  fit_intercept: bool, default=True Specifies if a constant (a.k.a. bias or intercept) should be added to the decision function.",True
,"intercept_scaling  intercept_scaling: float, default=1 Useful only when the solver `liblinear` is used and `self.fit_intercept` is set to `True`. In this case, `x` becomes `[x, self.intercept_scaling]`, i.e. a ""synthetic"" feature with constant value equal to `intercept_scaling` is appended to the instance vector. The intercept becomes ``intercept_scaling * synthetic_feature_weight``. .. note::  The synthetic feature weight is subject to L1 or L2  regularization as all other features.  To lessen the effect of regularization on synthetic feature weight  (and therefore on the intercept) `intercept_scaling` has to be increased.",1
,"class_weight  class_weight: dict or 'balanced', default=None Weights associated with classes in the form ``{class_label: weight}``. If not given, all classes are supposed to have weight one. The ""balanced"" mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as ``n_samples / (n_classes * np.bincount(y))``. Note that these weights will be multiplied with sample_weight (passed through the fit method) if sample_weight is specified. .. versionadded:: 0.17  *class_weight='balanced'*",
,"random_state  random_state: int, RandomState instance, default=None Used when ``solver`` == 'sag', 'saga' or 'liblinear' to shuffle the data. See :term:`Glossary ` for details.",42
,"solver  solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' Algorithm to use in the optimization problem. Default is 'lbfgs'. To choose a solver, you might want to consider the following aspects: - 'lbfgs' is a good default solver because it works reasonably well for a wide  class of problems. - For :term:`multiclass` problems (`n_classes >= 3`), all solvers except  'liblinear' minimize the full multinomial loss, 'liblinear' will raise an  error. - 'newton-cholesky' is a good choice for  `n_samples` >> `n_features * n_classes`, especially with one-hot encoded  categorical features with rare categories. Be aware that the memory usage  of this solver has a quadratic dependency on `n_features * n_classes`  because it explicitly computes the full Hessian matrix. - For small datasets, 'liblinear' is a good choice, whereas 'sag'  and 'saga' are faster for large ones; - 'liblinear' can only handle binary classification by default. To apply a  one-versus-rest scheme for the multiclass setting one can wrap it with the  :class:`~sklearn.multiclass.OneVsRestClassifier`. .. warning::  The choice of the algorithm depends on the penalty chosen (`l1_ratio=0`  for L2-penalty, `l1_ratio=1` for L1-penalty and `0 < l1_ratio < 1` for  Elastic-Net) and on (multinomial) multiclass support:  ================= ======================== ======================  solver l1_ratio multinomial multiclass  ================= ======================== ======================  'lbfgs' l1_ratio=0 yes  'liblinear' l1_ratio=1 or l1_ratio=0 no  'newton-cg' l1_ratio=0 yes  'newton-cholesky' l1_ratio=0 yes  'sag' l1_ratio=0 yes  'saga' 0<=l1_ratio<=1 yes  ================= ======================== ====================== .. note::  'sag' and 'saga' fast convergence is only guaranteed on features  with approximately the same scale. You can preprocess the data with  a scaler from :mod:`sklearn.preprocessing`. .. seealso::  Refer to the :ref:`User Guide ` for more  information regarding :class:`LogisticRegression` and more specifically the  :ref:`Table `  summarizing solver/penalty supports. .. versionadded:: 0.17  Stochastic Average Gradient (SAG) descent solver. Multinomial support in  version 0.18. .. versionadded:: 0.19  SAGA solver. .. versionchanged:: 0.22  The default solver changed from 'liblinear' to 'lbfgs' in 0.22. .. versionadded:: 1.2  newton-cholesky solver. Multinomial support in version 1.6.",'lbfgs'


Y se repite la evaluación:

In [61]:
# Probabilidades de los modelos base en el conjunto de prueba
test_proba_rf = rf_clf.predict_proba(X_test)
test_proba_et = et_clf.predict_proba(X_test)
test_proba_svm = svm_clf.predict_proba(X_test)

# Construcción del conjunto de test para el blender
X_test_blend = np.c_[test_proba_rf, test_proba_et, test_proba_svm]

# Predicciones finales del ensemble de stacking
y_test_pred_stack = blender.predict(X_test_blend)

stack_acc = accuracy_score(y_test, y_test_pred_stack)

test_acc_ensemble, stack_acc


(0.9721, 0.9729)

Con esta versión mejorada del stacking, el resultado en test pasa de un 97,21% con el ensemble de votación suave y un 95,82% con el primer blender “fallido” a un 97,29% con el nuevo ensemble de stacking. La mejora frente al blender anterior se debe a que aquel solo veía tres etiquetas discretas (las clases predichas por cada modelo), perdiendo casi toda la información de confianza y dando lugar a una combinación más pobre. En cambio, el nuevo blender trabaja directamente con las probabilidades `predict_proba` de cada clasificador, dispone de mucha más señal y puede aprender a ponderar mejor a cada modelo según el patrón de salida, lo que le permite acercarse e incluso superar ligeramente al ensemble de votación suave.