# Métodos ensemble:

1. Cargar los datos MNIST y dividirlos en un conjunto de entrenamiento, un conjunto de validación y un conjunto de test (por ejemplo, utilizar 50.000 instancias para entrenamiento, 10.000 para validación y 10.000 para pruebas). Luego, entrenar varios clasificadores, como un clasificador Random Forest, un clasificador Extra-Trees y un clasificador SVM. A continuación, intentar combinarlos en un conjunto que supere a cada clasificador individual en el conjunto de validación, utilizando votación soft o hard. Una vez que haya encontrado uno, probarlo en el conjunto de pruebas. ¿Cuánto mejor se desempeña en comparación con los clasificadores individuales?


In [4]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

mnist = fetch_openml('mnist_784')
X, y = mnist["data"], mnist["target"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=10000, random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=10000, random_state=42)


  warn(


In [3]:
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier
from sklearn.svm import SVC

# Entrenar varios clasificadores
rfc = RandomForestClassifier(n_estimators=30, random_state=42) #30 estimators porque sino tarda mucho
rfc.fit(X_train, y_train)

etc = ExtraTreesClassifier(n_estimators=30, random_state=42)
etc.fit(X_train, y_train)

svm = SVC(kernel='rbf', gamma='scale', probability=True, random_state=42)
svm.fit(X_train, y_train)


KeyboardInterrupt: 

In [6]:
from sklearn.ensemble import VotingClassifier

# Combinar los clasificadores en un conjunto utilizando votación soft
voting_clf = VotingClassifier(
    estimators=[('rfc', rfc), ('etc', etc), ('svm', svm)],
    voting='soft')
voting_clf.fit(X_train, y_train)


In [7]:
from sklearn.metrics import accuracy_score

# Evaluar el conjunto combinado en el conjunto de pruebas
y_pred_voting = voting_clf.predict(X_test)
voting_accuracy = accuracy_score(y_test, y_pred_voting)

# Evaluar cada clasificador individual en el conjunto de pruebas
y_pred_rfc = rfc.predict(X_test)
rfc_accuracy = accuracy_score(y_test, y_pred_rfc)

y_pred_etc = etc.predict(X_test)
etc_accuracy = accuracy_score(y_test, y_pred_etc)

y_pred_svm = svm.predict(X_test)
svm_accuracy = accuracy_score(y_test, y_pred_svm)

# Mostrar los resultados
print("Accuracy del conjunto combinado (votación suave): {:.2f}%".format(voting_accuracy * 100))
print("Accuracy del clasificador Random Forest: {:.2f}%".format(rfc_accuracy * 100))
print("Accuracy del clasificador Extra-Trees: {:.2f}%".format(etc_accuracy * 100))
print("Accuracy del clasificador SVM: {:.2f}%".format(svm_accuracy * 100))


Accuracy del conjunto combinado (votación suave): 98.67%
Accuracy del clasificador Random Forest: 97.78%
Accuracy del clasificador Extra-Trees: 98.00%
Accuracy del clasificador SVM: 99.11%


2. Ejecutar los clasificadores individuales del ejercicio anterior para hacer predicciones en el conjunto de validación y crear un nuevo conjunto de entrenamiento con las predicciones resultantes: cada instancia de entrenamiento es un vector que contiene el conjunto de predicciones de todos los clasificadores para una imagen, y el objetivo es la clase de la imagen. Entrenar un clasificador en este nuevo conjunto de entrenamiento. ¡Felicidades, acaba de entrenar un blender, y junto con los clasificadores forma un conjunto de stacking! Ahora evaluar el conjunto en el conjunto de pruebas. Para cada imagen en el conjunto de pruebas, hacer predicciones con todos los clasificadores, y luego alimentar las predicciones al mezclador para obtener las predicciones del conjunto. ¿Cómo se compara con el clasificador de votación que entrenó anteriormente?



3. Realice el ejercicio 1. otra vez utilizando los algoritmo XGBoost, LightGBM y CatBoost.

In [8]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import xgboost as xgb
import lightgbm as lgb
from catboost import CatBoostClassifier

# Cargar el dataset
digits = load_digits()

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)





In [9]:
# Entrenar clasificador XGBoost
xgb_clf = xgb.XGBClassifier()
xgb_clf.fit(X_train, y_train)

# Entrenar clasificador LightGBM
lgb_clf = lgb.LGBMClassifier()
lgb_clf.fit(X_train, y_train)

# Entrenar clasificador CatBoost
cat_clf = CatBoostClassifier()
cat_clf.fit(X_train, y_train, verbose=False)



<catboost.core.CatBoostClassifier at 0x7fdcb2437e80>

In [10]:
# Predecir en el conjunto de validación
xgb_val_preds = xgb_clf.predict(X_val)
lgb_val_preds = lgb_clf.predict(X_val)
cat_val_preds = cat_clf.predict(X_val)




In [11]:
# Evaluar la precisión de los clasificadores individuales en el conjunto de validación
xgb_val_acc = accuracy_score(y_val, xgb_val_preds)
lgb_val_acc = accuracy_score(y_val, lgb_val_preds)
cat_val_acc = accuracy_score(y_val, cat_val_preds)

print('XGBoost validation accuracy:', xgb_val_acc)
print('LightGBM validation accuracy:', lgb_val_acc)
print('CatBoost validation accuracy:', cat_val_acc)


XGBoost validation accuracy: 0.9666666666666667
LightGBM validation accuracy: 0.9805555555555555
CatBoost validation accuracy: 0.9888888888888889


In [12]:

# Realizar votación soft en el conjunto de validación
val_preds = (xgb_clf.predict_proba(X_val) + lgb_clf.predict_proba(X_val) + cat_clf.predict_proba(X_val)) / 3
val_preds = val_preds.argmax(axis=1)
ensemble_val_acc = accuracy_score(y_val, val_preds)
print('Ensemble validation accuracy:', ensemble_val_acc)

# Realizar votación soft en el conjunto de prueba
test_preds = (xgb_clf.predict_proba(X_test) + lgb_clf.predict_proba(X_test) + cat_clf.predict_proba(X_test)) / 3
test_preds = test_preds.argmax(axis=1)
ensemble_test_acc = accuracy_score(y_test, test_preds)
print('Ensemble test accuracy:', ensemble_test_acc)

Ensemble validation accuracy: 0.9861111111111112
Ensemble test accuracy: 0.9805555555555555


# Reducción dimensional

1. Cargue el conjunto de datos MNIST (introducido en el capítulo 3) y divídalo en un conjunto de entrenamiento y un conjunto de pruebas (tome las primeras 60,000 instancias para entrenamiento y las 10,000 restantes para test). Entrene un clasificador Random Forest en el conjunto de datos y tome el tiempo que tarda, luego evalúe el modelo resultante en el conjunto de test. A continuación, use PCA para reducir la dimensionalidad del conjunto de datos, con una relación de varianza explicada del 95%. Entrenar un nuevo clasificador Random Forest en el conjunto de datos reducido y ver cuánto tiempo tarda. ¿Fue el entrenamiento mucho más rápido? A continuación, evalúe el clasificador en el conjunto de pruebas. ¿Cómo se compara con el clasificador anterior?

2. Use t-SNE para reducir el conjunto de datos MNIST a dos dimensiones y grafique el resultado usando Matplotlib. Puede usar un gráfico de dispersión utilizando 10 colores diferentes para representar la clase objetivo de cada imagen. Alternativamente, puede reemplazar cada punto en el gráfico de dispersión con la clase correspondiente de la instancia (un dígito del 0 al 9), o incluso graficar versiones reducidas de las imágenes de dígitos en sí mismas (si grafica todos los dígitos, la visualización será demasiado desordenada, por lo que debe dibujar una muestra aleatoria o graficar una instancia solo si no se ha graficado otra instancia a una distancia cercana). Debería obtener una visualización con grupos de dígitos bien separados. Intente usar otros algoritmos de reducción de dimensionalidad como PCA, LLE o MDS y compare las visualizaciones resultantes.

# Preguntas teóricas
### Métodos de ensamble

1. Si ha entrenado cinco modelos diferentes en los mismos datos de entrenamiento y todos logran una precisión del 95%, ¿existe alguna posibilidad de combinar estos modelos para obtener mejores resultados? Si es así, ¿cómo? Si no, ¿por qué?
2. ¿Cuál es la diferencia entre los clasificadores de votación hard y de votación soft?
3. ¿Es posible acelerar el entrenamiento de un conjunto de bagging distribuyéndolo en varios servidores? ¿Qué pasa con los conjuntos de pasting, los conjuntos de boosting, los Random Forest o los ensambles Stacking?
4. ¿Cuál es el beneficio de la evaluación out-of-bag (OOB)?
5. ¿Qué hace que los Extra-Trees sean más aleatorios que los Random Forest regulares? ¿Cómo puede esta aleatoriedad adicional ayudar? ¿Son los Extra-Trees más lentos o más rápidos que los Random Forest regulares?
6. Si su conjunto de AdaBoost no se ajusta lo suficientemente bien a los datos de entrenamiento, ¿qué hiperparámetros debe ajustar y cómo?
7. Si su conjunto de Gradient Boosting sobreajusta el conjunto de entrenamiento, ¿debería aumentar o disminuir la tasa de aprendizaje?


### Reducción dimensional

1. What are the main motivations for reducing a dataset’s dimensionality? What are
the main drawbacks?
2. What is the curse of dimensionality?
3. Once a dataset’s dimensionality has been reduced, is it possible to reverse the
operation? If so, how? If not, why?
4. Can PCA be used to reduce the dimensionality of a highly nonlinear dataset?
5. Suppose you perform PCA on a 1,000-dimensional dataset, setting the explained
variance ratio to 95%. How many dimensions will the resulting dataset have?
6. In what cases would you use vanilla PCA, Incremental PCA, Randomized PCA,
or Kernel PCA?
7. How can you evaluate the performance of a dimensionality reduction algorithm
on your dataset?
8. Does it make any sense to chain two different dimensionality reduction algo‐
rithms?