# EJERCICIOS

In [7]:
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.decomposition import PCA
from sklearn.linear_model import SGDClassifier
from matplotlib import pyplot as plt
from sklearn.manifold import LocallyLinearEmbedding, MDS, TSNE
from sklearn.pipeline import make_pipeline
import time


## EJERCICIO 1

Carga el conjunto de datos MNIST y divídelo en un conjunto de entrenamiento y un conjunto de prueba (coge las 60.000 primeras instancias para el entrenamiento y las 10.000 restantes para la prueba). 
Entrena un clasificador random forest en el conjunto de datos y cronometra cuánto tarda (puedes usar la anotación %time de jupyter notebook); luego, evalúa el modelo resultante en el conjunto de prueba. 

A continuación, utiliza PCA para reducir la dimensionalidad del conjunto de datos, con un ratio de varianza explicada del 95%. Entrena un nuevo clasificador random forest en el conjunto de datos reducido y comprueba cuánto tarda. ¿Ha sido el entrenamiento mucho más rápido? A continuación, evalúa el clasificador en el conjunto de prueba. ¿Qué tal lo hace en comparación con el clasificador anterior? 

Prueba otra vez con un SGDClassifier, ¿cuánto ayuda ahora el PCA?

In [8]:
# Cargar el conjunto de datos MNIST
mnist = fetch_openml('mnist_784', version=1)
X, y = mnist.data, mnist.target.astype(np.int32)  # Convertir etiquetas a enteros

# Dividir el conjunto de datos
X_train, X_test = X[:60000], X[60000:]
y_train, y_test = y[:60000], y[60000:]

# Entrenar RandomForestClassifier sin PCA
print("Entrenando RandomForestClassifier sin PCA...")


Entrenando RandomForestClassifier sin PCA...


In [9]:
rf_clf = RandomForestClassifier(random_state=42)

# Cronometrar el tiempo de entrenamiento
start = time.time()
rf_clf.fit(X_train, y_train)
end = time.time()

print(f"Tiempo de entrenamiento sin PCA: {end - start:.2f} segundos")



Tiempo de entrenamiento sin PCA: 43.37 segundos


In [10]:

# Evaluar en el conjunto de prueba
y_pred_rf = rf_clf.predict(X_test)
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f"Precisión de RandomForestClassifier sin PCA: {accuracy_rf:.4f}")



Precisión de RandomForestClassifier sin PCA: 0.9705


In [11]:

# Reducir dimensionalidad con PCA
pca = PCA(n_components=0.95)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

print(f"Dimensionalidad reducida a: {X_train_pca.shape[1]} componentes principales")


Dimensionalidad reducida a: 154 componentes principales


In [12]:

# Entrenar RandomForestClassifier con PCA
print("Entrenando RandomForestClassifier con PCA...")
rf_clf_pca = RandomForestClassifier(random_state=42)

start = time.time()
rf_clf_pca.fit(X_train_pca, y_train)
end = time.time()

print(f"Tiempo de entrenamiento con PCA: {end - start:.2f} segundos")

Entrenando RandomForestClassifier con PCA...
Tiempo de entrenamiento con PCA: 122.01 segundos


In [13]:

# Evaluar en el conjunto de prueba
y_pred_rf_pca = rf_clf_pca.predict(X_test_pca)
accuracy_rf_pca = accuracy_score(y_test, y_pred_rf_pca)
print(f"Precisión de RandomForestClassifier con PCA: {accuracy_rf_pca:.4f}")



Precisión de RandomForestClassifier con PCA: 0.9488


In [14]:

# Entrenar SGDClassifier sin PCA
print("\nEntrenando SGDClassifier sin PCA...")
sgd_clf = SGDClassifier(random_state=42)

start = time.time()
sgd_clf.fit(X_train, y_train)
end = time.time()

print(f"Tiempo de entrenamiento sin PCA: {end - start:.2f} segundos")


Entrenando SGDClassifier sin PCA...
Tiempo de entrenamiento sin PCA: 123.50 segundos


In [15]:

# Evaluar en el conjunto de prueba
y_pred_sgd = sgd_clf.predict(X_test)
accuracy_sgd = accuracy_score(y_test, y_pred_sgd)
print(f"Precisión de SGDClassifier sin PCA: {accuracy_sgd:.4f}")


Precisión de SGDClassifier sin PCA: 0.8740


In [16]:

# Entrenar SGDClassifier con PCA
print("Entrenando SGDClassifier con PCA...")
sgd_clf_pca = SGDClassifier(random_state=42)

start = time.time()
sgd_clf_pca.fit(X_train_pca, y_train)
end = time.time()

print(f"Tiempo de entrenamiento con PCA: {end - start:.2f} segundos")



Entrenando SGDClassifier con PCA...
Tiempo de entrenamiento con PCA: 26.56 segundos


In [17]:

# Evaluar en el conjunto de prueba
y_pred_sgd_pca = sgd_clf_pca.predict(X_test_pca)
accuracy_sgd_pca = accuracy_score(y_test, y_pred_sgd_pca)
print(f"Precisión de SGDClassifier con PCA: {accuracy_sgd_pca:.4f}")

Precisión de SGDClassifier con PCA: 0.8959


En este caso PCA hace que el tiempo de entrenamiento aumente, pero solo mejora la precisión con SGDClassifier, empeora un poco con Random Forest. 

## EJERCICIO 2 (OPCIONAL)

Utiliza t-SNE para reducir las primeras 5.000 imágenes del conjunto de datos MNIST a dos dimensiones (2 columas) 

Representa el resultado utilizando un gráfico de dispersión con 10 colores diferentes para representar la clase objetivo de cada imagen. 

 Prueba a utilizar otros algoritmos de reducción de dimensionalidad como PCA, LLE o MDS y compara las visualizaciones resultantes (la opción de MDS puede que tarde un rato).

 Prueba ahora creando un pipeline que primero aplique PCA y luego MDS (lanzalo con tiempo).