In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.metrics import accuracy_score

In [None]:
mnist = datasets.fetch_openml('mnist_784', version=1) # Cargue Dataset  MNIST
X, y = mnist['data'], mnist['target'].astype(int)

In [None]:
filter_mask = (y == 0) | (y == 8) #Filtro 0s y 8s
X_filtered = X[filter_mask]
y_filtered = y[filter_mask]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_filtered, y_filtered, test_size=0.2, random_state=42) # Divide datos entrenamiento y Prueba

In [None]:
pca = PCA(n_components=2) # Aplics PCA para Reduccion dimensionalidad
X_pca = pca.fit_transform(X_train)

In [None]:
tsne = TSNE(n_components=2, random_state=42) # Aplics t-SNE para Reduccion dimensionalidad
X_tsne = tsne.fit_transform(X_train)

In [None]:
model_original = LogisticRegression(max_iter=500) # Entrenamiento del Modelo LogisticRegression
model_original.fit(X_train, y_train)
y_pred_original = model_original.predict(X_test)
accuracy_original = accuracy_score(y_test, y_pred_original)

In [None]:
model_pca = LogisticRegression(max_iter=500) # Entrenamiento del Modelo Logistic Regression en PCA-reduced data
model_pca.fit(X_pca, y_train)
y_pred_pca = model_pca.predict(pca.transform(X_test))
accuracy_pca = accuracy_score(y_test, y_pred_pca)

In [None]:
model_tsne = LogisticRegression(max_iter=500) # Entrenamiento del Modelo Logistic Regression en t-SNE-reduced data
model_tsne.fit(X_tsne, y_train)
y_pred_tsne = model_tsne.predict(tsne.fit_transform(X_test))
accuracy_tsne = accuracy_score(y_test, y_pred_tsne)

In [None]:
plt.figure(figsize=(12, 8)) # Trazado

In [None]:
plt.subplot(2, 2, 1)
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y_train, cmap='viridis', marker='.')
plt.title('PCA - Original Data')

plt.subplot(2, 2, 2)
plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y_train, cmap='viridis', marker='.')
plt.title('t-SNE - Original Data')

plt.subplot(2, 2, 3)
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y_train, cmap='viridis', marker='.')
plt.title(f'PCA - Accuracy: {accuracy_pca:.2f}')

plt.subplot(2, 2, 4)
plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y_train, cmap='viridis', marker='.')
plt.title(f't-SNE - Accuracy: {accuracy_tsne:.2f}')

plt.show()

Aplicamos la reducción de la dimensionalidad utilizando algunos algoritmos en el conjunto de datos MNIST, para reducirlo a sólo 2 características por imagen.
entrenaremos un modelo de regresión logística con estas características reducidas y analizaremos el impacto en el rendimiento del modelo