La técnica de clustering puede ser un enfoque eficiente para la reducción de la dimansionalidad, en particular como un paso de preprocesamiento antes de un algoritmo de aprendizaje supervisado.

Vamos a utilizar clustering para abordar un conjunto de datos de dígitos del 0 al 9, una versión similiar y simplificada del MNIST con 1797 imágenes de 8x8.

In [2]:
import numpy as np
from sklearn.datasets import load_digits

X_digits, y_digits = load_digits(return_X_y=True)

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_digits, y_digits, random_state=2)

In [4]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)
X_test_std = sc.transform(X_test)

Con estos datos, entrenamos un modelo de regresión logística y lo evaluamos

In [5]:
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression(max_iter=10_000, random_state=2)
log_reg.fit(X_train_std, y_train)

In [6]:
log_reg.score(X_test_std, y_test)

0.9444444444444444

Esta será nuestra línea de base 94.4%. Pruebe si puede mejorar este desempeño usando K-Means como paso de preprocesamiento, reemplazando cada imagen por la distancia a cada uno de los clusters.

Como se tienen 10 dígitos diferentes, existe la tendencia de fijar el número de clusters a 10. Sin embargo, cáda dígito puede ser escrito de diferentes maneras, por tanto es recomendable usar un número mayor de clusters. Probar con un valor arbitrario de k.

In [11]:
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score

In [33]:
ks = np.arange(6, 11, 1)
for k in ks:
  kmean = KMeans(n_clusters=k, n_init=10, random_state=2).fit(X_train_std)
  predict = kmean.predict(X_test_std)
  transform = kmean.transform(X_train_std)
  score = kmean.score(X_test_std, y_test)
  print(f"Con k={k}:\n\tScore={score}")

(1347, 6)
Con k=6:
	Score=-21386.801476409324
(1347, 7)
Con k=7:
	Score=-20211.33219696984
(1347, 8)
Con k=8:
	Score=-19481.551274783866
(1347, 9)
Con k=9:
	Score=-19478.827757894018
(1347, 10)
Con k=10:
	Score=-18075.780338873665


In [37]:
  kmean = KMeans(n_clusters=25, n_init=10, random_state=2).fit(X_train_std)
  transform = kmean.transform(X_train_std)
  transformTest = kmean.transform(X_test_std)
  print(transform.shape)
  log_reg = LogisticRegression(max_iter=10_000, random_state=2)
  log_reg.fit(transform, y_train)
  score = log_reg.score(transformTest, y_test)
  print(f"Con k={25}:\n\tScore={score}")

(1347, 25)
Con k=25:
	Score=0.9266666666666666


In [27]:
from sklearn.model_selection import GridSearchCV

In [23]:
parametros = {
    "n_clusters" : ks
}

kmeans = KMeans(random_state=2, n_init=10)
grid = GridSearchCV(estimator=kmeans, param_grid=parametros)
grid.fit(X_train_std, y_train)

Utilice GridSearchCV para encontrar el valor de k 

In [24]:
grid.best_params_

{'n_clusters': 59}