# Probando el clusterizador de SUB-GAN con MNIST

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from keras.datasets import mnist

%matplotlib inline

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [2]:
(x_train, y_train), (x_test, y_test)=mnist.load_data()

In [12]:
x_train.shape, y_train.shape, x_test.shape, y_test.shape

((60000, 28, 28), (60000,), (10000, 28, 28), (10000,))

In [13]:
# Normalización
mu = x_train.mean()
sigma = x_train.std()

x_train = (x_train - mu) / sigma
x_test = (x_test - mu) / sigma

x_train.mean(), x_test.mean(), x_train.std(), x_test.std()

(-3.064638490070051e-17,
 0.0060177948928480576,
 0.9999999999999998,
 1.0077000453879372)

## Realizamos el cálculo de la matriz **C** de correlaciones

In [14]:
nb=20
X=(x_train[0:nb,:,:].reshape([nb,28*28])).T #Revisar si 'T' es lo correcto
X.shape

(20, 784)

In [15]:
# Dado que hubieron graves problemas con la dimensionalidad de la matriz de la muestra de 2 imágenes MNIST,
# se decide utilizar una matriz artifical a modo de ejemplo para comprobar que el cluster funciona. Cuando
# la mtriz es muy esparsa, el solver no brinda una respuesta:
X=np.array(np.random.randn(nb*50)*8+np.random.randint(0,10,nb*50)).reshape([nb,50])
X.shape


(20, 50)

In [16]:
X

array([[ 9.74044338e+00,  2.59851633e+00,  1.12792070e+01,
        -1.10730415e+01,  1.27890309e+01,  4.08391335e+00,
         5.77482140e+00,  4.79634081e+00,  5.76928919e+00,
        -5.54390562e+00, -3.00158380e+00,  7.17932083e+00,
         1.24559443e+01,  5.73070701e+00,  2.76226445e+01,
        -3.80647984e+00,  2.21986247e+01,  5.95596864e+00,
         1.34884856e+01,  1.68153001e-01,  2.43159908e+01,
         1.47568718e+01,  2.59991800e+01,  9.20027751e+00,
         1.80110803e+01,  2.17328260e+00, -1.23692023e+01,
        -1.16620397e+01, -7.07339361e+00, -1.28942570e+00,
         2.43197767e+00, -2.96792240e+00,  5.70844168e+00,
         1.74825978e+01, -2.78499868e+00,  2.79016665e+00,
         4.91583766e+00,  1.19014373e+01,  6.05342882e+00,
         4.50046414e+00, -6.02667841e+00,  7.07468016e+00,
        -1.55138532e+00,  9.83561090e+00, -5.55534217e+00,
         1.06734336e+01,  1.26630138e-01,  8.44606937e+00,
         1.52214432e+01,  2.62966798e+00],
       [ 2.81

In [17]:
# Hiperparámetros:
lbd=0.01 #Lambda. Suele estar entre 0.001 y 0.01, según teoría de 'subspace clustering'
k=4 #Cantidad de subespacios a encontrar

import cvxpy as cvx #libreria para optimización convexa

In [18]:
# Definimos el programa convexo:
C=cvx.Variable(X.shape[1], X.shape[1]) # Matriz NxN
objective=cvx.Minimize(cvx.norm(X - X@C,2)**2 + lbd*cvx.norm(C,1))
constraint=[cvx.diag(C)==0]
problem=cvx.Problem(objective,constraint)

In [19]:
X.shape, C

((20, 50), Variable(50, 50))

In [22]:
# Códigos para la correcta instalación de 'cvxpy' en Python3:
# FUENTE:   https://www.cvxpy.org/install/index.html
# Desgargar Visual Studio C++ compiler for Python. Luego correr:
# conda install -c conda-forge lapack 
# conda install -c cvxgrp cvxpy
# Además, instalar el solver 'CVXOPT' pues 'SCS' no funciona correctamente aún en Windows con Python3.
# Toma bastante tiepo pues pesa >200 MB:
# conda install -c conda-forge cvxopt
# O también se puede utilizar el solver 'MOSEK':
# conda install -c mosek mosek

In [20]:
cvx.installed_solvers()

['ECOS', 'ECOS_BB', 'CVXOPT', 'GLPK', 'GLPK_MI', 'SCS', 'MOSEK', 'LS']

In [22]:
# Resolviendo el programa convexo: (toma mucho tiempo)
problem.solve(solver='CVXOPT')

1.8639637145895938

In [23]:
# Visualizando la solución:
print("Optimal value:", problem.value)
print("Optimal C:",C.value.shape)

Optimal value: 1.8639637145895938
Optimal C: (50, 50)


In [24]:
C=C.value #Conversión a matriz

In [25]:
C.shape

(50, 50)

In [26]:
# W=|C|+|C|^t
W=abs(C)+abs(C.T)
# Dii=sum{j}Wij
D=np.diag(np.apply_along_axis(np.sum,1,W))
M=D-W

In [27]:
# Eigendecomposition:
_,e=np.linalg.eig(M)
e=e[:,0:k]
e.shape # Ahora tiene "N" filas y "k" columnas

(50, 10)

In [28]:
# Soft assignment inicial con KMeans:
from sklearn.cluster import KMeans
groups=KMeans(k).fit(e)
labels=groups.labels_
labels.shape # Vector categórico de "N" filas

(50,)

In [29]:
# One-hot encoding de los labels:
one_hot_labels=np.array(pd.get_dummies(labels))
one_hot_labels.shape # N x k

(50, 10)

La matriz mostrada arriba contiene los *eigenvectors*. Las filas representan embeddings que caracterizan
a cada registro de ***X***.