# <center> FUNDAMENTOS DE APRENDIZAJE AUTOMÁTICO <br> Y RECONOCIMIENTO DE PATRONES</center>
## <center> 2do parcial, 2021</center>           

La duración del parcial es de 3 horas. El parcial consta de 3 ejercicios, cuya suma total es de 100 puntos. El parcial es sin material y no está permitido acceder a Internet. Ante cualquier duda comuníquese con los docentes. 

Este notebook corresponde al **ejercicio 2**. Hay un notebook por ejercicio planteado.


* [Ejercicio 2 - GMM](#Ejercicio2) (35 puntos)

# Importar bibliotecas

In [None]:
# Se importan las bibliotecas que se utilizarán
import numpy as np

import matplotlib.pyplot as plt

from sklearn.cluster import KMeans
from sklearn.mixture import GaussianMixture as GMM
from sklearn.metrics import pairwise_distances
from sklearn.datasets import load_digits

from scipy.stats import multivariate_normal

from fuaa_utils_ej2 import evaluar_kernel_gaussiano
from fuaa_utils_ej2 import generar_datos
from fuaa_utils_ej2 import generar_muestras_gaussiana_multivariada
from fuaa_utils_ej2 import identificar_parcial
from fuaa_utils_ej2 import inicializar_mezcla
from fuaa_utils_ej2 import log_verosimilitud
from fuaa_utils_ej2 import maximization_step
from fuaa_utils_ej2 import plot_digits
from fuaa_utils_ej2 import plot_gmm
from fuaa_utils_ej2 import plot_scatter
from fuaa_utils_ej2 import validar_resultado

%matplotlib inline
plt.rcParams['figure.figsize'] = (10, 10)

identificar_parcial()

<a id="Ejercicio2"></a>
# Modelos de Mezclas de Gaussianas

Un Modelo de Mezcla Gaussianas (GMM) intenta encontrar una mezcla de distribuciones de probabilidad gaussianas multidimensionales que modelen un conjunto de datos de entrada. En el caso más sencillo, los GMM pueden utilizarse para encontrar clusters de la misma forma que con *k*-means.

El objetivo de la primera parte de este ejercicio es evaluar el ajuste de modelos de Mezcla de Gaussianas. Los parámetros se estimarán mediante la implementación de un esquema de Expectation-Maximization (EM) para encontrar los parámetros que maximizan la verosimilitud del modelo Mezcla de Gaussianas para un conjunto de datos $X$. 

Si se utilizan ${N_g}$ componentes en la mezcla, el modelo está dado por:
$$p(\mathbf{x_n|\Theta})=\sum_{j=1}^{N_g} w_j \mathcal{N}\left( \mathbf{x_n} \vert \mathbf{\mu_j},\mathbf{\Sigma_j} \right)$$ donde $\mathcal{N}$ es una Gaussiana, $w_i$, $\mu_i$ y $\Sigma_i$ son, respectivamente, el peso en la mezcla, la media y la matriz de covarianza de la $i$-ésima Gaussiana, y $\Theta$ representa los parámetros de la mezcla.

Se implementarán funciones utilizando el esquema EM para encontrar los parámetros óptimos en el caso de Mezcla de Gaussianas. El esquema sigue los siguientes pasos:

- Inicialización
- Loop donde se calculan:
    - *Expectation Step* (Parte (a))
    - *Maximization Step* 
    - Se evalúa condición de continuidad en el loop (Parte (b))
- Ajuste de GMM a datos sintéticos (Parte (c))
- Análisis cualitativo de los ajustes (Parte (d))

## Generación y visualización de los datos

Se generan y visualizan datos sintéticos.

In [None]:
# Generar datos.
X = generar_datos()
plot_scatter(X[:, 0], X[:, 1])

## Inicialización

Se provee la función `inicializar_mezcla()` que es la encargada de inicializar las medias $\mathbf{\mu_j}$, las covarianzas $\mathbf{\Sigma_j}$ y los coeficientes $\mathbf{w}$ de la mezcla . La inicialización de los $\mathbf{\mu_j}$ es como ${k}$ vectores de $X$ elegidos aleatoriamente. 

La función `inicializar_mezcla()` tiene la siguiente definición:
<pre>
def inicializar_mezcla(X, Ng, semilla):
    '''
    Entrada:
        X: matriz de tamaño (N,d) que contiene N muestras, una por fila.
        Ng: número de clusters a encontrar.
    Salida:
        w: arreglo de largo Ng que contiene los pesos de la mezcla. 
           Se deben inicializar a valores aleatorios cuya suma sea 1.
        mus: arreglo de tamaño (Ng,d) que contiene los pesos.
        sigmas: arreglo de tamaño (Ng,d,d) que contiene las matrices de 
                covarianza de los clusters
    '''
</pre>

## Parte (a): Expectation step

Implementar `expectation_step()`. Se calcula la probabilidad de que la *n-ésima* muestra haya sido generada por la componente *j-ésima* de la mezcla. Para ello se utilizan los parámetros actuales   

$$
\gamma_{nj} = \frac{w_j \mathcal{N}\left( \mathbf{x_n} \vert \mathbf{\mu_j},\mathbf{\Sigma_j} \right)}{\sum_{l=1}^{L} w_l \mathcal{N}\left( \mathbf{x_n} \vert \mathbf{\mu_l},\mathbf{\Sigma_l} \right)} 
$$

**Sugerencia:** Para la evaluación de una Gaussiana en un punto se sugiere analizar el método `multivariate_normal.pdf()` de `scipy.stats` que ya fue importado y está disponible.

In [None]:
def expectation_step(X, w, mus, sigmas):
    '''
    Entrada:
        X: matriz de tamaño Nxd con las muestras a evaluar.
        w: vector de largo k que contiene los pesos de la mezcla. 
        mus: arreglo de tamaño (k,d) que contiene las k medias.
        sigmas: arreglo de tamaño (k,d,d) que contiene las matrices de 
                covarianza de los clusters.
    Salida:
        gammas: matriz de tamaño Nxk con las probabilidades de pertenencia a 
                cada cluster.
    '''
    
    multivariate_normal()

    N, d = X.shape
    k = len(w)
    
    #####################################################
    ####### EMPIEZA ESPACIO PARA COMPLETAR CODIGO #######
    #####################################################

    
    # gammas =

    
    #####################################################
    ####### TERMINA ESPACIO PARA COMPLETAR CODIGO #######
    #####################################################

    return gammas

In [None]:
# Se testea expectation_step()
validar_resultado('expectation_step', funcion=expectation_step)

## Maximization step

Se provee la función `maximization_step()`. Se encuentran los parámetros óptimos utilizando la distribución de $\gamma_{nj}$ actual
\begin{align*}
&N_j                       = \sum_{n=1}^{N}\gamma_{nj} \\
&\mathbf{\mu_j^{new}}      = \frac{1}{N_j}\sum_{n=1}^{N}\gamma_{nj}\mathbf{x_n}  \\
&\mathbf{\Sigma_j^{new}}   = \frac{1}{N_j}\sum_{n=1}^{N}\gamma_{nj}\left(\mathbf{x_n}-\mathbf{\mu_j}\right)\left(\mathbf{x_n}-\mathbf{\mu_j}\right)^T  \\
&w_j^{new}               = \frac{N_j}{N} \\
\end{align*}
La función `maximization_step()` tiene la siguiente definición:
<pre>
def maximization_step(X, gammas):
    '''
    Entrada:
        X: matriz de tamaño Nxd con las muestras a evaluar.
        gammas: arreglo de tamaño (N,k) con las probabilidades de pertenencia 
                a cada cluster.
        
    Salida:
        w: vector de pesos de la mezcla.
        mus: arreglo de tamaño (k,d) que contiene las medias en el paso 
             actual.
        sigmas: arreglo de tamaño (k,d,d) que contiene las matrices de 
                covarianza de los clusters en el paso actual.    
    '''
</pre>

## Parte (b): Loop EM

Completar la implementación de `gmm_EM`. Para ello utilizar las implementaciones de las partes anteriores de forma de maximizar la verosimilitud del modelo.

Para el cálculo de la verosimilitud se puede utilizar la función `log_verosimilitud()` que tiene la siguiente definición:

<pre>
def log_verosimilitud(X, w, mus, sigmas):
    '''
    Entrada:
        X: matriz de tamaño Nxd que contiene las muestras.
        w: arreglo de tamaño k que contiene los pesos actuales.
        mus: arreglo de tamaño (k,d) que contiene las medias, una por fila.
        sigmas: arreglo de tamaño (k,d,d) que contiene las matrices de covarianza.
     Salida:
        log_ver: logaritmo de la verosimilitud de las muestras con el modelo.
    '''
</pre>

In [None]:
def gmm_EM(X, Ng, tol=0.01, max_iter=100, semilla=2):
    '''
    Entrada:
        X: matriz de tamaño Nxd que contiene N muestras, una por fila
        Ng: número de componentes.
        tol: si la log verosimilitud en el paso actual no mejora al menos 
             <tol> respecto a la del paso anterior se termina la optimización.
        max_iter: máximo número de iteraciones en la optimización.
        semilla: semilla a utilizar en la inicialización de las gaussianas.
        
    Salida:
        gmm: Diccionario con las siguientes claves:
            log_ver: lista que almacena las log-verosimilitudes calculadas 
                     durante la optimización.
            probs: matriz de tamaño Nxk con las probabilidades de pertenencia 
                   a cada cluster.
            weights: vector de tamaño k que contiene los pesos estimados.
            means: matriz de tamaño (k,d) que contiene las medias, una por 
                   fila.
            covars: arreglo de tamaño (k,d,d) que contiene las matrices de 
                    covarianza.
    '''
    N, d = X.shape
    
    w, mus, sigmas = inicializar_mezcla(X, Ng, semilla)
    w0, mus0, sigmas0 = w, mus, sigmas
    
    log_ver_previa = -np.infty
    log_ver = []  # Almacena las log-verosimilitudes durante la optimización.

    termino = False
    n_iter = 0
    print('+------+-------------------+')
    print('| iter | log verosimilitud |')
    print('+------+-------------------+')
    while not termino:

        #####################################################
        ####### EMPIEZA ESPACIO PARA COMPLETAR CODIGO #######
        #####################################################

        # E-step
        # probs = 

       
        # M-step
        # w, mus, sigmas =

        
        # se actualiza la log verosimilitud
        # log_ver_actual =

        
        # se evalúa condición de terminación (dos condiciones)
        # termino =
        
        
        #####################################################
        ####### TERMINA ESPACIO PARA COMPLETAR CODIGO #######
        #####################################################

        log_ver.append(log_ver_actual)
        log_ver_previa = log_ver_actual
        n_iter += 1
        print('| %3d  |      %8.2f     |' % (n_iter, log_ver_actual))

    print('+------+-------------------+')

    gmm = {
        "log_ver": log_ver,
        "means": mus,
        "covars": sigmas,
        "weights": w,
        "probs": probs
    }
    
    return gmm

## Parte (c): Ajuste modelo GMM

Realizar el ajuste de un modelo GMM a los datos en `X` con `Ng` gaussianas, variando `Ng` entre 2 y 6, inclusive. Completar una tabla como la siguiente:

| Número de componentes | Log verosimilitud | Número de iteraciones |
| --- | --- | --- |
| 2 |  |  |
| ... |  |  |
| 6 |  |  |


Para la clasificación se le asigna a cada elemento de `X` como etiqueta un entero entre 0 y Ng-1 correspondiente al índice de la Gaussiana que le asigna mayor probabilidad.

In [None]:
for k in range(2, 7):
    print('Ajuste de GMM con %d gaussianas.' % k)

    #####################################################
    ####### EMPIEZA ESPACIO PARA COMPLETAR CODIGO #######
    #####################################################

    # Ajustar modelo GMM a X.
    # gmm1 = 


    # Calcular la etiqueta (un entero entre 0 y k-1) para cada elemento de X.
    # labels_gmm = 


    #####################################################
    ####### TERMINA ESPACIO PARA COMPLETAR CODIGO #######
    #####################################################
    plot_gmm(X, gmm1, labels_gmm)
    plt.title('Ajuste de GMM con %d gaussianas' % k )
    plt.show()

## Parte (d): Análisis de los ajustes

Teniendo en cuenta los resultados cualitativos y la tabla armada en la parte anterior variando el número de componentes (Gaussianas) ¿cuál sería el número de componentes a utilizar?

**Respuesta:** ...

# GMM como un estimador de densidad

Además de ser un algotirmo de clustering, GMM es fundamentalmente un algoritmo de *estimación de la densidad*.
Es decir, el resultado del ajuste de un GMM a unos datos es un modelo probabilístico que describe la su distribución.

En esta parte del ejercicio evaluaremos cómo utilizar un GMM para generar nuevos datos a partir del modelo entrenado. El esquema que se sigue es el siguiente:

- Generación de nuevas muestras (Parte (g))
- Comparar el modelo ajustado a las nuesvas muestras con el modelo original (Parte (h))

## Parte (e): Generar nuevas muestras de GMM

Completar la función `generar_muestras_gmm`. La función debe generar `Nm` puntos distribuidos según el modelos `gmm`. 

Puede ser de utilidad la función `generar_muestras_gaussiana_multivariada()` con la siguiente definición:
<pre>
def generar_muestras_gaussiana_multivariada(mean_, Sigma_, N=100):
    '''
    Función para generar N muestras de una Gaussiana multivariada de dimensión
    d usando la descomposición de Cholesky.
    
    Entrada: 
        mean_: Arreglo de tamaño (1,d) que contiene la media.
        Sigma_: Arreglo de tamaño (dxd) que contiene la matriz de covarianza.
        n: Número de puntos a generar.
        
    Salida: 
        X: Arreglo de tamaño (Nxd).
    '''
</pre>

In [None]:
def generar_muestras_gmm(gmm, Nm=100):
    '''
    Entrada:
        gmm: Modelos de Mezcla de Gaussianas como un diccionario generado por 
             la función gmm_EM().
        Nm: Número de nuevas muestras a generar.

    Salida:
        Xgen: Matriz de tamaño Nmxd con los datos generados.
    '''

    # Obtener el número de componentes del GMM y la dimensión de los datos.
    Ng = gmm['means'].shape[0]
    d = gmm['means'][0].shape[0]

    # Calcular el número de datos de cada componente, Ns (vector de tamaño Ng).
    Ns = np.around(Nm * gmm['weights']).astype(int)
    
    #####################################################
    ####### EMPIEZA ESPACIO PARA COMPLETAR CODIGO #######
    #####################################################
    
    # Generar Nm datos a partir de la generación de Ns[i] datos para cada 
    # una de las Ng componentes (0 <= i < Ng).
    # Xgen = 


    
    
    
    #####################################################
    ####### EMPIEZA ESPACIO PARA COMPLETAR CODIGO #######
    #####################################################

    return Xgen

Primero se ajusta un modelo GMM `gmm_org` con $N_g=4$ a los datos de trabajo. Luego se generarán nuevas muestras con este modelo.

In [None]:
# Ajustar modelo GMM con Ng=4.
gmm_org = gmm_EM(X, Ng=4)

Se generan $N_m=400$ muestras con el método `generar_muestras_gmm` implementado y el modelo `gmm_org` recién ajustado.

In [None]:
Nm = 400
Xgen = generar_muestras_gmm(gmm_org, Nm=Nm)
plot_scatter(Xgen[:, 0], Xgen[:, 1])

## Parte (f): Comparar GMM de datos generados y originales

En esta sección se hace un ajuste de un modelo GMM a los datos generados `Xgen`. El objetivo es comparar los parámetros obtenidos en el ajuste con los del modelo GMM original. Si los datos generados cumplen con los parámetros del modelo de entrada, los parámetros del modelo de salida deben ser similares.

In [None]:
# Ajustar modelo GMM a los datos generados.
gmm_gen = gmm_EM(Xgen, Ng=4, semilla=42)

# Visualizar el ajuste.
labels_gmm_gen = np.argmax(gmm_gen['probs'], axis=1)
plot_gmm(Xgen, gmm_gen, labels_gmm_gen)

A modo de verificación se muestran los centro de las Gaussianas obtenidas en el modelo `gmm_gen` con el original `gmm_org`.

In [None]:
print('Centros de gaussianas del modelo original:')
print(gmm_org['means'])
print('\nCentros de gaussianas del modelo original:')
print(gmm_gen['means'])

Las componentes no tienen que quedar en el mismo orden en ambos modelos. Para cuantificar automáticamente la distancia entre los centros de las Gaussianas primero se ordenan por la primera coordenada (en este caso es suficiente). Completar la siguiente celda para calcular las distancias entre estos centros, y la diferencia en los pesos calculados.

In [None]:
# Ordenar los centros de las gaussianas según la primera coordenada. Se
# almacenan los índices para ordenar los centros.
sorted_ind_gmm_org = np.argsort(gmm_org['means'][:, 0])
sorted_ind_gmm_gen = np.argsort(gmm_gen['means'][:, 0])

#####################################################
####### EMPIEZA ESPACIO PARA COMPLETAR CODIGO #######
#####################################################

# Calcular las distancias entre los centros de las gaussianas a partir del
# ordenamiento obtenido.
# distancia_entre_componentes =



# Calcular el error entre los pesos de las gaussianas a partir del
# ordenamiento obtenido.
# error_pesos_componentes =



#####################################################
####### TERMINA ESPACIO PARA COMPLETAR CODIGO #######
#####################################################

print('Distancia entre centros de las Gaussianas:')
print(np.array_str(distancia_entre_componentes, precision=2, suppress_small=False))

print('\nError en pesos de las Gaussianas:')
print(np.array_str(error_pesos_componentes, precision=2, suppress_small=False))


# Generación de datos sintéticos como muestras de un modelo aprendido

En esta parte del ejercicio se evaluará la generación de datos sintéticos como muestras de un modelo GMM aprendido. Se utilizará la implementación de GMM disponible en la biblioteca scikit-learn.

Se cargan un conjunto de imágenes de dígitos. Cada imagen de 8x8 píxeles se considera como un dato de dimensión 64. Se ajusta un modelo GMM a este conjunto de datos variando el número de componentes.

In [None]:
# Cargan los datos de dígitos, se muestran sus dimensiones y 100 de ellos.
digitos = load_digits()
print('Son %d dígitos de dimensión %d cada uno.' %
      (digitos.data.shape[0], digitos.data.shape[1]))
plot_digits(digitos.data, title='Dígitos originales (de 8x8 píxeles)')

Se generan $Nm=100$ muestras de estos modelos GMM y se muestran las correspondientes imágenes sintéticas (no son datos reales tomados de los dígitos).

In [None]:
Nm = 100
for Ng in 1, 10, 100:

    # Se ajusta un modelo GMM con <Ng> componentes a los datos.
    gmm = GMM(Ng, covariance_type='full', random_state=0)
    gmm.fit(digitos.data)

    # Se generan Nm nuevos datos sorteados del modelo GMM ajustado.
    digitos_new = gmm.sample(Nm)

    # Visualizar los datos sintéticos generados.
    plot_digits(digitos_new[0], title='Dígitos generados con GMM de %d componentes' % Ng)

## Parte (g): Evaluación de los datos generados

Comparar cualitativamente los conjuntos de números generados a partir de los modelos variando el número de componentes. ¿Cómo se explica esta calidad respecto a la cantidad de componentes del modelo GMM en cada caso?

**Respuesta:** ...