## INF-285 
#Tarea 2: SVD y PCA

# Instrucciones
* La tarea es individual.
* Las consultas sobre las tareas se deben realizar por medio de la plataforma Aula.
* La tarea debe ser realizada en Jupyter Notebook (Python 3).
* Se evaluará la correcta utilización de librerias ```NumPy```, ```SciPy```, entre otras, así como la correcta implementación de algoritmos de forma vectorizada.
* El archivo de entrega debe denominarse **ROL-tarea-numero.ipynb**. De no respetarse este formato existirá un descuento de 50 puntos
* La fecha de entrega es el viernes 29 de Mayo a las 18:00 hrs. Se aceptarán entregas hasta las 19:00 hrs sin descuento en caso de existir algun problema, posteriormente existirá un descuento lineal hasta las 20:00 hrs del mismo día.
* Las tareas que sean entregadas antes del jueves a mediodía recibirán una bonificación de 10 puntos.
* Se limitará el uso de librerias a solo las que estan agregadas en el Notebook (No se permite usar sklearn)
* Debe seguir la firma de las funciones que se indican en la tarea, en caso contrario se considerará incorrecta
* Debe citar cualquier código ajeno utilizado (incluso si proviene de los Jupyter Notebooks del curso).

# Introducción

La compresión de Imágenes utilizando *SVD* se basa en que  la matriz $\Sigma$ representa los valores singulares de la matriz original, entonces se puede obtener una aproximación de la imagen original minimizando el rango de la matriz al eliminar los  valores singulares de menor valor, ya que estos representan una "menor información" de la imagen. De este forma, por ejemplo si $\Sigma$ es de tamaño $n\times n$, se pueden omitir los $\sigma$ menos significativos obteniendo $\tilde{\Sigma}$ de tamaño $m\times m$, $m<n$.

Por otro lado, también se puede utilizar el análisis de componentes principales (PCA) para la compresión de imágenes al reducir la dimensión de la matriz de la imagen y proyectar esas nuevas dimensiones en una nueva imagen reteniendo la información importante de la imagen original

En esta tarea se busca comprimir un archivo *GIF*, el cual consiste de una secuencia de multiples imagenes, utilizando *SVD* y *PCA* para poder comparar ambos métodos y analizar la relación entre ambos.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image, ImageSequence

In [2]:
def plotAnimation(animation):
    """
    Parameters
    ----------
    animimation         : (frames, rows, cols) array
                          GIF array

    Returns
    -------
    Animation plots      : None
    """
    for frame in animation:
        plt.imshow(frame, cmap=plt.cm.gray)
        plt.axis('off')
        plt.show()

In [3]:
def gifToArray(gif_file):
    """
    Parameters
    ----------
    gif_file             : string
                          GIF path

    Returns
    -------
    data                 : (frames, rows, cols) array
                          NumPy array with GIF pixel values
    """
    im = Image.open(gif_file)
    data = list()
    for frame in ImageSequence.Iterator(im):
        tmp = np.array(im.convert('L'))
        data.append(tmp)
    data = np.array(data)
    return data



Podemos considerar un *GIF* como una colección de $p$ *frames*, donde un *frame* es una martriz $F\in\mathbb{R}^{r\times c}$ con $r$ el número de filas y $c$ en número de columnas de esta imagen. Ahora, si $(f_k)_{i,j}$ corresponde al elemento $i,j$ del $k$-ésimo *frame*, vamos a definir $\mathbf{f}_{i,j}=\langle (f_1)_{i,j}, (f_2)_{i,j},\dots,(f_p)_{i,j}\rangle$,
es decir, este vector corresponde a los valores de los $p$ frames de la coordenada $(i,j)$ del *GIF*.

Finalmente, para trabajar con los algoritmos, vamos a construir la matriz $G \in \mathbb{R}^{q\times p}$, donde $q=r\times c$ de cada *frame*, y que se define como:

\begin{equation}
    G = 
    \left[
    \begin{array}{c}
        \mathbf{f}_{1,1} \\ \hline
        \mathbf{f}_{1,2} \\ \hline
        \dots \\ \hline
        \mathbf{f}_{r,c}
    \end{array}
    \right]
\end{equation}

----
## Funciones a Implementar

1. Crear la función ```createG(data)``` que recibe ```data``` el arreglo ```NumPy``` con la información del GIF, y retorna el arreglo $G$ definido anteriormente. (10 puntos)

In [4]:
def createG(data):
    """
    Parameters
    ----------
    data             : (frames, rows, cols) array
                       NumPy array with GIF pixel values

    G                : (q, p) array
                       G matrix
    """
    frames, rows, cols = np.shape(data)
    G = []
    #Recorremos cada frame con la idea de rellenar cada columna con los valores del mismo, para esto rellenamos las filas y luego obtenemos su transpuesta
    for frame in range(frames):
        G.append([])
        for row in range(rows):
            for col in range(cols):
                G[frame].append(data[frame][row][col])
    G = np.array(G).T
    
    return G

2. Crear la función ```restoreGIF(data)``` que recibe los datos procesados ```data``` y ```shape``` que contiene la tupla ```(frames, rows, cols)```, la dimensión original del *GIF*. Esta función retorna la reconstrucción del GIF. (10 puntos)

In [5]:
def restoreGIF(data, shape):
    """
    Parameters
    ----------
    data             : (q, p) array
                       G matrix
    shape            : tuple (frames, rows, cols) 
    Returns
    -------
    reshaped_data    : (frames, rows, cols) array
                       NumPy array with GIF pixel values
                       
    """
    frames, rows, cols = shape
    reshaped_data = np.zeros(shape)
    
    
    #Para volver a generar la matriz, queremos recorrer de la misma forma que antes, para esto necesitamos calcular la transpuesta de nuestra data y convertir cada fila en una matriz de rows*cols
    data = data.T
    for frame in range(frames):
        for row in range(rows):
            for col in range(cols):
                reshaped_data[frame][row][col] = data[frame][cols*row + col]
    return reshaped_data

### SVD
3. Implementar la función ```G_SVD(G, m)``` que reciba la matriz $G$ y los $m$ componentes que se utilizarán para comprimir el *GIF* utilizando *SVD*. La función debe retornar $U$, $\textrm{diag}(\Sigma)$ y $V^T$. Además, implementar la función ```SVD_G(U, s, Vt)``` que recibe las matrices generadas por el *SVD* y retorne la reconstrucción de la matriz $G$. (30 puntos)

In [6]:
# G to SVD
def G_SVD(G, m):
    """
    Parameters
    ----------
    G             : (q, p)-array
                    G matrix
    m             : int
                    Number of components
    Returns
    -------
    U             : (q, m)-array
                    SVD U matrix
    s             : m-array
                    Singular values
    Vt            : (m, p)-array
                    SVD V^T matrix 
    """
    # A partir del apunte calculamos SVD
    
    #Primero calculamos el producto G*G
    GtG = G.T@G
    
    #Calculamos los valores y vectores propios de G*G
    eigenvalues, eigenvector = np.linalg.eig(GtG)
    
    #Sigma sera la raíz de los valores propios, usamos abs ya que algunos valores estan dando resutlados negativos, esto no debería ocurrir
    s = np.sqrt(abs(eigenvalues))[:m]
    
    #El vector propio que entrega numpy tiene una forma incorrecta, por lo que debemos cambiar su orden
    V = eigenvector[::-1]
    #Usamos las primeras m columnas
    V = V[:,:m]
    Vt = V.T
    
    #Para obtener U es necesario resolver GV=Us, entonces calculamos la inversa de Sigma
    s_i = np.zeros((m,m))
    #Como S matricialmente es una matriz diagonal de mxm, entonces su inversa sera la misma matriz, pero cada valor sera (1/s_{ij})
    for i in range(m):
        s_i[i][i] = 1/np.sqrt(abs(eigenvalues[i]))
    
    #Finalmente U es GAs^{-1}
    U = G@V@s_i
    
    return U, s, Vt

# SVD to 'compressed' G
def SVD_G(U, s, Vt):
    """
    Parameters
    ----------
    U             : (q, m)-array
                    SVD U matrix
    s             : m-array
                    Singular values
    Vt            : (m, p)-array
                    SVD V^T matrix 
    Returns
    -------
    B             : (p, q)-array
                    "Compressed" G
    """
    #Convertimos s en una matriz diagonal
    s_matrix = np.zeros((s.shape[0], s.shape[0]))
    for i in range(s.shape[0]):
        s_matrix[i][i] = s[i]
    #La matriz reconstruida es el producto UsVt
    B = U@s_matrix@Vt
    return B

### PCA
4. Implementar la función ```G_PCA(G, m)``` que reciba la matriz $G$ y los $m$ componentes que se utilizarán para comprimir el *GIF* utilizando *PCA*. La función debe retornar $PC$, $Y$ y $\mu$. Además, implementar la función ```PCA_G(PC, Y, mu)``` que recibe las matrices generadas por *PCA* y retorne la reconstrucción de la matriz $G$. Para esto debe utilizar la funcion de SVD implementada en el punto anterior. (35 puntos)

In [7]:
def G_PCA(G, m):
    """
    Parameters
    ----------
    G             : (q, p)-array
                    G matrix
    m             : int
                    Number of components
    Returns
    -------
    PC             : (p, m)-array
                     first m principal components
    Y             : (q,m)-array
                    PC Scores 
    mu           : (p)-array
                    Average per column 
    """
    #Seguiremos los pasos del apunte.
    
    #Comenzamos calculando mu, el cual es un vector con las medias de cada columna de G, entonces cada elemento de mu sera el promedio de cada fila de G transpuesta.
    GT = G.T
    mu = np.zeros(G.shape[1])
    for i in range(G.shape[1]):
        mu[i] = GT[i].mean()
    mu = np.array(mu)
    
    #Obtenemos Z
    Z = G-mu
    
    #Realizamos SVD a Z con m componentes
    U, s, Vt = G_SVD(Z, m)
    
    #Convertimos el array s en una matriz diagonal para poder realizar multiplicaciones matriciales
    s_matrix = np.zeros((s.shape[0], s.shape[0]))
    for i in range(s.shape[0]):
        s_matrix[i][i] = s[i]
    
    #Calculamos Y segun el apunte
    Y = U@s_matrix
    
    #Calculamos PC segun el apunte
    PC = Vt.T
    
    
    return  PC, Y, mu

In [8]:
def PCA_G(PC, Y, mu):
    """
    Parameters
    ----------
    PC             : (p, m)-array
                     first m principal components
    Y             : (q,m)-array
                    PC Scores 
    mu           : (p)-array
                    Average per column 
    Returns
    -------
    B            : (q, p)-array
                    "Compressed" G
    """
    #Realizamos las operaciones en reversa
    B = Y@PC.T + mu
    return B

## Preguntas

Para responder las siguientes preguntas, debe implementar las funciones propuestas

#### 1. ¿Cuál sería el costo de almacenamiento en MB usando $m$ vectores singulares? (5 puntos)

El costo esta de almacenamiento en MB estará dado por la dimensión de la matriz ($q*p$) multiplicado por el peso en bytes de sus elementos (si son del tipo float, entonces son 8 bytes).\\
Se utilizo el metodo .nbytes que tienen los arreglos de numpy para obtener el tamaño en bytes, luego este valor se múltiplo por $10^{-6}$ para obtener su tamaño en Megabytes.

La cantidad de vectores singulares parece no influir en los resultados, ya que la matriz final que se obtiene tiene la misma dimensión que la inicial.

In [9]:
def SVD_size(G, m):
    """
    Parameters
    ----------
    G             : (q, p)-array
                    G matrix
    m             : int
                    Number of components
    Returns
    -------
    size          : Float
                    total size of SVD return
    """
    U, s, VT = G_SVD(G, m)
    compress_G = SVD_G(U, s, VT)
    size = compress_G.nbytes*1e-6
    
    return size

def PCA_size(G, m):
    """
    Parameters
    ----------
    G             : (q, p)-array
                    G matrix
    m             : int
                    Number of components
    Returns
    -------
    size          : Float
                    total size of PCA return
    """
    PC, Y, mu = G_PCA(G, m)
    compress_G = PCA_G(PC, Y, mu)
    size = compress_G.nbytes*1e-6
    
    return size

#### 2. ¿Cuál sería el *gif* resultante con $m$ componentes? (5 puntos)

Para poder visualizar cada gif, debemos aplicar el método, ya sea SVD o PCA, luego recomponer la matriz y llevar esta su forma de GIF(usar la función $restoreGIF(matriz\_comprimida, dimensiones)$). Para ver los frames resultantes llamamos a la función entregada $plotAnimation(matriz\_recreada)$.

In [10]:
def print_animation_SVD(G, m, shape):
    """
    Parameters
    ----------
    G             : (q, p)-array
                    G matrix
    m             : int
                    Number of components
    shape         : tuple (frames, rows, cols)
    Returns
    -------
    La funcion no debe retornar nada, solo mostrar las imagenes de los frames reconstruidos
    """
    #Obtenemos la descoposición SVD de G con m componentes
    U, s, VT = G_SVD(G, m)
    #Reconstruimos la matriz
    compress_G = SVD_G(U, s, VT)
    #Transformamos al formato de GIF
    recreated_G = restoreGIF(compress_G, shape)
    #Visualizamos los frames
    plotAnimation(recreated_G)
    
    return

def print_animation_PCA(G, m, shape):
    """
    Parameters
    ----------
    G             : (q, p)-array
                    G matrix
    m             : int
                    Number of components
    shape         : tuple (frames, rows, cols)
    Returns
    -------
    La funcion no debe retornar nada, solo mostrar las imagenes de los frames reconstruidos
    """
    #Calculamos PCA a G con m componentes
    PC, Y, mu = G_PCA(G, m)
    #Reconstruimos la matriz
    compress_G = PCA_G(PC, Y, mu)
    #Transformamos al formato de GIF
    recreated_G = restoreGIF(compress_G, shape)
    #Visualizamos los frames
    plotAnimation(recreated_G)
    
    return


#### 3. ¿Cual sería el error en función de $m$? (Calcule el error utilizando la norma-2) (5 puntos)

Considere calcular el error de la siguiente manera: $||G-B_m||_2$, donde $G$ corresponde a la matriz definida anteriormente y $B_m$ a la matriz "comprimida" utilizando los métodos correspondientes para un $m$ particular.

In [11]:
def compression_error_SVD(G, m):
    """
    Parameters
    ----------
    G             : (q, p)-array
                    G matrix
    m             : int
                    Number of components
    Returns
    -------
    error          : Float
                    total size of PCA return
    """
    #Calculamos la descomposición SVD a G con m componentes
    U, s, VT = G_SVD(G, m)
    #Reconstruimos la matriz
    B = SVD_G(U, s, VT)
    #Calculamos la resta G-B
    GB = G-B
    #El error sera la norma 2 de la resta matricial
    error = np.linalg.norm(GB, ord=2)    
    
    return error

def compression_error_PCA(G, m):
    """
    Parameters
    ----------
    G             : (q, p)-array
                    G matrix
    m             : int
                    Number of components
    Returns
    -------
    error         : Float
                    total size of PCA return
    """
    #Calculamos PCA a G con m componentes
    PC, Y, mu = G_PCA(G, m)
    #Reconstruimos la matriz
    B = PCA_G(PC, Y, mu)
    #Calculamos la resta G-B
    GB = G-B
    #El error sera la norma 2 de la resta matricial
    error = np.linalg.norm(GB, ord=2)  
    
    return error

# Prueba

Para verificar sus algoritmos, pruebe las funciones desarrolladas para $m=10$.

### Obtenemos la matriz G para el gif entregado

In [12]:
data_gif = gifToArray("somebody.gif")
g_shape = data_gif.shape
G = createG(data_gif)
G

array([[ 0,  0,  0, ...,  3,  3,  3],
       [ 0,  0,  0, ...,  3,  3,  3],
       [17, 17, 17, ..., 14, 14, 14],
       ...,
       [30, 30, 30, ..., 27, 29, 27],
       [ 8,  8,  8, ..., 14,  8,  8],
       [ 0,  0,  0, ...,  0,  3,  0]], dtype=uint8)

### Probamos que la reconstrucción sea correcta 

In [13]:
rebuilt_gif = restoreGIF(G, g_shape)
rebuilt_gif == data_gif

array([[[ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        ...,
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True]],

       [[ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        ...,
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True]],

       [[ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  True,  True],
        ...,
        [ True,  True,  True, ...,  True,  True,  True],
        [ True,  True,  True, ...,  True,  Tr

### Probamos que los métodos de SVD sean correctos ($G\_SVD, SVD\_G, compression\_error\_SVD, print\_animation\_SVD y SVD\_size$), como $G\_SVD, SVD\_G$ se utilizan en las otras funciones no se probaran por separado, se escogió por temas de espacio no dejar la ejecución de $print\_animation\_SVD$

### $compression\_error\_SVD$

In [14]:
compression_error_SVD(G, 10)

34164.21752948026

### $SVD\_size$

In [15]:
SVD_size(G, 10)

133.2

### Probamos que los métodos de PCA sean correctos ($G\_PCA, PCA\_G, compression\_error\_PCA, print\_animation\_PCA y PCA\_size$), como $G\_PCA, PCA\_G$ se utilizan en las otras funciones no se probaran por separado, se escogió por temas de espacio no dejar la ejecución de $print\_animation\_PCA$

### $compression\_error\_PCA$

In [16]:
compression_error_PCA(G, 10)

26930.57758496589

### $PCA\_size$

In [17]:
PCA_size(G, 10)

133.2

# Conclusión

* Podemos notar que el tamaño en MB es el mismo para ambos métodos, lo cual tiene sentido, ya que ambos almacenan el mismo tipo de datos, a la vez que poseen las mismas dimensiones, en el caso del GIF de prueba estas son (200,250,333) y el dato que se almacena son float de 8btyes, si realizamos el cálculo manual tenemos que:
$$
    size_{MB} = 200*250*333*8*10^{-6}\\
    size_{MB} = 133.2
$$

* Podemos notar que PCA presenta un menor error en comparación a SVD, sin importar el m que utilizamos, por lo que puede ser más recomendable el utilizar PCA por sobre SVD.

* A medida que aumentamos m obtenemos un GIF más parecido al original, pero tarda más tiempo en realizar su cálculo.

* Las visualizaciones de PCA son mejores que las SVD, esto se comprueba con el valor de sus errores, ya que $error_{SVD} > error_{PCA}$.

# Referencias

https://numpy.org/doc/stable/reference/generated/numpy.ndarray.nbytes.html

https://numpy.org/doc/stable/reference/generated/numpy.linalg.eig.html