In [1]:
%matplotlib notebook
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display

# Import libraries
import scipy.linalg
from sklearn.datasets import load_digits
from functools import partial

# Actividad práctica 

### Instrucciones generales
- Escriba las rutinas de Python necesarias para resolver los problemas de cada punto
- Siga las instrucciones y conteste donde se pida
- Entregue el notebook con sus respuestas al correo: phuijse@inf.uach.cl
- Plazo de entrega: **Jueves 8 de Agosto a las 23:59**
- El trabajo es individual

### Análisis de componentes principales (PCA)

Describa en sus palabras el procedimiento de PCA sobre una matriz de datos y conteste:
1. ¿Qué optimiza PCA en términos de la proyección que se busca?
1. ¿Qué relación tiene con el problema de valores/vectores propios?
1. ¿Cómo se puede reducir la dimensión de los datos con PCA?

<b> Respuesta: </b>

PCA es un procedimiento estadístico cuyo objetivo consiste en transformar un conjunto de variables (posiblemente correlacionadas) en otro conjunto de variables no correlacionadas y que son ortogonales entre ellas. Las nuevas variables (en un nuevo espacio dimensional) son llamadas componentes principales.

Respuestas:

1) En el procedimiento de PCA se maximiza el valor de la varianza de la matriz de los datos proyectados, variando el valor de los vectores de proyeccion. El problema tiene la restricción de que los vectores de proyección deben ser ortogonales entre sí.

2) Al resolver el problema de optimización (aplicando multiplicadores de Lagrande), los componentes principales corresponden a los vectores propios de la matriz de correlación de los datos originales. Por su parte, los valores propios (asociados a cada vector propio), corresponden a la varianza de la data original que explica el vector propio asociado.

3) Si la data original tiene M variables, entonces se obtienen M componentes principales, sin embargo, se puede seleccionar menor cantidad de componentes principales, por ejemplo k componentes. La manera de escoger los componentes principales, es eligiendo aquellos que expliquen la mayor cantidad de varianza asociada y, además, generalmente se escoge la mínima cantidad de componentes principales tales que logren explicar por lo menos, un cierto porcentaje definido (generalmente sobre 90 [%]).

In [2]:
# Load data
digits = load_digits()
data = digits['data']
label = digits['target']

# display shape
display(data.shape)

# plot data
fig, ax = plt.subplots(1, 10, figsize=(8, 1), tight_layout=True)
for element, title, ax_ in zip(data[:10], label[:10], ax):
    ax_.matshow(np.reshape(element, (8, 8)), cmap=plt.cm.Greys_r)
    ax_.axis('off');
    ax_.set_title(title)

(1797, 64)

<IPython.core.display.Javascript object>

Considere el siguiente set de datos de imágenes de dígitos manuscritos de 8x8 píxeles
1. Reste la media de los datos y calcule la matriz de covarianza
1. Encuentre los componentes principales usando `scipy.linalg`
    1. Ordene los componentes principales de mayor a menor importancia
    1. Haga un gráfico de varianza explicada en función de la cantidad de componentes principales considerados
        1. ¿Cuántos se requieren para que se explique un 90% de la varianza?

In [3]:
# Get mean and substracting to data (in place opeartion)
# data = data - np.mean(data, axis = 0)
data = data - np.mean(data, axis = 0)

# get covariance matrix
corr = np.dot(data.T,data)/(len(data))

# get eigen values/vectors
# It return in sorted order
evals, evecs = scipy.linalg.eigh(corr)

# Sorting descending
evals, evecs = np.flip(evals), np.flip(evecs)

# Sorting eigenvalues
idx = np.argsort(evals)[::-1] 
evals = evals[idx]
evecs = evecs[:, idx]

# Get the cumulative sum of eigenvalues
cum_evals = np.cumsum(100*evals/np.sum(evals))

# Get 90 [%] of explained variance
greater_index = np.where(cum_evals >= 90)[0][0]

# user message
print('{0} principal components with {1} [%] of explained variance'.format(greater_index, cum_evals[greater_index]))

# Plotting cummulative values
fig, ax = plt.subplots()
# evals_index = np.arange(1, 1 + len(data[0, :]))
ax.plot(cum_evals, marker = '*')
ax.plot(greater_index, cum_evals[greater_index - 1], marker = '*', color = 'red', markerSize = 15)
ax.set_xlabel('Principal components')
ax.set_ylabel('Explained cumulative variance ')

20 principal components with 90.31985012037212 [%] of explained variance


<IPython.core.display.Javascript object>

Text(0, 0.5, 'Explained cumulative variance ')

1. Visualize como imagen de 8x8 los 10 componentes principales de mayor importancia 

In [4]:
# Plot first 10 principal components 

# Create plot
fig, ax = plt.subplots(2, 5, figsize = (7, 7), tight_layout = True)

# Iterate plotting PC
for i, ax_ in enumerate(ax.ravel()):
    
    ax_.imshow(evecs[:,i].reshape(8,8))
    ax_.set_title("{0:0.1e}".format(evals[i]))

<IPython.core.display.Javascript object>

1. Haga una proyección usando los dos componentes principales de mayor importancia
    1. Grafique el resultado en un `scatter-plot` usando **distinto color** para cada digito (`label`). Debe incluir leyenda
    1. ¿Qué digitos se pueden separar en el espacio proyectado?

In [5]:
#user message
print(100*np.sum(evals[0:2])/np.sum(evals), ' [%] of explanied variance')

# Proyection with its first 2 PC
proj =  np.dot(data, evecs[:, 0:2])

# Plotting results
fix, ax = plt.subplots()

# Iterate plotting each class
for index in range(10):
    
    # Filtering by label
    mask = label == index
    
    #Plotting by label
    ax.scatter(proj[mask,0], proj[mask,1], label = index)
ax.set_xlabel('PC 1')
ax.set_ylabel('PC 2')
ax.legend()

28.50936482369929  [%] of explanied variance


<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x7f23f34f3c88>

<b> Analisis </b>

Del gráfico se observa que los agrupamientos menos sobrelapados con los otros, corresponden a las del dígito 0 y 1. Luego, las demás clases poseen un mayor grado solapamiento, lo que dificulta su seperación. Cabe recordar que solamente se están analizando 2 componentes principales, los que juntos explican el 28,5 [%] de la varianza. Esto es solo para visualización.

Considere las siguientes funciones para las siguientes actividades

In [102]:
# Generar un conjunto de datos de ND datos cada uno de largo NT con distribución log-normal
def generate_data(ND, NT):
    time = np.linspace(0, 1, num=NT)
    cov = 0.1*np.exp(-0.5*(time[:, None]  - time[:, None].T)**2/0.5**2)
    data = np.exp(np.random.multivariate_normal(mean=np.zeros(NT), cov=cov, size=ND))
    return time, data

# Ajustar un modelo polinomial de cuarto grado a los datos y calcular el mse
def slow_function(time, data):
    ND, NT = data.shape
    X = np.vstack([time**k for k in range(4)]).T
    Phi = np.linalg.pinv(X)
    mse = np.zeros(shape=(ND,))
    theta = np.zeros(shape=(ND, 4))
    for i, y in enumerate(data):
        y_log = np.log(y)
        y_mean = np.mean(y_log)
        y_var = np.var(y_log)
        y_norm = (y_log - y_mean)/np.sqrt(y_var)
        theta[i, :] = np.dot(Phi, y_norm)
        model = np.dot(X, theta[i, :])
        mse[i] = np.mean((y_norm - model)**2)
    return mse, theta  

### Midiendo tiempo total

1. Para 20 valores de ND distintos generados con `np.logspace(1, 5, num=20).astype(int)`
    1. Genere un conjunto de datos de tamaño ND y largo NT=1000 usando `generate_data`
    1. Mida y guarde el tiempo total promedio (10 repeticiones) que toma ajustar un modelo polinomial a los ND datos con `slow_function`
        > HINT: Puede usar el argumento `-o` de la magia timeit para guardar el resultado

In [26]:
# Values of ND
num_ND = 20
max_log_val = 5

NT = 1000

# nd_values = np.logspace(1, 5, num=20).astype(int)
# nd_values = np.logspace(1, 5, num = 2).astype(int)
nd_values = np.logspace(1, max_log_val, num = num_ND).astype(int)

print(nd_values.shape)

# times array
times = []
std_times = []


for index, ND in enumerate(nd_values):
    
    print(index)
    
    # time = (NT,)
    # data = (ND, NT)
    time, data = generate_data(ND, NT)
        
    # Get time
#     temp = %timeit -o -n10 slow_function(time, data)
    temp = %timeit -o -n2 slow_function(time, data)
    
    # store time
    times.append(temp.average)
    std_times.append(temp.stdev)

(20,)
0
1.72 ms ± 98.6 µs per loop (mean ± std. dev. of 7 runs, 2 loops each)
1
2.47 ms ± 74.7 µs per loop (mean ± std. dev. of 7 runs, 2 loops each)
2
4.09 ms ± 170 µs per loop (mean ± std. dev. of 7 runs, 2 loops each)
3
6.05 ms ± 127 µs per loop (mean ± std. dev. of 7 runs, 2 loops each)
4
7.62 ms ± 2.18 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)
5
11.9 ms ± 2.65 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)
6
16.4 ms ± 4.26 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)
7
21.9 ms ± 6.7 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)
8
31.8 ms ± 7.43 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)
9
49.7 ms ± 6.13 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)
10
85.1 ms ± 6.1 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)
11
123 ms ± 3.54 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)
12
208 ms ± 2.78 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)
13
341 ms ± 16.2 ms per loop (mean ± std. dev. of 7 runs, 2 l

1. Use matplotlib para generar un gráfico de (tiempo total promedio) con barras de error y otro de (tiempo total promedio)/ND
    1. Estudie ambos gráficos y discuta lo que observa. ¿Qué está ocurriendo en el segundo gráfico? ¿Qué relación tiene con el overhead?

In [27]:
# Plotting results
fig, ax = plt.subplots(2, tight_layout = True)
ax[0].errorbar(x = nd_values, y = times, yerr = std_times, marker = '.', ecolor = 'red')
ax[0].set_xlabel('ND values')
ax[0].set_ylabel('Average total time [s]')
ax[1].plot(nd_values, times/nd_values, marker = '*')
ax[1].set_xlabel('ND values')
ax[1].set_ylabel('Average total time [s] / ND')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Average total time [s] / ND')

<b> Analisis </b>

En el primer gráfico se tiene que el tiempo es proporcional al tamaño del input (ND), lo que es esperable ya que el algoritmo slow_function es de O(n)(operaciones de orden n (dependientes directamente del largo del input y ciclo for iterando sobre el tamaño del input).

Para el segundo gráfico, se tiene que al aumentar el tamaño del input, la razón de (tiempo/ND) disminuye. Esto se puede deber a que para tamaños pequeños de ND, el algoritmo y las implementaciones en ndarrays generan un overhead, ya que probablemente las operaciones sobre ndarrays esten pensadas para operar sobre conjuntos de datos mayores. De hecho, al observar el gráfico se tiene que a mayores valores de ND, la razón disminuye, lo que sugiere que las operaciones sobre ndarrays son mas eficientes para mayores tamaños del arreglo.

### Profiling 

Genere un conjunto de datos de tamaño 10000 y largo 1000

1. Haga un profiling con cProfile con la magia `%prun`
    1. Use los argumentos `-q -T texto` para escribir un archivo de texto con el resultado
    1. Imprima el resultado con funciones de `bash`
    1. ¿Cuáles son las 5 funciones con mayor tiempo total?
    1. ¿Cuáles son las 5 funciones con mayor tiempo acumulado?


In [100]:
# Generate required data
time, data = generate_data(10000, 1000)

In [43]:
# Define function
slow_function_partial = partial(slow_function, time = time, data = data)

In [50]:
# script profiling

# %prun -q -T cProfile_results slow_function_partial()

%prun -q -T cProfile_results -s cumtime slow_function_partial()

 
*** Profile printout saved to text file 'cProfile_results'. 


In [51]:
# Display results
%cat cProfile_results

         400080 function calls in 0.711 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.711    0.711 {built-in method builtins.exec}
        1    0.000    0.000    0.711    0.711 <string>:1(<module>)
        1    0.290    0.290    0.711    0.711 <ipython-input-7-05eeb35abb59>:9(slow_function)
    10000    0.013    0.000    0.212    0.000 fromnumeric.py:3250(var)
    10000    0.120    0.000    0.199    0.000 _methods.py:91(_var)
    20000    0.025    0.000    0.171    0.000 fromnumeric.py:3014(mean)
    20000    0.049    0.000    0.146    0.000 _methods.py:58(_mean)
    40001    0.098    0.000    0.098    0.000 {method 'reduce' of 'numpy.ufunc' objects}
    30000    0.034    0.000    0.037    0.000 _methods.py:48(_count_reduce_items)
    20000    0.034    0.000    0.034    0.000 {built-in method numpy.dot}
    40004    0.010    0.000    0.018    0.000 numeric.py:541(asanyarra

De los resultados, las 5 funciones con mayor tiempo total son:

- <ipython-input-7-05eeb35abb59>:9(slow_function)
    
- _methods.py:91(_var)

- {method 'reduce' of 'numpy.ufunc' objects}

- _methods.py:58(_mean)

- {built-in method numpy.dot}

De las que se observan funciones de python y de numpy.

De los resultados, las 5 funciones con mayor cummulative time son:
    
- {built-in method builtins.exec}

- string :1(<module>)
    
- ipython-input-7-05eeb35abb59 : 9(slow_function)
    
- fromnumeric.py:3250(var)

- _methods.py:91(_var)

2. Haga un profiling linea a linea con la magia `%lprun`
    1. Use el argumento `-T texto` para escribir un archivo de texto con el resultado
    1. Imprima el resultado con funciones de `bash`
    1. ¿Cuáles son las 5 lineas más costosas?

In [96]:
# load extension
%load_ext line_profiler

In [61]:
# Line profiling
%lprun -T line_profiler_results -f slow_function slow_function_partial()


*** Profile printout saved to text file 'line_profiler_results'. 


In [63]:
# display results
%cat line_profiler_results

Timer unit: 1e-06 s

Total time: 0.881159 s
File: <ipython-input-7-05eeb35abb59>
Function: slow_function at line 9

Line #      Hits         Time  Per Hit   % Time  Line Contents
     9                                           def slow_function(time, data):
    10         1          5.0      5.0      0.0      ND, NT = data.shape
    11         1        442.0    442.0      0.1      X = np.vstack([time**k for k in range(4)]).T
    12         1        372.0    372.0      0.0      Phi = np.linalg.pinv(X)
    13         1         34.0     34.0      0.0      mse = np.zeros(shape=(ND,))
    14         1        105.0    105.0      0.0      theta = np.zeros(shape=(ND, 4))
    15     10001      10360.0      1.0      1.2      for i, y in enumerate(data):
    16     10000     168592.0     16.9     19.1          y_log = np.log(y)
    17     10000     121349.0     12.1     13.8          y_mean = np.mean(y_log)
    18     10000     272832.0     27.3     31.0          y_var = np.var(y

Del profiling de la función, se tienen que las líneas que mas porcentaje de tiempo consumen, corresponden a:

- Línea 18: 31,0 [%]: Obtener varianza de arreglo
- Línea 22: 19,6 [%]: Obtener promedio de cuadrado de resta de arreglos
- Línea 16: 19,1 [%]: Obtener logaritmo de arreglo
- Línea 17: 13,8 [%]: Obtener promedio de arreglo
- Línea 19: 7,7 [%]: Division entre resta de arreglos y raiz cuadrada de arreglo

Por lo que la mayoría del tiempo se consume sobre operaciones sobre arreglos.

### Cythonizando

Escriba una función de Cython que retorne el mismo resultado que `slow_function`
1. Considere los resultados de su profiling para escribir versiones cythonizadas de las funciones de numpy que considere necesario
1. Importe el logaritmo y la raiz cuadrada de `math.h`
1. Use decoradores para levantar las verificaciones de Python
1. Use vistas para los arreglos de NumPy
1. Mida el tiempo total promedio (10 repeticiones) para conjuntos de datos de tamaño`N=np.logspace(1, 5, num=20).astype(int)` y largo 1000
1. Haga una gráfica de speed-up (tiempo cython/tiempo slow_function) en función de $N$
1. Estudie y discuta lo que observa

In [4]:
# load cython extension
%load_ext cython

In [99]:
%%cython -a -l m

# Cython function
import numpy as np

# importing math library
cdef extern from "math.h":
    double log(double)
    double sqrt(double)

# Define own mean function
cdef mean(double [:] data, int n):
    
    cdef double sum__mean = 0.;
    
    for i in range(n):
        
        sum__mean += data[i]
    
    return sum__mean/n

# Define own variance function
cdef var(double [:] data, int n, double mean):
    
    cdef double sum_var = 0;
    
    for i in range(n):
        
        sum_var += pow((data[i] - mean), 2);
    
    return sum_var/n

# Own function for (y_log - y_mean)/np.sqrt(y_var)
cdef norm_function(double [:] y_log_view, double y_mean, double y_var, int NT, double [:] y_norm_view):
    
#     (y_log - y_mean)/np.sqrt(y_var)
    for i in range(NT):
        
        y_norm_view[i] = (y_log_view[i] - y_mean) / sqrt(y_var)
        
    return y_norm_view
        
# Main function
def slow_function_cython(time, data):
    
    # Define type of data
    cdef int ND = data.shape[0]
    cdef int NT = data.shape[1]
    
    X = np.vstack([time**k for k in range(4)]).T
    
    # Use view
    Phi = np.linalg.pinv(X)
    cdef double [:, :] Phi_view = Phi
    
    # Use view
    mse = np.zeros(shape=(ND,))
    cdef double [:] mse_view = mse
    
    theta = np.zeros(shape=(ND, 4))
    cdef double [:, :] theta_view = theta # this does not work
    
    # set initial values and size
    y_log = np.zeros(shape=(NT))
    
    # Define temporal values
    cdef double [:] y_log_view = y_log
    cdef double y_mean = 0
    cdef double y_var = 0
    cdef double [:] y_norm_view = y_log
        
    # Iterate over rows of data
    for i in range(ND):
        
        # Iterate through columns of data
        for j in range(NT):
            
            # get log of item in row (using C function)
            y_log_view[j] = log(data[i, j])
    
        # finish column iteration
        
        # Get mean of row
        y_mean = mean(y_log_view, NT)
        
        # Get variance of row
        y_var = var(y_log_view, NT, y_mean)
        
        # Norm row
        y_norm_view = norm_function(y_log, y_mean, y_var, NT, y_norm_view)
        
        # Get theta values
        # It could be optimized doing dot product in Cython function
        theta[i, :] = np.dot(Phi_view, y_norm_view)

        # get model
        # It could be optimized doing dot product in Cython function
        model = np.dot(X, theta[i, :])
        
        # Get mse using own function
        mse_view[i] = mean(pow(y_norm_view-model, 2), NT)
       
    # Return results
    return mse_view, theta  

<b> Analisis </b> 

Se optimizan rutinas de las 5 funciones con mayores tiempos.

In [105]:
# Generate required data
time, data = generate_data(10000, 1000)

In [107]:
# Profiling functions
%timeit -n10 slow_function(time, data)
%timeit -n10 slow_function_cython(time, data)

598 ms ± 24.6 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
2.02 s ± 34.7 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Paralelizando

Escriba una versión paralela de su código Cython usando `parallel for` de OpenMP
1. Levante el GIL donde corresponda
1. Use un número de hilos adecuado para su computador
1. Mida el tiempo total promedio (10 repeticiones) para conjuntos de datos de tamaño`N=np.logspace(1, 5, num=20).astype(int)` y largo 1000
1. Haga una gráfica de speed-up (tiempo cython paralelo/tiempo cython secuencial) en función de $N$
1. Estudie y discuta lo que observa 