# Alineamiento de datos
# Parte 2: Tiempos de ejecución de bucles en Python

### <font color="BLUE">LEE ATENTAMENTE ESTE `notebook` EJECUTANDO SUS CELDAS. COMPLETA Y CONTESTA LAS CELDAS EN</FONT> <font color="red">ROJO</FONT>

Asegúrate de que estás ejecutando el código de este _notebook_ en la máquina y desde el directorio que quieres

**$\rightarrow$ ejecuta** (`shift` + `return`)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from time import time
%matplotlib inline

!echo "HOSTNAME     " `hostname`; 
!echo "CURRENT DIR  " `pwd`

## Instrucciones
Inspecciona y entiende el siguiente programa en Python. Observa:

* como las funciones `ij` y `ji` recorren un array de dos dimensiones modificando cada elemento
* la sintaxis de Python para acceder a elementos y recorrer un array
* la *indentación* define el alcance de cada estructura sintáctica (`for`, `def`,..)
* el array `a` se pasa como referencia en la llamada de la función

**$\rightarrow$ ejecuta** (`shift` + `return`)

In [None]:
def ij(arr):
    size = arr.shape[0]
    for i in range(size):
      for j in range(size):
        arr[i,j] += 1

def ji(arr):
    size = arr.shape[0]
    for j in range(size):
      for i in range(size):
        arr[i,j] += 1
        
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
print "original ---- \n",a
ji(a)
print "ji ---- \n", a
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
ij(a)
print "ij ---- \n", a

### La función `measure_times` invoca funciones,  mide tiempos de ejecución y escribe los resultados en un fichero
Observa los argumentos de la función: `sizes` ha de ser un vector con los tamaños de los arrays a modificar y `functions` una lista de funciones a ejecutar sobre los arrays.

**$\rightarrow$ ejecuta** (`shift` + `return`)


In [None]:
def measure_times(file_name, sizes, functions):
    fr = open(file_name, "w")
    header = "iteration array_size"
    for f in functions:
        header = header+" elapsed_time_"+f.__name__
    fr.write(header+"\n")
    N = 10
    c=0
    for size in sizes:
        times = dict()
        for f in functions:
            times[f.__name__] = np.zeros(N)
            for n in range(N):
                arr = np.zeros((size,size))
                t0 = time()
                f (arr)
                times[f.__name__][n] = time()-t0

        pr = "{0:d} {1:f}".format(c, (1.0*size**2)/1024)
        for f in functions:
            pr = pr + " {0:f}".format(np.mean(times[f.__name__]))
                                  
        fr.write(pr+"\n")
        c += 1
    fr.close()

### Medimos los tiempos de ejecución para las funciones `ij` y `ji` y cargamos los datos desde el archivo generado
Observa cómo definimos la lista de funciones que pasamos como parámetro a `measure_times`

**$\rightarrow$ ejecuta** (`shift` + `return`)


In [None]:
# medimos tiempos
sizes = np.array([8, 16, 32, 64, 128, 384, 512, 640, 768] )
functions = [ij, ji]
file_name = "Parrays.data"
measure_times(file_name, sizes, functions)

# cargamos fichero con tiempos medidos
df = pd.read_csv(file_name, sep=" ")
df

### Graficamos los tiempos obtenidos
**$\rightarrow$ ejecuta** (`shift` + `return`)

In [None]:
def plot_measured_times(data_frame):
    it_number = data_frame['iteration']
    x_labels  = data_frame['array_size']

    ax = plt.figure(figsize=(13,5)).add_subplot(111)
    plots = []
    legends = []
    for k in df.keys()[2:]:
        p, = ax.plot(it_number,data_frame[k], linewidth=5, alpha=0.5)
        plots = plots + [p]
        legends = legends + [k]

    ax.set_xticks(it_number)
    ax.legend(plots, legends, loc=2)
    ax.set_xticklabels([str(int(i)) for i in x_labels])
    ax.set_xlabel("total array size (KB)")
    ax.set_ylabel("secs")
    
plot_measured_times(df)

# <font color='red'> PREGUNTAS:
* <font color='red'> ¿Qué diferencias observas con el código en C de la parte 1?
* <font color='red'> ¿A qué crees que se deben?

--- TU RESPUESTA AQUí (double click) ---

### Usamos ahora operaciones Python con semántica vectorizada
Ejecutamos, medimos y graficamos de una sola vez

# <font color='red'> TAREA: Programa la función `vectorizedB` en Python</font>
de forma idéntica a la función `vectorizedA` pero usando el operador `+=` de Python

**$\rightarrow$ ejecuta** (`shift` + `return`)

In [None]:
def vectorizedA (arr):
    arr = arr + 1
    
def vectorizedB (arr):
    ## =========== MODIFICA DESDE AQUI ============
    ## usa el operador += añadirle 1 a cada elemento de arr
    ## =========== MODIFICA HASTA AQUI ============
    
sizes     = np.array([8, 16, 32, 64, 128, 384, 512, 640, 768, 1024, 1536, 2048, 2560, 3072, 3584, 4096, 4608, 5120] )
functions = [vectorizedA, vectorizedB]
file_name = "Varrays.data"

measure_times(file_name, sizes, functions)

df = pd.read_csv(file_name, sep=" ")

plot_measured_times(df)


# <font color='red'> PREGUNTAS:
* <font color='red'> ¿Qué diferencias observas con el código en C de la parte 1?
* <font color='red'> ¿A qué crees que se deben?
* <font color='red'> ¿Cómo explicas las diferencias de tiempos entre `ij`, `ji`, `vectorizedA` y `vectorizedB`?

--- TU RESPUESTA AQUí (double click) ---