# Vectorización en Python

### LEE ATENTAMENTE ESTE `notebook` EJECUTANDO SUS CELDAS. COMPLETA Y CONTESTA LAS CELDAS QUE CORRESPONDAN

Asegúrate de que estás ejecutando el código de este _notebook_ en la máquina y desde el directorio que quieres

**$\rightarrow$ ejecuta** (`shift` + `return`)

In [14]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from time import time
%matplotlib inline

!echo "HOSTNAME     " `hostname`; 
!echo "CURRENT DIR  " `pwd`

HOSTNAME      datasci
CURRENT DIR   /home/user/share/teaching/parallel-computing/ucaldas.20162/teacher


##  TAREA 1: Usa la semántica vectorizada de Python

Completa las funciones `ji` y `vf` de forma que:

- `ji` sea igual que `ij` pero recorriendo el bucle en el orden inverso (primero por `j` y luego por `i`
- `vf` use la semántica vectorizada del operador `+` con matrices ... tu implementación ha de tener una sóla línea


**$\rightarrow$ ejecuta** (`shift` + `return`)

In [37]:
def ij(arr):
    size = arr.shape[0]
    r = arr.copy()
    for i in range(size):
      for j in range(size):
        r[i,j] += 1
    return r

def ji(arr):
    # TU CODIGO AQUI
    return r
        
def vf(arr):
    # TU CODIGO AQUI
    return r
        
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
print "original ---- \n",a
ji(a)
print "ji ---- \n", ji(a)
print "ij ---- \n", ij(a)
print "vect -- \n", vf(a)

original ---- 
[[1 2 3]
 [4 5 6]
 [7 8 9]]
ji ---- 
[[ 2  3  4]
 [ 5  6  7]
 [ 8  9 10]]
ij ---- 
[[ 2  3  4]
 [ 5  6  7]
 [ 8  9 10]]
vect -- 
[[ 2  3  4]
 [ 5  6  7]
 [ 8  9 10]]


### La función `measure_times` invoca funciones,  mide tiempos de ejecución y escribe los resultados en un fichero
Observa los argumentos de la función: `sizes` ha de ser un vector con los tamaños de los arrays a modificar y `functions` una lista de funciones a ejecutar sobre los arrays.

**$\rightarrow$ ejecuta** (`shift` + `return`)


In [38]:
def measure_times(file_name, sizes, functions):
    fr = open(file_name, "w")
    header = "iteration array_size"
    for f in functions:
        header = header+" elapsed_time_"+f.__name__
    fr.write(header+"\n")
    N = 10
    c=0
    for size in sizes:
        times = dict()
        for f in functions:
            times[f.__name__] = np.zeros(N)
            for n in range(N):
                arr = np.random.random(size=(size,size))
                t0 = time()
                f (arr)
                times[f.__name__][n] = time()-t0

        pr = "{0:d} {1:f}".format(c, (1.0*size**2)/1024)
        for f in functions:
            pr = pr + " {0:f}".format(np.mean(times[f.__name__]))
                                  
        fr.write(pr+"\n")
        c += 1
    fr.close()

### Medimos los tiempos de ejecución para las funciones `ij`, `ji` y `vf` y cargamos los datos desde el archivo generado
Observa cómo definimos la lista de funciones que pasamos como parámetro a `measure_times`

**$\rightarrow$ ejecuta** (`shift` + `return`)


In [None]:
# medimos tiempos
sizes = np.array([8, 16, 32, 64, 128, 384, 512, 640, 768] )
functions = [ij, ji, vf]
file_name = "Parrays.data"
measure_times(file_name, sizes, functions)

# cargamos fichero con tiempos medidos
df = pd.read_csv(file_name, sep=" ")
df

### Graficamos los tiempos obtenidos
**$\rightarrow$ ejecuta** (`shift` + `return`)

In [None]:
def plot_measured_times(data_frame):
    it_number = data_frame['iteration']
    x_labels  = data_frame['array_size']

    ax = plt.figure(figsize=(13,5)).add_subplot(111)
    plots = []
    legends = []
    for k in df.keys()[2:]:
        p, = ax.plot(it_number,data_frame[k], linewidth=5, alpha=0.5)
        plots = plots + [p]
        legends = legends + [k]

    ax.set_xticks(it_number)
    ax.legend(plots, legends, loc=2)
    ax.set_xticklabels([str(int(i)) for i in x_labels])
    ax.set_xlabel("total array size (KB)")
    ax.set_ylabel("secs")
    
plot_measured_times(df)

# PREGUNTAS:
* ¿Qué diferencias observas con el código en C de la parte 1?
* ¿Por qué el código vectorizado tiene un tiempo de ejecución tan diferente?

--- TU RESPUESTA AQUí (double click) ---

## Observa cómo se vectoriza una función cualquiera en Python

In [3]:
import numpy as np
def functionA(x,y):
    print "called with",x,y
    r = np.zeros(a.shape)
    for i in range(len(a)):
        r[i] = x[i]+y[i]**2
    return r

from numba import vectorize, float64, int64

@vectorize([float64(float64, float64)], target="cpu")
def functionV(x,y):
    print "called with",x,y
    return x+y**2

In [4]:
a = np.array([1,2,3])
b = np.array([4,5,6])
print functionA(a,b)
print "--"
print functionV(a,b)

called with [1 2 3] [4 5 6]
[ 17.  27.  39.]
--
called with
1.0
4.0

called with
2.0
5.0

called with
3.0
6.0

[ 17.  27.  39.]


In [46]:
def functionA(x,y):
    r = np.zeros(a.shape)
    for i in range(len(a)):
        r[i] = x[i]+y[i]**2
    return r

%time c=functionA(a,b)

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 71 µs


In [47]:
@vectorize([float64(float64, float64)], target="cpu")
def functionV(x,y):
    return x+y**2

%timeit c=functionV(a,b)

The slowest run took 17.60 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 1.98 µs per loop


# TAREA 2: Vectoriza la siguiente función
de forma análoga al ejemplo anterior


In [56]:
def ffunc(x,y):
    r = np.zeros(len(x))
    for i in range(len(x)):
        r[i] = x[i] - y[i] if x[i]>y[i] else x[i]+y[i]
    return r

from numba import vectorize, float64, int64
@vectorize([float64(float64, float64)], target="cpu")
def vfunc(x,y):
    return ... # TU CODIGO AQUI

Comprueba tu código y mide el desempeño

In [57]:
a = np.array([1,6,3])
b = np.array([4,5,6])

print vfunc(a,b)
print "---"
print ffunc(a,b)

[ 5.  1.  9.]
---
[ 5.  1.  9.]


In [59]:
a = np.random.random(1000)
b = np.random.random(1000)

%timeit ffunc(a,b)

1000 loops, best of 3: 978 µs per loop


In [60]:
%timeit vfunc(a,b)

The slowest run took 26.36 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 2.01 µs per loop


# PREGUNTAS:
* ¿Cuál es la diferencia entre la vectorización de la primera parte de este ejercicio y la segunda?
* ¿Qué tipo de funciones son propensas a ser vectorizadas for `vectorize`?

--- TU RESPUESTA AQUí (double click) ---