In [None]:
# initial setup
try:
    # settings colab:
    # deben modificar los tokens de estas urls:
    import google.colab
    ! wget -O test_2_numpy_vectorizacion.py "https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_students_2020/master/M1/CLASE_03/Notebooks/test/test_2_numpy_vectorizacion.py?token=AA4GFHKFF5FLWT36O76UNPC6UTSRS"    
    import test_2_numpy_vectorizacion
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"
    from dhtest import test_2_numpy_vectorizacion

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Numpy, Estadística, Probabilidades

<a id="section_toc"></a> 
## Tabla de Contenidos

[Intro](#section_intro)

[Universal Functions](#section_ufunc)

[Métodos matemáticos y estadísticos](#section_statistical)

[Broadcasting](#section_broadcasting)

---

## Vectorización

<a id="section_intro"></a> 
### Intro
[volver a TOC](#section_toc)

En esta notebook vamos a usar funciones que se ejecutan en forma vectorial, es decir que realizan operaciones sobre cada uno de los elementos de un array sin usar loops, y por eso son mucho más eficientes.

Las operaciones vectorizadas trabajan sobre los datos como un bloque.  Por eso es necesario que los tipos sean homogéneos entre todos los e
lementos. En operaciones vectorizadas no recorremos los elementos en orden. 

![Image](img/computacion_vectorial.jpg)

<a id="section_ufunc"></a> 
### Universal Functions 
[volver a TOC](#section_toc)

Son funciones que realizan operaciones sobre cada elemento de un array multidimensional.

Estas operaciones se paralelizan y el procesador las completa en un tiempo mucho menor que si aplicásemos un loop y operásemos sobre cada uno de los elementos.

A continuación tienen una lista de funciones ufunc unarias y binarias.

![Image](img/numpy_unary_ufunc.jpg)

![Image](img/numpy_binary_ufunc.jpg)

En el siguiente ejemplo vamos a comparar el tiempo de ejecución de calcular 1/x con un loop y con una ufunc.

`%timeit` nos devuelve el tiempo empleado en la ejecución de la función que recibe como argumento.

Construimos el array sobre el cual vamos a evaluar los distintos tiempos de ejecución

In [None]:
import numpy as np

# Definimos el tamaño del array que vamos a construir
big_array_size = 1000000

# Definimos la semilla del generador random
seed_cualquier_numero = 2843

# Creamos el generador 
random_generator_seed = np.random.default_rng(seed_cualquier_numero)

# Creamos el array con elementos de distribución uniforme
low = 1
high = 100
big_array = random_generator_seed.uniform(low, high, size=big_array_size)


In [None]:
# Enfoque tradicional usando un loop for para calcular 1/x de cada elemento del array
def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

# con -o podemos guardar el resultado de timeit en una variable, time_loop en este caso:
%timeit -o compute_reciprocals(big_array)

In [None]:
# esto asigna el valor del tiempo medido a una variable:
time_loop = _

In [None]:
time_loop_average = time_loop.average
time_loop_average

In [None]:
# Enfoque broadcast (explicado mas adelante en esta notebook)
%timeit -o (1.0 / big_array)

In [None]:
time_ufunc = _

In [None]:
time_ufunc_average = time_ufunc.average
time_ufunc_average

In [None]:
# Usando numpy.divide (ufunc) la performance es muy similar
%timeit -o np.divide(1.0, big_array)

In [None]:
time_np_divide = _

In [None]:
time_np_divide_average = time_np_divide.average
time_np_divide_average

In [None]:
print("tiempo promedio loop: ", time_loop_average)
print("tiempo promedio ufunc: ", time_ufunc_average)
print("tiempo promedio np.divide: ", time_np_divide_average)
print("el loop emplea ", time_loop_average / time_ufunc_average, " veces más tiempo que ufunc")
print("el loop emplea ",time_loop_average / time_np_divide_average, " veces más tiempo que np.divide")

<a id="section_statistical"></a> 
### Métodos matemáticos y estadísticos
[volver a TOC](#section_toc)

La clase array implementa también métodos que calculan de forma eficiente estadísticas sobre un array.

Podemos hacer agregaciones como suma, promedio, desvío standard.

A continuación hay una lista de algunos de los métodos disponibles en Numpy:

![Image](img/numpy_array_statistical_methods.jpg)


Veamos algunos ejemplos de uso de estos métodos.

Construimos un array que usaremos para comparar tiempos de ejecución de distintos métodos:

In [None]:
# Definimos el tamaño del array que vamos a construir
big_array_size = 1000000

# Definimos la semilla del generador random
seed_cualquier_numero = 4703

# Creamos el generador 
random_generator_seed = np.random.default_rng(seed_cualquier_numero)

# Creamos el array
low = 1
high = 100
big_array = random_generator_seed.uniform(low, high, size=big_array_size)


Calculamos la suma de los elementos del array usando sum 
https://docs.python.org/3/library/functions.html#sum

Y medimos el tiempo empleado en esto

In [None]:
%timeit -o sum(big_array)

In [None]:
python_sum_time = _

In [None]:
python_sum_time_average = python_sum_time.average
python_sum_time_average

Calculamos ahora la suma de los elementos del array usando sum de Numpy
https://docs.scipy.org/doc/numpy/reference/generated/numpy.sum.html

Y medimos el tiempo empleado en esto

In [None]:
%timeit -o np.sum(big_array)

In [None]:
numpy_sum_time = _

In [None]:
numpy_sum_time_average = numpy_sum_time.average
numpy_sum_time_average

In [None]:
print("Para este array la implementación sum de python emplea", python_sum_time_average / numpy_sum_time_average, 
      "veces más tiempo que la implementación sum de Numpy")

Ahora vamos a mostrar algunos ejemplos de estas funciones sobre una matriz (array de dos dimensiones).

In [None]:

# Definimos el tamaño de la matriz que vamos a construir
big_array_size = (300, 400)

# Definimos la semilla del generador random
seed_cualquier_numero = 4703

# Creamos el generador 
random_generator_seed = np.random.default_rng(seed_cualquier_numero)

# Creamos el array
low = 1
high = 100
big_array = random_generator_seed.uniform(low, high, size=big_array_size)


* Suma de todos los elementos de la matriz:

In [None]:
print("Suma de toda la matriz: ", big_array.sum())

Es lo mismo que escribir:

In [None]:
np.sum(big_array)

* Mínimo de cada columna, debe devolver un array de longitud igual a la cantidad de columnas de la matriz:

`axis` representa el eje que se va a **reducir**

En una matriz de dos dimensiones axis 0 representa el eje de las filas, y axis 1 el eje de las columnas

Para calcular los mínimos de cada columna debemos reducir las filas, por lo tanto el valor de axis es 0

In [None]:
minimos_por_columnas = big_array.min(axis=0)

cant_columnas = big_array.shape[1]

print("cantidad de columnas de big_array:", cant_columnas)

print("cantidad de elementos en los mínimos por columnas:",  len(minimos_por_columnas))

#print("Mínimos de cada columna: ", minimos_por_columnas)

* Máximo de cada fila, debe devolver un array de longitud igual a la cantidad de filas de la matriz:

`axis` representa el eje que se va a reducir, en este caso debemos reducir las columnas, por lo tanto el valor de axis es 1


In [None]:
maximos_por_filas = big_array.max(axis=1)

cant_filas = big_array.shape[0]

print("cantidad de filas de big_array:", cant_filas)

print("cantidad de elementos en los máximos por filas:",  len(maximos_por_filas))

#print("Máximos de cada fila: ", maximos_por_filas)


* Suma de los elementos de cada fila

en este caso tenemos que reducir columnas, por lo tanto el valor de axis es 1

> Recuerden que `big_array.sum(axis=1)` es lo mismo que `np.sum(big_array, axis=1)`

In [None]:
#print("Suma de cada fila: ", big_array.sum(axis=1))
print("Suma de cada fila: ", np.sum(big_array, axis=1))

<div id="caja5" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/ponete_a_prueba.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
<b>Ejercicios</b>
    
1) Generemos un array de 1 dimension con 1000 elementos con distribución normal de media 5 y desvío 2, inicialicemos la semilla en el valor 4703.
    
2) Usando algunas de las funciones de Numpy listadas en Métodos matemáticos y estadísticos, calculemos la media y el desvío de los elementos del array que construimos en el punto 1.
    
3) Generemos otro array de dimensiones 100 filas, 20 columnas con distribución normal de media 5 y desvío 2.
    
4) Usando las mismas funciones que en 2) calculemos la media y el desvío de cada fila del resultado de 3.
    
5) Usando las mismas funciones que en 2) calculemos la media y el desvío de cada columna del resultado de 3.
    
*¿Los resultados que obtuvieron son los que esperaban?*
    
**Ayudas**:
    
1) Generamos datos normales en 1_numpy.ipynb
    
4 y 5) Recuerden la existencia del parámetro `axis`

**Opcional**:
    
¿Pueden resolver los puntos 4) y 5) con la misma función?</label></div>
</div>



In [None]:
def ejercicio1_3(media=0, desvio=1, tupla_dim=(10)):
    # cambiar aqui:
    result = np.zeros(tupla_dim)
    return result

def ejercicio2_media(array):
    # cambiar aqui:
    result = -1
    return result

def ejercicio2_desvio(array):
    # cambiar aqui:
    result = -1
    return result

def ejercicio4_media_filas(data):
    # cambiar aqui:
    result = np.ones(10)
    return result

def ejercicio4_desvio_filas(data):
    # cambiar aqui:
    result = np.ones(10)
    return result

def ejercicio5_media_columnas(data):
    # cambiar aqui:
    result = np.ones(10)
    return result

def ejercicio5_desvio_columnas(data):
    # cambiar aqui:
    result = np.ones(10)
    return result

import numpy as np

########################################
# completar con los parametros adecuados
########################################
datos = ejercicio1_3()
print("ej 1:", test_2_numpy_vectorizacion.test_ejercicio1(datos))

result2_media = ejercicio2_media(datos)
print("ej 2 media:", test_2_numpy_vectorizacion.test_ejercicio2_media(datos, result2_media))

result2_desvio = ejercicio2_desvio(datos)
print("ej 2 desvio:", test_2_numpy_vectorizacion.test_ejercicio2_desvio(datos, result2_desvio))

########################################
# completar con los parametros adecuados
########################################
datos_matrix = ejercicio1_3(tupla_dim=(10,10))
print("ej 3:", test_2_numpy_vectorizacion.test_ejercicio3(datos_matrix))

result4_media_filas = ejercicio4_media_filas(datos_matrix)
print("ej 4 media filas:", test_2_numpy_vectorizacion.test_ejercicio4_media_filas(datos_matrix, result4_media_filas))

result4_desvio_filas = ejercicio4_desvio_filas(datos_matrix)
print("ej 4 desvio filas:", test_2_numpy_vectorizacion.test_ejercicio4_desvio_filas(datos_matrix, result4_desvio_filas))

result5_media_columnas = ejercicio5_media_columnas(datos_matrix)
print("ej 5 media columnas:", test_2_numpy_vectorizacion.test_ejercicio5_media_columnas(datos_matrix, result5_media_columnas))

result5_desvio_columnas = ejercicio5_desvio_columnas(datos_matrix)
print("ej 5 desvio columnas:", test_2_numpy_vectorizacion.test_ejercicio5_desvio_columnas(datos_matrix, result5_desvio_columnas))


<a id="section_broadcasting"></a> 
### Broadcasting
[volver a TOC](#section_toc)

En conjunto con las ufuncs, el broadcasting es una forma de aplicar operaciones sobre los datos sin tener que escribir loops "for" en Python nativo que resultan más lentos.

Recordemos que cuando operamos sobre arrays de las mismas dimensiones, se pueden hacer operaciones eficientes elemento a elemento.

Numpy tiene un conjunto de reglas para aplicar operaciones elemento a elemento en arrays de diferente tamaño. 
Se proyectan los valores de los arrays igualando las dimensiones de los argumentos, para poder operar sobre los mismos de forma vecotrizada.

![Image](img/broadcasting.jpg)

El broadcasting en NumPy sigue un conjunto estricto de reglas para determinar la interacción entre las dos arrays:

* Regla 1: si los dos arrays difieren en su número de dimensiones (forma), se rellena con 1s a su izquierda aquel que tiene menos dimensiones. 

* Regla 2: si el tamaño de los dos arrays no coincide en alguna dimensión, el array con tamaño igual a 1 en esa dimensión se estira para que coincida con el tamaño del otro.

* Regla 3: si en alguna dimensión los tamaños son diferentes y ninguno es igual a 1, se genera un error.

In [None]:
a = np.array([0, 1, 2])
b = np.array([5, 5, 5])
a + b

En el ejemplo de arriba, "a + b" es una operación eficiente porque "a" y "b" tienen la mismas dimensiones. 

Las reglas de "broadcasting" de Numpy, permiten que la operación siga siendo eficiente llevando los elementos involucrados a la misma dimensión y tamaño.


Veamos en código los ejemplos de la imagen:

In [None]:
# linea 1 de la imagen:

a = np.array([0, 1, 2])
b = 5
a + b

In [None]:
# linea 2 de la imagen:
a = np.ones((3, 3))
b = np.array([0, 1, 2])
a + b

In [None]:
# linea 3 de la imagen:

In [None]:
a = np.array([[0], [1], [2]])
print(a.shape)
a

In [None]:
b = np.array([0, 1, 2])
print(b.shape)
b

In [None]:
a + b