# Numpy, Estadística, Probabilidades

## Vectorización

En esta notebook vamos a usar funciones que se ejecutan en forma vectorial, es decir que realizan operaciones sobre cada uno de los elementos de un array sin usar loops, y por eso son mucho más eficientes.

Las operaciones vectorizadas trabajan sobre los datos como un bloque.  Por eso es necesario que los tipos sean homogéneos entre todos los e
lementos. En operaciones vectorizadas no recorremos los elementos en orden. 

![Image](img/computacion_vectorial.jpg)

### Universal Functions

Son funciones que realizan operaciones sobre cada elemento de un array multidimensional.

Estas operaciones se paralelizan y el procesador las completa en un tiempo mucho menor que si aplicásemos un loop y operásemos sobre cada uno de los elementos.

![Image](img/numpy_unary_ufunc.jpg)

![Image](img/numpy_binary_ufunc.jpg)


<a id="section_statistical"></a> 
### Métodos matemáticos y estadísticos

La clase array implementa también métodos que calculan de forma eficiente estadísticas sobre un array.

Podemos hacer agregaciones como suma, promedio, desvío standard.

A continuación hay una lista de algunos de los métodos disponibles en Numpy:

![Image](img/numpy_array_statistical_methods.jpg)


Veamos algunos ejemplos de uso de estos métodos.

Construimos un array que usaremos para comparar tiempos de ejecución de distintos métodos:

In [13]:
# Definimos el tamaño del array que vamos a construir
big_array_size = 1000000

# Definimos la semilla del generador random
seed_cualquier_numero = 4703

# Creamos el generador 
random_generator_seed = np.random.default_rng(seed_cualquier_numero)

# Creamos el array
low = 1
high = 100
big_array = random_generator_seed.uniform(low, high, size=big_array_size)


Calculamos la suma de los elementos del array usando sum 
https://docs.python.org/3/library/functions.html#sum

Y medimos el tiempo empleado en esto

In [14]:
%timeit -o sum(big_array)

109 ms ± 1.26 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


<TimeitResult : 109 ms ± 1.26 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)>

In [15]:
python_sum_time = _

In [16]:
python_sum_time_average = python_sum_time.average
python_sum_time_average

0.10945384678571404

Calculamos ahora la suma de los elementos del array usando sum de Numpy
https://docs.scipy.org/doc/numpy/reference/generated/numpy.sum.html

Y medimos el tiempo empleado en esto

In [17]:
%timeit -o np.sum(big_array)

458 µs ± 23.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


<TimeitResult : 458 µs ± 23.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)>

In [18]:
numpy_sum_time = _

In [19]:
numpy_sum_time_average = numpy_sum_time.average
numpy_sum_time_average

0.00045795296457143306

In [20]:
print("Para este array la implementación sum de python emplea", python_sum_time_average / numpy_sum_time_average, 
      "veces más tiempo que la implementación sum de Numpy")

Para este array la implementación sum de python emplea 239.0067436033402 veces más tiempo que la implementación sum de Numpy


Ahora vamos a mostrar algunos ejemplos de estas funciones sobre una matriz (array de dos dimensiones).

In [21]:

# Definimos el tamaño de la matriz que vamos a construir
big_array_size = (300, 400)

# Definimos la semilla del generador random
seed_cualquier_numero = 4703

# Creamos el generador 
random_generator_seed = np.random.default_rng(seed_cualquier_numero)

# Creamos el array
low = 1
high = 100
big_array = random_generator_seed.uniform(low, high, size=big_array_size)


* Suma de todos los elementos de la matriz:

In [22]:
print("Suma de toda la matriz: ", big_array.sum())

Suma de toda la matriz:  6064843.1555379275


Es lo mismo que escribir:

In [23]:
np.sum(big_array)

6064843.1555379275

* Mínimo de cada columna, debe devolver un array de longitud igual a la cantidad de columnas de la matriz:

`axis` representa el eje que se va a **reducir**

En una matriz de dos dimensiones axis 0 representa el eje de las filas, y axis 1 el eje de las columnas

Para calcular los mínimos de cada columna debemos reducir las filas, por lo tanto el valor de axis es 0

In [24]:
minimos_por_columnas = big_array.min(axis=0)

cant_columnas = big_array.shape[1]

print("cantidad de columnas de big_array:", cant_columnas)

print("cantidad de elementos en los mínimos por columnas:",  len(minimos_por_columnas))

#print("Mínimos de cada columna: ", minimos_por_columnas)

cantidad de columnas de big_array: 400
cantidad de elementos en los mínimos por columnas: 400


* Máximo de cada fila, debe devolver un array de longitud igual a la cantidad de filas de la matriz:

`axis` representa el eje que se va a reducir, en este caso debemos reducir las columnas, por lo tanto el valor de axis es 1


In [25]:
maximos_por_filas = big_array.max(axis=1)

cant_filas = big_array.shape[0]

print("cantidad de filas de big_array:", cant_filas)

print("cantidad de elementos en los máximos por filas:",  len(maximos_por_filas))

#print("Máximos de cada fila: ", maximos_por_filas)


cantidad de filas de big_array: 300
cantidad de elementos en los máximos por filas: 300


* Suma de los elementos de cada fila

en este caso tenemos que reducir columnas, por lo tanto el valor de axis es 1

> Recuerden que `big_array.sum(axis=1)` es lo mismo que `np.sum(big_array, axis=1)`

In [26]:
#print("Suma de cada fila: ", big_array.sum(axis=1))
print("Suma de cada fila: ", np.sum(big_array, axis=1))


Suma de cada fila:  [18910.33036273 20279.14633071 20456.58297344 19796.15514547
 20312.11572238 20166.83973085 19571.65484108 20172.65906289
 20721.78910578 20739.00568135 19809.70790564 20612.61873513
 20425.50278738 19072.25495072 19568.41708099 19652.86151729
 20047.75205379 20147.09003941 19804.32615746 20350.81655519
 20273.33281219 18769.85722544 19006.4913321  20410.5636523
 20236.25697818 20117.99531226 19977.36466832 20933.91456867
 20418.5036841  20530.54326175 19540.2517708  21074.26635655
 20062.02056112 20900.32366252 19556.19555206 19466.89151054
 19189.42374796 20270.07301021 19798.0866719  21040.84115933
 20869.09701017 21220.02649443 20568.0745206  20335.83152359
 19391.49009386 19843.10897357 21137.342842   20348.00246468
 20784.49623609 20575.13714506 20708.73582908 20487.59057178
 20920.82869947 20368.86131967 20944.35872889 20794.20724457
 20820.72110523 21183.72676242 20784.95677375 19181.92092683
 19918.97842758 20160.39077051 20333.78465588 20592.33594627
 2076

<a id="section_broadcasting"></a> 
### Broadcasting

En conjunto con las ufuncs, el broadcasting es una forma de aplicar operaciones sobre los datos sin tener que escribir loops "for" en Python nativo que resultan más lentos.

Recordemos que cuando operamos sobre arrays de las mismas dimensiones, se pueden hacer operaciones eficientes elemento a elemento.

Numpy tiene un conjunto de reglas para aplicar operaciones elemento a elemento en arrays de diferente tamaño. 
Se proyectan los valores de los arrays igualando las dimensiones de los argumentos, para poder operar sobre los mismos de forma vecotrizada.

![Image](img/broadcasting.jpg)

El broadcasting en NumPy sigue un conjunto estricto de reglas para determinar la interacción entre las dos arrays:

* Regla 1: si los dos arrays difieren en su número de dimensiones (forma), se rellena con 1s a su izquierda aquel que tiene menos dimensiones. 

* Regla 2: si el tamaño de los dos arrays no coincide en alguna dimensión, el array con tamaño igual a 1 en esa dimensión se estira para que coincida con el tamaño del otro.

* Regla 3: si en alguna dimensión los tamaños son diferentes y ninguno es igual a 1, se genera un error.

In [28]:
a = np.array([0, 1, 2])
b = np.array([5, 5, 5])
a + b

array([5, 6, 7])

En el ejemplo de arriba, "a + b" es una operación eficiente porque "a" y "b" tienen la mismas dimensiones. 

Las reglas de "broadcasting" de Numpy, permiten que la operación siga siendo eficiente llevando los elementos involucrados a la misma dimensión y tamaño.


Veamos en código los ejemplos de la imagen:

In [29]:
# linea 1 de la imagen:

a = np.array([0, 1, 2])
b = 5
a + b

array([5, 6, 7])

In [30]:
# linea 2 de la imagen:
a = np.ones((3, 3))
b = np.array([0, 1, 2])
a + b

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

In [31]:
# linea 3 de la imagen:

In [32]:
a = np.array([[0], [1], [2]])
print(a.shape)
a

(3, 1)


array([[0],
       [1],
       [2]])

In [33]:
b = np.array([0, 1, 2])
print(b.shape)
b

(3,)


array([0, 1, 2])

In [34]:
a + b

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])