# Numpy, Estadística, Probabilidades

## Numpy Array

Un array es una estructura de datos que permite agrupar varios valores o elementos en una única variable (un único nombre).

Los elementos de un array son todos del mismo tipo (a diferencia de las listas de Python).

Los arrays de una y dos dimensiones tienen nombres propios:

* un array unidimensional es un **vector**

* un arreglo bidimensional es una **tabla** o **matriz**

Los array de tres dimensiones o más se nombran N-dimensionales.


![Image](img/numpy.jpg)

---

### Constructor

#### Documentación 
https://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html

La forma más sencilla de construir un array es usando el constructor con un único parámetro:
`numpy.array(object)`
donde object es una colección de elementos


Veamos un ejemplo:

In [None]:
import numpy as np

In [None]:
# Lista de python
python_list = [1, 4, 2, 5, 3]

# Arreglo (array) de enteros instanciado a partir de una lista:
my_numpy_array = np.array(python_list)

# Imprimo el numpy array creado
print(my_numpy_array)

### Métodos para la creación de arrays

#### Documentación 
https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html

Numpy provee métodos para crear e inicializar arrays con determinadas características. 

Podemos crear arrays vacíos, de ceros, de unos, con una secuencia, de valores aleatorios, de valores que sigan determinada distribución.


#### Array de valores aleatorios con distribución normal

Ahora veremos cómo instanciar un array de números aleatorios que siga una distribución normal

##### Documentación
https://docs.scipy.org/doc/numpy/reference/random/index.html

https://docs.scipy.org/doc/numpy/reference/random/generator.html

https://docs.scipy.org/doc/numpy/reference/random/generated/numpy.random.Generator.normal.html#numpy.random.Generator.normal

El método que genera números aleatorios con distribución normal recibe como parámetros: la media, el desvio standard y las dimensiones del array de salida

`Generator.normal(loc=0.0, scale=1.0, size=None)`

Instanciamos una instancia default de Generator:

In [None]:
random_generator = np.random.default_rng()

Generamos ahora 12 números con distribución normal de media 0 y desvío standard 1:

In [None]:
random_generator.normal(loc = 0, scale = 1, size = 12)

Ahora generamos una matriz de 16 filas y 4 columnas con números con distribución normal de media 0 y desvío standard 1:

In [None]:
 random_generator.normal(0, 1, size = (16,4))

Observen que cada vez que ejecutamos esta linea `random_generator.normal(loc = 0, scale = 1, size = 12)` obtenemos valores diferentes para los elementos del array.

Prueben ejecutarla tres o cuatro veces...

Lo mismo ocurre con `random_generator.normal(0, 1, size = (16,4))`

Si queremos obtener el mismo resultado en todas las ejecuciones, debemos inicializar la semilla del generador de números aleatorios.

Para eso hacemos inicializamos la instancia de `Generator` con una semilla cualquiera pero fija:

In [None]:
seed_cualquier_numero = 2843
random_generator_seed = np.random.default_rng(seed_cualquier_numero)

Y ahora ejecutemos varias veces las mismas lineas que probamos arriba, usando el objeto random_generator_seed inicializado con una semilla determinada:

In [None]:
random_generator_seed = np.random.default_rng(seed_cualquier_numero)
random_generator_seed.normal(loc = 0, scale = 1, size = 12)

In [None]:
random_generator_seed = np.random.default_rng(seed_cualquier_numero)
random_generator_seed.normal(0, 1, size = (16,4))


<a id="section_atributos"></a> 
### Atributos

#### Documentación

https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html#array-attributes

Vamos a ver ahora ejemplos de atributos de un array de tres dimensiones, con numeros aleatorios de distribución uniforme de tamaño 3 * 4 * 5

Generador de números aleatorios con distribución uniforme:

https://docs.scipy.org/doc/numpy/reference/random/generated/numpy.random.Generator.uniform.html#numpy.random.Generator.uniform

In [None]:
random_generator_seed = np.random.default_rng(seed_cualquier_numero)
low = 10 #incluye el limite inferior
high = 50 # no incluye el límite superior
size = (3, 4, 5)
array_3D = random_generator_seed.uniform(low, high, size)
array_3D

<a id="section_atributos_ndim"></a> 
#### ndim

Cantidad de dimensiones del array

In [None]:
array_3D.ndim

<a id="section_atributos_shape"></a> 
#### shape

Tupla con las dimensiones del array

In [None]:
array_3D.shape

In [None]:
type(array_3D.shape)

> Observación: `len(array_3D.shape) == array_3D.ndim`

<a id="section_atributos_size"></a> 
#### size

Cantidad de elementos en el array

In [None]:
array_3D.size

> Observación: `np.prod(array_3D.shape) == array_3D.size`
>
> `np.prod` multiplica todos los elementos en la tupla

<a id="section_atributos_dtype"></a> 
#### dtype
[volver a TOC](#section_toc)

Tipo de datos de los elementos que componen el array

In [None]:
array_3D.dtype

<a id="section_indexing"></a> 
### Indexing

Un problema común es seleccionar los elementos de un array de acuerdo a algún criterio. 

Llamamos "indexing" a la operación que resuleve el problema de acceder a los elementos de un array con algún criterio. 

Existen tres tipos de indexing en Numpy:

* **Array Slicing**: accedemos a los elementos con los parámetros start,stop,step. 
Por ejemplo `my_array[0:5:-1]`

* **Fancy Indexing**: creamos una lista de índices y la usamos para acceder a ciertos elementos del array:  `my_array[[3,5,7,8]]`

* **Boolean Indexing**: creamos una "máscara booleana" (un array o lista de True y False) para acceder a ciertos elementos: `my_array[my_array > 4]`


<a id="section_indexing_slicing"></a>
#### Array Slicing

##### Slicing sobre una dimensión

El slicing es similar al de las listas de python [start:stop:step]. 

El índice stop no se incluye pero el start sí se incluye. 

Por ejemplo [1:3] incluye al índice 1 pero no al 3.

Funciona como un intervalo semicerrado [1,3).

Si necesitan refrescar cómo funciona el slicing en listas pueden ver https://stackoverflow.com/questions/509211/understanding-slice-notation


![Image](img/numpy_indexing.jpg)



Veamos algunos ejemplo:

Creamos un array de una dimensión usando el método
`np.arange` que devuelve valores espaciados uniformemente dentro de un intervalo dado.

https://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html

In [None]:
# Sobre un array de una dimension con números enteros entre 0 y 9:
one_d_array = np.arange(10)
one_d_array

In [None]:
# Start = 1:  empezamos por el segundo elemento
# Stop: No está definido, entonces llegamos hasta el final.
# Step: El paso o distancia entre los elementos es 2.
one_d_array[1::2]  

In [None]:
# Start: No está definido, entonces comenzamos desde el primero.
# Stop: No está definido, entonces llegamos hasta el final.
# Step = -1, para invertir el orden del array
one_d_array[::-1]

In [None]:
# Si queremos hacer slicing en orden invertido
one_d_array[7:2:-1]  

##### Slicing sobre arrays de más  dimensiones

Cuando tenemos más de una dimensión, podemos hacer slicing sobre cada una de ellas separándolas con una coma. 

Veamos algunos ejemplos:

In [None]:
random_generator_seed = np.random.default_rng(seed_cualquier_numero)
low = 0 #incluye el limite inferior
high = 10 # no incluye el límite superior
size = (3, 4)
two_d_array = random_generator_seed.uniform(low, high, size)
two_d_array

In [None]:
# Los dos puntos ( : ) indican que accedemos a todos los elementos de cada fila 
# y el cero después de la coma indica que sólamente lo hacemos para la columna 0 (la primera).
two_d_array[:, 0]

In [None]:
# Accedemos a la tercer fila
two_d_array[2, :]

In [None]:
# Otra forma de acceder a la tercer fila
two_d_array[2]

In [None]:
# Todas la filas, un slice de la segunda y tercer columna (índices 1 y 2)
two_d_array[:, 1:3]

In [None]:
# todas las filas, todas las columnas listadas en orden inverso
two_d_array[:, ::-1]


<a id="section_indexing_fancy"></a> 
#### Fancy Indexing
[volver a TOC](#section_toc)

Esta técnica consiste en generar listas que contienen los índices de los elementos que queremos seleccionar y utilizar estas listas para indexar.

Veamos algunos ejemplos:

In [None]:
# nos quedamos con todas las columnas y las filas 1, 3, 2 y repetimos la 1 (índices 0,2,1,0)
lista_indices_filas = [0, 2, 1, 0]
two_d_array[lista_indices_filas]

In [None]:
# nos quedamos con todas las filas y las columnas 3, 4, 2, y reptimos la 3 (índices 2,3,1,2)
lista_indices_columnas = [2, 3, 1, 2]
two_d_array[:, lista_indices_columnas]

In [None]:
# y ahora seleccionamos tanto filas como columnas, combinando los dos casos anteriores
two_d_array[lista_indices_filas, lista_indices_columnas]

Observemos que al pasar las dos listas, estamos seleccionando los elementos
(0, 2), (2, 3), (1, 1) y (0,2)

Se cumple que `indice_elem_i = (lista_indices_filas[i], lista_indices_columnas[i])`

<a id="section_indexing_boolean"></a> 
#### Boolean Indexing

Esta técnica se basa en crear una "máscara booleana", que es una lista de valores True y False que sirve para seleccionar sólo los elementos cuyo índice coincide con un valor True.  

Veamos algunos ejemplos sobre two_d_array:

In [None]:
two_d_array

Vamos a seleccionar los elementos que sean mayores que 5. Para esos creamos uma máscara con esa condición:

In [None]:
mask_great_5 = two_d_array > 5
mask_great_5

La máscara tiene valor True en aquellos elementos de two_d_array con valor mayor a 5, y False en los que tienen valor menor o igual que 5.

Ahora usemos esa máscara para seleccionar los elementos que cumplen esa condición, o sea los que tienen valor True en la máscara:

In [None]:
two_d_array[mask_great_5]

Definamos ahora una condición más compleja: vamos a seleccionar los elementos que sean mayores que 5 y menores que 8

In [None]:
mask_great_5_less_8 = (two_d_array > 5) & (two_d_array < 8)
mask_great_5_less_8

Ahora usemos esa máscara para seleccionar los elementos que cumplen esa condición, o sea los que tienen valor True en la máscara:

In [None]:
two_d_array[mask_great_5_less_8]
