# Clase 2

## Numpy

Numpy es una librería fundamental en el ecosistema de programación científica en Python. Ofrece un array multidimensional y un conjunto de operaciones y transformaciones sobre dicho objeto.  

Puntos destacados:
- Array multidimensional `ndarray` cuyos elementos son **todos de un mismo tipo**.
- Operaciones sobre `ndarray`s (`sum`, `mean`, `max`, `min`, etc)
- Operaciones vectorizadas (operan sobre el array entero, evitando uso de loops)
- Es la base del ecosistema científico de Python

### Constructores
https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html

In [1]:
import numpy as np

print(np.ones(10))
print(np.zeros(10))

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [2]:
lista = [1, 2, 3]

print(np.zeros_like(lista))
print(np.ones_like(lista))

[0 0 0]
[1 1 1]


In [3]:
np.array(lista)

array([1, 2, 3])

También tenemos helpers para crear arrays de uso típico.

Tip: En Jupyter lab/notebook, podemos ver la ayuda para una función agregando un `?` después del nombre.

```ipython
np.max?
```

In [4]:
# Rangos

np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
np.arange(10, 5, step=-1)

array([10,  9,  8,  7,  6])

In [6]:
# Crear un array de `num` elementos igualmente espaciados entre `start` y `stop`

np.linspace(start=0, stop=10, num=5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [7]:
# Matrices (arrays de m x n dimensiones)

np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [8]:
np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### Indexado

In [9]:
arr = np.array(range(10))
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
print('Primer elemento:', arr[0])
print('Ultimo elemento:', arr[-1])

Primer elemento: 0
Ultimo elemento: 9


In [11]:
# Podemos indexar un slice también

arr[5:]

array([5, 6, 7, 8, 9])

In [12]:
arr[:5]

array([0, 1, 2, 3, 4])

In [13]:
mat = np.array(range(1, 10)).reshape(3, 3)
mat

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [14]:
# Para indexar matrices pasamos dos indices:
# A[fila, columna]

mat[1, 1]

5

In [15]:
# Para obetener la fila del medio de la matriz:

mat[1]

array([4, 5, 6])

In [16]:
# La segunda columna

mat[:, 1]

array([2, 5, 8])

### Vectorización

Es lo que nos permite transformar operaciones que consumen un sólo valor a otras que procesan múltiples valores en simultáneo. Los CPUs modernos ofrecen la posibilidad de aplicar la misma instrucción a un conjunto de datos ([SIMD](https://en.wikipedia.org/wiki/SIMD)). Esto es lo que aprovecha Numpy para acelerar nuestro código.

In [17]:
# Ejemplo 1
# Suma de vectores

# Generamos dos vectores de 1000000 de elementos elegidos entre 0 y 99 al azar
np.random.seed(42)

SIZE = 1_000_000
v1 = np.random.choice(100, size=SIZE)
v2 = np.random.choice(100, size=SIZE)

In [18]:
%%timeit

## En Python
suma = [el1 + el2 for (el1, el2) in zip(v1, v2)]

272 ms ± 12.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [19]:
%%timeit

## En numpy
np.add(v1, v2)

1.63 ms ± 89.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [20]:
# Ejemplo 2
# Promedio de un conjunto de valores

def promedio_python(arr):
    promedio = 0
    for el in arr:
        promedio += el
        
    return promedio / len(arr)

def promedio_numpy(arr):
    return np.mean(arr)

In [21]:
%timeit promedio_python(v1)

208 ms ± 2.69 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [22]:
%timeit promedio_numpy(v1)

941 µs ± 47.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


#### Ejercicios

1. Escribir una función que calcule el máximo de un array en python. Comparar performance con `np.max`
2. Escribir una función que calcule la [desviación estándard](https://es.wikipedia.org/wiki/Desviación_típica) de un array en python. Comparar performance con `np.std`

### Filtros booleanos

Numpy también soporta indexación mediante arrays booleanos (conocidos como filtros o máscaras)

In [23]:
arr = np.arange(10)

arr % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [24]:
# Filtramos los números pares del array
mask = arr % 2 == 0

arr[mask]

array([0, 2, 4, 6, 8])

In [25]:
# Filtramos los números mayores que 5

arr[arr > 5]

array([6, 7, 8, 9])

#### Ejercicios

Partiendo del array `arr = np.arange(100)`
1. Filtrar los números mayores que la media (`np.mean`) de `arr`
2. Filtrar los múltiplos de 3.