# Introducción a Numpy y Matplotlib

![img/3-numpy/numpy_logo.jpg](img/3-numpy/numpy_logo.jpg)

# Que es numpy?

En la sesión anterior vimos que una de las estrucutras de datos fundamentales en python son las listas. A pesar de ser un elemento muy útil en el mundo de la programación, esta estructura de datos es ineficiente cuando queremos considerar estas listas como vectores.

Por ejemplo,

```python

lista_1 = [1, 2, 3]
lista_2 = [2, 3, 4]

suma_lista_1_2 = lista_1 + lista_2

print(suma_lista)

# output
[1, 2, 3, 2, 3, 4]
```

Si quisieramos sumar elemento a elemento, deberíamos crearnos una función con bucles que nos devolviese el vector resultante.

In [None]:
## Escribe una función que dadas dos listas nos
## devuelva la suma elemento a elemento.
## Ojo! Acuerdate de comprobar que son del mismo tamaño!

def suma_dos_listas_elemento_a_elemento(a, b):
    """
    Suma las dos listas a y b
    """
    suma = []
    if ####:
        ###
        
    else:
        print( "el tamaño de las listas debería ser el mismo")
    return suma
            

##Extra: Echale un vistazo a la funcion zip() de python.
##Usando zip y las list comprehensions podemos reescribir
##la función en una linea de forma pythonica!


In [None]:
a = [1, 2, 3] * 100000
b = [2, 3, 4] * 100000

In [None]:
%timeit suma_a_b = suma_dos_listas_elemento_a_elemento(a, b)

In [None]:
%timeit ###suma con list comprehension

Como veis en el ejemplo anterior, no solo es innecesariamente complicado si no que es ineficiente cuando queremos tratar con vectores de gran tamaño. Sería conveniente tener operaciones definidas para este tipo de problemas.

Eso es exactamente lo que hace **Numpy**. Interpreta las listas como vectores numéricos y nos permite realizar operaciones de algebra lineal de forma eficiente.

Por si no fuera poco, **Numpy** está escrito en **C**, uno de los lenguajes de programación más [rápidos](https://attractivechaos.github.io/plb/). Además de proporcionarnos velocidad a la hora de realizar cálculos algebráicos, sirve cómo interfaz para comunicarse con funcionalidades escritas en **C** y en **Fortran**. Ésta es la razón principal por la **Numpy** nos importa cómo analistas o cientificos de datos, aunque no trabajemos directamente en algebra: los principales módulos para el análisis de datos (pandas y sklearn) se basan en **Numpy**, por lo que entender su estructura y uso nos facilitara la comprensión de las librerias de más alto nivel.



In [None]:
## importar numpy bajo el alias np


## `np.array` y `np.ndarray`

### `np.ndarray`

De la [documentación](https://docs.scipy.org/doc/numpy-1.13.0/reference/arrays.html) oficial:

>  Describes an N-dimensional collection of “items” of the same type.

### `np.array`

Es un metodo de numpy que nos permite crear np.ndarray


### Crear un array a partir de listas

Para crear un array a partir de una lista, simplemente debemos pasar la lista como argumento a la función np.array()

```python

mi_lista = [1, 2, 3]

mi_array = np.array(mi_lista)

print(type(mi_array))
```

También, podemos crear un array a partir de una lista de listas.

```python

mi_lista_anidada = [[1, 2, 3],
                    [4, 5, 6]]

mi_array_2d = np.array(mi_lista_anidada)
```
                   

In [None]:
## Crea un ndarray a partir de una lista anidada
mi_lista = [1, 2, 3]

mi_lista_anidada = [[1, 2, 3],
                    [4, 5, 6]]

array_1D = ###

array_2D = ###

## Atributos de np.ndarray

Cada array tiene los atributos:

* `ndim`: el número de dimensionesthe number of dimensiones
* `shape`: el tamaño de cada dimensión
* `size`: el tamaño total del array

In [None]:
## Comprueba los atributos del array creado antes



## Arrays de números aleatorios

Numpy tiene una funcionalidad muy útil para generar datos de forma aleatoria o siguiendo alguna distribución estadística.

```python
gauss_dist = np.random.normal(loc=0,
                              scale=1,
                              size=(1000, 2))
```

In [None]:
## inicializar un vector aleatorio de enteros
np.random.seed(0)  # semilla for reproducibility

x1 = # One-dimensional array
x2 = # Two-dimensional array

In [None]:
## crea un array de 200 filas y 3 columnas aleatorio que siga una distribución
## de poisson

x_pois = np.random.###(lam=2., size=(###, ###))

In [None]:
x_pois

## Indexing
Sigue un patron similar a las listas de python.

Para acceder al $i^{th}$ elemento de una array 1-dimensional se sigue la sintaxis de braquets.

Para acceder al $i^{th}$ elemento de una array 2-dimensional se sigue la sintaxis de braquets con los indices separados por comas.

In [None]:
## accede al primer, tercer y quinto elemento de x1.
print(x1[#])
print(x1[#])
print(x1[#])

In [None]:
## accede primer al elemento de la primera fila y segunda columna de x2
x2[#, #]

## Slicing

De la misma forma que hacemos "slices" de listas en python podemos crearlos en los np.array.

Además, podemos especificar un "step", que es la cantidad de elementos que se saltara entre uno y otro.


x[start:stop:step]

Si no se especifica alguno de ellos, numpy toma el valor por defecto, que son:

* start=0
* stop=tamaño de la dimensión
* step=1

In [None]:
## Crea un array de una dimension con los numeros del 0 al 9 usando arange
a = np.###
a

In [None]:
## Crea un slice que contenga los 3 primeros elementos
a_3 = a[:#]
a_3

In [None]:
## Crea un slice que contenga los 2 ultimos elementos
a_last_2 = a[#:]
a_last_2

In [None]:
## Crea un slice que contenga los 6 primeros elementos uno si y uno no
a[:#:#]

#### Ojo! si el paso es negativo los campos de start y stop se invierten. Es una forma muy conveniente de invertir el orden de un array

In [None]:
ordered = np.arange(10)
print(ordered)

In [None]:
reverse_order = ordered[::##] 
print(reverse_order)

## Multidimensiones

Hay que especificar el sub-slice en cada una de las dimensiones separados por coma en braquets


```python

x = np.array([[3, 5, 2, 4],
              [7, 6, 8, 8],
              [1, 6, 7, 7]])
# columnas
x[:, 2]
# output
array([2, 8, 7])

# filas
x[1, :]

# output
array([7, 6, 8, 8])
```

In [None]:
## accede a la primera columna
x = ####
x[:, #]

In [None]:
## accede a la segunda columna
x[:, #]

In [None]:
## elimina la primera fila
x[#:, :]

## Expresiones matemáticas y funciones útiles

Numpy permite evaluar expresiones matematicas y funciones de forma sencilla y eficiente.

Por ejemplo:

```python

x = np.random.randint(10, size=20)

add_5_element_wise = x + 5
```

Suma `5` a cada elemento del array. Esto funciona de forma similar para las funciones aritméticas básicas (+, -, \*,...)

In [None]:
# crea un array aleatorio que elija entre tres números y multiplica cada uno de sus elementos por 3
a =np.random.choice??

In [None]:
a = np.random.choice(###, size=(###,))

In [None]:
a*3

<font color="blue"> que pasa si multiplicamos una lista por un entero ?

### Funciones trigonométricas

In [None]:
# Crea un vector de 5 elementos espaciados de forma homogenea
# entre 0 y pi, ambos incluidos
x = np.linspace(0, **, 5)
x

In [None]:
print(x)
sin_x = ####
print(sin_x)

In [None]:
# demuestra el teorema fundamental de la trigonometria

sin_x = ##

cos_x = ##

trigo_101 = ##

## Exponentes y logaritmos

In [None]:
import numpy as np

In [None]:
x = [1, 2, 3]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))

In [None]:
np.power(x, 3)

In [None]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

Unas transformaciones muy útiles cuando lidiamos con valores pequeños son:

In [None]:
x = [0, 0.001, 0.01, 0.1]
print("exp(x) - 1 =", np.expm1(x))
print("log(1 + x) =", np.log1p(x))

# Funciones estadísticas integradas

Numpy permite calcular de forma rápida parametros estadisticos y otras aggregaciones sobre un array

In [None]:
# suma de todos los elementos
x = np.arange(10)
x.sum()

In [None]:
# media y desviación estandar

print('mean:', x.mean())
print('std:', x.std())

In [None]:
# percentiles
np.percentile(x, 50)

In [None]:
# la suma acumulada de los valores
print(x)
print(x.cumsum())

### Ejercicios

Utiliza el cheatsheet disponible o busca las funcionalidades pertinentes

1. Crea una matriz identidad de $4 \times 4$
2. Genera el array siguiente sin crear la lista
```
1 2 3
4 5 6
7 8 9
```
3. Genera una matrix aleatoria de $4 \times 4 \times 4$ con números distribuidos siguiendo una gaussiana
4. Genear `n` intervalos entre 0 and 1 distribuidos de forma logarítmica

# Matplotlib

![img/3-numpy/matplotlib-logo.png](img/3-numpy/matplotlib-logo.png)

*Matplotlib* permite graficar cosas. ```pyplot``` es una capa que dota a la librería de una sintaxis similar a la de MATLAB.

Se complementa a la perfección con [seaborn](http://seaborn.pydata.org/), que nos permitirá hacer además gráficos estadísticos.

En conjunto, son un duo muy potente que permite hacer cosas como ésta [código fuente](http://seaborn.pydata.org/examples/structured_heatmap.html):

<img src='img/3-numpy/structured_heatmap.png' width=500>

A medida que vayamos avanzando entraremos en más detalle sobre los diferentes tipos de gráficos. Por ahora, nos limitaremos a hablar sobre los básicos:

- Lineas
- Barras e Histogramas
- Scatter plots

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt
import seaborn as sns

sns.set_context('talk')

# Line plot example

Matplotlib puede crear graficos X-Y basicos a partir de arrays o listas del mismo tamaño. Si solo le diesemos una lista o array, la graficaría contra su indice.

Cada vez que llamamos a plt.plot() nos sobrepone una nueva curva en la misma figura. Si quisieramos una nueva, deberíamos especificar 'plt.figure()' para crear una nueva.

In [None]:
xs = np.random.randn(5, 100)

plt.title("Brownian Motion")
bms = xs. ## suma acumulada para definir el movimiento en el eje y
for bm in bms:
    plt.plot(bm)

### Subplots

Muchas veces querremos tener los gráficos por separado. La forma más sencilla de generarlos es usando el comando sublplots y especificando el numero de filas y/o columnas en los que queremos que se dividan.

```python

fig, ax = plt.subplots(nrows=2,
                       ncols=3,
                       sharex=True,
                       sharey=True)
```
`ax` es un np.array de (nrows, ncols) al que podremos acceder por los indices para poder "colocar" los plots que queramos.
                       
                    

In [None]:
fig, ax = plt.subplots(nrows=2,
                       sharex=True,
                       sharey=True)
for i in range(2):
    ax[i].plot(## random array of 100 elements)

## Histogram and bar plot

Aunque *matplotlib* tiene funcionalidad para histogramas, los de seaborn ofrecen una funcionaliad más completa.

In [None]:
# matplotlib

data = np.random.gamma(4.5, 1.0, 10000)

fig, ax = plt.subplots(ncols=2)

ax[0].   ##draw a boxplot 
ax[1].   ##draw a hist

plt.show()

**Seaborn: It provides a high-level interface for drawing attractive and informative statistical graphics.**

In [None]:
# seaborn
# matplotlib
data = np.random.gamma(4.5, 1.0, 10000)

fig, ax = plt.subplots(ncols=3, figsize=(20, 12))

sns.boxplot(data, ax=ax[0], orient='v')

sns.violinplot(data, ax=ax[1], orient='v')

sns.distplot(data, ax=ax[2])

plt.show()

## Scatter plots
Necesitamos dos arrays o listas del mismo tamaño para poder plotear una contra la otra

In [None]:
x = np.random.normal(size=1000)
y = np.random.normal(size=1000)

plt.scatter(**, **, c='firebrick', alpha=0.2)
plt.show()

## Seaborn

In [None]:
sns.jointplot(x=x, y=y, kind='kde')

In [None]:
## Genera un sinusoide con 1000 elementos

x = ## 
y_real = np.sin(x)

In [None]:
plt.scatter(x, y_real)

In [None]:
noise = np.random.normal(0, 0.1, size=###)

In [None]:
y_noise = y_real + noise

In [None]:
plt.scatter(x, y_noise)