


## La biblioteca numpy

<img src="https://numpy.org/doc/stable/_static/numpylogo.svg"/>

### La velocidad: una razón práctica para usar numpy
Numpy representa vectores y matrices de forma más eficiente; va a ser el soporte de los dataframes en Pandas y su filosofía se "hereda" en el manejo de datos en esta biblioteca. Veamos distintas formas de encontrar el máximo de un vector.


##### Python estándar

In [None]:
%%time
import random
cuantos = 10000000
l = [random.randint(1,100) for n in range(cuantos)]

In [None]:
l[:10]

aquí se ve lo que tarda

In [None]:
%%time
maximo = 0
for x in l:
    if x>maximo:
        maximo=x
print(maximo)



In [None]:
%%time
max(l)

##### Python con Numpy

In [None]:
%%time
import numpy as np
l =  np.random.randint(1, 100, cuantos)

In [None]:
%%time
import numpy as np
l.max()

### Creación de ndarrays

#### Creación desde arrays Python

In [None]:
import numpy as np
v = [10,20,30,40]
a1  = np.array(v)

print(a1, a1.shape, a1.dtype)

In [None]:
v = [10,20,30,40,"hola"]
a1  = np.array(v)

print(a1, a1.shape, a1.dtype)

En https://numpy.org/doc/stable/reference/arrays.dtypes.html hay algunas explicaciones sobre los tipos de datos de numpy

In [None]:
d = [[1, 2, 3, 4], [5, 6, 7, 8.2]]

a2 = np.array(d)
print(a2, a2.shape, a2.dtype)

Es importante notar que *array* crea una copia, esto es, reserva memoria nueva para el resultado.
La variante *asarray* no crea una copia si el parámetro ya es un *ndarray*

In [None]:

d = [[1, 2, 3, 4], [5, 6, 7, 8.2]]

a2 = np.array(d)
a3 = np.array(a2)
a4 = np.asarray(a2)

a3[0,1] = 0
a4[1,3] = 0
print(a2)

#### Crear arrays en numpy repitiendo valores

Aparte de *np.array* tenemos:

- *np.zeros(s)*: crea un array con 0s (float) con el *shape* indicado<br>

- *np.zeros_like(a)*: crea un array con 0s (float) con el mismo *shape* que el del array *a*<br>

- *np.ones(s)*: crea un array con 1s (float) con el *shape* indicado<br>

- *np.ones_like(a)*: crea un array con 1s (float) con el mismo *shape* que el del array *a*<br>

- *np.empty(s)*: crea un array con el *shape* indicado sin inicializar<br>

- *np.empty_like(a)*: crea un array con el *shape* de *a* sin inicializar<br>

- *np.arange(n)*: la versión np de *range*

- *np.eye(n)*, *np.identity(n)*: matriz diagonal de nxn

In [None]:
np.zeros((2,3,4))

#### Crear arrays en numpy mediante números aleatorios

numpy dispone de un paquete `numpy.random` que se encarga de generar números aleatrorios. Python también dispone de dicho paquete. La diferencia es que el módulo de numpy puede generar muchos valores diferentes con una sola llamada y de muy diversas funciones de probabilidad.

Las funciones incluídas en este paquete son:

    seed: semilla del generador de números aleatorios
    permutation: permutación al azar de una secuencia
    shuffle: permuta una secuencia in-place (no devuelve copia)
    rand: devuelve números aleatorios de una función uniforme
    randint: Valores enteros distribuidos uniformemente
    randn: valores de una N(0,1)
    binomial: ejemplo de una binomial
    normal: valores de una gaussiana cuyos parámetros se le pasan
    beta: valores aleatorios de una distribución beta
    chisquare: valores aleatorios de una chi-cuadrado
    gamma: valores de una gamma
    uniform: valores de una uniforme (0,1)
    
Vamos a comparar en velocidad con la generación mediante números aleatorios de Python

In [None]:
from random import normalvariate
N = 1000000
%timeit [normalvariate(0,1) for _ in range(N)]

In [None]:
%timeit np.random.normal(size=N)

Al usar timeit se puede especificar el número de repeticiones (r) y de iteraciones (n)

In [None]:
%timeit -n 100 -r 5 np.random.normal(size=N)

### Vectorización: los vectores son como números

Aparte de la velocidad y de la gran cantidad de funciones que contiene, la *vectorización* es una razón importante para utilizar numpy. La idea es sí es muy sencilla:



Vectorización: *Toda operación que se pueda aplicar a un elemento de un tipo básico (ej. int) se extiende forma natural a ndarrays*

In [None]:
a = 20
b = 30
a+b   # python puro

In [None]:
import numpy as np

a  = np.array([10,20,30,40])
b  = np.array([100,200,300,400])

a+b # numpy

In [None]:
a*b

In [None]:
(a+b)/2

### Broadcasting

Para poder operar entre dos vectores éstos tienen que ser en principio de la misma longitud. Sin embargo, siempre que pueda, al detectar diferencias de tamaño numpy "repetirá" elementos para lograr que encajen ambos operandos. Esto se conoce como "broadcasting"

In [None]:
m = np.zeros((10,10),dtype=np.int32)
m

In [None]:
m[3:7,3:7]=1
m

In [None]:
m+2

Ejemplo

Dado:
* $P_t$: Precio de un activo en el tiempo $t$
* $P_{t+1}$: Precio del activo en el tiempo $t+1$

Se define el rendimiento entre los tiempos $t$ y $t+1$ como

$$ R_{t,t+1} = \frac{P_{t+1}-P_{t}}{P_{t}} $$

o, de forma alternativa

$$ R_{t,t+1} = \frac{P_{t+1}}{P_{t}} - 1 $$

Calcularlo para los precios dados por la variable precios


In [None]:
import numpy as np
precios =  np.array([6.50, 6.52,6.49, 6.70, 6.91, 6.71, 6.15, 6.17,6.19,6.63])

In [None]:
rendimiento = precios[1:]/precios[:-1] -1
print(rendimiento)

Nótese que aquí se combinan muchas cosas que hemos visto ya:

1. Los slices, para:


-   `precios[1:]`: precios a partir del segundo elemento, representando ($P_{t+1}$)
-   `precios[:-1]`: precios hasta el último elemento pero sin incluirlo, (representando $P_t$). El último se quita porque no tiene valor siguiente y queremos dos vectores de la misma longitud

2. Vectorización, al dividir dos arrays como si fueran dos números, con `/`

3. Broadcasting al sumar 1, que realmente es sumar un array de 1s

Observad que no se pueder hacer lo mismo en python estándar:

In [None]:
"""
precios =  [6.50, 6.52,6.49, 6.70, 6.91, 6.71, 6.15, 6.17,6.19,6.63]
rendimiento = precios[1:]/precios[:-1] -1
print(rendimiento)
"""

**Ejercicio**

Hacer lo mismo para el rendimento a p días no a 1

$$ R_{t,t+p} = \frac{P_{t+p}}{P_{t}} - 1 $$

In [None]:
import numpy as np
precios =  np.array([6.50, 6.52,6.49, 6.70, 6.91, 6.71, 6.15, 6.17,6.19,6.63])
p=3
# solución


Veremos que en Pandas esto se puede hacer automáticamente con la función [`pct_change`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pct_change.html)

**Ejemplo**

Vamos a proceder al revés; supongamos que tenemos solamente los rendimientos diarios ( $R_{1,2}$,  $R_{2,3}$ $\dots$ $R_{n-1,n}$) , y queremos calcular el beneficio total que obtenemos si compramos al precio del primer día y vendemos al del último.

Podemos usar la fórmula

$$R_{1,n} = (1 + R_{1,2})(1+R_{2,3})\dots(1 + R_{n-1,n}) -1 = {\displaystyle \prod_{i=1}^{n-1}} (1+R_{i,{i+1}}) -1 $$

Aprovecharemos del broadcasting para sumar 1 a todos los elementos y de la función `np.prod` que multiplica todos los elementos de un array:

In [None]:
rendimiento = np.array([0.00307692, -0.00460123,  0.03235747,  0.03134328, -0.02894356, -0.08345753,
  0.00325203,  0.00324149, 0.07108239])

np.prod(1+rendimiento)-1

Por supuesto si se dispone de los precios originales es más fácil:

In [None]:
(precios[-1]-precios[0])/precios[0]

## Filtros: índices booleanos

Todavía una razón más a favor de numpy (y una que explotaremos mucho en Pandas); utilizar arrays de booleanos como índices; esto va a ser una herramienta muy poderosa para filtrar datos

In [None]:
a = np.arange(1,11)
a

In [None]:
a[ [True,False,False,True,False,False,True,False,False,False]]

Esto, que parece no tener importancia, muestra su potencia al combinarlo con la vectorización, y da lugar a todo un estilo de programación

In [None]:
a % 2 == 0

In [None]:
filtro = a % 2 == 0
a[filtro]

In [None]:
a[ a % 2 == 0]

**Ejemplo**
Queremos quedarnos solo con los elementos positivos del array a

In [None]:
a = np.random.randint(-100,100,50)
a

In [None]:
# solución


Se pueden combinar dos arrays

In [None]:
nombre = np.array(["Bertoldo","Herminia","Calixto","Melibea","Aniceto"])
ingresos = np.array([1200,800,1500,2300,940])

nombre, ingresos

In [None]:
# Nombre de los que ganan más de 1000 euros
filtro = ingresos>1000
nombre[filtro]

**Ejercicio** A partir de la listas `edades` y `nombres` queremos crear 4 listas: `edades20`, `nombres20` con las edades menores o iguales a 20 y sus nombres, y `edadesMasDe20`, `nombresMasDe20` con las edades y nombres de los que tienen más de 20 años

In [None]:
nombres = np.array(["Melibea", "Bertoldo", "Herminia", "Calixto", "Aniceto"])
edades = np.array([18,20,23,18,21])

In [None]:
filtro1 = edades>20
filtro2 = edades<=20

edades20, nombres20  = edades[filtro2], nombres[filtro2]

edadesMasDe20, nombresMasDe20 = edades[filtro1], nombres[filtro1]

print(edades20, nombres20)
print(edadesMasDe20, nombresMasDe20 )

Sobre los arrays booleanos se pueden hacer operaciones and (se escribe &), or (|) y not (~)

In [None]:
filtro1

In [None]:
~filtro1

In [None]:
filtro = edades>20


edades20, nombres20  = edades[~filtro], nombres[~filtro]

edadesMasDe20, nombresMasDe20 = edades[filtro], nombres[filtro]

print(edades20, nombres20)
print(edadesMasDe20, nombresMasDe20 )

*En general en ciencia de datos en Python evitaremos los bucles `for` siempre que sea posible, las bibliotecas como numpy ofrecen alternativas más elegantes y mucho más rápidas*