


## La biblioteca numpy

<img src="https://numpy.org/doc/stable/_static/numpylogo.svg"/>

### La velocidad: una razón para usar numpy
Numpy representa vectores y matrices de forma más eficiente; va a ser el soporte de los dataframes en Pandas y su filosofía se "hereda" en el manejo de datos en esta biblioteca. Veamos distintas formas de encontrar el máximo de un vector.


##### Python estándar

In [1]:
%%time
import random
cuantos = 10000000
l = [random.randint(1,100) for n in range(cuantos)]

CPU times: total: 2.41 s
Wall time: 2.44 s


In [2]:
l[:10]

[1, 5, 50, 47, 58, 78, 37, 61, 24, 38]

aquí se ve lo que tarda

In [82]:
%%time
maximo = 0
for x in l:
    if x>maximo:
        maximo=x
print(maximo)        
        


100
Wall time: 390 ms


In [2]:
%%time 
max(l)

CPU times: total: 78.1 ms
Wall time: 78.6 ms


100

##### Python con Numpy

In [4]:
%%time
import numpy as np
l =  np.random.randint(1, 100, cuantos)

CPU times: total: 172 ms
Wall time: 171 ms


In [5]:
%%time
import numpy as np
l.max()

CPU times: total: 0 ns
Wall time: 3 ms


99

### Creación de ndarrays

#### Creación desde arrays Python

In [6]:
import numpy as np
v = [10,20,30,40]
a1  = np.array(v) 

print(a1, a1.shape, a1.dtype)

[10 20 30 40] (4,) int32


In [89]:
v = [10,20,30,40,"hola"]
a1  = np.array(v) 

print(a1, a1.shape, a1.dtype)

['10' '20' '30' '40' 'hola'] (5,) <U11


En https://numpy.org/doc/stable/reference/arrays.dtypes.html hay algunas explicaciones sobre los tipos de datos de numpy

In [7]:
d = [[1, 2, 3, 4], [5, 6, 7, 8.2]]

a2 = np.array(d)
print(a2, a2.shape, a2.dtype)

[[1.  2.  3.  4. ]
 [5.  6.  7.  8.2]] (2, 4) float64


Es importante notar que *array* crea una copia, esto es, reserva memoria nueva para el resultado.
La variante *asarray* no crea una copia si el parámetro ya es un *ndarray*

In [8]:

d = [[1, 2, 3, 4], [5, 6, 7, 8.2]]

a2 = np.array(d)
a3 = np.array(a2)
a4 = np.asarray(a2)

a3[0,1] = 0
a4[1,3] = 0
print(a2)

[[1. 2. 3. 4.]
 [5. 6. 7. 0.]]


#### Crear arrays en numpy repitiendo valores

Aparte de *np.array* tenemos:

- *np.zeros(s)*: crea un array con 0s (float) con el *shape* indicado<br>

- *np.zeros_like(a)*: crea un array con 0s (float) con el mismo *shape* que el del array *a*<br>

- *np.ones(s)*: crea un array con 1s (float) con el *shape* indicado<br>

- *np.ones_like(a)*: crea un array con 1s (float) con el mismo *shape* que el del array *a*<br>

- *np.empty(s)*: crea un array con el *shape* indicado sin inicializar<br>

- *np.empty_like(a)*: crea un array con el *shape* de *a* sin inicializar<br>

- *np.arange(n)*: la versión np de *range*

- *np.eye(n)*, *np.identity(n)*: matriz diagonal de nxn

In [93]:
np.zeros((2,3,4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

#### Crear arrays en numpy mediante números aleatorios

numpy dispone de un paquete `numpy.random` que se encarga de generar números aleatrorios. Python también dispone de dicho paquete. La diferencia es que el módulo de numpy puede generar muchos valores diferentes con una sola llamada y de muy diversas funciones de probabilidad. 

Las funciones incluídas en este paquete son: 

    seed: semilla del generador de números aleatorios
    permutation: permutación al azar de una secuencia
    shuffle: permuta una secuencia in-place (no devuelve copia)
    rand: devuelve números aleatorios de una función uniforme
    randint: Valores enteros distribuidos uniformemente 
    randn: valores de una N(0,1)
    binomial: ejemplo de una binomial
    normal: valores de una gaussiana cuyos parámetros se le pasan
    beta: valores aleatorios de una distribución beta
    chisquare: valores aleatorios de una chi-cuadrado
    gamma: valores de una gamma
    uniform: valores de una uniforme (0,1)
    
Vamos a comparar en velocidad con la generación mediante números aleatorios de Python

In [9]:
from random import normalvariate 
N = 1000000
%timeit [normalvariate(0,1) for _ in range(N)]

664 ms ± 9.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [10]:
%timeit np.random.normal(size=N)

20.5 ms ± 95.6 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Al usar timeit se puede especificar el número de repeticiones (r) y de iteraciones (n)

In [17]:
%timeit -n 100 -r 5 np.random.normal(size=N)

20.5 ms ± 261 µs per loop (mean ± std. dev. of 5 runs, 100 loops each)


### Vectorización 

Aparte de la velocidad y de la gran cantidad de funciones que contiene, la *vectorización* es una razón importante para utilizar numpy. La idea es sí es muy sencilla:



Vectorización: *Toda operación que se pueda aplicar a un elemento de un tipo básico (ej. int) se extiende forma natural a ndarrays*

In [11]:
a = 20
b = 30
a+b   # python puro

50

In [12]:
import numpy as np

a  = np.array([10,20,30,40]) 
b  = np.array([100,200,300,400])

a+b # numpy

array([110, 220, 330, 440])

In [13]:
a*b 

array([ 1000,  4000,  9000, 16000])

In [14]:
(a+b)/2

array([ 55., 110., 165., 220.])

### Broadcasting

Para poder operar entre dos vectores éstos tienen que ser en principio de la misma longitud. Sin embargo, siempre que pueda, al detectar diferencias de tamaño numpy "repetirá" elementos para lograr que encajen ambos operandos. Esto se conoce como "broadcasting"

In [15]:
m = np.zeros((10,10),dtype=np.int32)
m

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [16]:
m[3:7,3:7]=1
m

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 1, 1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1, 1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1, 1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1, 1, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [18]:
m+2

array([[2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 3, 3, 3, 3, 2, 2, 2],
       [2, 2, 2, 3, 3, 3, 3, 2, 2, 2],
       [2, 2, 2, 3, 3, 3, 3, 2, 2, 2],
       [2, 2, 2, 3, 3, 3, 3, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2]])

## Índices booleanos

Todavía una razón más; utilizar arrays de booleanos como índices; esto va a ser una herramienta muy poderosa para filtrar datos

In [115]:
a = np.arange(1,11)
a

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [116]:
a[ [True,False,False,True,False,False,True,False,False,False]]

array([1, 4, 7])

Esto, que parece no tener importancia, muestra su potencia al combinarlo con la vectorización, y da lugar a todo un estilo de programación

In [117]:
a % 2 == 0

array([False,  True, False,  True, False,  True, False,  True, False,
        True])

In [120]:
filtro = a % 2 == 0
a[filtro]

array([ 2,  4,  6,  8, 10])

In [121]:
a[ a % 2 == 0]

array([ 2,  4,  6,  8, 10])

**Ejemplo**
Queremos quedarnos solo con los elementos positivos del array a

In [123]:
a = np.random.randint(-100,100,50)
a

array([ 43, -59, -63, -69,  41,  36,   8,  53,  97,   5,  42, -26, -67,
        -9, -93,  12, -92,  64,  54,  81, -31, -31,  42, -83, -15,  -3,
        89,   9, -26, -72, -99,  82, -91,  49, -65, -28,  -6,  90, -55,
       -45, -46,  10,  -8, -57,   3,  43, -96,  69,  77,  37])

In [124]:
# solución


Se pueden combinar dos arrays

In [125]:
nombre = np.array(["Bertoldo","Herminia","Calixto","Melibea","Aniceto"])
ingresos = np.array([1200,800,1500,2300,940])

nombre, ingresos

(array(['Bertoldo', 'Herminia', 'Calixto', 'Melibea', 'Aniceto'],
       dtype='<U8'),
 array([1200,  800, 1500, 2300,  940]))

In [126]:
# Nombre de los que ganan más de 1000 euros
filtro = ingresos>1000
nombre[filtro]

array(['Bertoldo', 'Calixto', 'Melibea'], dtype='<U8')

**Ejercicio** A partir de la listas `edades` y `nombres` queremos crear 4 listas: `edades20`, `nombres20` con las edades menores o iguales a 20 y sus nombres, y `edadesMasDe20`, `nombresMasDe20` con las edades y nombres de los que tienen más de 20 años

In [127]:
nombres = np.array(["Melibea", "Bertoldo", "Herminia", "Calixto", "Aniceto"])
edades = np.array([18,20,23,18,21])

In [128]:
filtro1 = edades>20
filtro2 = edades<=20

edades20, nombres20  = edades[filtro2], nombres[filtro2]

edadesMasDe20, nombresMasDe20 = edades[filtro1], nombres[filtro1]

print(edades20, nombres20)
print(edadesMasDe20, nombresMasDe20 )

[18 20 18] ['Melibea' 'Bertoldo' 'Calixto']
[23 21] ['Herminia' 'Aniceto']


Sobre los arrays booleanos se pueden hacer operaciones and (se escribe &), or (|) y not (~)

In [129]:
filtro1

array([False, False,  True, False,  True])

In [130]:
~filtro1

array([ True,  True, False,  True, False])

In [131]:
filtro = edades>20


edades20, nombres20  = edades[~filtro], nombres[~filtro]

edadesMasDe20, nombresMasDe20 = edades[filtro], nombres[filtro]

print(edades20, nombres20)
print(edadesMasDe20, nombresMasDe20 )

[18 20 18] ['Melibea' 'Bertoldo' 'Calixto']
[23 21] ['Herminia' 'Aniceto']


*En general en ciencia de datos en Python evitaremos los bucles `for` siempre que sea posible, las bibliotecas como numpy ofrecen alternativas más elegantes y mucho más rápidas*