# CURSO INTENSIVO DE NUMPY

## INSTALACIÓN

Se instala con conda install numpy

## INTRODUCCIÓN E IMPORTACIÓN

Es un paquete de computación eficiente muy enfocado al álgebra lineal.

Muy rápido porque usa muchas librerías de C.

El resto de paquetes de ML están basados en él.

Dos estructuras básicas vectores (array de una dimensión) y matrices (array de 2 dimensiones).

Como término que unifica ambos usaremos array.

In [1]:
import numpy as np

**¿Por qué Numpy?**

Ahora que ya conocemos las estructuras de datos de Python vemos que no tiene realmente ninguna realmente orientada a trabajar con cálculos de manera masiva.

Están más orientadas a almacenar y recuperar información, pero no a procesarla en grandes cantidades y de forma eficiente.

Por otro lado casi todos los métodos de análisis y de machine learning se basan en el concepto de vector.

Lo más parecido que tiene Python a un vector podría ser una lista. Pero esta carece de lo que se llaman "operaciones vectorizadas", es decir, aplicar el mismo cálculo a todos los componentes del vector, y que es clave en data science.

In [2]:
# Por ejemplo si creamos una lista y la multiplicamos por dos
# No conseguimos el efecto que seguramente estábamos esperando
lista = [1,2,3]
lista * 2

[1, 2, 3, 1, 2, 3]

In [3]:
# Necesitaríamos usar list comprehension (o un for) para hacerlo
[elemento * 2 for elemento in lista]

[2, 4, 6]

In [4]:
# Sin embargo si la pasamos a un vector de Numpy sí
lista_vec = np.array([1,2,3])
lista_vec * 2

array([2, 4, 6])

A nivel de estructura de datos Numpy utiliza el array multidimensional (array de n dimensiones)

In [5]:
v = np.array([1,2,3])
type(v)

numpy.ndarray

A nivel de tipo de dato es importante ver cómo lo define: con el tipo de dato (por ejemplo entero) más el número de bits que usa (16, 32, 64, etc.).

Es importante porque en Pandas veremos que usa la misma notación.

In [6]:
v.dtype

dtype('int32')

Que no nos confunda que Numpy sea una librería numérica. También puede haber arrays no numéricos.

Pero eso sí, **todos los componentes del array tienen que ser del mismo tipo** (que será una de las cosas que nos llevará a Pandas).

In [7]:
v = np.array(['a','b','c'])
type(v)

numpy.ndarray

In [8]:
#Si ponemos de diferentes tipos vemos que los convierte para que sean del mismo tipo
v = np.array(['a',2,'c'])
v

array(['a', '2', 'c'], dtype='<U11')

## COMO CREAR UN ARRAY

### A PARTIR DE UNA LISTA

In [9]:
#Crear un vector a partir una lista
v = np.array([1,2,3])
v

array([1, 2, 3])

In [10]:
#Crear una matriz a partir de una lista de listas
m = np.array([[1,2,3],[4,5,6]])
m

array([[1, 2, 3],
       [4, 5, 6]])

### A PARTIR DE UN RANGO

In [11]:
#Crear un vector a partir de un rango
np.arange(1,10,2)

array([1, 3, 5, 7, 9])

In [12]:
#Crear un vector interpolando entre dos números
np.linspace(1,10,20)

array([ 1.        ,  1.47368421,  1.94736842,  2.42105263,  2.89473684,
        3.36842105,  3.84210526,  4.31578947,  4.78947368,  5.26315789,
        5.73684211,  6.21052632,  6.68421053,  7.15789474,  7.63157895,
        8.10526316,  8.57894737,  9.05263158,  9.52631579, 10.        ])

### CREAR UN ARRAY PREDEFINIDO

In [13]:
#Crear un array de ceros (el parámetro es una tupla con filas, columnas)
np.zeros((4,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [14]:
#Crear una matriz de identidad
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### CREAR UN ARRAY ALEATORIO

Con los aletorios de Python que hemos visto solamente podíamos extraer uno de cada vez.

Teniendo que hacer list comprehension para obtener toda una lista.

In [15]:
#Esto nos devuelve solo un valor
import random as rd
rd.randint(1,10)

9

In [16]:
#Si quierámos por ejemplo 10
[rd.randint(1,10) for cada in range(10)]

[6, 5, 10, 10, 8, 5, 6, 8, 3, 3]

Sin embargo vamos a ver cómo con Numpy generamos directamente vectores (que podrán ser variables) que es normalmente lo que queremos.

In [17]:
#Aleatorios de 0-1 con distribución uniforme
np.random.rand(5,10)

array([[1.16711279e-01, 1.42615554e-01, 8.96208067e-01, 9.06170077e-01,
        9.62347281e-02, 7.25779705e-01, 2.77871673e-01, 5.05776010e-02,
        1.45201461e-01, 2.40130231e-02],
       [2.20174245e-01, 9.99922917e-01, 8.00776878e-01, 4.45752126e-02,
        1.09613772e-01, 6.98704002e-01, 4.66036416e-01, 8.46650803e-01,
        4.37703362e-01, 4.30281205e-01],
       [5.88349299e-01, 9.96590225e-01, 6.50133484e-01, 1.50820208e-01,
        4.98463377e-01, 6.87317023e-01, 8.13464939e-01, 2.19088374e-01,
        2.10485975e-01, 2.93750701e-01],
       [9.30198693e-01, 4.64033349e-01, 2.20654395e-01, 8.69002930e-01,
        6.02901328e-01, 7.06774819e-01, 4.63612278e-01, 7.54197622e-04,
        8.82605067e-01, 7.27373285e-01],
       [7.86485473e-01, 8.80053658e-02, 7.53692278e-02, 2.62635129e-01,
        1.37336224e-01, 7.26690817e-01, 5.81118220e-01, 6.38751357e-01,
        9.36600102e-01, 6.17770025e-01]])

In [18]:
#Aleatorios de distribución normal con media cero
np.random.randn(20)

array([ 9.92794904e-01, -7.06509859e-01, -9.47746801e-01, -5.76626007e-01,
       -1.21849499e+00,  7.03567378e-02, -1.03300207e-03, -1.59234156e+00,
       -2.10493899e+00, -1.51952656e-01,  7.59446595e-01,  7.41896442e-01,
       -1.42924873e+00,  5.39183018e-02,  4.33830130e-01, -1.30590853e+00,
        2.44564812e+00,  1.28621666e+00, -1.21112531e+00, -2.50792946e+00])

In [19]:
#Aleatorios entre dos enteros (inferior, superior, tamaño)
np.random.randint(1,11,20)

array([3, 5, 4, 9, 2, 1, 4, 3, 6, 4, 8, 5, 4, 9, 7, 9, 5, 4, 6, 9])

In [20]:
#También es muy útil establecer una semilla
np.random.seed(1234)

## COMO TRANSFORMAR UN ARRAY

### CAMBIAR LA FORMA Y ORDENAR

In [21]:
#Ver la forma de una array
v = np.array([1,2,3])
v.shape

(3,)

In [22]:
#Cambiar la forma de un array
v = np.arange(20)
print(v)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [23]:
v.shape

(20,)

In [24]:
v2= v.reshape(2,10)
v2.shape

(2, 10)

In [25]:
#Ordenar
v = np.random.rand(10)
print(v)

[0.19151945 0.62210877 0.43772774 0.78535858 0.77997581 0.27259261
 0.27646426 0.80187218 0.95813935 0.87593263]


In [26]:
v.sort()
v

array([0.19151945, 0.27259261, 0.27646426, 0.43772774, 0.62210877,
       0.77997581, 0.78535858, 0.80187218, 0.87593263, 0.95813935])

### ESTADÍSTICOS BÁSICOS SOBRE UN ARRAY

In [27]:
#Estadísticos
v = np.arange(20)
print(v.mean())
print(np.median(v))
print(np.std(v))
print(v.var())
print(v.max())
print(v.min())
print(np.corrcoef(v,v))

9.5
9.5
5.766281297335398
33.25
19
0
[[1. 1.]
 [1. 1.]]


In [28]:
#Localizar los índices de los estadísticos
v = np.random.randint(1,11,10)
print(v)
print(v.argmax())
v[v.argmax()]

[ 9  1  6  1 10  7  3  1  6  3]
4


10

### CREAR COPIAS

In [29]:
v1 = np.arange(5)
print(v1)

[0 1 2 3 4]


In [30]:
v2 = v1
v2

array([0, 1, 2, 3, 4])

In [31]:
v2[:] = 5

In [32]:
v2

array([5, 5, 5, 5, 5])

In [33]:
v1

array([5, 5, 5, 5, 5])

In [34]:
#Cuidado con las copias porque modificar una copia puede modificar también el original
v1 = np.arange(5)
print(v1)
v2 = v1
v2[:] = 5
print(v2)
print(v1)

[0 1 2 3 4]
[5 5 5 5 5]
[5 5 5 5 5]


In [35]:
#Para que no modifique el original hay que decir explícitamente que quieres una copia
#Si no lo entenderá como un puntero al original (parar ahorrar memoria) y lo podrá modificar
v1 = np.arange(5)
print(v1)
v2 = v1.copy()
v2[:] = 5
print(v2)
print(v1)

[0 1 2 3 4]
[5 5 5 5 5]
[0 1 2 3 4]


## COMO INDEXAR UN ARRAY

In [36]:
#Indexar vectores
v = np.arange(11) 
print(v[2])
print(v[2:5])

2
[2 3 4]


In [37]:
#Indexar matrices
#Creamos la matriz
m = np.random.rand(3,4)
print(m)

[[0.29072855 0.24639444 0.73828677 0.88922613]
 [0.9871393  0.11744339 0.39378235 0.45272981]
 [0.53814784 0.7906221  0.46583634 0.43533225]]


In [38]:
#Indexar matrices
#Indexar celdas

#Opción 1: con dos corchetes, el primero para las filas y el segundo para las columnas
print(m[0][0])

#Opción 2: con un solo corchete pero filas y columnas separadas por comas
print(m[0,0])

0.2907285532552092
0.2907285532552092


In [39]:
#Indexar matrices
#Indexar filas o columnas

#Filas
print(m[0,:])

#Columnas
print(m[:,0])

[0.29072855 0.24639444 0.73828677 0.88922613]
[0.29072855 0.9871393  0.53814784]


In [40]:
#Indexar matrices
#Indexar parcialmente filas o columnas

#Filas
print(m[0,0:2])

#Columnas
print(m[0:1,0])

[0.29072855 0.24639444]
[0.29072855]


In [41]:
#Indexar mediante vectores booleanos
#Las condiciones generan vectores booleanos
v = np.random.rand(10)
print(v)
print(v < 0.5)

[0.56947866 0.969259   0.04055615 0.54811957 0.4625766  0.37647223
 0.32791208 0.81352893 0.64655232 0.04742648]
[False False  True False  True  True  True False False  True]


In [42]:
#Indexar mediante vectores booleanos
#Usar una condición como índice filtrará directamente el vector
v = np.random.rand(10)
print(v)
v[v < 0.5]

[0.99495757 0.68923564 0.92954594 0.91811655 0.97530172 0.39700197
 0.26262609 0.43015136 0.76453077 0.59973081]


array([0.39700197, 0.26262609, 0.43015136])

In [43]:
v = np.random.rand(10)
v

array([0.08094696, 0.70454447, 0.16401332, 0.03234935, 0.32815036,
       0.47386   , 0.06808472, 0.3827107 , 0.11855414, 0.89632852])

In [44]:
v_f = v < 0.5

In [45]:
v[v_f]

array([0.08094696, 0.16401332, 0.03234935, 0.32815036, 0.47386   ,
       0.06808472, 0.3827107 , 0.11855414])

## REPASO Y A RECORDAR

* Numpy es la base del análisis de datos masivo y eficiente con Python
* Y la base de paquetes posteriores como Pandas
* Sobre todo hay que conocer su estructura base: el array multidimensional
* Podemos crear arrays a partir de listas, rangos, estructuras predefinidas, distribuciones aleatorias, etc
* Los indexamos con los mismos recursos que ya conocemos, poniendo énfasis en el tema de las copias

Como lectura complementaria (y voluntaria no necesaria) para consolidar y complementar lo que hemos aprendido te recomiendo el siguiente post:

https://medium.com/better-programming/numpy-illustrated-the-visual-guide-to-numpy-3b1d4976de1d

En el cual se refuerzan estos conceptos de una forma muy gráfica que puede ayudar a su consolidación.