## ¿Qué es NumPy?

![](files/320px-NumPy_logo_2020.png)

Numpy es una biblioteca de Python de código abierto que se utiliza para la informática científica y proporciona una serie de características que permiten a un programador de Python trabajar con vectores y matrices.

El **array** es la estructura de datos fundamental de Numpy y una de sus principales características es la posibilidad de realizar **operaciones vectorizadas**, lo que nos permite trabajar sin la necesidad de utilizar bucles, los cuáles son muchos más lentos.

Creemos nuestro primer array para poner esto a prueba:

In [1]:
import numpy as np

In [2]:
arr1= np.array([1, 2, 3, 4])
arr1

array([1, 2, 3, 4])

Ahora pongamos a prueba la ventaja de trabajar de forma vectorizada respecto a iterar sobra cada elemento de un array.
Para ello, vamos multiplicar por 2 todos los elementos de nuestro array y a medir el tiempo de ejecución de cada alternativa.

In [3]:
import time

**- Forma iterativa:**

Creamos una función que itere sobre cada elemento y tomamos el tiempo.

In [4]:
def loop_array(x):
    for i in x:
        i = i*2

In [5]:
%timeit loop_array(arr1)

4.13 µs ± 44.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


**- Forma vectorizada:**


In [6]:
%timeit arr1*2

1.72 µs ± 17.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


**- Resultado:**

En nuestro ejemplo, trabajando de forma vectorizada tardamos casi un 60% menos que de forma iterativa. Si bien en este caso estamos hablando microsegundos, cuando trabajamos con una gran cantidad de datos podemos ahorrarnos varios minutos u horas de espera ante la pantalla.

### Tipos de datos

Numpy puede trabajar con varios tipos de datos, algunos de ellos son:

* string (Unicode)
* object 
* int   
* uint   
* bool   
* float
* complex
* datetime
* timedelta

Lo que no podermos hacer es combinar distintos tipos de datos en un array. Si uno de nuestros elementos es un string, Numpy convertirá los restantes en string.

In [7]:
arr2= np.array([1, 2, "a", 4])
arr2

array(['1', '2', 'a', '4'], dtype='<U11')

En dtype, la "U" significa que tenemos un array del tipo string en codificación Unicode. El 11 expresa la longitud máxima de caracteres que puede tener cada elemento de nuestro array, es el valor por default que nos asigna Numpy.

Si nosotros creamos un array con numeros enteros y fraccionarios, Numpy convertirá todos los elementos del array al tipo de datos por defecto que más memoria ocupe.

In [8]:
arr3= np.array([1, 2, 3.5, 4])
arr3

array([1. , 2. , 3.5, 4. ])

En este caso convirtió todos los números que eran enteros a fraccionarios con una precisión de 64 bits 

In [9]:
arr3.dtype

dtype('float64')

¿Por qué al tipo de dato por defecto que más memoria ocupe? Porque si elegiese tipo de dato de los enteros, no podría representar correctamente nuestro elemento fraccionario. Forcemos a Numpy a hacer eso para probarlo.

In [10]:
arr4= np.array([1, 2, 3.5, 4], dtype=np.int8)
arr4

array([1, 2, 3, 4], dtype=int8)

¡Perdimos la parte fraccionaria y 3.5 fue convertido en 3!

**Si no conocemos acerca de los distintos niveles de precisión y nuestro trabajo no requiere manipularlos, es mejor dejar que Numpy lo decida por nosotros.**

### Atributos de los arrays

* **dtype:** Es el tipo de dato que contiene el array.
* **size:** Es la cantidad de elementos que contiene el array.
* **ndim:** Es la cantidad de dimensiones del array.
* **shape:** Es la cantidad de elementos que contiene cada dimensión.
* **nbytes:** Es la cantidad de bytes de memoria que ocupan los datos del array.

Numpy nos permite crear arrays multidimensionales. Ahora a partir de una lista anidada vamos a crear un array de dos dimensiones y explorar sus atributos. Cada lista dentro de nuestra lista anidada va a ser una "fila" de nuestro array.

**Aclaración: Numpy tiene formas mucho más sofisticadas de crear arrays que exceden esta clase, algunas de ellas son: zeros, ones, full, identity, eye, diagonal, random, loadtext y genfromtxt, quedan invitados a consultar la documentación oficial si quieren profundizar el tema.**

In [11]:
arr5 = np.array([[0,1,2],[3,4,5],[6,7,9],[10,11,12]])
arr5

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  9],
       [10, 11, 12]])

**Tipo de dato (dtype):**

In [12]:
arr5.dtype

dtype('int32')

**Cantidad de elementos (size):**

In [13]:
arr5.size

12

**Cantidad de dimensiones (ndim):**

In [14]:
arr5.ndim

2

**Forma del array (shapes):**

In [15]:
arr5.shape

(4, 3)

**Espacio en memoria (nbytes):**

In [16]:
arr5.nbytes

48

El espacio ocupado en memoria es igual al espacio que ocupa cada elemento por la cantidad de elementos. Vamos a comprobarlo: 

Habíamos visto que el tipo de dato de nuestro array es un int32 (dtype), cada elemento de este tipo ocupa 4 bytes de memoria, esto es teoría, pero también podemos comprobarlo, para ello vamos a seleccionar un elemento de nuestro array, no importa cuál seleccionemos porque todos nuestros elementos son int32.

Vamos a elegir el elemento que tiene como valor 6 en nuestro array, es decir el que está en la tercera "fila" (posición 2) y en la primera "columna" (posición 0).

In [17]:
arr5[2,0]

6

Ahora revisemos cuantos bytes ocupa:

In [18]:
arr5[2,0].nbytes

4

Un poco más arriba habíamos visto que nuestro array tiene 12 elementos (size): 4 * 12 = 48 bytes.

In [19]:
arr5[2,0].nbytes*arr5.size

48

### Forma de los arrays
Sabemos que uno de los atributos de los arrays es su forma (shape), en nuestro ejemplo habíamos creado una matrix de 4x3.

In [20]:
arr5.shape

(4, 3)

Numpy nos permite alterar la escructura de nuesta matriz. 
* El método **flatten** nos permite convertir nuestra matriz de (4x3) en un array unidimensional.

In [21]:
arr5.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  9, 10, 11, 12])

* El método **T** (transpose) nos permite invertir la estructura de nuestra matriz.

In [22]:
arr5.T

array([[ 0,  3,  6, 10],
       [ 1,  4,  7, 11],
       [ 2,  5,  9, 12]])

Ahora nuestra matriz de (4x3) pasó a ser una de 3 "filas" y cuatro "columnas".

In [23]:
arr5.T.shape

(3, 4)

* El método **reshape** nos permite redefinir la estructura de nuestra matriz. Vamos a probar convirtiendo nuestra matriz original de 4x3 en una 6x2.

In [24]:
arr5.reshape(6,2)

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 9, 10],
       [11, 12]])

Tenemos que tener en cuenta que la nueva estructura que definamos para nuestra matriz debe contener exactamente la misma cantidad de elementos, de lo contrario recibiremos un mensaje de error.

Forcemos un error probando redefinir la estructura de nuestra matriz de 4x3 (12 elementos) en una de 6x3 (18 elementos).

In [25]:
try:
    arr5.reshape(6,1)
except ValueError as error:
    print(error)

cannot reshape array of size 12 into shape (6,1)


### Seleccionar elementos 

#### Indexing

Numpy nos permite seleccionar elementos de nuestros arrays y matrices en base a su posición, en el caso de los arrays unidimensionales, la seleccion de elementos es igual a la de una lista.

**Importante:**
1. Recordar que Python empieza contando desde la posición de los elementos desde el 0.
2. En un rango, Python no incluye el límite superior.

In [26]:
No_olvidar = ["Posición 0", "Posición 1", "Posición 2", "Posición n"]
No_olvidar[0]

'Posición 0'

In [27]:
No_olvidar[0:3] #No incluye el límite superior ("Posición 3")

['Posición 0', 'Posición 1', 'Posición 2']

###### Arrays unidimensionales

In [28]:
#Creamos un array unidimensional:
arr6 = arr5.flatten()
arr6

array([ 0,  1,  2,  3,  4,  5,  6,  7,  9, 10, 11, 12])

In [29]:
#Seleccionamos el primer elemento
arr6[0]

0

In [30]:
#Seleccionamos el último elemento
arr6[-1]

12

In [31]:
#Seleccionamos desde el quinto elemento hasta el séptimo.
arr6[4:7]

array([4, 5, 6])

In [32]:
#Seleccionamos los últimos 5 elementos:
arr6[-5:]

array([ 7,  9, 10, 11, 12])

##### Arrays multidimensionales

Para seleccionar elementos dentro de una matriz vamos a usar la siguientes sintaxis:

* **nombre_del_array[Filas,Columnas]**

* **nombre_del_array[Filas_desde:Filas_hasta , Columnas_desde:Columnas_hasta]**

Creamos una matriz para ponerlo a prueba:

In [33]:
arr7 = np.arange(1,10,1).reshape(3,3)
arr7

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [34]:
#Para elegir el 4 que se encuentra en la segunda "fila" y en la primera "columna":
arr7[1,0] #[Fila 1, Columna 0]

4

In [35]:
#Así seleccionamos las primeras dos "filas".
arr7[:2]     

array([[1, 2, 3],
       [4, 5, 6]])

In [36]:
#Así seleccionamos las primeras dos "columnas".
arr7[:,:2]  

array([[1, 2],
       [4, 5],
       [7, 8]])

In [37]:
#Si lo combinamos podemos elegir las primeras dos "filas" de las primeras dos "columnas".
arr7[:2,:2]

array([[1, 2],
       [4, 5]])

Ahora imitemos la selecciones esta imagen:

<div> <img src="files/httpatomoreillycomsourceoreillyimages2172114.png" width="200"/> </div>

In [38]:
#Primeras dos "filas" y ultimas dos "columnas"
arr7[:2,1:]

array([[2, 3],
       [5, 6]])

In [39]:
#Última "fila":
arr7[2] # que es igual a: arr7[-1]

array([7, 8, 9])

In [40]:
#Primeras dos "columnas"
arr7[:,:2]

array([[1, 2],
       [4, 5],
       [7, 8]])

In [41]:
#Primeras dos "columnas" de las segunda "fila":
arr7[1,:2]

array([4, 5])

##### Enmascarmiento
Otra forma de seleccionar elementos de nuestro array es con otro array booleano. Vamos a seleccionar los números pares de nuestra matriz:

In [42]:
#Creamos un array booleano que marque los números pares de nuestro array:
pares = arr7%2 == 0
pares

array([[False,  True, False],
       [ True, False,  True],
       [False,  True, False]])

In [43]:
#Ahora seleccionamos los pares (los True)
arr7[pares]

array([2, 4, 6, 8])

In [44]:
#También podemos seleccionar los impares (los no pares/los False)
arr7[~pares]

array([1, 3, 5, 7, 9])

El enmascaramiento no es un paso obligatorio pero sí muy intuitivo para familiarizarse con Numpy, ahora sabemos que antes de armar un array con los pares, Numpy arma internamente un array para verificar la verdad o falsedad en cada elemento. Podríamos haber realizado la selección de la siguiente manera:

In [45]:
#Pares
arr7[arr7%2==0]

array([2, 4, 6, 8])

In [46]:
#Impares
arr7[arr7%2!=0]

array([1, 3, 5, 7, 9])

#### (Re)asignaciones:
Ahora que sabemos cómo seleccionar los elementos de un array podremos reasignar sus valores. En este caso probemos creando un nuevo array copiando uno existente.

In [47]:
#Creamos un nuevo array copiando uno existente.
import copy

arr8 = copy.deepcopy(arr7)
arr8

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [48]:
#Probemos cambiar el valor 5 por un 15
arr8[1,1] = 15
arr8

array([[ 1,  2,  3],
       [ 4, 15,  6],
       [ 7,  8,  9]])

Lo anterior lo pudimos hacer porque sabíamos en qué posición se encontraba el 5. Cuando trabajamos con una matriz de gran tamaño conviene hacerlo con una expresión, por eso ahora vamos a volver sobre nuestros pasos y hacer que Numpy convierta en 5 cuando se encuentre con un 15.

In [49]:
#Reemplazo condicional
arr8[arr8 == 15] = 5
arr8

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Ahora supongamos que solo queremos seleccionar los números menores o iguales al 5.

In [50]:
arr9 = arr8[arr8<=5]
arr9

array([1, 2, 3, 4, 5])

#### Operaciones lógicas:
En el apartado anterior, de forma implícita vimos que Numpy soporta operaciones lógicas, sin embargo a diferencia de Python "puro", en Numpy no podemos utilizar los operadores "or", "and" y "not".

Cuando escribamos nuestras condiciones, es muy importante ser prolijos con los paréntesis para no recibir resultados erróneos.


| Operador Python     | Operador NumPy     |
|-----------------|:---------------------:|
| or     | <code>&#124;</code>     | 
| and     | &     |
| not     | ~     |  

Hagamos un par de ejercicios con estos operadores:

In [51]:
#Numeros pares O iguales a 5 (OR)
#Como podremos recordar, Numpy genera internamente un array booleano:
[(arr7%2==0) | (arr7==5)]

[array([[False,  True, False],
        [ True,  True,  True],
        [False,  True, False]])]

In [52]:
#Entonces
arr7[(arr7%2==0) | (arr7==5)]

array([2, 4, 5, 6, 8])

In [53]:
#Numeros pares y menores que 6 (AND)
arr7[(arr7%2==0) & (arr7<6)]

array([2, 4])

In [54]:
#Números impares (NOT)
#Verificamos qué números cumplen la condición de ser par y la negamos:
arr7[(~arr7%2==0)]

array([1, 3, 5, 7, 9])

Ahora vamos con un ejemplo más rebuscado:

Elementos iguales a 5 **O QUE** sean pares **PERO SI** son pares **QUE NO** tengan 8 como valor.

In [55]:
arr7[(arr7==5) | (arr7%2==0) & ~(arr7==8)]

array([2, 4, 5, 6])

Este ejemplo tan incómodo está pensado para demostar los tres operadores en una misma línea de código, bien podría haberse simplificado usando el operador de comparación !=

In [56]:
arr7[(arr7==5) | (arr7%2==0) & (arr7!=8)]

array([2, 4, 5, 6])

### Operaciones aritméticas:
Numpy nos permite realizar operaciones aritméticas entre números y arrays (como vimos al principio de la clase cuando comparamos el trabajo iterativo y el vectorizado) y también nos permite hacerlo entre arrays.

In [57]:
arr10 = np.arange(2,20,2)
arr10

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [58]:
arr11 = np.arange(3,30,3)
arr11

array([ 3,  6,  9, 12, 15, 18, 21, 24, 27])

In [59]:
#Suma alternativa 1
arr10 + arr11

array([ 5, 10, 15, 20, 25, 30, 35, 40, 45])

In [60]:
#Suma alternativa 2
np.add(arr10,arr11)

array([ 5, 10, 15, 20, 25, 30, 35, 40, 45])

In [61]:
#Resta
arr10 - arr11

array([-1, -2, -3, -4, -5, -6, -7, -8, -9])

In [62]:
#Multiplicación
arr10*arr11

array([  6,  24,  54,  96, 150, 216, 294, 384, 486])

In [63]:
#División
arr10/arr11

array([0.66666667, 0.66666667, 0.66666667, 0.66666667, 0.66666667,
       0.66666667, 0.66666667, 0.66666667, 0.66666667])

In [64]:
#Sumar arrays de distintas dimensiones
arr12 = np.zeros((4,3))
arr12

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [108]:
arr13 = np.ones((1,3))
arr13

array([[1., 1., 1.]])

In [109]:
arr12+arr13

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

#### Funciones matemáticas:

Numpy tiene una gran cantidad funciones para realizar operaciones matemáticas:

* **Redondeo:** round, trunc, floor, ceil, rint, etc.
* **Logarítimicas:** log, log2, log10, etc.
* **Trigonométricas:** sin, arcsin, cos, tan, tanh, etc.
* **Exponenciales:** exp, exp2, expm1.
* **Potenciales:** power, square, sqrt, reciprocal, etc.

#### Valores perdidos (missing values):

Python trae por defecto el tipo de dato **None** para representar a los valores perdidos, este tipo de dato tiene sus limitaciones a la hora de trabajar con Numpy.

In [67]:
arr14 = np.array([1, 2, None, 4])

Tratemos de hacer una operación aritmética con este array...

In [68]:
try:
    arr14*2
except TypeError as error:
    print(error)

unsupported operand type(s) for *: 'NoneType' and 'int'


¿Qué pasó?

Inspeccionemos el tipo de dato de nuestro array:

In [69]:
arr14.dtype

dtype('O')

Sucede que cuando creamos un array con elementos None, Numpy le asigna el tipo Object. Podemos trabajar aritméticamente en forma individual con los demás elementos porque son números.

In [70]:
arr14[1]*2

4

Pero no podremos realizar operaciones aritméticas con todo el array porque en su conjunto lo está tratando como un objeto.

**¿Tenemos manera de salvar esta situación? Sí, claro que la hay.**
Numpy tiene su propio tipo de dato para representar los valores perdidos, este es: **nan** (not a number). Nan, no es un número pero a los efectos de realizar cálculos tiene por defecto una precisión de float64.


In [71]:
arr15= np.array([1, 2, np.nan, 4])
arr15

array([ 1.,  2., nan,  4.])

In [72]:
arr15.dtype

dtype('float64')

Si tuviéramos que convertir una lista muy larga en un array no es necesario reemplazar manualmente cada None. Podemos hacerlo de la siguiente manera.

In [73]:
Lista_None = [1, None, 3, 4, None]
np.array(Lista_None, dtype=np.float)

array([ 1., nan,  3.,  4., nan])

**Importante: Si vamos a trabajar con datos que no son propios y por tanto no conocemos, es recomendable revisar si algún array contiene valores nan antes de empezar a realizar cálculos con este.**

In [74]:
arr15

array([ 1.,  2., nan,  4.])

In [75]:
np.isnan(arr15).any()

True

Para seleccionar todos los que **no** son nan...

In [76]:
arr15[~np.isnan(arr15)]

array([1., 2., 4.])

#### Funciones de agregación:
Ahora que sabemos que podemos trabajar aritméticamente con Numpy estamos en condiciones de introducir las funciones de agregación. El objetivo es estas es resumir nuestros datos por lo general a uno solo. La sumatoria es el ejemplo más claro.

In [77]:
#Generamos un array con números aleatorios.
arr16 = np.random.randint(25,size=(5))
arr16

array([16, 21, 10, 11, 24])

In [78]:
#Sumatoria
np.sum(arr16)

82

In [79]:
#Promedio
np.mean(arr16)

16.4

In [80]:
#Mediana
np.median(arr16)

16.0

In [81]:
#Percentil n
np.percentile(arr16,90)

22.8

In [82]:
#Mínimo
np.min(arr16)

10

In [83]:
#Posición que contiene el valor mínimo
np.argmin(arr16)

2

In [84]:
#Máximo
np.max(arr16)

24

In [85]:
#Posición que contiene el valor máximo
np.argmax(arr16)

4

In [86]:
#Varianza
np.var(arr16)

29.839999999999996

In [87]:
#Desvío estándar
np.std(arr16)

5.4626001134990645

In [88]:
#Producto
np.prod(arr16)

887040

También podemos hacer la suma acumulativa y el producto acumulativo.

In [89]:
#Creamos un array de dos dimensiones
arr17= np.array([[1,2,3], [4,5,6]])
arr17

array([[1, 2, 3],
       [4, 5, 6]])

In [90]:
#Suma acumulativa
np.cumsum(arr17)

array([ 1,  3,  6, 10, 15, 21], dtype=int32)

In [91]:
#Producto acumulativo
np.cumprod(arr17)

array([  1,   2,   6,  24, 120, 720], dtype=int32)

**Importante: Si nuestro array tiene valores nan el resultado de nuestras funciones de agregación sera nan. Ello es una de las razones por las cuales recomendamos inspeccionar si el array contiene valores nan antes de empezar a hacer cálculos**

In [92]:
arr15

array([ 1.,  2., nan,  4.])

In [93]:
np.sum(arr15)

nan

Cuando esto sucede debemos utilizar las funciones equivalentes con soporte para valores nan.

In [94]:
np.nansum(arr15)

7.0

| Función estándar| Soporte nan     |
|-----------------|:---------------------:|
|sum     |nansum     | 
| mean     | nanmean     |
| median     | nanmedian    |  
| percentile     | nanpercentile     |  
| min     |    nanmin   | 
| argmin     |    nanargmin   | 
| max     |    nanmax  |
| argmax     |    nanargmax  | 
| var     |    nanvar  | 
| std     |    nanstd  | 
| prod     |   nanprod  |
| cumsum     | nancumsum     |  
| cumprod     |nancumprod     |  

##### Operando sobre ejes:
Con el argumento axis podemos controlar el comportamiento de las funciones de agregacion para elegir si la operación debe realizarse por filas o por columnas.

* axis = 0 representa las columnas.

* axis =1 representa las filas.

In [95]:
arr17

array([[1, 2, 3],
       [4, 5, 6]])

In [96]:
#"Columnas"
np.sum(arr17, axis=0)

array([5, 7, 9])

In [97]:
#"Filas"
np.sum(arr17, axis=1)

array([ 6, 15])

##### Ordenando arrays:
Numpy tiene varios algoritmos para ordenar arrays, el algoritmo por defecto es quicksort.

In [98]:
arr15

array([ 1.,  2., nan,  4.])

In [99]:
#Orden ascendente
np.sort(arr15)

array([ 1.,  2.,  4., nan])

In [100]:
#Orden descendente
np.sort(arr15)[::-1]

array([nan,  4.,  2.,  1.])

Es importante notar con este algoritmo de ordenación (quicksort), los valores nan son considerados como los valores más grandes del array.

También es posible especificar el eje en sort:

In [101]:
arr18 = np.array([[57,np.nan,31],[64,43,71],[4,81,45]])
arr18

array([[57., nan, 31.],
       [64., 43., 71.],
       [ 4., 81., 45.]])

In [102]:
#Ordeno "columnas" ascendente
np.sort(arr18, axis=0)

array([[ 4., 43., 31.],
       [57., 81., 45.],
       [64., nan, 71.]])

In [103]:
#Ordeno "columnas" descendente
np.sort(arr18, axis=0)[::-1]

array([[64., nan, 71.],
       [57., 81., 45.],
       [ 4., 43., 31.]])

In [104]:
#Ordeno "filas" ascendente
np.sort(arr18, axis=1)

array([[31., 57., nan],
       [43., 64., 71.],
       [ 4., 45., 81.]])

In [105]:
#Ordeno "filas" descendente
np.sort(arr18, axis=1)[:,::-1]

array([[nan, 57., 31.],
       [71., 64., 43.],
       [81., 45.,  4.]])

**Tener en cuenta que lo que hace Numpy es ordernar de forma ascendente y nosotros luego solicitamos que invierta ese orden**

* [::-1]: Invierte "columnas".
* [:,::-1]: Invierte "filas".

### Cierre:

Ahora que estudiamos los conceptos básicos de Numpy podermos introducirnos en:

<div> <img src="files/320px-Pandas_logo.png" width="200"/> </div>

Una de las librerías más populares para el análisis y manipulación de datos en Python.

Como Pandas está basado en Numpy, tener una buena base en este nos va a allanar el camino. Si muchos temas, conceptos o sintaxis nos parecieron un tanto abstractos o difíciles de aplicar, ahora es cuando todo va a cobrar más sentido.