# Numpy

En resumen, Numpy es el el paquete más básico y más poderoso para trabajar con datos en Python. Si pretendemos usar Python para analizar datos, entonces es fundamental tener conocimientos sólidos de Numpy.

## ¿Qué nos da Numpy?
El núcleo de Numpy son los objetos `ndarray` o `n-dimensional arrays`

En un `ndarray` podemos almacenar elementos de un mismo tipo de dato. Aquí uno podría preguntarse cuál es la ventaja o el beneficio de usar un `ndarray` de Numpy sobre una lista ordinaria de Python. La respuesta rápida es **muchos**. Numpy tiene ventajas significativas sobre listas ordinarias, pero para poder entenderlo, tendremos que comenzar a usar Numpy

---

## Crear un arreglo de Numpy
Hay más de una forma (como es costumbre en Python) para crear un array. La más común es pasarle una lista a la función `np.array`

In [2]:
#Importamos numpy como np (SIEMPRE)
import numpy as np

In [2]:
lista = [0,1,2,3,4]
array_1d = np.array(lista)

#Checamos el tipo de dato de array_id
type(array_1d)

numpy.ndarray

In [5]:
#contenido del array
array_1d

array([0, 1, 2, 3, 4])

La diferencia principal entre un `array` y una `list` es que los `arrays` están diseñados para procesar operaciones vectorizadas, mientras que una lista no tiene estas capacidades.

Esto significa que si aplicamos una función a un `array` entonces la función se va a aplicar a **cada elemento del array**

Veamos un ejemplo:

Si quisieramos sumar 2 a cada elemento de la `lista`, intuitivamente podríamos intentar:

In [6]:
lista + 2

TypeError: can only concatenate list (not "int") to list

Como podemos ver, no es posible hacer esto con listas. Probemos ahora con `array_1d`

In [7]:
array_1d + 2

array([2, 3, 4, 5, 6])

---

## Arreglos de 2 dimensiones
Un arreglo de dos dimensiones es lo mismo que una matriz de $m \times n$. Una matriz es la forma más adecauda de representar datos tabulares, Numpy hace su manejo sumamente fácil. Comencemos por crear una matriz de $3 \times 3$

In [3]:
list2 = [[0,1,2], [3,4,5], [6,7,8]]
arr2d = np.array(list2)
arr2d

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Podemos especificar el tipo de dato cuando creamos nuestro `ndarray`, por lo general Numpy infiere el tipo de dato

In [4]:
arr2d_f = np.array(list2, dtype='float')
arr2d_f

array([[0., 1., 2.],
       [3., 4., 5.],
       [6., 7., 8.]])

In [5]:
#convertir a enteros nuevamente
arr2d_f.astype('int')

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [6]:
# convertir a enteros y luego a strings
arr2d_f.astype('int').astype('str')

array([['0', '1', '2'],
       ['3', '4', '5'],
       ['6', '7', '8']], dtype='<U21')

Una diferencia importante entre listas y np.arrays es que una lista puede almacenar objetos de diferentes tipos de datos, mientras que un np.array debe ser consistente en el tipo de dato que almacena. Esto se debe al deseo que tenemos por realizar operaciones vectorizadas

In [7]:
# crear un arreglo de valroes lógicos o bools
arr2d_b = np.array([1, 0, 10], dtype='bool')
arr2d_b

array([ True, False,  True])

Sí existe una forma de mantener la ambigüedad en el tipo de dato de nuestro array. Esto lo podemos logar si especificamos que el tipo de dato es `object`

In [8]:
arr1d_obj = np.array([1, 'a'], dtype='object')
arr1d_obj

array([1, 'a'], dtype=object)

Por último: podemos convertir un `ndarray` a una lista en cualquier momento utilziando el método `tolist()`

In [11]:
lista = arr1d_obj.tolist()
lista

[1, 'a']

## Tamaño y dimensión de un array
Un arreglo tiene dos propiedades básicas que nos dicen mucho acerca de su estructura: tamaño y dimensión.

Considemos el arreglo `arr2d`. Éste se creó a partir de una lista de listas. O sea, tiene dos dimensiones. Un arreglo de dos dimensiones se puede mostrar como renglones y columnas, i.e. una matriz.

Si hubiéramos creado el array a partir de una lista de lista de listas, entonces serían 3 dimensiones, i.e. un cubo. 

Supogamos que recibimos un arreglo de numpy que no creamos nosotros. ¿Qué cosas queremos explorar para conocer bien este arreglo?

Bueno, unas buenas preguntas que querríamos contestar son:
- ¿Cuál es la dimensión del arreglo? ¿es de 1, 2 o más dimensiones? `ndim`
- ¿Cuántos elementos hay en cada dimensión? `shape`
- ¿Cuál es el tipo de dato? `dtype`
- ¿Cuál es el número total de elementos? `size`
- Algunos ejemplos/elementos del arreglo

Comencemos

In [12]:
# Crear arreglo de dos dimensiones con 3 filas y 4 columnas
list2 = [[1, 2, 3, 4],[3, 4, 5, 6], [5, 6, 7, 8]]
arr2 = np.array(list2, dtype='float')
arr2

array([[1., 2., 3., 4.],
       [3., 4., 5., 6.],
       [5., 6., 7., 8.]])

In [13]:
# shape
print('Shape: ', arr2.shape)

# dtype
print('Datatype: ', arr2.dtype)

# size
print('Size: ', arr2.size)

# ndim
print('Num Dimensions: ', arr2.ndim)

Shape:  (3, 4)
Datatype:  float64
Size:  12
Num Dimensions:  2


---

## Acceder a los elementos del arreglo
Podemos extraer elementos o porciones específicos de un arreglo utilizando índices o `indexing` empezando por $0$. Esto es similar a cómo lo hacemos con listas en Python.

Pero a diferencia de las listas, los numpy arrays aceptan (opcionalmente) la misma cantidad de parámetros para indexar que el número de dimensiones que tiene el array.

Esto úñtimo es algo confuso, y no hay mejor manera que ilustrarlo que con un ejemplo:


In [15]:
arr2

array([[1., 2., 3., 4.],
       [3., 4., 5., 6.],
       [5., 6., 7., 8.]])

In [14]:
# Extraer las primeras 2 filas y las primeras 2 columnas
arr2[:2, :2]

array([[1., 2.],
       [3., 4.]])

Esto **no** se puede hacer en listas

In [16]:
list2[:2, :2]

TypeError: list indices must be integers or slices, not tuple

Adicionalmente, en los numpy arrays existe algo que se llama `boolean indexing` o indexación lógica. Un `boolean index` o índice lógico.

Un array de índices lógicos es de exactamente la misma forma (`shape`) que el array que estamos filtrando, sólo que contiene únicamente valores booleanos (`True` o `False`). Los valores que estén en los índices Verdaderos son los que va a arrojar nuestro filtro.

In [18]:
#Obtengamos el output booleano de aplicar una comparación a todo nuestro numpy array
b = arr2 > 4
b

array([[False, False, False, False],
       [False, False,  True,  True],
       [ True,  True,  True,  True]])

Como podemos ver, b ahora es una matriz de $3 \times 4$ con puros valores booleanos. El valor `True` está en todas las  posiciones en las que se cumplió que el elemento era $ > 4$

Con esta matriz de valores booleanos, podemos filtrar nuestra matriz original y obtener los valores que estén en posiciones verdaderas,

In [19]:
arr2[b]

array([5., 6., 5., 6., 7., 8.])

## Valores faltantes e infinitos
Es muy común recibir conjuntos de datos que tengan uno que otro valor en NA. Con numpy podemos representar valores faltantes con `np.nan` e infinitos con `np.inf`. Agreguemos algunos de estos valores a `arr2`

In [21]:
arr2[1,1] = np.nan  # no es un número
arr2[1,2] = np.inf  # infinito
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., nan, inf,  6.],
       [ 5.,  6.,  7.,  8.]])

Vamos a reemplazar todos los valores `nan` e `inf` con un $-1$

In [23]:
valores_faltantes_bool = np.isnan(arr2) | np.isinf(arr2)

In [25]:
valores_faltantes_bool

array([[False, False, False, False],
       [False,  True,  True, False],
       [False, False, False, False]])

In [26]:
arr2[valores_faltantes_bool] = -1
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., -1., -1.,  6.],
       [ 5.,  6.,  7.,  8.]])

---

## Calcular media, mínimo y máximo

Un ndarray viene ya con algunos métodos útiles. Unos de éstos nos permiten calcular medidas básicas

In [27]:
print("Media: ", arr2.mean())
print("Valor máximo: ", arr2.max())
print("Valor mínimo: ", arr2.min())

Media:  3.5833333333333335
Valor máximo:  8.0
Valor mínimo:  -1.0


Sin embargo, estos valores exploraron toda la matriz. Podemos obtener los mismos valores pero para filas y columnas utilizando `np.amin`

In [28]:
print("Valores mínimos en columnas", np.amin(arr2, axis=0))

Valores mínimos en columnas [ 1. -1. -1.  4.]


In [29]:
print("Valores mínimos en filas: ", np.amin(arr2, axis=1))

Valores mínimos en filas:  [ 1. -1.  5.]


In [30]:
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., -1., -1.,  6.],
       [ 5.,  6.,  7.,  8.]])

---

## Crear un arreglo a partir de otro arreglo
En Numpy la alocación de memoria sigue la misma lógica que en Python: si asignamos una porción de un array a una nueva variable, y modificamos elementos de esta nueva variable, entonces los cambios se verán reflejados también en nuestro array original. Para evitar este comportamiento (si eso es lo que queremos) utilizamos el método `copy()`.

In [31]:
arr2_nuevo = arr2[:2,:2]  
arr2_nuevo[:1, :1] = 100  # el 100 se va a reflejar también en el array original arr2
arr2

array([[100.,   2.,   3.,   4.],
       [  3.,  -1.,  -1.,   6.],
       [  5.,   6.,   7.,   8.]])

In [32]:
#Para evitar esto vamos a usar copy
arr2_nuevo_2 = arr2[:2, :2].copy()
arr2_nuevo_2[:1, :1] = 101  # 101 no saldrá en arr2
arr2

array([[100.,   2.,   3.,   4.],
       [  3.,  -1.,  -1.,   6.],
       [  5.,   6.,   7.,   8.]])

In [33]:
arr2_nuevo_2

array([[101.,   2.],
       [  3.,  -1.]])

---

## Crear secuencias, repeticiones y números aleatorios

`np.arange`

In [34]:
# El límite inferior es 0 por defecto
print(np.arange(5))

[0 1 2 3 4]


In [35]:
# 0 a 9
print(np.arange(0, 10))

[0 1 2 3 4 5 6 7 8 9]


In [36]:
# 0 a 9 de 2 en 2
print(np.arange(0, 10, 2))  

[0 2 4 6 8]


In [37]:
# 10 a 1, en decrementos de 1
print(np.arange(10, 0, -1))

[10  9  8  7  6  5  4  3  2  1]


Podemos poner límite inferior y superior con `np.arange`, pero si queremos enfocarnos en el número de elmentos que queremos generar, entonces tenemos que concentrarnos en el valor del incremento/decremento (`step`)

Digamos que queremos generar exactamente 10 valores entre 1 y 50. 

Podemos usar `np.linspace`

In [38]:
# Empieza en 1, terminar en 50, creando 10 números enteros
np.linspace(start=1, stop=50, num=10, dtype=int)

array([ 1,  6, 11, 17, 22, 28, 33, 39, 44, 50])

Un buen observador se dará cuenta que nuestros elementos no están espaciados uniformemente. Esto se debe a que esspecificamos que el tipo de dato era entero.

---

## Crear arreglos de $1's$ y $0's$

A menudo tendremos la necesidad de crear vectores o matrices que tengan únicamente valores de $1$ o $0$. Numpy hace esto muy fácil

In [39]:
np.zeros([2,2])

array([[0., 0.],
       [0., 0.]])

In [40]:
np.ones([2,2])

array([[1., 1.],
       [1., 1.]])

---

## Crear secuencias repetidas

In [42]:
a = [1,2,3] 

# Repetir todo el arreglo 'a' dos veces
print('Tile:   ', np.tile(a, 2))

# Repetir cada elemento de 'a' dos veces
print('Repeat: ', np.repeat(a, 2))


Tile:    [1 2 3 1 2 3]
Repeat:  [1 1 2 2 3 3]


---

## Generar números aleatorios
Numpy tiene un módulo `random` con funciones últiles para generar números aleatorios de cualquier `shape`

In [52]:

print("Números aleatorios entre [0,1) de tamaño  2,2")
print(np.random.rand(2,2))
print("-----------------------")

print("Números aleatorios de una distribución normal con media=0 y varianza=1 de tamaño 2,2")
print(np.random.randn(2,2))
print("-----------------------")

print("Enteros aleatorios entre [0,10) de tamaño 2,2")
print(np.random.randint(0, 10, size=[2,2]))
print("-----------------------")

print("Genera un número aleatorio entre [0,1)")
print(np.random.random())
print("-----------------------")

print("Elige 10 elementos de una lista (los resultados son equiprobables)")
print(np.random.choice(['a', 'e', 'i', 'o', 'u'], size=10))  
print("-----------------------")

print("Elige 10 elementos de una lista. Cada uno con una probablidad p")
print(np.random.choice(['a', 'e', 'i', 'o', 'u'], size=10, p=[0.3, .1, 0.1, 0.4, 0.1]))

Números aleatorios entre [0,1) de tamaño  2,2
[[0.20105718 0.8983036 ]
 [0.7619695  0.06411838]]
-----------------------
Números aleatorios de una distribución normal con media=0 y varianza=1 de tamaño 2,2
[[ 0.26090109 -0.90773133]
 [-0.19653479 -0.15318246]]
-----------------------
Enteros aleatorios entre [0,10) de tamaño 2,2
[[6 7]
 [3 1]]
-----------------------
Genera un número aleatorio entre [0,1)
0.13288458864972974
-----------------------
Elige 10 elementos de una lista (los resultados son equiprobables)
['u' 'u' 'a' 'i' 'o' 'o' 'o' 'u' 'o' 'a']
-----------------------
Elige 10 elementos de una lista. Cada uno con una probablidad p
['e' 'i' 'a' 'o' 'i' 'o' 'a' 'a' 'i' 'a']


Cada que corramos el código anterior, obtendremos valores diferentes ya que estamos generando números aleatorios.

Existen casos en los que queremos números pseudoaleatorios para poder reproducir nuestros resultados. Para esto utlizamos una semilla

In [53]:
# ponemos una semilla 100 para reproducibilidad
np.random.seed(100)
print(np.random.rand(2,2))

[[0.54340494 0.27836939]
 [0.42451759 0.84477613]]


En todo script de python, si colocamos una semilla de 100 y ejecutamos `np.random.rand(2,2)` deberíamos obtener exactamente el mismo resultado. Esto es útil porque la reproducibilidad es indispensable en investigación. O sea, queremos que otras personas sean capaces de reproducir nuestros resultados.

---
## Obtener valores únicos y frecuencias absolutas

In [54]:
np.random.seed(100)
arr_rand = np.random.randint(0, 10, size=50)
arr_rand

array([8, 8, 3, 7, 7, 0, 4, 2, 5, 2, 2, 2, 1, 0, 8, 4, 0, 9, 6, 2, 4, 1,
       5, 3, 4, 4, 3, 7, 1, 1, 7, 7, 0, 2, 9, 9, 3, 2, 5, 8, 1, 0, 7, 6,
       2, 0, 8, 2, 5, 1])

In [61]:
vals_unicos,frecuencias = np.unique(arr_rand, return_counts=True)
print("Elementos únicos: ", vals_unicos)
print("Frecuencias      :", frecuencias)

Elementos únicos:  [0 1 2 3 4 5 6 7 8 9]
Frecuencias      : [6 6 9 4 5 4 2 6 5 3]
