# Tutorial 2: Numpy

Prof: Oscar E. Ramos Ponce, Universidad de Ingeniería y Tecnología - UTEC

Nota: este (segundo) tutorial es una introducción a la biblioteca Numpy de Python, de manera muy directa. Se debe tener en cuenta que no se cubre de forma exhaustiva todas las funcionalidades de NumPy sino solamente las más utilizadas. Para mayor detalle de las funciones, se recomienda consultar la documentación oficial de NumPy (http://docs.scipy.org/doc/numpy/reference/). 

__Sugerencias:__ 

- Para ejecutar el código de una celda, presionar Ctrl-Enter.
- Para crear una celda, presionar Ctrl-m seguido de b

Numpy es la biblioteca principal para los cálculos científicos en Python. Provee arreglos multidimensionales de alta eficiencia, llamados `numpy arrays` (o `ndarrays`), así como herramientas para trabajar con estos arreglos.

A pesar de que los arreglos de numpy no son parte de las bibliotecas base de Python, su uso es fundamental para álgebra lineal a través del manejo de matrices y vectores. Así, cuando se realiza cálculos científicos con Python, es recomendable utilizar `ndarrays` en lugar de otros tipos de contenedores.

In [None]:
# Se debe importar la biblioteca de numpy para tener acceso a sus funciones. Normalmente se suele importar
# con el alias "np"
import numpy as np

## 1. Arreglos

Un `Numpy array` es un arreglo de dimensión n que contiene valores del mismo tipo, y se indexa mediante enteros no negativos. La forma del arreglo (`shape`) es una tupla de enteros que contiene el tamaño del arreglo a lo largo de cada dimensión.

Los arreglos se pueden inicializar usando listas anidadas de Python, y se puede acceder a sus elementos usando corchetes.

### 1.1 Arreglos Unidimensionales

Son arreglos con solamente una dimensión. Si tienen n elementos, su dimensión será (n,). Al tener una sola dimensión, se comportan como vectores genéricos, pero no son ni vectores columna ni vectores fila. Por ejemplo, su transpuesta resulta en exactamente el mismo arreglo. 

In [None]:
a = np.array([10, 20, 30])                      # Creación de un arreglo de dimensión 1
print("a =", a)
print("Tipo del arreglo a:", type(a))
print("Tamaño del arreglo a:", a.shape)

Los arreglos unidimensionales se pueden indexar como si fueran listas o tuplas, y es posible modificar el valor de cada uno de sus elementos.

In [None]:
print("a[0] =", a[0], "a[1] =", a[1], "a[2] =", a[2])
a[0] = 4             # Cambia un elemento del arreglo
print("Arreglo luego del cambio: ", a) 

### 1.2 Arreglos Multidimensionales

Son arreglos que tienen más de una dimensión. Se crean utilizando corchetes como se muestra a continuación. Es importante notar que estos arreglos sí se comportan como matrices, en el caso de ser bidimensionales, o como tensores, en caso de tener más de dos dimensiones.

En adelante, a los arreglos de dos dimensiones se les llamará matrices. Si su tamaño es (n,1) o (1,n), se les llamará vectores columna (o simplemente vectores), o vectores fila, respectivamente.

In [None]:
B = np.array( [[10,20,30], [40,50,60]] )    # Creación de un arreglo bidimensional
print("B =\n", B)
print("Tamaño de B:", B.shape)   
print("Elementos: B[0,0] =", B[0,0], ", B[0,1] =", B[0,1], ", B[1,0] =", B[1,0])

Un arreglo de una dimensión puede ser convertido a un arreglo de dos dimensiones de varias formas:

- Usando el método `reshape`, pero se necesita conocer exactamente el tamaño del vector de entrada
- Utilizando `None` como índice. Considerar que `x` es de tamaño `(n,)`. El vector columna `(n,1)` se obtiene como `x[:,None]`, y el vector fila `(1,n)` como `x[None,:]` o simplemente `x[None]`

Un arreglo de dos dimensiones puede ser convertido a uno de una dimensión usando el método `flatten`.

In [None]:
# De arreglo unidimensional a vector fila o columna
x = np.array([10, 20, 30, 40])      # Arreglo unidimensional (4,)
print("Tamaño de x:", x.shape)
# Conversión a vector columna 
x1 = x[:,None]                      # Equivalente a x.reshape(3,1)
print("Tamaño del vector columna:", x1.shape)
# Conversión a vector fila
x2 = x[None,:]                      # Equivalente a x.reshape(1,3) o x[None]
print("Tamaño del vector fila:", x2.shape)

# De arreglo bidimensional (vector fila o columna) a arreglo unidimensional
v = np.array([[10, 20, 30]])
print("\nTamaño de v:", v.shape)
# Conversión a arreglo unidimensional
v0 = v.flatten()
print("Tamaño del arreglo unidimensional:", v0.shape)

### 1.3 Algunos Arreglos Especiales

Algunas funciones para crear arreglos especiales son: `zeros` (para matrices de ceros), `ones` (para matrices de unos), `full` (para matrices con un valor constante), `eye` (para matrices identidad), `random.random` (para matrices aleatorias).

In [None]:
A1 = np.zeros((2,2))   # Crea una matriz de tamaño (2 x 2) con ceros
print("np.zeros((2,2)):\n", A1)

A2 = np.ones((1,2))    # Crea una matriz de unos de tamaño (1 x 2)
print("np.ones((1,2)):\n", A2)

A3 = np.full((3,2), 7)  # Crea una matriz constante con "7"s de tamaño (3 x 2)
print("np.full((3,2), 7):\n", A3)

A4 = np.eye(3)         # Crea una matriz identidad de 3 x 3
print("np.eye(3):\n", A4)

A5 = np.random.random((2,4))  # Crea una matriz aleatoria de 2x4
print("np.random.random((2,4)):\n", A5) 

### 1.4 Tipos de Datos

Cada arreglo de NumPy es un conjunto de elementos del mismo tipo. NumPy provee diferentes tipos de datos que se puede utilizar para la creación de arreglos, y trata de adivinar el tipo de dato deseado al momento de crear el arreglo. Sin embargo, se puede también indicar de manera explícita el tipo de dato a través del arcumento `dtype`.

In [None]:
x = np.array([1, 2])       # NumPy adivina el tipo de dato
print("Tipo de dato de x:", x.dtype)

y = np.array([1.0, 2.0])   # NumPy adivina el tipo de dato
print("Tipo de dato de y:", y.dtype)             

# En el siguiente arreglo se indica explícitamente el tipo de dato: int64
z = np.array([1, 2], dtype=np.int64) 
print("Tipo de dato de z:", z.dtype)                       

## 2. Indexamiento

### 2.1 Slicing

Al igual que con listas de Python, se puede seleccionar un conjunto de datos de un arreglo Numpy (llamado "slice"). Debido a que en este caso los arreglos pueden ser de varias dimensiones, se debe especificar los límites (inicio y fin) para cada dimensión.

Cuando se realiza "slicing", el arreglo resultante siempre será un subarreglo del arreglo inicial.

In [None]:
A = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print("Matriz A:\n", A)

# Sub-matriz
B = A[:2, 1:3]    # Toma las filas 0, 1 (excluyendo a 2), y las columnas 1, 2 (excluyendo a 3)
print("Submatriz B=A[:2, 1:3]:\n", B)

# Una submatriz es una vista de los mismos datos, así que modificarla modificará
# también la matriz inicial
B[1, 1] = 50     # B[1,1] contiene la misma información que A[1, 2]
print("Matriz B modificada:\n", B)
print("Matriz A resultante:\n", A)

También se puede mezclar índices enteros con "slices" (indices de tipo i:j). Sin embargo, al hacerlo así se obtendrá un arreglo de menor dimensión que el arreglo original. 

Este comportamiento es diferente de la forma en la que MATLAB u Octave realizan este proceso.

In [None]:
A = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print("Matriz A:\n", A)

# Dos maneras de acceder a los datos de la fila central de la matriz A:
# 1. Si se usa solo "slices", se obtiene un arreglo de la misma dimensión (2)
f1_dim2 = A[1:2, :]  # Fila 1 (no incluye a 2) y todas las columnas: dimensión 2
print("\nResultado de: A[1:2,:]:", f1_dim2, ", tamaño:", f1_dim2.shape)
# 2. Si se mezcla un entero con un "slice", se obtiene un arreglo de dimensión menor (1)
f1_dim1 = A[1, :]    # Fila 1 y todas las columnas: dimensión 1
print("Resultado de: A[1,:]:", f1_dim1, ", tamaño:", f1_dim1.shape)

# Se puede realizar lo mismo con el acceso a columnas
c1_dim2 = A[:, 1:2]
c1_dim1 = A[:, 1]
print("\nResultado de: A[:, 1:2]:\n", c1_dim2, "\n     ->tamaño:", c1_dim2.shape)
print("Resultado de: A[:, 1]:\n", c1_dim1, "\n     ->tamaño:", c1_dim1.shape)

### 2.2. Indexamiento con Arreglos Enteros

Este tipo de Indexamiento permite construir arreglos arbitrarios usando los datos de otro arreglo. Para el caso de arreglos bidimensionales (matrices), consiste en utilizar dos arreglos como índices: el primer arreglo indica las filas, y el segundo arreglo indica las columnas.

Por ejemplo, si se desea obtener los elementos en las posiciones `[f1,c1]`, `[f2,c2]`, `[f3,c3]`, de una matriz `A`, donde "f" representa fila y "c" columna, se indexa como: `A[[f1,f2,f3],[c1,c2,c3]]`

In [None]:
A = np.array([[1,2], [3, 4], [5, 6]])
print("A:\n", A)

# Extracción término a término (elementos [0,0], [1,1], [2,0] de A)
B1 = np.array([A[0, 0], A[1, 1], A[2, 0]])
# Usando indexamiento con arreglos enteros, B2 es equivalente a B1. El tamaño resultante es (3,)
B2 = A[[0, 1, 2], [0, 1, 0]]

print("B1:", B1)
print("B2:", B2)

# Se puede reusar elementos del arreglo inicial
C1 = A[[0, 0], [1, 1]]
C2 = np.array([A[0, 1], A[0, 1]])    # Equivalente a C1
print("C1:", C1)
print("C2:", C2)

Una operación útil al indexar con arreglos enteros consiste en seleccionar (o modificar) un elemento de cada fila de una matriz. Para ello, se utiliza `np.arange` para las filas, y se selecciona las columnas deseadas de cada fila (una sola columna por fila).

In [None]:
# Arreglo inicial
A = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print("A:\n", A)

# Arreglo que indica el número de columna que se utilizará para cada fila (una columna por fila)
fs = np.arange(4)             # Índices de las filas
cs = np.array([0, 2, 0, 1])   # Índices de las columnas
# Selección de un elemento de cada fila usando los índices de cs
B = A[fs, cs]
print("Índices de las filas:", fs)
print("Índices de las columnas:", cs)
print("B:", B)

# Modificar un elemento de cada fila usando los índices de cs
A[fs, cs] *= 100
print("Matriz A modificada:\n", A)

### 2.3. Indexamiento con Arreglos Booleanos

Este tipo de indexamiento permite seleccionar elementos arbitrarios de un arreglo. Este tipo de indexamiento se utiliza con frecuencia para seleccionar elementos que satisfacen alguna condición.

In [None]:
A = np.array([[1,2], [3, 4], [5, 6]])
print("A:\n", A)

# Índices Booleanos para encontrar elementos que son mayores a 2
bool_idx = (A > 2)   # Contendrá un arreglo de Booleanos del mismo tamaño que A con True o False según la condición
print("Bool_idx:\n", bool_idx)

# Cuando el arreglo Booleano se usa para indexar, crea un arreglo de dimensión 1
print("A[bool_idx]:", A[bool_idx])

# Se puede realizar lo anterior de forma compacta:
print("A[A > 2]:", A[A > 2])

## 3. Operaciones Matemáticas


### 3.1 Operaciones Elemento a Elemento

Las operaciones matemáticas básicas operan elemento a elemento, y se encuentran disponibles como una sobrecarga de operadores básicos, o como funciones del módulo NumPy.

In [None]:
A = np.array([[1,2],[3,4]], dtype=np.float64)
B = np.array([[5,6],[7,8]], dtype=np.float64)

# Suma elemento a elemento
print("Suma:\n", A + B)       # Equivalente a np.add(A, B)
# Diferencia elemento a elemento
print("Resta:\n", A - B)      # Equivalente a np.subtract(A, B)
# Producto elemento a elemento
print("Producto elemento a elemento:\n", A * B)   # Equivalente a np.multiply(A, B)
# División elemento a elemento
print("División elemento a elemento:\n", A / B)    # Equivalente a np.divide(A, B)
# Raíz cuadrada elemento a elemento
print("Raíz cuadrada elemento a elemento:\n", np.sqrt(A))

### 3.2 Multiplicación

A diferencia de MATLAB, Octave, o Scilab, al utilizar `*` se obtiene una multiplicación término a término, no una multiplicación matricial. Con NumPy, para realizar multiplicaciones matriciales se utiliza `dot`, el cual se encuentra disponible como función, o como un método de los arreglos.

La function `np.dot` funciona de la siguiente manera:
- Si `x`, `y` son arreglos unidimensionales de tamaño `(n,)`, `np.dot(x,y)` realiza el producto interno de vectores (y el resultado es un escalar).
- Si `A` es una matrix de tamaño `(n, m)`, y el arreglo unidimensional `y` es de tamaño `(m,)`, la operación `np.dot(X, y)` considera a `y` como si fuera de tamaño `(m,1)`. El resultado es un arreglo unidimensional `(n,)`.
- Si `A` es una matrix de tamaño `(n, m)`, y el arreglo unidimensional `y` es de tamaño `(n,)`, la operación `np.dot(y, X)` considera a `y` como si fuera de tamaño `(1,n)`. El resultado es un arreglo unidimensional `(m,)`.
- En todos los demás casos `np.dot` se comporta como un producto de matriz con matriz. El tamaño del resultado es coherente con álgebra lineal.

Debido a esta forma de funcionamiento de `np.dot`, en muchos casos se recomienda trabajar con arreglos bidimensionales (matrices, vectores columna, vectores fila), evitando los arreglos unidimensionales, para evitar errores o comportamientos no deseados.

In [None]:
A = np.array([[1,2,3],[4,5,6]])        # Tamaño (2,3)
B = np.array([[7,8],[9,10],[11,12]])   # Tamaño (3,2)

x = np.array([2,3])    # Tamaño (2,)
y = np.array([4,5])    # Tamaño (2,)
z = np.array([6,7,8])  # Tamaño (3,)

# Producto interno de arreglos unidimensionales
print("Producto interno:", x.dot(y))                  # Equivalente a: np.dot(x, y)
# Producto matriz/matriz (como en álgebra lineal)
print("Producto matriz matriz: AB = \n", A.dot(B))    # Equivalente a: np.dot(A, B)
# Producto matriz con arreglo unidimensional: (2,3)x(3,) = (2,3)x(3,1) = (2,1), pero el resultado es (2,)
print("Producto: Az =", A.dot(z))                     # Equivalente a: np.dot(A, x)
# Producto arreglo unidimensional con matriz: (2,)x(2,3) = (1,2)x(2,3) = (1,3), pero el resultado es (3,)
print("Producto: xA =", x.dot(A))                     # Equivalente a: np.dot(A, x)

### 3.3 Otras Operaciones

Numpy provee muchas funciones útiles para realizar cálculos con arreglos. Por ejemplo, la función `sum` suma los elementos (suma vertical si axis=0, suma horizonal si axis=1) del arreglo.

In [None]:
# Suma de elementos
A = np.array([[1,2],[3,4]])
print("A:\n", A)

print("Suma de todos los elementos:", np.sum(A))              # Suma de todos los elementos
print("Suma vertical (de cada columna):", np.sum(A, axis=0))  # Suma de cada columna
print("Suma horizontal (de cada fila)", np.sum(A, axis=1))    # Suma de cada fila

print("Seno de A:\n", np.sin(A))     # Igualmente se puede usar np.cos, np.log, np.exp, etc

A veces se requiere cambiar la forma de una matriz. Una de las operaciones más simples es obtener la transpuesta de una matrix (se usa ``comillas``), para lo cual se utiliza el atributo `T`.

In [None]:
A = np.array([[1,2], [3,4]])
print("Matriz A:\n", x)
print("Transpuesta:\n", x.T)

# Notar que tomar la transpuesta de un arreglo de dimensión 1 no hace nada
v = np.array([1,2,3])
print("Valor de v:", v)    # Prints "[1 2 3]"
print("Valor de v.T", v.T)  # Prints "[1 2 3]"


In [None]:
# Algunas operaciones de álgebra lineal
A = np.array([[1,2], [3,4]])
x = np.array([1,2,3])
# Traza
print("Traza de A:", np.trace(A))
# Rango
print("Rango de A:", np.linalg.matrix_rank(A))
# Determinante
print("Determinante de A:", np.linalg.det(A))
# Inversa:
print("Inversa de A:\n", np.linalg.inv(A))
# Pseudo-inversa de Moore-Penrose:
print("Pseudo-inversa de A:\n", np.linalg.pinv(A))
# Norma de un vector (o matriz)
print("Norma L-1 de x:", np.linalg.norm(x,1))
print("Norma L-2 de x:", np.linalg.norm(x))
print("Norma de Frobenius de A:", np.linalg.norm(A))

In [None]:
A = np.array([[2,1], [1,4]])
# Descomposición de Cholelsky (L*L^T=A)
L = np.linalg.cholesky(A)
print("np.dot(L, L.T):\n", np.dot(L, L.T))
# Descomposición SVD
U, S, V = np.linalg.svd(A)
S = np.diag(S)
print("USV^T:\n", U.dot(S).dot(V.T))

In [None]:
A = np.array([[1,2], [3,4]])
# Autovalores (Av = lb*v)
lb, v = np.linalg.eig(A)
print("Autovalores:", lb)
print("Autovectores:\n", v)
print("Av = \n", A.dot(v))
print("lambda*v =\n", lb*v)

En la documentación de NumPy se puede consultar la lista completa de funciones matemáticas que NumPy provee.

## 4. Broadcasting

Broadcasting es un mecanismo potente que permite a numpy trabajar con arreglos de diferentes tamaños al realizar operaciones aritméticas. Frecuentemente se tiene un arreglo grande y uno pequeño, y se desea usar el pequeño múltiples veces para realizar alguna operación con el arreglo grande. El broadcasting en general se debe utilizar en la medida de lo posible para evitar los bucles, debido a que si se tiene una matriz muy grande, realizar un bucle puede ser muy lento.

Un ejemplo de "broadcasting" se da cuando se desea añadir un vector constante a cada fila de una matriz. Otro ejemplo, muy frecuente, ocurre cuando se desea añadir una constante a cada elemento de una matriz o de un vector.

A continuación se mostrará un ejemplo donde no se realiza "broadcasting".

In [None]:
# Se añadirá el vector x a cada fila de la matriz A, almacenando el resultado en la matriz y
A = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
x = np.array([100, 0, 300])
y = np.empty_like(A)            # Matriz vacía con el mismo tamaño que A
print("A:\n", A)
print("x:", x)

# Sin broadcasting (forma 1): se tiene que usar un bucle para añadir x a cada fila
for i in range(4):
    y[i, :] = A[i, :] + x
print("Sin broadcasting A+x:\n", y)

# Sin broadcasting(forma 2): primero se crea una matriz que contiene x como sus filas
X = np.tile(x, (4, 1))   # Almacena 4 copias de x, una "sobre" la otra
y = A + X                # Suma A y la matriz X que contiene copias de x
print("X:\n", X)
print("Sin broadcasting A+X:\n", y)

El "broadcasting" de NumPy permite realizar una operación similar a la "forma 2" anterior pero de manera directa, sin crear múltiples copias de un vector (en el caso anterior, sin necesidad de crear la matriz X a partir del vector x). En este caso, y = A + x funcionará a pesar de que el tamaño de A es (4, 3) y el tamaño de v es (3,). Debido al "broadcasting", esta línea funciona como si x tuviese tamaño (4,3), donde cada fila es una copia de x, y la suma se realiza elemento a elemento (como en la forma 2 sin broadcasting).

In [None]:
# Usando broadcasting
A = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
x = np.array([100, 0, 300])
y = A + x           # Se realiza la suma de manera "directa".
print("Con broadcasting, A+x:\n", y)

Las funciones que soportan broadcasting se llaman "universales". Se puede encontrar una lista de todas las funciones universales en la documentación de NumPy.

Algunos otros ejemplos de "broadcasting" son los siguientes.

In [None]:
# Añadir un vector a cada fila de una matriz
A = np.array([[1,2,3], [4,5,6]])   # tamaño (2,3)
x = np.array([100,200,300])        # tamaño (3,)
# Al sumarlos se realiza broadcasting a (2,3)
print("A+x:\n", A + x)

# Añadir un vector a cada columna de una matriz
x2 = np.array([100, 200])           # Tamaño (2,)
# Alternativa 1: 
# Transponer A para tener tamaño (3,2), sumarlo, y transponerlo nuevamente para recuperar el tamaño (2,3) original
print("(A.T + x2).T:\n", (A.T + x2).T)
# Alternativa 2: 
# Convertir x2 a tamaño (2,1) y sumarlo directamente
print("A + np.reshape(x2,(2, 1)):\n",  A + np.reshape(x2, (2, 1)))

# Sumar una matriz (o vector) con una constante
print("A+20:\n", A+20)

Para más detalles de NumPy, ver la referencia: http://docs.scipy.org/doc/numpy/reference/