# Numpy II (Operaciones con Matrices)

*Autor: José Chávez*

En esta oportunidad aprenderemos alguna de las herramientas más importantes para manipular y hacer operaciones entre matrices. Aprenderemos a obtener algunas estadisticas como la media, el valor máximo y mínimo con la librería NumPy.

In [None]:
import numpy as np

# Multiplicación de Matrices con Numpy

Hasta ahora hemos visto como la operación por defecto en Numpy es *elemento-por-elemeto*. Sin embargo, nosotros tambien podemos realizar la multiplicación de matrices utilizando el operador arroba ($\texttt{@}$).

## El operador arroba ($\texttt{@}$)

Crearemos un array que nos permita cambiar la primera por la segunda fila en una matriz de $2\times 2$.

**Dato**:

Una matriz de permutación es una matriz cuadrada que tiene un elemento igual a $1$ en cada fila y columna. En el caso de una matrix de $3\times 3$ serían de la forma:<br><br>

$P_1=\pmatrix{1 & 0 & 0\\0&1&0\\0&0&1}$, $P_2=\pmatrix{0 & 1 & 0\\0&0&1\\1&0&0}$, $P_3=\pmatrix{0 & 0 & 1\\1&0&0\\0&1&0}$
<br><br>
En el caso de una matriz de dimension $2\times 2$ serían:
<br><br>
$P_4=\pmatrix{1 & 0\\0&1}$
$P_5=\pmatrix{0 & 1\\1&0}$



In [None]:
P5 = np.array([[0,1],[1,0]])
P5

array([[0, 1],
       [1, 0]])

Ahora creamos una matriz de $2\times 2$ cualquiera.

In [None]:
A = np.array([[2,3],[4,5]])
A

array([[2, 3],
       [4, 5]])

Realizamos la multiplicación $P5\times A$ (en ese orden) para intercambiar las filas de la matriz $A$.

In [None]:
P5 @ A

array([[4, 5],
       [2, 3]])

Si realizamos la multuplicación $A\times P$, estaremos intercambiando las columnas de la matriz $A$.

In [None]:
A @ P5

array([[3, 2],
       [5, 4]])

## $\texttt{np.dot()}$

Otra forma de multiplicar matrices es utilizando $\texttt{np.dot()}$. Es decir $\texttt{np.dot(A,B)}=A B$

In [None]:
np.dot(P5,A) # P5 @ A

array([[4, 5],
       [2, 3]])

In [None]:
print(A)

[[2 3]
 [4 5]]


In [None]:
np.dot(A,A) # A^2

array([[16, 21],
       [28, 37]])

In [None]:
P5.dot(A) # Es igual que 'np.dot(P5,A)' o 'P5 @ A'

array([[4, 5],
       [2, 3]])

In [None]:
# multidot
P5.dot(A).dot(A) # P @ A @ A

array([[28, 37],
       [16, 21]])

In [None]:
B = np.ones((3,2))
B

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [None]:
print(B.shape, A.shape)

(3, 2) (2, 2)


In [None]:
# (3x2) x (2x2)
B.dot(A)

array([[6., 8.],
       [6., 8.],
       [6., 8.]])

## $\texttt{np.matmul()}$

Otra forma de realizar multiplicaciones de matrices es con $\texttt{np.matmul()}$

In [None]:
A = np.array([[2,3],[4,5]])
B = np.array([[1,1],[0,0]])

In [None]:
print(A)

[[2 3]
 [4 5]]


In [None]:
print(B)

[[1 1]
 [0 0]]


In [None]:
np.matmul(A,B) # Es igual que A @ B

array([[2, 2],
       [4, 4]])

Verificamos este resultado al visualizar $\texttt{A@B}$

In [None]:
A @ B

array([[2, 2],
       [4, 4]])

## Matrices multidimensionales

Cuando trabajamos con matrices multidimensionales es cuando se empiezan a ver las diferencias entre el operador $\texttt{@}$, $\texttt{np.dot()}$ y $\texttt{np.matmul()}$.

In [None]:
T1 = np.ones((2,3,3))
T2 = np.ones((2,3,3)) * 2

In [None]:
print(T1)

[[[1. 1. 1.]
  [1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]
  [1. 1. 1.]]]


In [None]:
print(T2)

[[[2. 2. 2.]
  [2. 2. 2.]
  [2. 2. 2.]]

 [[2. 2. 2.]
  [2. 2. 2.]
  [2. 2. 2.]]]


Utilizando el operador $\texttt{@}$

In [None]:
print(f"T1.shape = {T1.shape}, T2.shape = {T2.shape}")

T1.shape = (2, 3, 3), T2.shape = (2, 3, 3)


In [None]:
A = T1 @ T2

print(A.shape)

(2, 3, 3)


In [None]:
print(A)

[[[6. 6. 6.]
  [6. 6. 6.]
  [6. 6. 6.]]

 [[6. 6. 6.]
  [6. 6. 6.]
  [6. 6. 6.]]]


Utilando $\texttt{np.dot()}$

In [None]:
B = T1.dot(T2)

print(B.shape)

(2, 3, 2, 3)


In [None]:
print(B)

[[[[6. 6. 6.]
   [6. 6. 6.]]

  [[6. 6. 6.]
   [6. 6. 6.]]

  [[6. 6. 6.]
   [6. 6. 6.]]]


 [[[6. 6. 6.]
   [6. 6. 6.]]

  [[6. 6. 6.]
   [6. 6. 6.]]

  [[6. 6. 6.]
   [6. 6. 6.]]]]


In [None]:
print(T1.shape, T2.shape)

(2, 3, 3) (2, 3, 3)


In [None]:
print(T1.dot(T2).shape)

(2, 3, 2, 3)


Al utilizar $\texttt{np.dot}$ en realidad estamos realizando la multiplicación como la suma de productos sobre la última dimension del primer array y el penúltimo del segundo array. Es decir la dimension de salida al utilizar $\texttt{np.dot}$ sigue la regla:<br><br>

$[n\times m\times k]\times [l\times k\times p]=[n\times m\times l\times p]$

In [None]:
# (m x k) (k x p) -> (m x p)
# (3 x 3) (3 x 3) -> (3 x 3)
# -> (2, 3, 2, 3)  , n=2,m=3,l=2,p=3

Por otro lado, cuando utilizamos $\texttt{@}$ or $\texttt{np.matmul}()$ y tenemos matrices multidimencionales, estas se transmiten como una pila de matrices que residen en los dos últimos índices.

In [None]:
m1 = np.ones((3,6)) # [3x6]
m2 = np.ones((6,7)) # [6x7]

x  = m1 @ m2
print(x.shape)

(3, 7)


In [None]:
T1 = np.ones((2,4,5,3,6))
T2 = np.ones((2,4,5,6,7))

In [None]:
print(T1.shape, T2.shape)

(2, 4, 5, 3, 6) (2, 4, 5, 6, 7)


En este caso $\texttt{T1}$ es una pila de $2\times4\times5=40$ matrices de $3\times 6$. Y $\texttt{T2}$ es una pila de $2\times4\times5=40$ matrices de $6\times 7$.

In [None]:
A = T1 @ T2

In [None]:
A.shape

(2, 4, 5, 3, 7)

## $\texttt{np.linalg.inv(a)}$

Podemos tambien hallar la inversa de una matriz utilizando $\texttt{np.linalg.inv(a)}$

In [None]:
A = np.array([[12, 3],[3,4]])
A

array([[12,  3],
       [ 3,  4]])

In [None]:
Ainv = np.linalg.inv(A)
Ainv

array([[ 0.1025641 , -0.07692308],
       [-0.07692308,  0.30769231]])

In [None]:
print(A @ Ainv)

[[1. 0.]
 [0. 1.]]


# Operaciones con Matrices en Machine Learning

## Regresión Lineal

Un modelo lineal para la regresion (proceso por el cual se estima relaciones entre variables) es aquel que involucra una combinación lineal de las variable de entrada.

$y=\sum_{i=1}^{n}x_i\cdot w_i + b= \mathbf{w}^{T}\mathbf{x}+b$,


donde: $\quad\mathbf{w}=\begin{pmatrix} w_1\\w_2\\\vdots\\w_n\end{pmatrix}\quad$ y $\quad\mathbf{x}=\begin{pmatrix} x_1\\x_2\\\vdots\\x_n\end{pmatrix}$

* $\mathbf{w}$ y $b$ son los parámetros del modelo de regresión.
* $\mathbf{x}$ es la variable independiente.
* $y$ es la variable dependiente.



In [None]:
n = 10 # número de elementos de la entrada

# Entrada
x = np.random.randn(n) # Caracteristicas del departamento

# Parámetros
w = np.random.randn(n)
b = np.random.randn(1)

In [None]:
w.shape

(10,)

In [None]:
w_transpuesta = w.T

In [None]:
w_transpuesta.shape

(10,)

In [None]:
y = w.T @ x + b # el precio

print(y)

[-1.90679968]


# Manipulación de $\textit{arrays}$

Numpy tambien nos permite manipular los arrays: crear nuevas dimensiones, cambiar el tamaño y reordenar.

## $\texttt{np.newaxis}$

Numpy nos permite añadir una nueva dimensión a un array.

In [None]:
v = np.array([[1,2,3],[4,5,6]])
v.shape

(2, 3)

In [None]:
v

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
v[:,2]

array([3, 6])

In [None]:
a = v[:,0]
a.shape

(2,)

In [None]:
a

array([1, 4])

In [None]:
v = np.zeros((100,100))

In [None]:
v.shape

(100, 100)

In [None]:
b = v[np.newaxis,:,:]
b.shape

(1, 100, 100)

In [None]:
c = b[:,:,:,np.newaxis]
c.shape

(1, 100, 100, 1)

## $\texttt{np.stack(arrays, axis=0}$

Supongamos que tenemos los tres canales de una imagen: Rojo(R), Verde(G) y Azul(B).

In [None]:
# raw images

R = np.ones((32,32)) # rojo
G = np.ones((32,32)) # verde
B = np.ones((32,32)) # azul

In [None]:
image_c = np.dstack([R,G,B])
image_c.shape

(32, 32, 3)

In [None]:
image = np.stack([R,G,B], axis=2)

In [None]:
# TensorFlow/Keras

image.shape

(32, 32, 3)

In [None]:
# Pytorch

image = np.stack([R,G,B], axis=0)
image.shape

(3, 32, 32)

## $\texttt{np.reshape(a, newshape)}$

También podemos modificar el tamaño de nuestro array  con $\texttt{np.reshape()}$

In [None]:
A = np.arange(28*28*3)
A

array([   0,    1,    2, ..., 2349, 2350, 2351])

In [None]:
A.shape

(2352,)

In [None]:
# [2352,] ===> [28,28,3] , [3,28,28]

In [None]:
# TensorFlow
B = A.reshape(28,28,3)
B.shape

(28, 28, 3)

In [None]:
# Pytorch

C = A.reshape(3,28,28)
C.shape

(3, 28, 28)

In [None]:
# TensorFlow
print(B.shape)

(28, 28, 3)


In [None]:
# Pytorch
print(C.shape)

(3, 28, 28)


## $\texttt{np.transpose(a, axes=None)}$

Numpy también nos permite permutar las dimensiones de un array.

In [None]:
B.shape

(28, 28, 3)

In [None]:
C.shape

(3, 28, 28)

In [None]:
D = np.transpose(B, (2,0,1)) # torch.permute
print(D.shape)

(3, 28, 28)


## Applicación: Preparación de bases de datos en Deep Learning

En algunos casos es necesario realizar ciertas transformaciones a nuestra base de datos para procesarlas. Estas operaciones pueden realizarse antes o despues de procesar nuestros datos.

En Deep Learning, en ocasiones es necesario transformar los datos antes de que estos pasen por la red neuronal. Por ejemplos, si trabajamos con imágenes, estas podrían requerir ser transformadas a vectores antes de pasar por la red neuronal .

$batch = (N,C,W,H)$

* $N$: número de muestras
* $C$: número de canales por imágen
* $W$: ancho
* $H$: alto


Un $batch$ es un sub-conjunto de muestras o datos. Para acelerar el proceso de procesamiento, en lugar de procesar una única muestra a la vez, podemos procesar varías. Por ejemplo, $64$ imágenes de $28\times28\times1$ (en escala de grises).

In [None]:
print(28*28)

784


In [None]:
# MNIST: 64 imagenes
data = np.ones((64,28*28*1))
data.shape

(64, 784)

In [None]:
# Pytorch
data_lista = data.reshape(64,1,28,28)
data_lista.shape

(64, 1, 28, 28)

In [None]:
# CIFAR: 64 imagenes a color (3 canales)
data = np.ones((64,32*32*3))
data.shape

(64, 3072)

In [None]:
#Pytorch

data_lista = data.reshape(64,3,32,32)
data_lista.shape

(64, 3, 32, 32)

In [None]:
print(3 * 32 * 32)

3072


# Encontrando algunas estadisticas

Numpy permite extraer algunas estadisticas de los arrays

In [None]:
import numpy as np

In [None]:
M = np.random.randn(5,5) * 3 + 1.5 #  mu(media) =1.5
M.shape

(5, 5)

In [None]:
M

array([[ 5.86053087,  2.52172613,  4.49578567, -1.8057592 ,  1.31798511],
       [-1.69266366, -3.03877315,  3.57823639,  6.11140123,  1.21610577],
       [-2.66790826,  3.39832288, -0.44251079,  4.03079027, -0.03871271],
       [ 2.49668369, -2.78231287, -1.53366701,  3.67515196,  1.00010858],
       [-3.88239826, -2.89488634, -2.46422451,  2.32357847, -0.66263127]])

In [None]:
M.mean()

0.72479836083962

In [None]:
M.sum()

18.1199590209905

In [None]:
print(M.sum()/25)

0.72479836083962


In [None]:
M.min()

-3.8823982581936534

In [None]:
M.max()

6.11140122909123

In [None]:
M.argmax()

8

In [None]:
M.argmin()

20

In [None]:
M.std()

2.9517540731530607

### El argumento $\texttt{axis}$

In [None]:
v = np.random.randint(0,10,(4,4))
v.shape

(4, 4)

In [None]:
v

array([[2, 0, 8, 6],
       [7, 8, 2, 9],
       [2, 5, 5, 0],
       [3, 6, 1, 1]])

In [None]:
v.min(axis=0) # el minimo en filas

array([2, 0, 1, 0])

In [None]:
v.min(axis=1) # el minimo por columnas

array([0, 2, 0, 1])

In [None]:
v.sum(axis=1) # suma en base a columnas (sumar todas las filas para cada columna)

array([16, 26, 12, 11])

In [None]:
v.mean(axis=0)

array([3.5 , 4.75, 4.  , 4.  ])

## Applicación: Predicción de la salida de una red neuronal

En una regresión se trata de predecir una *variable continua* dependiente (escalar o vector), mientras que en una clasificación se trata de predecir una *variable categórica* dependiente. Una variabel caterorica permite clasificar un conjunto de datos a través de valores fijos (palabras, números, etc).

Ejemplos de variable catogorica:

* Se asigna $0$ a imágenes de gatos y $1$ a imágenes de perros.
* Se asigna $-1$ a tweets negativos, $1$ a tweets positivos, $0$ a tweets neutros.

<figure>
<img src='https://drive.google.com/uc?export=view&id=1MxBQZkQuWgYwd1MxdSvQ9PRhls7SErR0' width="400"/>
<figcaption>Image Caption</figcaption>
</figure>

$y = (muestras,clases)$

Salida de la red neuronal: $y$

In [None]:
y = np.random.randn(16,3)
y.shape

(16, 3)

In [None]:
y

array([[ 0.67004883, -0.85523264,  1.30808159],
       [-0.17811355,  1.48603806, -0.95269061],
       [ 1.49882415, -1.11826235, -2.01339245],
       [-1.12662653, -0.28755946,  0.18782598],
       [ 1.95489369, -1.5865205 ,  1.38219715],
       [ 1.28682878,  0.3913378 ,  0.53631474],
       [ 0.87076668, -0.22820299,  0.84805266],
       [ 1.13351099,  1.66610322, -1.15095066],
       [-0.66408263, -0.16167356,  1.23788751],
       [-2.11541569,  0.22564601,  0.31413403],
       [-0.66892226,  0.35600241, -0.31998215],
       [ 1.32029061,  0.77807129,  1.42781428],
       [ 2.20951626,  1.45730737, -0.18602645],
       [-1.27340431,  0.78871692,  1.47034493],
       [-1.53459859, -0.07711537, -0.77136666],
       [ 0.20251498,  1.09115448,  0.22951814]])

In [None]:
pred = y.argmax(axis=1)
pred.shape

(16,)

In [None]:
pred

array([2, 1, 0, 2, 0, 0, 0, 1, 2, 2, 1, 2, 0, 2, 1, 1])

Cual es el argumento con el máximo valor. Si consideramos:

* 0: tweet negativo
* 1: tweet positivo
* 2: tweet neutro

### Creando etiquetas

Las etiquetas vienen a ser los valores reales/correctos de las salidas.

In [None]:
real = np.full(16,2)
real

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [None]:
resultados = (pred == real)

In [None]:
print(resultados)

[ True False False  True False False False False  True  True False  True
 False  True False False]


In [None]:
False == 0

True

Podemos medir el porcentaje de acierto de nuestro modelo.

In [None]:
np.mean(resultados)

0.375

# Ejercicios

## Ejercicio 1:

Si $\quad4x  + 3y = 20\quad$ y $\quad -5x + 9y = 26$, hallar $x,y$.

  Solución:

  Podemos representar el sistema de ecuaciones como $AX=B$, donde $A=\begin{bmatrix}
  4 & 3 \\
  -5 & 9
  \end{bmatrix}$ y $B=\begin{bmatrix}
  20 \\
  26
  \end{bmatrix}$, entonces

  $X = A^{-1}B$

In [None]:
A = np.array([[4,3],[-5,9]])
print(A, A.shape)

[[ 4  3]
 [-5  9]] (2, 2)


In [None]:
B = np.array([[20],[26]])
print(B, B.shape)

[[20]
 [26]] (2, 1)


In [None]:
Ainv = np.linalg.inv(A)
Ainv

array([[ 0.17647059, -0.05882353],
       [ 0.09803922,  0.07843137]])

In [None]:
Ainv @ B

array([[2.],
       [4.]])

## Ejercicio 2:

Resolver el siguiente sitema de ecuaciones:

$4x + 3y + 2z = 25$

$-2x + 2y + 3z = -10$

$3x -5y + 2z = -4$

## Tarea 1: Nueronas Artificiales

Una red neuronal artificial esta compuesta de varias unidades de operación o Neuronas (artificiales). Similar a la regresión lineal, las neuronas realizan combinaciones lineales de sus entradas. Sin embargo, al resultado de esta combinación se le aplica **una función no-lineal**.

<figure>
<img src='https://drive.google.com/uc?export=view&id=1WNaPttOJsDnDl9I09SIFhAGTu64YPQug' width="600"/>
<figcaption>Image Caption</figcaption>
</figure>

* **Parametros de la red:** $W\in\mathbb{R}^{n\times m} \wedge b\in\mathbb{R}^{m}$
* **Entrada:**  $\mathbf{x}\in\mathbb{R}^{n\times 1}$
* **Salida:** $a\in\mathbb{R}^{3}$

Donde:

$$\mathbf{z}= \mathbf{W}^{T}\mathbf{x}+\mathbf{b}, \mathbf{z}\in\mathbb{R}^{m}$$

y además $m$ es el número de salidas y $n$ es el número de entradas y además:

$$a = \texttt{softmax}(\mathbf{z}) = \frac{e^{\mathbf{z}}}{\texttt{torch.sum}( e^{\mathbf{z}})}$$ (softmax)

$\texttt{sigmoid}(z)=\sigma(z)=\frac{1}{1+e^{-z}}$

Para nuestro ejemplo, vamos a considerar una red neuronal de $10$ elementos de entrada y $1$ elemento de salida.

In [None]:
n_salidas  = 1   # m
n_entradas = 10  # n

La variable de entrada será la siguiente:

In [None]:
x = np.random.randn(n_entradas)
x

Defina $W$ como números aleatorios de una distribución Normal con $\mu=0$ y $\sigma=1$. Finalmente, inicialice el vector $b$  con ceros.