# Algebra Linear con Numpy

Uno de las ramas mas comunes en las matematicas es el *Algebra Linear* la cual se enfoca en ecuaciones y el mapeo de espacios lineales aka espacios vectoriales. En computer science vamos a utilizar mucho el algebra linear cuando trabajemos con Machine Learning, en estos proyectos vamos a estar trabajando con matrices de alta dimension las cuales podemos transformar en ecuaciones lineares con las que podemos comparar las relaciones entre los elementos de las distintas matrices.

Vamos a suponer el ejemplo anterior en donde queremos localizar a un ladron en una ciudad, anteriormente esto se lograria dandole una foto del sospechoso a todos los policias y ellos tratarian de encontrarlo en toda la ciudad haciendo de esto una tarea MUY ineficiente. Para que un algoritmo pueda hacer una tarea similar tenemos que pensar en las tareas que se deben cumplir en el mas alto detalle posible para que la maquina pueda entender la tarea que queremos que haga.

Supongamos que la imagen del ladron es de 512 * 512, cada pixel seria un punto en 262,144 en pixeles aka **son un chingo** por lo que va a ser necesario utilizar algebra linear para poder manipular cualquiera de los pixeles dentro de la matriz. Por si las dudas veamos un ejemplo sencillo de como arreglariamos esto con Deep Learning. Una manera muy sencilla de entender que es esto es pensar en un algoritmo que usa una red neuronal artificial (ANN) para aprender el output que queremos mediante ajustes a la ponderacion que conectan las capas, ejemplo:


<img src='../data/img/neuralnetwork.png'>

Las redes neuronales almacenan pesos entre capas y valores de sesgo en matrices. Como estos son los parámetros que intenta sintonizar con nuestro modelo de Deep Learning para minimizar el loss function, continuamente realiza cálculos y los actualiza. En general, los modelos Machine Learning requieren cálculos complejos y necesitan ser entrenados con datasets grandes para proporcionar resultados eficientes. Esta es la razon por la cual el algebra linear es importante cuando hablamos de Machine Learning.

## Matemáticas vectoriales y matriciales

In [1]:
import numpy as np 
a = np.arange(6).reshape(3,2) 
b = np.arange(10).reshape(2,5) 
print(a) 
print(b)

[[0 1]
 [2 3]
 [4 5]]
[[0 1 2 3 4]
 [5 6 7 8 9]]


In [2]:
np.dot(a,b)

array([[ 5,  6,  7,  8,  9],
       [15, 20, 25, 30, 35],
       [25, 34, 43, 52, 61]])

In [3]:
np.matmul(a,b)

array([[ 5,  6,  7,  8,  9],
       [15, 20, 25, 30, 35],
       [25, 34, 43, 52, 61]])

In [4]:
a@b

array([[ 5,  6,  7,  8,  9],
       [15, 20, 25, 30, 35],
       [25, 34, 43, 52, 61]])

Volvamos a nuestro ejemplo del ladron, tenemos a 3 policias siguiendo a 3 sospechosos en distintas partes de la ciudad, una vez que los detienen los van a comparar con el retrato hablado del ladron, esto es ineficiente y poco practico, la pregunta ahora es como un algoritmo podria decidir a cual de los sospechosos deben llevar a la carcel? 

Veamos una representacion geometrica de como el algoritmo platearia este problema. 

<img src='../data/img/geometric.png'>

Como puedes ver esto es un ejemplo muy simple de como el algoritmo va a mostrar la similitud entre ambos vectores, en este caso si la direccion de uno de los sospechosos se acerca al punto 'A', lo va a arrestar. Si esta en la direccion de 'B' lo dejara libre.  

In [5]:
# si queremos multiplicar 2 o mas matrices en una sola funcion usar 'linalg.multi_dot()' es conveniente
from numpy.linalg import multi_dot 
a = np.arange(12).reshape(4,3) 
b = np.arange(15).reshape(3,5) 
c = np.arange(25).reshape(5,5)
multi_dot([a, b, c])

array([[ 1700,  1855,  2010,  2165,  2320],
       [ 5300,  5770,  6240,  6710,  7180],
       [ 8900,  9685, 10470, 11255, 12040],
       [12500, 13600, 14700, 15800, 16900]])

In [6]:
# lo mismo pero usando 'np.dot()', con el inconveniente que debes saber cual es el orden de ejecucion
# que tomara menos tiempo
a.dot(b).dot(c)

array([[ 1700,  1855,  2010,  2165,  2320],
       [ 5300,  5770,  6240,  6710,  7180],
       [ 8900,  9685, 10470, 11255, 12040],
       [12500, 13600, 14700, 15800, 16900]])

In [7]:
# veamos una comparacion de tiempo entre los dos metodos
import numpy as np
from numpy.linalg import multi_dot
import time
a = np.arange(120000).reshape(400,300) 
b = np.arange(150000).reshape(300,500) 
c = np.arange(200000).reshape(500,400)
start = time.time() 
multi_dot([a,b,c]) 
ft = time.time()-start 
print ('Multi_dot tarda', time.time()-start,'segundos.') 
start_ft = time.time()
a.dot(b).dot(c) 
print ('Chain dot tarda', time.time()-start_ft,'segundos.')

Multi_dot tarda 0.1904153823852539 segundos.
Chain dot tarda 0.22289443016052246 segundos.


Como podemos observar el metodo *multi_dot()* reduce el tiempo de ejecucion aun con matrices chicas, este gap o diferencia incrementa con en aumento de dimensiones y cantidad de matrices.

De igual manera los metodos *outer()* y *inner()*. El metodo outer calcula el producto externo de dos vectores mientras que el metodo inner se comporta de manera diferente dependiendo de los argumentos que toma. Si tiene dos vectores como argumentos, produce un producto *dot* ordinario, pero cuando tiene una matriz dimensional más alta, devuelve la suma del producto sobre los últimos ejes. Ejemplo:

In [8]:
a = np.arange(9).reshape(3,3) 
b = np.arange(3) 
print(a) 
print(b)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 1 2]


In [9]:
np.inner(a,b)

array([ 5, 14, 23])

In [10]:
np.outer(a,b)

array([[ 0,  0,  0],
       [ 0,  1,  2],
       [ 0,  2,  4],
       [ 0,  3,  6],
       [ 0,  4,  8],
       [ 0,  5, 10],
       [ 0,  6, 12],
       [ 0,  7, 14],
       [ 0,  8, 16]])

In [12]:
a = np.arange(9) 
np.ndim(a)

1

In [13]:
np.outer(a,b)

array([[ 0,  0,  0],
       [ 0,  1,  2],
       [ 0,  2,  4],
       [ 0,  3,  6],
       [ 0,  4,  8],
       [ 0,  5, 10],
       [ 0,  6, 12],
       [ 0,  7, 14],
       [ 0,  8, 16]])

In [14]:
# ahora veamos lo que pasa cuando usamos el metodo 'tensordot()'
a = np.arange(12).reshape(2,3,2) 
b = np.arange(48).reshape(3,2,8) 
c = np.tensordot(a,b, axes =([1,0],[0,1])) 
print(a) 
print(b)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]
[[[ 0  1  2  3  4  5  6  7]
  [ 8  9 10 11 12 13 14 15]]

 [[16 17 18 19 20 21 22 23]
  [24 25 26 27 28 29 30 31]]

 [[32 33 34 35 36 37 38 39]
  [40 41 42 43 44 45 46 47]]]


In [15]:
c

array([[ 800,  830,  860,  890,  920,  950,  980, 1010],
       [ 920,  956,  992, 1028, 1064, 1100, 1136, 1172]])