# Algebra Linear con Numpy

Uno de las ramas mas comunes en las matematicas es el *Algebra Linear* la cual se enfoca en ecuaciones y el mapeo de espacios lineales aka espacios vectoriales. En computer science vamos a utilizar mucho el algebra linear cuando trabajemos con Machine Learning, en estos proyectos vamos a estar trabajando con matrices de alta dimension las cuales podemos transformar en ecuaciones lineares con las que podemos comparar las relaciones entre los elementos de las distintas matrices.

Vamos a suponer el ejemplo anterior en donde queremos localizar a un ladron en una ciudad, anteriormente esto se lograria dandole una foto del sospechoso a todos los policias y ellos tratarian de encontrarlo en toda la ciudad haciendo de esto una tarea MUY ineficiente. Para que un algoritmo pueda hacer una tarea similar tenemos que pensar en las tareas que se deben cumplir en el mas alto detalle posible para que la maquina pueda entender la tarea que queremos que haga.

Supongamos que la imagen del ladron es de 512 * 512, cada pixel seria un punto en 262,144 en pixeles aka **son un chingo** por lo que va a ser necesario utilizar algebra linear para poder manipular cualquiera de los pixeles dentro de la matriz. Por si las dudas veamos un ejemplo sencillo de como arreglariamos esto con Deep Learning. Una manera muy sencilla de entender que es esto es pensar en un algoritmo que usa una red neuronal artificial (ANN) para aprender el output que queremos mediante ajustes a la ponderacion que conectan las capas, ejemplo:


<img src='../data/img/neuralnetwork.png'>

Las redes neuronales almacenan pesos entre capas y valores de sesgo en matrices. Como estos son los parámetros que intenta sintonizar con nuestro modelo de Deep Learning para minimizar el loss function, continuamente realiza cálculos y los actualiza. En general, los modelos Machine Learning requieren cálculos complejos y necesitan ser entrenados con datasets grandes para proporcionar resultados eficientes. Esta es la razon por la cual el algebra linear es importante cuando hablamos de Machine Learning.

## Matemáticas vectoriales y matriciales

In [1]:
import numpy as np 
a = np.arange(6).reshape(3,2) 
b = np.arange(10).reshape(2,5) 
print(a) 
print(b)

[[0 1]
 [2 3]
 [4 5]]
[[0 1 2 3 4]
 [5 6 7 8 9]]


In [2]:
np.dot(a,b)

array([[ 5,  6,  7,  8,  9],
       [15, 20, 25, 30, 35],
       [25, 34, 43, 52, 61]])

In [3]:
np.matmul(a,b)

array([[ 5,  6,  7,  8,  9],
       [15, 20, 25, 30, 35],
       [25, 34, 43, 52, 61]])

In [4]:
a@b

array([[ 5,  6,  7,  8,  9],
       [15, 20, 25, 30, 35],
       [25, 34, 43, 52, 61]])

Volvamos a nuestro ejemplo del ladron, tenemos a 3 policias siguiendo a 3 sospechosos en distintas partes de la ciudad, una vez que los detienen los van a comparar con el retrato hablado del ladron, esto es ineficiente y poco practico, la pregunta ahora es como un algoritmo podria decidir a cual de los sospechosos deben llevar a la carcel? 

Veamos una representacion geometrica de como el algoritmo platearia este problema. 

<img src='../data/img/geometric.png'>

Como puedes ver esto es un ejemplo muy simple de como el algoritmo va a mostrar la similitud entre ambos vectores, en este caso si la direccion de uno de los sospechosos se acerca al punto 'A', lo va a arrestar. Si esta en la direccion de 'B' lo dejara libre.  

In [5]:
# si queremos multiplicar 2 o mas matrices en una sola funcion usar 'linalg.multi_dot()' es conveniente
from numpy.linalg import multi_dot 
a = np.arange(12).reshape(4,3) 
b = np.arange(15).reshape(3,5) 
c = np.arange(25).reshape(5,5)
multi_dot([a, b, c])

array([[ 1700,  1855,  2010,  2165,  2320],
       [ 5300,  5770,  6240,  6710,  7180],
       [ 8900,  9685, 10470, 11255, 12040],
       [12500, 13600, 14700, 15800, 16900]])

In [6]:
# lo mismo pero usando 'np.dot()', con el inconveniente que debes saber cual es el orden de ejecucion
# que tomara menos tiempo
a.dot(b).dot(c)

array([[ 1700,  1855,  2010,  2165,  2320],
       [ 5300,  5770,  6240,  6710,  7180],
       [ 8900,  9685, 10470, 11255, 12040],
       [12500, 13600, 14700, 15800, 16900]])

In [7]:
# veamos una comparacion de tiempo entre los dos metodos
import numpy as np
from numpy.linalg import multi_dot
import time
a = np.arange(120000).reshape(400,300) 
b = np.arange(150000).reshape(300,500) 
c = np.arange(200000).reshape(500,400)
start = time.time() 
multi_dot([a,b,c]) 
ft = time.time()-start 
print ('Multi_dot tarda', time.time()-start,'segundos.') 
start_ft = time.time()
a.dot(b).dot(c) 
print ('Chain dot tarda', time.time()-start_ft,'segundos.')

Multi_dot tarda 0.17628788948059082 segundos.
Chain dot tarda 0.2081441879272461 segundos.


Como podemos observar el metodo *multi_dot()* reduce el tiempo de ejecucion aun con matrices chicas, este gap o diferencia incrementa con en aumento de dimensiones y cantidad de matrices.

De igual manera los metodos *outer()* y *inner()*. El metodo outer calcula el producto externo de dos vectores mientras que el metodo inner se comporta de manera diferente dependiendo de los argumentos que toma. Si tiene dos vectores como argumentos, produce un producto *dot* ordinario, pero cuando tiene una matriz dimensional más alta, devuelve la suma del producto sobre los últimos ejes. Ejemplo:

In [8]:
a = np.arange(9).reshape(3,3) 
b = np.arange(3) 
print(a) 
print(b)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 1 2]


In [9]:
np.inner(a,b)

array([ 5, 14, 23])

In [10]:
np.outer(a,b)

array([[ 0,  0,  0],
       [ 0,  1,  2],
       [ 0,  2,  4],
       [ 0,  3,  6],
       [ 0,  4,  8],
       [ 0,  5, 10],
       [ 0,  6, 12],
       [ 0,  7, 14],
       [ 0,  8, 16]])

In [11]:
a = np.arange(9) 
np.ndim(a)

1

In [12]:
np.outer(a,b)

array([[ 0,  0,  0],
       [ 0,  1,  2],
       [ 0,  2,  4],
       [ 0,  3,  6],
       [ 0,  4,  8],
       [ 0,  5, 10],
       [ 0,  6, 12],
       [ 0,  7, 14],
       [ 0,  8, 16]])

In [13]:
# ahora veamos lo que pasa cuando usamos el metodo 'tensordot()'
a = np.arange(12).reshape(2,3,2) 
b = np.arange(48).reshape(3,2,8) 
c = np.tensordot(a,b, axes =([1,0],[0,1])) 
print(a) 
print(b)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]
[[[ 0  1  2  3  4  5  6  7]
  [ 8  9 10 11 12 13 14 15]]

 [[16 17 18 19 20 21 22 23]
  [24 25 26 27 28 29 30 31]]

 [[32 33 34 35 36 37 38 39]
  [40 41 42 43 44 45 46 47]]]


In [14]:
c

array([[ 800,  830,  860,  890,  920,  950,  980, 1010],
       [ 920,  956,  992, 1028, 1064, 1100, 1136, 1172]])

# Valores propios o eigenvalues

Un valor propio es un coeficiente de un vector propio/autovectores. Por definición, un vector propio es un vector distinto de cero que solo cambia por un factor escalar cuando se aplica una transformación lineal. En general, cuando la transformación lineal se aplica a un vector, su tramo (la línea que pasa por su origen) se desplaza, pero algunos vectores especiales no se ven afectados por estas transformaciones lineales y permanecen en su propio tramo. Estos son lo que llamamos vectores propios. La transformación lineal los afecta solo estirándolos o aplastándolos a medida que multiplica este vector con un escalar. El valor de este escalar se denomina valor propio.


En los algoritmos ML, trabajamos con grandes cantidades de dimensiones. El problema principal no es tener una dimensión enorme, sino la compatibilidad y el rendimiento de su algoritmo con ellos. Por ejemplo, en PCA(principal component analysis), intentamos descubrir la combinación lineal más significativa de su dimensión. La idea principal en PCA es reducir la dimensión de su conjunto de datos y minimizar la pérdida de información. La pérdida de información aquí es en realidad una variación de sus features/características. Un ejemplo:

|Feature 1|Feature 2|Feature 3|Feature 4|Feature 5|Clase|
|---------|---------|---------|---------|---------|---------|
|1.45|42|54|1.001|1.05|Perro|
|2|12|34|1.004|24.1|Gato|
|4|54|10|1.004|13.4|Perro|
|1.2|31|1|1.003|42.1|Gato|
|5|4|41|1.003|41.4|Perro|

## Que caracteristicas son relevantes? 

En la tabla anterior la Característica 4 en realidad no hace una diferencia significativa si la clase es Perro o Gato. Esta característica será redundante en nuestro análisis. El objetivo principal aquí es mantener las características que difieren fuertemente entre las clases, por lo que el valor de la característica juega un papel importante en nuestra decision decisión. 

Y ahora un ejemplo con codigo:

In [15]:
# primero importamos los datasets y luego tenemos que estandarizar los datos, la estandarizacion es muy importante
# y en ocasiones indispensable. En este caso vamos a utilizar el metodo 'StandardScaler()' para estandarizar las
# caracteristicas el propósito principal aquí es tener características como en los datos estándar normalmente
# distribuidos (media = 0 y variación de la unidad). El metodo 'fit_transform()' lo usamos para 
# transformar los datos originales en una forma en que la distribución tendrá un valor medio 0 
# y una desviación estándar 1. Calculará los parámetros necesarios y aplicará la transformación. 
# Como usamos StandardScaler (), estos parámetros serán y. Tenga en cuenta que la estandarización no produce
# datos distribuidos normalmente de nuestro conjunto de datos original. Se acaba de volver a escalar los datos 
# donde tenemos una media de cero y una desviación estándar de uno
import numpy as np
from sklearn import decomposition, datasets
from sklearn.preprocessing import StandardScaler 
data = datasets.load_breast_cancer() 
cancer = data.data 
cancer = StandardScaler().fit_transform(cancer) 
cancer.shape

(569, 30)

In [16]:
before_transformation = data.data 
before_transformation[:10,:1]

array([[17.99],
       [20.57],
       [19.69],
       [11.42],
       [20.29],
       [12.45],
       [18.25],
       [13.71],
       [13.  ],
       [12.46]])

In [17]:
# transformamos los datos a una version estandarizada
cancer[:10,:1]

array([[ 1.09706398],
       [ 1.82982061],
       [ 1.57988811],
       [-0.76890929],
       [ 1.75029663],
       [-0.47637467],
       [ 1.17090767],
       [-0.11851678],
       [-0.32016686],
       [-0.47353452]])

In [18]:
# despues de transformar los datos, calcularemos la matriz de covarianza; para calcular el valor propio 
# y el vector propio con el método 'np.linalg.eig()' y luego utilizarlos en descomposicion.
covariance_matrix = np.cov(cancer,rowvar=False)
covariance_matrix.shape

(30, 30)

In [19]:
eig_val_cov, eig_vec_cov = np.linalg.eig(covariance_matrix)
eig_pairs = [(np.abs(eig_val_cov[i]), eig_vec_cov[:,i]) for i in
range(len(eig_val_cov))]

In [20]:
# como podemos veren el codigo anterior, calculamos la matriz de covarianza construida para todas 
# las características. Como tenemos 30 características en el dataset, la matriz de covarianza tiene 
# una forma de (30,30) matriz 2-D. El siguiente bloque de código ordena los valores propios en orden descendente
sorted_pairs = eig_pairs.sort(key=lambda x: x[0], reverse=True)
for i in eig_pairs:
    print(i[0])

13.304990794374554
5.701374603726142
2.822910155006227
1.9841275177301991
1.6516332423301197
1.2094822398029734
0.6764088817009056
0.4774562546895088
0.41762878210781545
0.35131087488173374
0.2944331534911646
0.26162116136612124
0.2417824213283134
0.15728614921759335
0.0943006956010559
0.08000340447737649
0.05950361353043175
0.05271142221014807
0.04956470021298171
0.031214260553066475
0.030025663090428662
0.027487711338904257
0.024383691354591005
0.01808679398430557
0.01550852713441875
0.008192037117606769
0.006912612579184394
0.0015921360011975276
0.0007501214127190591
0.00013327905666360806


In [21]:
# tenemos que ordenar los valores propios en orden decreciente para decidir qué vectores propios deseamos eliminar
# para reducir el espacio de trabajo dimensional. Como podemos ver en la lista ordenada anterior, los dos primeros
# vectores propios con valores propios altos son los que más información tienen sobre la distribución de los datos;
# por lo tanto, el resto se eliminará para el subespacio dimensional inferior.
matrix_w = np.hstack((eig_pairs[0][1].reshape(30,1), eig_pairs[1][1].reshape(30,1)))
matrix_w.shape 
transformed = matrix_w.T.dot(cancer.T) 
transformed = transformed.T 
transformed[0]

array([9.19283683, 1.94858307])

In [22]:
transformed.shape

(569, 2)

In [23]:
# en el bloque de código anterior, los dos primeros vectores propios se apilan horizontalmente, ya que se 
# utilizarán en la multiplicación de matrices para transformar nuestros datos para las nuevas dimensiones en 
# el nuevo subespacio. Los datos finales se transformaron de (569,30) a (569,2) matriz, lo que significa que 
# 28 características se eliminaron durante el proceso de PCA
import numpy as np 
from sklearn import decomposition 
from sklearn import datasets 
from sklearn.preprocessing import StandardScaler 
pca = decomposition.PCA(n_components=2) 
x_std = StandardScaler().fit_transform(cancer)
pca.fit_transform(x_std)[0]

# por otro lado, hay funciones integradas en otras bibliotecas que realizan las mismas operaciones que usted 
# realiza. En scikit-learn, hay muchos métodos incorporados que puede utilizar para los algoritmos ML. Como podemos
# ver en el bloque de código anterior, la misma PCA se realizó mediante tres líneas de código con dos métodos. 
# Sin embargo, la intención de este ejemplo es mostrarle la importancia de los valores propios y los vectores 
# propios, por lo tanto, el libro muestra el sencillo camino de la PCA con NumPy.

array([9.19283683, 1.94858307])

# Calculo de la norma y determinante.