# 1. Algebra con Python

## 1.1. Intro

El álgebra lineal es la rama de las matemáticas que trata las ecuaciones y funciones lineales, y sus representaciones a través de matrices y espacios vectoriales. Nos ayuda a comprender términos geométricos en dimensiones superiores y a realizar operaciones matemáticas con ellos. Por definición, el álgebra trata principalmente con escalares (entidades unidimensionales), pero el álgebra lineal tiene vectores y matrices (entidades que poseen dos o más componentes dimensionales) para tratar con ecuaciones y funciones lineales.

El álgebra lineal es el corazón de casi todas las áreas de las matemáticas como la geometría y el análisis funcional. Sus conceptos son un requisito previo crucial para comprender la teoría detrás de la ciencia de datos. El científico de datos no necesita comprender el álgebra lineal antes de comenzar con la ciencia de datos, pero en algún momento es necesario comprender cómo funcionan realmente los diferentes algoritmos, en este notebook se tratan las operaciones básicas de algebra lineal que podemos encontrar detras de los algoritmos de machine learning.

Para trabajar con álgebra en Python se utiliza el módulo `NumPy`, que es una biblioteca que da soporte para crear vectores y matrices grandes multidimensionales, junto con una gran colección de funciones matemáticas de alto nivel para operar con ellas.

Adicionalmente, `NumPy` está construido sobre librerías de C y Fortran que tienen un largo recorrido en el mundo del algebra lineal y que por lo tanto están muy optimizadas, esto se traduce en que los métodos de `NumPy`suelen ser mucho más eficientes en comparación con otros.

In [2]:
import numpy as np

## 1.2. Elementos del álgebra lineal

Existen diferentes tipos de objetos o estructuras de datos dentro del algebra lineal:

- Escalar: número
- Vector: lista de números
- Matrix: lista bidimensional de números
- Tensor: lista n-dimensional de números, donde n > 2

En `numpy` a las listas se le denomina *array*:

<img src="_images\numpy_array_dimensions.png" alt="Drawing" style="width: 400px;"/>

Los arrays tienen una característica muy especial y es que se encuentran referenciados en la memoria. Esto ocurre porque NumPy hace una gestión óptima de la memoria para ser más eficiente en las operaciones. Para crear una copia real de un array y no modificar el original, tendremos que utilizar el método `.copy()`.

### 1.2.1. Escalares

Un escalar es únicamente un número, a diferencia de la mayoría de los otros elementos del álgebra lineal que son conjuntos de valores como los vectores y matrices. Generalmente, por convención los escalares se escriben letra cursiva minúscula o usando el alfabeto griego.

Entre los principales conjuntos de escalares tenemos a:

- Números Naturales ($\mathbb{N}$): los números que se utilizan para contar los elementos de cualquier conjunto. (1, 2, 3, 4, …)
- Números Enteros ($\mathbb{Z}$): el conjunto de los números enteros está dado por el conjunto de los naturales, sus negativos y el cero. (…, -2, -1, 0, 1, 2, …)
- Números Reales ($\mathbb{R}$): el conjunto de los reales incluye tanto a los racionales como a los irracionales.

### 1.2.2. Vectores

Un vector es un arreglo de números. Un vector $v$ de $n$ componentes se define como un conjunto ordenado de $n$ números escrito de la siguiente forma:

- vector fila:

\begin{align}
v = (v_1, v_2, \ldots, v_n)
\end{align}

- vector columna:

\begin{align}
v = \begin{bmatrix}v_1\\v_2\\\vdots\\v_n\end{bmatrix}
\end{align}

Se puede crear un vector mediante la función `np.array(list)` del módulo `NumPy`, y pasando como argumento una lista.

In [3]:
## Crear un vector de 4 elementos horizontal

v = np.array([8, 0, 3, 1])

print(type(v))
print(v)

<class 'numpy.ndarray'>
[8 0 3 1]


In [4]:
## Crear un vector de 4 elementos vertical

v = np.array([[8], [0], [3], [1]])

print(type(v))
print(v)

<class 'numpy.ndarray'>
[[8]
 [0]
 [3]
 [1]]


In [19]:
print(v.shape)

(5,)


### 1.2.3. Matrices

Una matriz es un arreglo bi-dimensional de números. Cada elemento de la misma está identificado por dos índices, en lugar de uno como en los vectores. Usualmente, a una matriz la denotamos por una letra mayúscula en negrita.

\begin{align}
A = 
\begin{bmatrix}a_{11}&a_{12}&\ldots&a_{1j}&\ldots&a_{1n}\\
a_{21}&a_{22}&\ldots&a_{2j}&\ldots&a_{2n}\\
\vdots&\vdots& &\vdots& &\vdots\\
a_{i1}&a_{i2}&\ldots&a_{ij}&\ldots&a_{in}\\
\vdots&\vdots& &\vdots& &\vdots\\
a_{m1}&a_{m2}&\ldots&a_{mj}&\ldots&a_{mn}\end{bmatrix}\
\end{align}

Se puede crear una matriz mediante la función `np.array(list)` del módulo `NumPy`, y pasando como argumento una lista de listas, esta función devuelve un objeto del tipo *np.ndarray*; o del mismo modo mendiante el comando `np.mat(list)`, el cual devuelve un objeto *np.matrix*.

Las matrices (*np.matrix*) en `NumPy` son estrictamente bidimensionales, mientras que los arrays (*np.ndarray*) son n-dimensionales. Las matrices son una subclase de los arrays, por lo que heredan todos los atributos y métodos de los arrays.

La ventaja principal de las matrices es que permiten utilizar una notación más cómodo para realizar el producto matricial: si $A$ y $B$ son matrices entonces $A*B$ será el proucto matricial. En contraste a esto, los arrays soportan operaciones elemento a elemento (*element wise*), por lo que el resultado de $A*B$ será una matriz que contenga el producto de los elementos en la misma posición de cada array.

Tanto las matrices como los arrays tienen el método `.T` para obtener la transpuesta, pero solo las matrices tienen el método `.H` para la conjugada de la transpuesta, e `.I` paa obtener la inversa.

Se recomienda utilizar el tipo de objeto *np.ndarray* sobre el *np.matrix* de modo que siempre se trabaje con el mismo tipo de objeto.

In [6]:
## Crear una matriz de 3x3

A = np.array([[5, 4, 7], [3, 8, 1], [1, 1, 1]])

print(type(A))
print(A)

<class 'numpy.ndarray'>
[[5 4 7]
 [3 8 1]
 [1 1 1]]


In [8]:
A = np.mat(A)
print(type(A))

<class 'numpy.matrix'>


In [79]:
print(A.shape)

(3, 3)


### 1.2.4. Tensores

Existen diversos casos en los cuales se precisan mas de dos ejes para almacenar valores. En el caso general, una matriz con un número regular de ejes se lo conoce como tensor.

Simplificando mucho, un tensor sería un cubo de datos si el número de dimensiones es de 3, si las dimensiones son superiores a este valor no se puede representar en el mundo físico. El concepto es difícil de imaginar, ya que nosotros únicamente percibimos 3 dimensiones, pero si lo entendemos como una ramificación en dónde por cada elemento ahora hay otra lista con dos elementos, entonces no es tan imposible hacernos una idea.

In [10]:
## Crear un tensor de 2x2x3

T = np.array([[[1, 2, 3], [5, 6, 7]],
              [[8, 9, 10], [11, 12, 13]]])

print(type(T))
print(T)

<class 'numpy.ndarray'>
[[[ 1  2  3]
  [ 5  6  7]]

 [[ 8  9 10]
  [11 12 13]]]


In [11]:
print(T.shape)

(2, 2, 3)


## 1.3. Operaciones algebraicas

A continuación se muestran algunas de las operaciones algebraicas más útiles y frecuentes que se pueden realizar con vectores y matrices. Adicionalmente, se analizan algunas de las factorizaciones de matrices más famosas y que suelen ser empleadas en algoritmos de machine learning.

### 1.3.1. Operaciones con vectores

**Index y slicing:**

Al igual que con las listas, se puede extraer elementos de un vector en `numpy` indicando que posición (*index*) ocupan dentro de una lista.

In [49]:
v = np.array([1, 0, 1,])
v[0], v[-1], v[::-1]

(1, 1, array([1, 0, 1]))

**Multiplicación escalar:**

Consiste en multiplicar un vector $v$ por un escalar $\alpha \in \mathbb{R}$, el resultado es el de multiplicar cada elemento del vector por ese escalar.

In [25]:
v = np.array([8, 0, 3, 1, 5])
v*2

array([16,  0,  6,  2, 10])

**Suma de vectores:**

La suma o resta de vectores se realiza elemento a elemento (*element wise*). Para ello se emplean los símbolos habituales de adición y sustracción (`+/-`).

In [27]:
v = np.array([1, 0, 1,])
w = np.array([1, -2, 1,])

v + w

array([ 2, -2,  2])

In [28]:
v = np.array([1, 0, 1,])
w = np.array([1, -2, 1,])

v - w

array([0, 2, 0])

**Producto escalar:**

El producto escalar, o también conocido como producto punto (*dot product*), consiste en multiplicar un vector por otro, el resultado es un escalar. La interpretación de esta operación, es la proyección de un vector $v$, sobre un vector $w$.

Para obtener el producto escalar de los vectores $v$ y $w$ se emplea la siguiente fórmula:

\begin{equation*}
v·w = \sum v_iw_i = |v||w|\cos\theta
\end{equation*}

De la fórmula anterior y la interpretación geométrica del producto escalar, el cual es la proyección de un vector $v$ sobre un vector $w$, se puede extraer que si estos vectores son ortogonales ($\cos 90º = 0$) el producto será nulo.

En `numpy` se ejecuta mediante la función `np.dot(v1, v2)`.

In [26]:
v = np.array([1, 0, 1,])
w = np.array([1, -2, 1,])

np.dot(v, w)

2

### 1.3.2. Operaciones con matrices

**Index y slicing:**

Al igual que con las listas, se pueden extraer elementos en `numpy` indicando la posición (*index*) que ocupa ese elemento dentro de un array. Cuando se quiera realizar slicing en una matriz, al trabajar con dos dimensiones, se deben pasar dos argumentos separados por comas, siendo el primero de ellos el relativo a las filas y el segundo a las columnas.

In [50]:
## Index
A = np.array([[5, 4, 7], [3, 8, 1], [1, 1, 1]])
A[0], A[0][1]

(array([5, 4, 7]), 4)

In [52]:
## Slicing
A = np.array([[5, 4, 7], [3, 8, 1], [1, 1, 1]])
A[:2,:], A[-1, 1:]

(array([[5, 4, 7],
        [3, 8, 1]]),
 array([1, 1]))

**Matriz transpuesta:**

La matriz transpuesta de una matriz $A$ se denota por $A^T$, y se obtiene cambiando sus filas por columnas (o viceversa). De este modo un elemento que ocupaba la posición $A_{ij}$, pasa a ocupar la posición $A_{ji}$:

$A_{ij}^T = A_{ji}$

La transposición de matrices tiene las siguientes propiedades:

- $(A^T)^T = A$
- $(A+B)^T = A^T+B^T$
- $(AB)^T = A^TB^T$

Aunque es más dificil visualizarlo, también se pueden transponer matrices de dimensiones supeiores 2.

En `numpy` se puede transponer una matriz mediante el método `.T` o `.transpose()`.

In [5]:
A = np.random.randint(10, size = (5, 3))
A

array([[7, 7, 6],
       [3, 3, 4],
       [2, 4, 9],
       [6, 2, 7],
       [9, 3, 6]])

In [6]:
A.T

array([[7, 3, 2, 6, 9],
       [7, 3, 4, 2, 3],
       [6, 4, 9, 7, 6]])

In [7]:
A.T.T

array([[7, 7, 6],
       [3, 3, 4],
       [2, 4, 9],
       [6, 2, 7],
       [9, 3, 6]])

**Matriz de ceros:**

Mediante el el comando `np.zeros()` se puede crear una matriz llena de ceros.

In [8]:
zero_matrix = np.zeros((3, 2))
zero_matrix

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

**Matriz de unos:**

Mediante el el comando `np.ones()` se puede crear una matriz llena de unos.

In [56]:
ones_matrix = np.ones((3, 2))
ones_matrix

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

**Matriz identidad:**

La matriz identidad $I_{n}$, es una matriz cuadrada de dimensiones $n · n$, que tiene como elementos de su diagonal valores 1, y el resto de elementos de la matriz valor 0. 

Para obtener una matriz identidad de dimensiones $n · n$ se utiliza el comando `np.identity(n)`, por defecto utiliza floats para cada elemento de la matriz, se pueden definir como enteros utilizando el argumento `dtype = int`.

In [36]:
I = np.identity(4, dtype = int)
I

array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1]])

In [35]:
I = np.eye(4, dtype = int)
I

array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1]])

Un aspecto importante de la matriz identidad, es que a pesar de que el producto de matrices no tiene propiedad conmutativa, la matriz identidad si que la tiene.

Propiedades del producto matricial con la matriz identidad:

- Conmutativo: $A·I_{n} \neq I_{n}·A$

**Multiplicación por un escalar:**

Cuando multiplicamos un escalar por una matriz, cada uno de los elementos de la matriz es multiplicado por el escalar $\alpha \in \mathbb{R}$. Como todas las operaciones relacionados con signos aritméticos (`+`, `-`, `/`, `*`, `**`, `cos`..etc) éstas trabajan de modo *element wise* sobre los los arrays. 

Propiedades de la multiplicación por un escalar:

- Conmutativa: $\alpha·A = A·\alpha$

In [13]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

2*A, A*2

(array([[ 2,  4,  6],
        [ 8, 10, 12],
        [14, 16, 18]]),
 array([[ 2,  4,  6],
        [ 8, 10, 12],
        [14, 16, 18]]))

Esta operación produce el mismo resultado independientemente de que la matriz sea un objeto del tipo *np.matrix* o *np.ndarray*.

**Suma de matrices:**

Para poder sumar (o restar) dos matrices $A$ y $B$, éstas tienen que tener la misma dimensión puesto que la suma (o resta) se calcula sumando (o restando) los elementos de la misma posición.

Propiedades de la suma de matrices:

- Conmutativa: $A+B = B+A$
- Asociativa: $A+(B+C)=(A+B)+C$
- Distributiva escalar: $\alpha·(A+B)=\alpha·A+\alpha·B $

In [10]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
B = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

A+B, B+A, A-B

(array([[ 2,  4,  6],
        [ 8, 10, 12],
        [14, 16, 18]]),
 array([[ 2,  4,  6],
        [ 8, 10, 12],
        [14, 16, 18]]),
 array([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]]))

**Producto escalar de matrices:**

También conocido como producto punto (*dot product*) o producto matricial, es una operación un poco más compleja. Sean las matrices $A$ de dimensiones $m·n$, y $B$ de dimensiones $n·p$, el número de columnas de $A$ debe coincidier con el número de filas de $B$. Esto se debe a que el producto matricial se calcula como el producto escalar de las filas de la matriz $A$, por las columnas de $B$.

<img src="_images\matrix_product.png" alt="Drawing" style="width: 150px;"/>

Propiedades del producto matricial:

- No conmutativo: $A·B \neq B·A$
- Asociativo: $A·(B·C)=(A·B)·C$
- Distributiva de la suma izquierda: $A·(B+A)=A·B+A·C$
- Distributiva de la suma derecha: $(A+B)·C=A·C+B·C$

In [100]:
A = np.array([[1, 2, 1], [2, -1, 0], [1, 0, 0]])
B = np.array([[1, 2, 3], [0, -1, 1], [3, -1, 0]])

A.dot(B), A*B

(array([[ 4, -1,  5],
        [ 2,  5,  5],
        [ 1,  2,  3]]),
 array([[1, 4, 3],
        [0, 1, 0],
        [3, 0, 0]]))

In [14]:
A = np.mat(np.array([[1, 2, 1], [2, -1, 0], [1, 0, 0]]))
B = np.mat(np.array([[1, 2, 3], [0, -1, 1], [3, -1, 0]]))

A.dot(B), A*B

(matrix([[ 4, -1,  5],
         [ 2,  5,  5],
         [ 1,  2,  3]]),
 matrix([[ 4, -1,  5],
         [ 2,  5,  5],
         [ 1,  2,  3]]))

Como se puede observar en los dos ejemplos, si utilizamos un objeto del tipo *np.ndarray* solo se podrá utilizar el método `.dot()`; mientras que si los objetos son del tipo *np.matrix* se podrá emplear tanto el método `.dot()` como `*`.

**Determinante de una matriz:**

La función determinante es de gran importancia en el álgebra ya que, por ejemplo, nos permite saber si una matriz es regular (si tiene inversa) y, por tanto, si un sistema de ecuaciones lineales tiene solución. El determinante de una matriz $A$ se denota como $|A|$.

Una forma de interpretar el determinante de una matriz cuadrada sería suponer que cada una de sus filas corresponde a las coordenadas de un vector. Siendo entonces el determinante de la matriz el área, volumen o N-volumen que está confinado dentro del prisma N-rectangular que se puede construir con dichos vectores.

Los determinantes tienen las siguientes propiedades:

- $det(A) = det(A^T)$
- $det(A^{-1}) = det(A)^{-1}$
- $det(AB) = det(A)·det(B)$

El determinante de una matriz de dimensiones 1x1 es el valor de su único elemento. Para una matriz de dimensiones 2x2 el determinante se calcula del siguiente modo:

\begin{align}
A = 
\begin{bmatrix}a_{11}&a_{12}\\
a_{21}&a_{22}\end{bmatrix}\
\hspace{1cm} |A| = a_{11}·a_{22} - a_{12}·a_{21}
\end{align}

Para una matriz de dimensiones 3x3 el determinante se calcula del siguiente modo:

\begin{align}
A = 
\begin{bmatrix}a_{11}&a_{12}&a_{13}\\
a_{21}&a_{22}&a_{23}\\
a_{31}&a_{32}&a_{33}\end{bmatrix}\
\end{align}

\begin{align}
|A| = a_{11}·a_{22}·a_{33} + a_{12}·a_{23}·a_{31} + a_{21}·a_{32}·a_{13} - a_{13}·a_{22}·a_{31} - a_{12}·a_{21}·a_{33} - a_{11}·a_{23}·a_{32} 
\end{align}

Para matrices cuadradas de dimensiones mayores se emplea la regla de Laplace, para el desarrollo por la fila $i$ de la matriz $A$ es:

\begin{align}
|A| = \sum_{j=1}^n a_{ij}·(-1)^{i+j}·|A_{ij}|
\end{align}

siendo $a_{ij}$ los elementos de la fila $i$, y $A_{ij}$ la matriz que se obtiene de eliminar la fila $i$ y la columna $j$ de la matriz $A$. Una buena práctica es escoger siempre la fila o la columna que más 0's tenga (en caso de haberlos), para evitar tantas operaciones.

Para obtener el determinante de una matriz se emplea la función `np.linalg.det()`.

In [20]:
A = np.array([[3, 3,], [1, 0]])
np.linalg.det(A)

-3.0000000000000004

In [16]:
A = np.array([[1, 2, 1], [2, -1, 0], [1, 0, 0]])
np.linalg.det(A)

1.0000000000000002

**Matriz inversa:**

La matriz inversa $A^{-1}$, de una matriz $A$, es aquella que verifica la expresión $AA^{-1} = A^{-1}A = I_n$. Es decir, la matriz inversa de A es la única matriz que al multiplicarla por ella obtenemos la matriz identidad del orden correspondiente.

La matriz inversa de $A$ es:

$A^{-1} = \frac{1}{|A|} Adj (A^T)$

donde $|A|$ es el determinante de $A$; y $Adj(A^T)$, la matriz adjunta de la transpuesta de $A$. De la expresión anterior podemos deducir que solamente tienen inversa las matrices cuadradas cuyo determinante es distinto de cero.

Propiedades de la matriz inversa:

- $(AB)^{-1} = A^{-1}B^{-1}$
- $(A^T)^{-1} = (A^{-1})^{T}$
- $(A^{-1})^{-1} = A$

La inversa de una matriz en Python se puede obtener de dos formas:

- Mediante el método `.I`, es necesario que el tipo de objeto sea *np.matrix*.
- Mediante la función `np.linalg.inv(A)` si el tipo de objeto es *np.ndarray* o *np.matrix*.

In [76]:
## Inversa de un matriz (np.matrix)
A = np.mat(np.array([[5, 4, 7], [3, 8, 1], [1, 1, 1]]))
A_inv = A.I
A_inv, A_inv*A

(matrix([[-0.875, -0.375,  6.5  ],
         [ 0.25 ,  0.25 , -2.   ],
         [ 0.625,  0.125, -3.5  ]]),
 matrix([[ 1.0000000e+00, -8.8817842e-16,  0.0000000e+00],
         [ 0.0000000e+00,  1.0000000e+00,  0.0000000e+00],
         [ 4.4408921e-16,  0.0000000e+00,  1.0000000e+00]]))

In [75]:
## Inversa de un array (np.ndarray)
A = np.array([[5, 4, 7], [3, 8, 1], [1, 1, 1]])
A_inv = np.linalg.inv(A)
A_inv, A_inv.dot(A)

(array([[-0.875, -0.375,  6.5  ],
        [ 0.25 ,  0.25 , -2.   ],
        [ 0.625,  0.125, -3.5  ]]),
 array([[ 1.0000000e+00, -8.8817842e-16,  0.0000000e+00],
        [ 0.0000000e+00,  1.0000000e+00,  0.0000000e+00],
        [ 4.4408921e-16,  0.0000000e+00,  1.0000000e+00]]))

### 1.3.3. Conjuntos ortogonales y bases ortonormales

**Conjunto ortogonal:**

Un conjunto de vectores $\left\lbrace v_1, v_2, \ldots, v_n \right\rbrace \in \mathbb{R^n}$ se denomina conjunto ortogonal si cada par de vectores diferentes del conjunto es ortogonal, es decir, si $v_i·v_j = 0$ para $i \neq j$.

Si todos los vectores de un conjuntos son ortogonales y no nulos, entonces los vectores son linealmente independientes entre sí. Esto no sucede a la inversa, ya que vectores linealmente independientes no tienen por qué ser ortogonales.

In [5]:
## Dados tres vectores, comprobar que son ortogonales

v_1 = np.array([3, 1, 1])
v_2 = np.array([-1, 2, 1])
v_3 = np.array([-1, -4, 7])

if v_1.dot(v_2) == v_1.dot(v_3) == v_2.dot(v_3) == 0:
    print('Son vectores ortogonales.')

Son vectores ortogonales.


**Conjunto ortonormal:**

Un conjunto de vectores $\left\lbrace v_1, v_2, \ldots, v_n \right\rbrace \in \mathbb{R^n}$ se denomina conjunto ortonormal si es un conjunto de vectores ortogonales unitarios (módulo unidad).

Se puede obtener un conjunto ortonormal de vectores a partir de un conjunto ortogonal dividiendo cada vector $v_i$ por su módulo $|v_i|$.

**Matriz ortogonal:**

Una matriz $A$ de dimensiones $m·n$ es ortogonal, si y solo si, sus vectores filas o vectores columna son cada uno un conjunto ortonormal de vectores.

La característica principal de una matriz ortogonal, es que el producto de la matriz $A$, por su traspuesta $A^T$, es la matriz identidad; es decir, la matriz traspuesta $A^T$ es la matriz inversa $A^{-1}$.

$AA^T = AA^{-1} = I$

**Método de Gram - Schmidt**:

El método de Gram-Schmidt es un algoritmo simple para obtener una base ortogonal (u ortonormal, normalizando los nuevos vectores) a partir de otra que no lo es.

El proceso se basa en un resultado de la geometría euclídea, el cual establece que la diferencia entre un vector $v$ y su proyección sobre otro vector $u$, es perpendicular al vector $u$. Este algoritmo escoge un vector aleatorio como base, y partir de este empieza a perpendicular el resto de vectores de la base hasta que todo son ortogonales entre sí.

Sea una base $v = \left\lbrace v_1, v_2, \ldots, v_n \right\rbrace$ del espacio de dimensión $n$, definimos una base ortogonal $u = \left\lbrace u_1, u_2, \ldots, u_n \right\rbrace$ del siguiente modo:

\begin{align*}
&u_1 = v_1 \\
&u_2 = v_2 - \frac{v_2u_1}{u_1u_1}u_1 \\
&u_3 = v_3 - \frac{v_3u_1}{u_1u_1}u_1 - \frac{v_3u_2}{u_2u_2}u_2 \\
&\vdots \\
&u_n = v_n - \frac{v_nu_1}{u_1u_1}u_1 - \frac{v_nu_2}{u_2u_2}u_2 - \ldots - \frac{v_nu_{n-1}}{u_{n-1}u_{n-1}}u_{n-1} 
\end{align*}

### 1.3.4. Autovalores y autovectores de una matriz - Eigenstuff

En alemán, el término *eigen* significa propio o característico, por lo que en este apartado se estudian los valores y vectores que caracterizan una matriz.

Dada una matriz $A \in \mathbb{R}^{nxn}$, $\lambda \in \mathbb{R}$ es autovalor de $A$, si y solo si existe un vector $v \in \mathbb{R}^{nx1}$ no nulo tal que $A·v = \lambda·v$, siendo $v \neq 0_v$. Siendo:

- $\lambda$: autovector, es un número escalar
- $v$: autovector asociado al autovalor $\lambda$

Un autovector es un véctor dentro de un espacio que mantiene la misma dirección después de haber sufrido una transformación lineal definida por una matriz $A$. Aunque el autovector mantiene la dirección puede sufrir una contracción o dilatación de su módulo, el factor por el que aumenta o disminuye su tamaño es el el autovalor $\lambda$.

Para obtener los autovalores $\lambda$ de una matriz $A$ se debe resolver la ecuación $A·v = \lambda·v$ del siguiente modo:

\begin{align}
(A-\lambda I_n)·v = 0_v 
\end{align}

Dado que $v \neq 0_v$, resulta en un sistema homogéneo con $n$ ecuaciones y $n$ incógnitas, donde $(A-\lambda I_n)$ es la matriz de los coeficientes. Para obtener los autovalores se realiza el determinante de la matriz que da la ecuación característica de la matriz, y se iguala a cero. Esta ecuación es un polinomio de grado $n$, cuyas raíces son los autovalores.

Ejemplo del determinante de una matriz de grado 3:

\begin{align}
|A-\lambda I| = 
\begin{bmatrix}a_{11}-\lambda&a_{12}&a_{13}\\
a_{21}&a_{22}-\lambda&a_{23}\\
a_{31}&a_{32}&a_{33}-\lambda\end{bmatrix}\ = 0
\end{align}

Para obtener los autovectores asociados a cada autovalor, se sutituye $\lambda$ en la ecuación $(A-\lambda I_n)·v = 0_v$ y se resuleve el sistema. Como la solución es un sistema compatible indeterminado (SCI), se despejan las variables en función de los parámetros $\alpha$, $\beta$, ..etc, y se hallan las bases de la solución, que se corresponden con los autovectores.

In [23]:
## Ejemplo:

## Supongamos que tenemos en el plano xy un cuadrado de lado 1 definido por los puntos $(0,0), (0,1), (1,0)$ y $(1,1)$, el area definida por estos 4 puntos lo denominamos el espacio $R$. Tenemos también una matriz $A$ que define la transformación lineal a aplicar en este espacio $R$, y que lo convierte en $R'$. Queremos analizar si alguno de los vectores contenido en este espacio $R$, se mantiene igual despues de transformarlo mediante la matriz $A$.

## Matriz A de la transformación lineal
A = np.array([[3, 2], [1, 4]])

## Vectores principales dentro de un cuadrado de lado 1
v_1 = np.array([0, 0])
v_2 = np.array([1, 0])
v_3 = np.array([0, 1])
v_4 = np.array([1, 1])

vectors = [v_1, v_2, v_3, v_4]

## Aplicamos a cada vector la transformación definida por la matriz A
trans_vectors = []

for vector in vectors:
    trans_vectors.append(A.dot(vector))
    
print(trans_vectors)

##El único véctor que ha mantenido su dirección ha sido el $v_4$, sus componentes se han tranformado de $(1,1)$ a $(5,5)$, lo que es equivalente a multiplicar el vector por un escalar de valor 5, por lo tanto, 5 es un autovalor de la matriz $A$, y el vector $(1,1)$ asciado es un autovector.

[array([0, 0]), array([3, 1]), array([2, 4]), array([5, 5])]


Se pueden obtener los autovalores y autovectores de una matriz mediante el comando `np.linalg.eig()`. Con el comando `np.linalg.eigvals()` solo se devuelven los autovalores.

In [26]:
A = np.array([[3, 2], [1, 4]])
w = np.linalg.eigvals(A)
w

array([2., 5.])

In [37]:
A = np.array([[3, 2], [1, 4]])
w, P = np.linalg.eig(A)
w, P

(array([2., 5.]),
 array([[-0.89442719, -0.70710678],
        [ 0.4472136 , -0.70710678]]))

> *Nota: los autovectores se devuleven en columnas.*

### 1.3.5. Factorización de matrices

**Factorización QR:**

Si $A$ es una matriz $m·n$ con columnas linealmente independientes, entonces $A$ puede ser factorizada de la forma $A = Q R$, donde $Q$ es una matriz $m·n$ cuyas columnas forman una base ortonormal de C(A) y $R$ es una matriz $n·n$ triangular superior e invertible con componentes positivas en su diagonal principal.

Es posible utilizar la descomposición QR para encontrar el valor absoluto del determinante de una matriz:

$det(A)=det(Q)·det(R)=det(R)$

El primer paso es obtener la matriz ortonormal $Q$ mediante el método de Gram-Schmidt. Una vez se tiene la matriz $Q$, se puede utilizar su transpuesta que es la inversa, para despejar la matriz $R$.

$A = QR \to R = Q^TA $

In [42]:
A = np.array([[1, 0, 0],
              [1, 1, 0],
              [1, 1, 1]])

Q, R = np.linalg.qr(A)

print(Q)
print(R)

[[-5.77350269e-01  8.16496581e-01 -8.75605293e-17]
 [-5.77350269e-01 -4.08248290e-01 -7.07106781e-01]
 [-5.77350269e-01 -4.08248290e-01  7.07106781e-01]]
[[-1.73205081 -1.15470054 -0.57735027]
 [ 0.         -0.81649658 -0.40824829]
 [ 0.          0.          0.70710678]]


In [43]:
Q.dot(R)

array([[ 1.00000000e+00,  0.00000000e+00,  4.91076584e-17],
       [ 1.00000000e+00,  1.00000000e+00, -1.00875766e-16],
       [ 1.00000000e+00,  1.00000000e+00,  1.00000000e+00]])

**Diagonalización de matrices:**

Dada una matriz cuadrada $A \in \mathbb{R}^{nxn}$, se dice que es diagonalizable, si cumple $A = PDP^{_1}$. Siendo $P$ una matriz formada por los autovectores colocados en columnas, y $D$, una matriz diagonal cuya traza son los autovalores. Para que $A$ se pueda diagonalizar, sus n-autovectores deben ser linealmente independientes.

Una de las aplicaciones principales de la diagonalización de matrices, es que facilitan el cálculo de potencias de matrices. 

$A = PDP^{-1}$

$A^2 = PDP^{-1}PDP^{-1} = PD^2P^{-1}$

$A^n = PD^nP^{-1}$

In [40]:
## Matriz a la cuarta potencia de forma "manual"
A = np.array([[3, 2], [1, 4]])
A.dot(A).dot(A).dot(A)

array([[219, 406],
       [203, 422]])

In [41]:
## Matriz a la cuarta potencia mediante diagonalización
A = np.array([[3, 2], [1, 4]])
v, P = np.linalg.eig(A)                  # Se define P como la matriz formada por los autovectores
D = np.diag(v)                           # Se define D como la matriz diagoncal cuya traza son los autovalores
P_inv = np.linalg.inv(P)                 # Calculamos la matriz inversa de P

P.dot(D**4).dot(P_inv)                   # P·D^4·P_inv

array([[219., 406.],
       [203., 422.]])

**Descomposición en valores singulares - SVD:**

La Descomposición en Valores Singulares (Singular Value Decomposition, SVD) es uno de los métodos de factorización más conocidos y empleados.

Toda matriz $A \in \mathbb{R}^{mxn} \forall m\geq n$, puede ser descompuesta por el producto de tres matrices siguiendo la siguiente expresión: $A = U\Sigma V^T$:

<img src="_images\svd_1.png" alt="Drawing" style="width: 400px;"/>

Siendo:

- $V^T$: matriz cuadrada ortogonal de dimensones $\mathbb{R}^{nxn}$, con los $n$ vectores singulares por la derecha. La matriz $V^T$ es la formada por los autovectores normalizados $v_i$ en columnas de la matriz $A^TA$, siendo la primera columna el autovector asociado al autovalor mayor. 

- $\Sigma$: matriz diagonal de dimensiones $\mathbb{R}^{mxn}$, cuyos elementos de la diagonal principal representan a los valores singulares. Dichos valores son no negativos y están ordenados de forma decreciente. La matriz $\Sigma$ es la formada por los valores singulares $\sigma_i$ de la matriz $A^TA$, ordenados de mayor a menor.

> *Si $A$ es una matriz m × n, los valores singulares de $A$ son las raíces cuadradas de los autovalores de $A^TA$, y se denotan mediante $\sigma_1$, ... , $\sigma_n$. Es una convención acomodar los valores singulares de modo que $\sigma_1$ ≥ $\sigma_2$ ≥ . . . ≥ $\sigma_n$.*

- $U$: matriz cuadrada ortogonal de dimensones $\mathbb{R}^{mxm}$, con los $m$ vectores singulares por la izquierda. La matriz $U$ es la formada por vectores en columna, fruto de la expresión $u_i=\frac{1}{\sigma_i}Av_i$.

La idea geométrica de que debe existir una descomposición de este tipo para cualquier matriz parte de la observación de que una matriz cualquiera transforma circunferencias en elipses. No es trivial en principio probar este resultado intuitivo (o experimental si se quiere) y justamente la idea que nos lleva a la SVD es aislar las direcciones de los ejes principales de las elipses que obtenemos al aplicar una transformación lineal $A$ sobre una circunferencia.

<img src="_images\svd_2.png" alt="Drawing" style="width: 300px;"/>

Python permite realizar de forma sencilla esta factorización mediante la función `np.linalg.svd(matrix)`, devolviendo tres outputs que se corresponden respectivamente con la matriz $U$, una lista con los valores singulares, y la matriz $V$.

In [3]:
A = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

In [5]:
U, d, V = np.linalg.svd(A)
print(U)
print(d)
print(V)

[[-0.21483724  0.88723069  0.40824829]
 [-0.52058739  0.24964395 -0.81649658]
 [-0.82633754 -0.38794278  0.40824829]]
[1.68481034e+01 1.06836951e+00 3.33475287e-16]
[[-0.47967118 -0.57236779 -0.66506441]
 [-0.77669099 -0.07568647  0.62531805]
 [-0.40824829  0.81649658 -0.40824829]]


In [6]:
U.dot(np.diag(d)).dot(V)

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

# 2. Ejercicios de álgebra

In [30]:
## 1. En una granja existen dos tipos de animales, cerdos y gallinas. El granjero dice que tiene 4 cabezas y 10 patas, ¿cuántos animales hay en la granja?

A = np.array([[1, 1], [4, 2]])
b = np.array([4, 10])

## A·x = b --> inv(A)·A·x = inv(A)·b --> x = inv(A)·b

x = np.linalg.inv(A).dot(b)
x

array([1., 3.])

# 3. Bibliografía

- Research Article: Linear Algebra – A Powerful Tool for Data Science. Hasheema Ishchi.
- https://numpy.org/
- https://aga.frba.utn.edu.ar/autovalores-autovectores-definiciones-propiedades/