<small><img src=https://raw.githubusercontent.com/ia4legos/MachineLearning/main/images/IASAC-UMH.png width="450" height="200"></small>

# <font color="steelblue">Introducción al álgebra lineal</font>

**Autoría**: 

*   Fernando Borrás (f.borras@umh.es)
*   Federico Botella (federico@umh.es)
*   Inés Hernández (ineshp@umh.es)
*   Mª Asunción Martínez Mayoral (asun.mayoral@umh.es)
*   Josep Moltó (j.molto@umh.es)
*   Javier Morales (j.morales@umh.es) 

Departamento de Estadística, Matemáticas e Informática. 

Universidad Miguel Hernández de Elche. 


**Financiación**: El material que aparece a continuación se ha desarrollado dentro del marco del proyecto UNIDIGITAL- IASAC.

**Fecha última edición**: 31/05/2022

**Licencia**: <small><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br /></small>

No olvides hacer una copia si deseas utilizarlo. Al usar estos contenidos, acepta nuestros términos de uso y nuestra política de privacidad. 


# <font color="steelblue">Introducción</font>


**Descripción:** En este cuaderno se hace una pequeña introducción al álgebra lineal necesaria en los diferentes algoritmos de aprendizaje automático que estudiaremos más adelante.

**Nivel de Formación:** B.

**Recomendaciones antes de usarlo:** Conocimientos básicos del lenguaje Python, álgebra lineal y del módulo Numpy.

**Objetivos de aprendizaje:**

* Repasar los conceptos de álgebra matricial necesarios para el desarrollo de algoritmos de aprendizaje automático.



## <font color="steelblue">Contenidos</font>

1. Álgebra lineal.
2. Escalares, Vectores, Matrices y Tensores.
3. Vectores y matrices especiales.
4. Operaciones con vectores.
5. Operacones con matrices.
6. Características de una matriz.

# <font color="steelblue">Álgebra lineal</font>

El álgebra lineal es al aprendizaje automático como la harina a la panadería: todo modelo de aprendizaje automático se basa en el álgebra lineal, como todo pastel se basa en la harina. No es el único ingrediente, por supuesto. Los modelos de aprendizaje automático necesitan el cálculo vectorial, la probabilidad y la optimización, como los pasteles necesitan azúcar, huevos y mantequilla. El aprendizaje automático aplicado, al igual que la pastelería, consiste esencialmente en combinar estos ingredientes matemáticos de forma inteligente para crear modelos útiles.

Este documento contiene los fundamentos de álgebra lineal a nivel introductorio para el aprendizaje automático aplicado. Está pensado como una referencia más que como una revisión exhaustiva.

Para mostrar como realizar los cálculos involucrados en Python utilizamos las librerías más habituales como son `numpy` y `Scipy`. Para desarrollos más complejos se aconsjea acudir a las librerías `Pytorch` y `TensorFlow`.

In [None]:
import numpy as np

# <font color="steelblue">Escalares, Vectores, Matrices y Tensores</font>

El estudio del álgebra lineal implica varios tipos de objetos matemáticos:

**Escalares**: Un escalar es un número único. Normalmente, los escalares se denominan con minúsculas y, cuando los introducimos, especificamos qué tipo de número son. Podemos decir $a \in \mathbb{R}$ para indicar que $a$ es un número real, o $a \in \mathbb{N}$ para indicar que $a$ es un número natural.

In [None]:
# Definendo un escalar real
a = 7.5
a

7.5

**Vectores**: Un vector es una secuencia ordenada o desordenada de números, de forma que cada uno de ellos se puede identificar según la posición que ocupa en la secuencia. Los vectores se notan mediante una letra minúscula en negrita y cada uno de los elementos se identifica mediante la misma letra y un subíndice en función de la posición que ocupa. De esta forma:

$$\mathbf{x} = [x_1, x_2,...,x_n]$$

representa al vector $\mathbf{x}$  de dimensión $n$ (1 fila y $n$ columnas). En términos de análisis geométrico un vector de dimensión $n$ puede ser visto como las coordenadas de un punto en el espacio $\mathbb{R}^n$. 

In [None]:
# Definimos un vector de dimensión 4
x = np.array([-1.1,0.0,3.6,-7.2])
x

array([-1.1,  0. ,  3.6, -7.2])

**Matrices**: Una matriz es una estructura bidimensional de números, donde cada elemento se identifica por dos índices en lugar de uno solo (fila y columna). Solemos dar a las matrices nombres de variables en mayúsculas y en negrita, como $\mathbf{A}$. Si la matriz tiene $m$ filas y $n$ columnas entonces diremos que $\mathbf{A} \in \mathbb{R}^{m\times n}$. En la notación habitual tenemos que:

$$\mathbf{A} = 
\begin{bmatrix}
a_{11} & a_{12} & ... & a_{1n}\\
a_{21} & a_{22} & ... & a_{2n}\\
... & ... & ... & ...\\
a_{m1} & a_{m2} & ... & a_{mn}
\end{bmatrix}
$$

representa a la matriz $\mathbf{A}$ de dimensiones $m \times n$ o de forma simplificada escribimos $\mathbf{A} = \{a_{ij}\}_{m,n}$.

En Python podemos definir una matriz mediante la función array concatenando los vectores necesarios para alcanzar el número de filas deseado.


In [None]:
# Definimos una matriz de dimensiones 3X4 (concatenamos tres vectores de dimensión 4)
A = np.matrix([[0.0, 1.0, -2.3, 0.1], 
               [1.3, 4.0, -0.1, 0.0],
               [4.1,-1.0, 0.0, 1.7]])
A

matrix([[ 0. ,  1. , -2.3,  0.1],
        [ 1.3,  4. , -0.1,  0. ],
        [ 4.1, -1. ,  0. ,  1.7]])

**Tensores**. Los tensores son la generalización de las matrices o arrays a estructuras de datos con más de dos dimensiones. Los tensores se denotan utilizando la misma nomenclatura que para las matrices pero añadiendo las dimensiones que correspondan. Por ejemplo $\mathbf{A}_{n,m,k}$ representa un array de tres componentes con dimensiones $n$, $m$, y $k$. 

In [None]:
# Definimos un tensor de dimensiones 3X3X3
A=np.array([[[1,2,3],[4,5,6],[7,8,9]],
            [[10,11,12],[13,14,15],[16,17,18]],
            [[19,20,21],[22,23,24],[25,26,27]]])
A

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]],

       [[19, 20, 21],
        [22, 23, 24],
        [25, 26, 27]]])

# <font color="steelblue">Vectores y matrices especiales</font>

Resulta muy habitual utilizar vectores y matrices con estructuras específicas, pero que son de gran utilidad en los cálculos computacionales involucrados en los algoritmos de aprendizaje automático. A continuación se presenta una colección de todos ellos con la función necesaria para su definición en Python.

## <font color="steelblue">Vectores</font>

**Vector de ceros**. Es un vector de dimensión $n$ donde todas sus componenetes toman el valor 0 que denotamos como $\mathbb{0}_n$. 

In [None]:
# Vector de ceros de dimensión 4
x = np.zeros(4)
x

array([0., 0., 0., 0.])

**Vector unitario**. Los vectores unitarios, son vectores compuestos por un solo elemento igual a uno, y el resto a cero. Los vectores unitarios son importantes para entender aplicaciones como las normas. Podemos definir un vector unitario utilizando un vector de ceros. Los vectores unitarios se denotan habitualmente como $\mathbf{u}_i$, donde el subíndice indica la posición del elemento igual a 1. 

In [None]:
# Vector unitario de dimensión 5 con un 1 en la primera posición (u_1)
i = 0; n = 5
ui = np.zeros(n)
ui[i] = 1
ui

array([1., 0., 0., 0., 0.])

**Vector de unos**. Es un vector donde todas su componentes son igual a 1. Estos vectores se denotan como $\mathbb{1}_n$

In [None]:
# Vector de unos de dimensión 6
np.ones(6)

array([1., 1., 1., 1., 1., 1.])

**Vector aleatorio**. Es un vector donde todas sus componentes son números aleatorios.

In [None]:
# Vector aleatorio de dimensión 5
np.random.randn(5)

array([ 2.37030009, -0.79212197, -0.78410983,  2.30812465, -1.74059548])

## <font color="steelblue">Matrices</font>

**Matriz de ceros**. Es una matriz donde todos los elementos son iguales a cero. En este caso debemos indicar las filas y columnas de la matriz y la denotamos como $\mathbf{0}_{m,n}$.

In [None]:
# matriz de ceros con dos filas y tres columnas
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

**Matriz de unos**. Es una matriz con todos sus elementos iguales a 1. Lo denotamos como $\mathbf{1}_{m,n}$.

In [None]:
# matriz de unos con dos filas y tres columnas
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

**Matriz identidad**. Es una matriz cuadrada (mismas filas y columnas) donde los elementos de la diagonal son iguales a 1 y el resto son cero. La matriz identidad de dimensión $n$ se denota por $\mathbf{I}_n$.

In [None]:
# Matriz identidad de dimensión 3
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

**Matriz aleatoria**. Es una matriz donde todos sus elementos son número aleatorios.

In [None]:
# Matriz aleatoria con dos filas y tres columnas
np.random.randn(2, 3)

array([[ 0.19084435,  0.63236869, -1.40811851],
       [-0.6237726 ,  0.58602612, -0.70088136]])

**Matriz diagonal**. Es una matriz cuadrada donde los elementos de la diagonal se corresponden con un vector de la misma dimensión que el número de filas de la matriz, y donde el resto de elementos son cero.

In [None]:
# Matriz diagonal a partir del vector x=[1, 2, 3]
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

**Matriz triangular inferior**. Una matriz cuadrada se dice triangular inferior si todos los elementos por encima de la diagonal son igual a cero. En el caso más sencillo todos los elementos de la diagonal y por debajo de ella son iguales a 1.

In [None]:
# Matriz tringular inferior de dimensiones 3*3
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

**Matriz traspuesta**. La matriz traspuesta de una matriz $\mathbf{A}$, que denotamos por $\mathbf{A}^T$, se obtiene al intercambiar filas y columnas en una matriz.

In [None]:
A = np.array([[0, 2, 1],
              [1, 4, 2]])
A.T

array([[0, 1],
       [2, 4],
       [1, 2]])

**Matriz simétrica**. Las matrices simétricas son la matrices cuadradas tales que $\mathbf{A} = \mathbf{A}^T$.

**Matriz antidiagonal**. Las matrices con todos los elementos iguales a cero salvo los de la antidiagonal se denomina matriz antidiagonal.

$$\mathbf{A} = 
\begin{bmatrix}
0 & 0 & 2\\
0 & 1 & 0\\
-1 & 0 & 0
\end{bmatrix}
$$

# <font color="steelblue">Operaciones con vectores</font>

Se presentan a continuación las operaciones algebráicas con vectores.

## <font color="steelblue">Operaciones elementales</font>

**Suma de vectores**. Dados dos vectores de dimensión $n$, $\mathbf{x} = [x_1,...,x_n]$ e $\mathbf{y} = [y_1,...,y_n]$, se define su suma como la suma/diferencia elemento a elemento:

$$\mathbf{x} + \mathbf{y} = [x_1+y_1,...,x_n+y_n]$$


Las propiedades fundamentales que verifican la suma de vectores son conmutatividad y asociatividad. 

In [None]:
# Definición de vectores
x = np.array([1, 3, 5, 7, 9])
y = np.array([0, 2, 4, 6, 8])
suma = x + y
print('La suma es:',suma)
resta = x - y
print('La resta es:',resta)

La suma es: [ 1  5  9 13 17]
La resta es: [1 1 1 1 1]


**Multiplicación por un escalar**. Dado un escalar $a \in \mathbb{R}$ y un vector $\mathbf{x} = [x_1,...,x_n] \in \mathbb{R}^n$, se define el producto entre ambos como:

$$a\mathbf{x} = [ax_1,...,ax_n]$$

Dados dos escalares $a \in \mathbb{R}$ y $b \in \mathbb{R}$, y dos vectores $\mathbf{x} \in \mathbb{R}^n$ e $\mathbf{y} \in \mathbb{R}^n$se verifican las propiedades siguientes:

* $(ab)\mathbf{x} = a(b\mathbf{x})$
* $(a + b)\mathbf{x} = a\mathbf{x} + b\mathbf{x}$
* $a(\mathbf{x} + \mathbf{y}) =a\mathbf{x} + a\mathbf{y}$


In [None]:
x = np.array([1, 3, 5, 7, 9])
a = 2
print(a*x)

[ 2  6 10 14 18]


**Vector traspuesto**. Dado un vector $\mathbf{x} = [x_1,...,x_n] \in \mathbb{R}^n$ se define su trapuesto, denotado por $\mathbf{x}^{T}$, como el intercambio de filas por columnas, es decir:

$$\mathbf{x}^{T} = 
\begin{bmatrix}
x_1\\
x_2\\
...\\
x_n
\end{bmatrix}$$

**Producto interno o producto escalar**. Dados dos  vectores $\mathbf{x} \in \mathbb{R}^n$ e $\mathbf{y} \in \mathbb{R}^n$, se define el producto interno o producto escalar como:

$$<\mathbf{x},\mathbf{y}> = \mathbf{x}\mathbf{y} = \sum_{i=1}^n x_iy_i.$$

In [None]:
# Definición de vectores
x = np.array([1, 3, 5, 7, 9])
y = np.array([0, 2, 4, 6, 8])
# Producto escalar
np.inner(x, y)

140

## <font color="steelblue">Norma de un vector</font>

La medición de vectores es otra operación importante en las aplicaciones de aprendizaje automático. Intuitivamente, podemos pensar en la norma o la longitud de un vector como la distancia entre su "origen" y su "final". Las normas mapean vectores a valores no negativos. En este sentido son funciones que asignan la longitud a un vector. A continuación, mostramos las propiedades que debe verificar una norma para ser considerada como tal y presentamos los tipos más utilizados. En todos los casos consderamos un vector $\mathbf{x} \in \mathbb{R}^n$.


Dado un escalar $a$ y dos vectores $\mathbf{x}$ e $\mathbf{y}$, las propiedades que debe cumplir una función para considerarse una norma son:

1. Homogeneidad absoluta

$$\|a\mathbf{x}\| = |a|\|\mathbf{x}\|$$

2. Desigualdad triangular

$$\|\mathbf{x} + \mathbf{y}\| \leq \|\mathbf{x}\| + \|\mathbf{y}\|$$

3. Definida positiva

$$\|\mathbf{x}\| \geq 0$$
$$\|\mathbf{x}\| =0 \Leftrightarrow \mathbf{x} = \mathbf{0}$$




### <font color="steelblue">Norma euclídea</font>

La norma euclidiana o norma $L_2$ es una de las normas más populares en el aprendizaje automático. Su uso está tan extendido que a veces se denomina simplemente "la norma" de un vector. Se define como:

$$\|\mathbf{x}\|_2 = \sqrt{ \sum_{i=1}^n x^2_i } = \sqrt{<x,x>}$$

In [None]:
# Definición de vector
x = np.array([1, 3, 5, 7, 9])
# norma euclídea
np.linalg.norm(x, 2)

12.84523257866513

A partir de ahora identificaremos la norma $L_2$ como $\|\mathbf{x}\|_2 = \|\mathbf{x}\|$

### <font color="steelblue">Norma Manhattan</font>

La norma de Manhattan o $L_1$ recibe su nombre por analogía con la medición de distancias al moverse en Manhattan, Nueva York. Como Manhattan tiene forma de cuadrícula, la distancia entre dos puntos cualesquiera se mide moviéndose en líneas verticales y horizontales (en lugar de diagonales como en la norma euclidiana). Se define como:

$$\|\mathbf{x}\|_1 = \sum_{i=1}^n |x_i|,$$

donde $|x_i|$ es el valor absoluto de la componente $i$. Se prefiere la norma $L_1$ cuando se discrimina entre elementos que son exactamente cero y elementos que son pequeños pero no cero.

In [None]:
# Definición de vector
x = np.array([1, 3, 5, 7, 9])
# norma manhattan
np.linalg.norm(x, 1)

25.0

### <font color="steelblue">Norma máxima</font>

La norma máxima o norma del infinito es simplemente el valor absoluto del mayor elemento del vector. Se define como:

$$\|\mathbf{x}\|_{\infty} = \underset{i}{max}  |x_i|,$$

In [None]:
# Definición de vector
x = np.array([1, 3, 5, 7, 9])
# norma manhattan
np.linalg.norm(x, np.inf)

9.0

## <font color="steelblue">Distancia, ángulos y ortogonalidad</font>

La distancia es un concepto relacional. Se refiere a la longitud (o norma) de la diferencia entre dos vectores. Por lo tanto, utilizamos normas y longitudes para medir la distancia entre vectores. Los conceptos de ángulo y ortogonalidad también están relacionados con la interpretación geométrica de los vectores. En el aprendizaje automático, el ángulo entre un par de vectores se utiliza como medida de similitud de vectores.

### <font color="steelblue">Distancia</font>



Dados dos puntos $\mathbf{x} \in \mathbb{R}^n$ e $\mathbf{y} \in \mathbb{R}^n$ se define la distancia ($d$) entre ellos como el producto escalar del vector diferencia o la norma euclídea de la diferencia:

$$d(\mathbf{x}, \mathbf{y}) = \|x-y\| = <x-y, x-y>$$

In [None]:
# Definición de vectores
x = np.array([1, 3, 5, 7, 9])
y = np.array([0, 2, 4, 6, 8])
# Distancia
np.linalg.norm(x-y, 2)

2.23606797749979

### <font color="steelblue">Ángulo entre dos vectores</font>


Dados dos vectores $\mathbf{x} \in \mathbb{R}^n$ e $\mathbf{y} \in \mathbb{R}^n$ se define el coseno del angulo ($\theta$) entre ellos como:

$$cos \theta = \frac{<x,y>}{\|x\|\|y\|}$$

In [None]:
# Vectores
x = np.array([1, 3])
y = np.array([5, 7])
# Coseno del ángulo que forman
cos_theta = (np.inner(x, y)) / (np.linalg.norm(x,2) * np.linalg.norm(y,2))
# Ángulo en radianes
cos_inverse = np.arccos(cos_theta)
# Ángulo en grados
cos_inverse * ((180)/np.pi)

17.10272896905239

### <font color="steelblue">Ortogonalidad entre dos vectores</font>


La ortogonalidad suele utilizarse indistintamente con la "independencia", aunque son conceptos matemáticamente diferentes. La ortogonalidad puede verse como una generalización de la perpendicularidad a los vectores en cualquier número de dimensiones.

Decimos que un par de vectores $\mathbf{x} \in \mathbb{R}^n$ e $\mathbf{y} \in \mathbb{R}^n$ son ortogonales si su producto escalar es cero:

$$<x, y>=0.$$

Utilizando la definición de ángulo, si el producto escalar entre los dos vectores es igual a cero implica que el ángulo que se forma entre ambos es de 90 grados.

## <font color="steelblue">Dependencia e independencia lineal de vectores</font>

Un conjunto de vectores es linealmente dependiente si al menos un vector puede obtenerse como combinación lineal de otros vectores del conjunto. 

Hay una definición más rigurosa (pero algo más difícil de entender) de la dependencia lineal. Consideremos un conjunto de vectores $\mathbf{x}_1,...,\mathbf{x}_k$  y escalares $\beta_1,...,\beta_k$. Si hay una forma de obtener la combinación

$$0 = \sum_{i=1}^k \beta_i\mathbf{x}_i$$

con al menos un $\beta \neq 0$, tenemos vectores linealmente dependientes. En otras palabras, si podemos obtener el vector cero como una combinación lineal de los vectores del conjunto, con pesos que no son todos cero, tenemos un conjunto linealmente dependiente.

Un conjunto de vectores es linealmente independiente si ningún vector puede obtenerse como combinación lineal de otros vectores del conjunto. 

La importancia de los conceptos de dependencia e independencia lineal se aclarará en temas más avanzados. Por ahora, los puntos importantes a recordar son: los vectores linealmente dependientes contienen información redundante, mientras que los vectores linealmente independientes no.

# <font color="steelblue">Operaciones con matrices</font>

Se presentan a continuación las principales operaciones que se pueden realizar con matrices.

## <font color="steelblue">Operaciones elementales</font>

**Suma**. Dadas dos matrices $\mathbf{A} = \{a_{ij}\}_{m,n}$ y $\mathbf{B} = \{b_{ij}\}_{m,n}$ se define la suma de ambas como:

$$\mathbf{A} + \mathbf{B} = 
\begin{bmatrix}
a_{11} + b_{11} & ... & a_{1n}+b_{1n}\\
...&...&...\\
a_{m1}+b_{m1} & ... & a_{mn}+b_{mn}
\end{bmatrix}
$$

In [None]:
# Definimos matrices
A = np.array([[0,2],
              [1,4]])
B = np.array([[3,1],
              [-3,2]])
# Suma
np.add(A,B)
# Se puede hacer directamente como A+B

array([[ 3,  3],
       [-2,  6]])

**Producto por un escalar**. Sea un escalar $k$ y una matriz $\mathbf{A} = \{a_{ij}\}_{m,n}$. Se define el producto de la matriz por un escalar como el producto de cada uno de los elementos de la matriz por el escalar:

$$k\mathbf{A} = 
\begin{bmatrix}
ka_{11}& ... & ka_{1n}\\
...&...&...\\
ka_{m1} & ... & ka_{mn}
\end{bmatrix}
$$

o de forma abreviada como $k\mathbf{A} = \{ka_{ij}\}_{m,n}$.

In [None]:
# Escalar y matriz
k = 2
A = np.array([[1,2],
              [3,4]])
# Producto
np.multiply(k, A)
# también se puede hacer como k*A

array([[2, 4],
       [6, 8]])

**Producto matricial**. La multiplicación de matrices tiene ciertas características especiales. Para poder realizar el cálculo el número de columnas de la primera matriz tiene que ser igual al número de filas de la segunda matriz. Dadas dos matrices $\mathbf{A} = \{a_{ij}\}_{m,n}$ y $\mathbf{B} = \{b_{ij}\}_{n,p}$ una forma de ver la multiplicación matricial es tomando una serie de productos donde multiplicamos: la 1ª columna de A por la 1ª fila de B, la 2ª columna de A por la 2ª fila de B, hasta la enésima columna de A por la enésima fila de B. De esta forma:

$$AB = 
\begin{bmatrix}
\sum_{l=1}^n a_{1l}b_{l1} & ... & \sum_{l=1}^n a_{1l}b_{lp}\\
...&...&...\\
\sum_{l=1}^n a_{ml}b_{l1} & ... & \sum_{l=1}^n a_{ml}b_{lp}
\end{bmatrix}
$$

La propiedades del producto matricial son:

1. Asociatividad: $(\mathbf{A}\mathbf{B})\mathbf{C} = \mathbf{A}(\mathbf{B}\mathbf{C})$
2. Asociatividad con multiplicación escalar: $k(\mathbf{A}\mathbf{B})=(k\mathbf{A})\mathbf{B}$ 
3. Distributiva con la suma: $\mathbf{A}(\mathbf{B}+\mathbf{C})=\mathbf{A}\mathbf{B}+\mathbf{A}\mathbf{C}$
4. Traspuesta del producto: $(\mathbf{A}\mathbf{B})^{T} = \mathbf{B}^{T}\mathbf{A}^{T}$

In [None]:
# Definimos matrices
A = np.array([[0,2],
              [1,4]])
B = np.array([[3,1],
              [-3,2]])
# Producto
np.dot(A,B)
# Se puede hacer directamente como A@B

array([[-6,  4],
       [-9,  9]])

**Matriz inversa**. Dada una matriz cuadrada $\mathbf{A} = \{a_{ij}\}_{n,n}$, se define la inversa de dicha matriz, y se denota por $\mathbf{A}^{-1}$, a la matriz que al multiplicar por $\mathbf{A}$ nos da la matriz identidad, es decir:

$$\mathbf{A}^{-1}\mathbf{A} = \mathbf{A}\mathbf{A}^{-1} = \mathbf{I}_n$$

La matriz inversa nos permite resolver los sistemas de ecuaciones lineales de la forma:

$$\mathbf{A}\mathbf{x} = \mathbf{y}$$

ya que

$$\mathbf{x} = \mathbf{A}^{-1}\mathbf{y}$$

In [None]:
# Definimos matriz
A = np.array([[1, 2, 1],
              [4, 4, 5],
              [6, 7, 7]])
# Obtenemos inversa
Ainv = np.linalg.inv(A)
Ainv

array([[-7., -7.,  6.],
       [ 2.,  1., -1.],
       [ 4.,  5., -4.]])

Verificamos la propiedad

In [None]:
# Ajustamos decimales por los ajustes numéricos
np.round(np.dot(Ainv,A))

array([[ 1.,  0.,  0.],
       [ 0.,  1., -0.],
       [ 0., -0.,  1.]])

**Producto Hadamard o elemento a elemento**. Dadas dos matrices $\mathbf{A} = \{a_{ij}\}_{m,n}$ y $\mathbf{B} = \{b_{ij}\}_{n,p}$ el producto elemento a elemento o producto de Hadamard es la multiplicación de cada elemento de la matriz $\mathbf{A}$ por su correspondiente elemento de la matriz $\mathbf{B}$:

$$\mathbf{A} \odot \mathbf{B} = 
\begin{bmatrix}
a_{11}b_{11} & ... & a_{1n}b_{1n}\\
...&...&...\\
a_{m1}b_{m1} & ... & a_{mn}b_{mn}
\end{bmatrix}
$$

In [None]:
# Definimos matrices
A = np.array([[0,2],
              [1,4]])
B = np.array([[3,1],
              [-3,2]])
# Producto hadamard
np.multiply(A,B)

array([[ 0,  2],
       [-3,  8]])

## <font color="steelblue">Norma de una matriz</font>

Al igual que con los vectores, podemos medir el tamaño de una matriz calculando su norma. Hay múltiples formas de definir la norma de una matriz, siempre que satisfaga las mismas propiedades definidas para las normas de los vectores: (1) absolutamente homogénea, (2) desigualdad triangular, (3) definida positiva. En nuestro caso mostramos las más utilizadas.

### <font color="steelblue">Norma de Frobenius</font>

La norma de Frobenius es una norma obtenida elemento a elemento que lleva el nombre del matemático alemán Ferdinand Georg Frobenius. Denotamos esta norma como $\|\mathbf{A}\|_F$. Se puede considerar esta norma como la conversión de la matriz en un vector. Por ejemplo, una matriz de 3×3 se convertiría en un vector con $n=9$ entradas, del cual obtenemos a norma. Dada una matriz $\mathbf{A} = \{a_{ij}\}_{m,n}$ definimos la norma de Frobenius como:

$$\|\mathbf{A}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n a_{ij}^2}$$

In [None]:
# Definimos la matriz
A = np.array([[1, 2, 3],
              [4, 5, 6], 
              [7, 8, 9]])
# Norma Frobenius
np.linalg.norm(A, 'fro')

16.881943016134134

### <font color="steelblue">Norma máxima</font>

La norma máxima o norma infinita de una matriz es igual a la mayor suma del valor absoluto de los vectores de las filas. Dada una matriz $\mathbf{A} = \{a_{ij}\}_{m,n}$ definimos la norma máxima, que denotamos por $\|\mathbf{A}\|_{max}$, como:

$$\|\mathbf{A}\|_{max} = \underset{i}{max} \sum_{j=1}^n |a_{ij}|$$


In [None]:
# Definimos la matriz
A = np.array([[1, 2, 3],
              [4, 5, 6], 
              [7, 8, 9]])
# Calculamos la norma
np.linalg.norm(A, np.inf)

24.0

# <font color="steelblue">Características de una matriz</font>

Existen diferentes cálculos numéricos a partir de una matriz que nos permiten caracterizarla. 

## <font color="steelblue">Rango, traza, y determinante</font>

**Rango**. Dada una matriz $\mathbf{A} = \{a_{ij}\}_{m,n}$ se define el rango de $\mathbf{A}$, que denotamos por $rank(\mathbf{A})$, como el número máximo de filas o columnas linealmente independientes. 

In [None]:
# Definimos la matriz
A = np.array([[1, 2, 3],
              [4, 5, 6], 
              [7, 8, 9]])
# Calculamos rango
np.linalg.matrix_rank(A)

2

**Rango**. Dada una matriz cuadrada $\mathbf{A} = \{a_{ij}\}_{m,m}$ se define la traza de $\mathbf{A}$, que denotamos por $tr(\mathbf{A})$, como la suma de los elementos de la diagonal:

$$tr(\mathbf{A}) = \sum_{i=1}^m a_{ii}$$

In [None]:
# Definimos la matriz
A = np.array([[1, 2, 3],
              [4, 5, 6], 
              [7, 8, 9]])
# Calculamos la traza
np.trace(A)

15

**Determinante**. Dada una matriz cuadrada $\mathbf{A} = \{a_{ij}\}_{m,m}$ el determinante de $\mathbf{A}$, que denotamos por $det(\mathbf{A})$ o $|\mathbf{A}|$, es un importante concepto del algebra matricial. Es un indicativo muy rápido para identificar si el conjunto de vectores (por filas o columnas) que forman la matriz son linealmente independientes. Si el determinate es 0 hay filas o columnas linealmente dependientes, mientras que si es distinto de cero todas las filas o columnas son linealmente independentes. 

In [None]:
# Definimos la matriz
A = np.array([[1, 2, 3],
              [4, 5, 6], 
              [7, 8, 9]])
# Calculamos el determinante
np.linalg.det(A)

0.0

## <font color="steelblue">Propiedades rango, traza, y determinante</font>

* Dadas las matrices $\mathbf{A} = \{a_{ij}\}_{m,m}$, $\mathbf{B} = \{b_{ij}\}_{m,m}$, y $k \in \mathbb{R}$ se verifica que:

$$tr(\mathbf{A} + \mathbf{B}) = tr(\mathbf{A}) + tr(\mathbf{B})$$

$$tr(k\mathbf{A})= ktr(\mathbf{A})$$

$$|k\mathbf{A}| = k^m|\mathbf{A}|$$

$$|\mathbf{A}\mathbf{B}|= |\mathbf{B}\mathbf{A}|=|\mathbf{A}||\mathbf{B}|$$

$$|\mathbf{A}^{-1}| = |\mathbf{A}|^{-1}$$

$$rank(\mathbf{A})=m \Leftrightarrow \mathbf{A} \text{ es no singular}$$

* Dadas las matrices $\mathbf{A} = \{a_{ij}\}_{n,m}$ y $\mathbf{B} = \{b_{ij}\}_{m,p}$, se verifica que:

$$tr(\mathbf{A}\mathbf{B})=tr(\mathbf{B}\mathbf{A})$$

$$rank(\mathbf{A})=min(n,m)$$

$$rank(\mathbf{A})\geq 0$$

$$rank(\mathbf{A})=rank(\mathbf{A}^{T})$$

$$rank(\mathbf{A}^{T}\mathbf{A})=rank(\mathbf{A})$$

$$rank(\mathbf{A}+\mathbf{B}) \leq rank(\mathbf{A})+rank(\mathbf{B})$$

$$rank(\mathbf{A}\mathbf{B}) \leq min(rank(\mathbf{A}),rank(\mathbf{B}))$$

* Dadas las matrices $\mathbf{A} = \{a_{ij}\}_{n,m}$, $\mathbf{B} = \{b_{ij}\}_{m,p}$ y $\mathbf{C} = \{c_{ij}\}_{p,n}$, se verifica que:

$$tr(\mathbf{A}\mathbf{B}\mathbf{C})=tr(\mathbf{B}\mathbf{C}\mathbf{A}) = tr(\mathbf{C}\mathbf{A}\mathbf{B})$$

## <font color="steelblue">Valores y vectores propios</font>

Dada una matriz $\mathbf{A} = \{a_{ij}\}_{n,n}$ se definen los valores propios de de dicha matriz como las p-raíces, $k_1,...,k_n$, de la ecuación característica:

$$|\mathbf{A}-\mathbf{k} \mathbf{I}_n| = 0,$$

donde $\mathbf{k}=(k_1,...,k_n)$. 

Los $n$ vectores propios de la matriz $\mathbf{A}$, $\mathbf{v}_1,...,\mathbf{v}_n$, se obtienen a partir de los $n$ valores propios al resolver el sistema:

$$\mathbf{A}\mathbf{v} = \mathbf{k} \mathbf{v}$$

donde $\mathbf{v}$ es una matriz donde las columnas corresponde a cada uno de los $n$ vectores propios de $\mathbf{A}$.

In [None]:
# Definimos la matriz
A = np.array([[1, 2, 3],
              [5, 4, 6], 
              [7, 9, 7]])
# Obtenemos valores y vectore propios
val, vec = np.linalg.eig(A)
# En formato complejo
print(val)
print(vec)

[15.19600263+0.j         -1.59800132+0.11338522j -1.59800132-0.11338522j]
[[-0.24616584+0.j         -0.71408301+0.j         -0.71408301-0.j        ]
 [-0.54092983+0.j         -0.09430113+0.09464358j -0.09430113-0.09464358j]
 [-0.80423709+0.j          0.68126362-0.09008454j  0.68126362+0.09008454j]]


Los valores propios de una matriz son una herramienta muy importante ya que nos permiten relacionar la traza y el determinante de una matriz con dichos valores. De hecho, dada una matriz $\mathbf{A} = \{a_{ij}\}_{n,n}$ si consideramos el vector formado por los valores propios $\mathbf{k}= [k_1,...,k_n]$ de forma que construímos una matriz diagonal 

$$\mathbf{\Lambda} = \mathbf{I}_n \mathbf{k}^T$$

podemos ver que:

$$|\mathbf{A}|=|\mathbf{\Lambda}|=\prod_{i=1}^n k_i$$

$$tr(\mathbf{A})=tr(\mathbf{\Lambda})=\sum_{i=1}^n k_i$$

## <font color="steelblue">Descomposición en valores y vectores propios</font>

Las descomposiciones en valores y vectores propios nos permiten escribir las matrices cuadradas en un formato que resulta más cómodo desde le punto de vista computacional cuando estamos trabajando con matrices de grandes dimensiones. Se pueden revisar las referencias presentadas para ver los diferentes tipos con los que nos podemos encontrar. Únicamente recordamos que dichas descomposiciones nos sirven para representar geométricamente vectores de n dimensiones en espacios bidimensionales o tridimensionales.

# <font color="steelblue">Referencias y enlaces de interés</font>

1. Manual online de Numpy: https://numpy.org/

2. Manual online de Scipy: https://scipy.org/

3. Mathematics for Machine Learning by Deisenroth, Faisal, and Ong. 1st Ed. [Book link](https://mml-book.github.io/).

4. Introduction to Applied Linear Algebra by Boyd and Vandenberghe. 1sr Ed. [Book link](https://web.stanford.edu/~boyd/vmls/).

5. Linear Algebra Ch. in Deep Learning by Goodfellow, Bengio, and Courville. 1st Ed. [Chapter link](https://www.deeplearningbook.org/contents/linear_algebra.html).

6. Linear Algebra Ch. in Dive into Deep Learning by Zhang, Lipton, Li, And Smola. [Chapter link](https://d2l.ai/chapter_preliminaries/linear-algebra.html).

7. Manual online de Pytorch: https://pytorch.org/

8. Manual online de TensorFlow: https://www.tensorflow.org/



# <font color="steelblue">Para ampliar contenidos</font>


1. Harris, C.R., Millman, K.J., van der Walt, S.J. et al. [Array programming with NumPy](https://www.nature.com/articles/s41586-020-2649-2). Nature 585, 357–362 (2020).

2. Pauli Virtanen, Ralf Gommers, Travis E. Oliphant, Matt Haberland, Tyler Reddy, David Cournapeau, Evgeni Burovski, Pearu Peterson, Warren Weckesser, Jonathan Bright, Stéfan J. van der Walt, Matthew Brett, Joshua Wilson, K. Jarrod Millman, Nikolay Mayorov, Andrew R. J. Nelson, Eric Jones, Robert Kern, Eric Larson, CJ Carey, İlhan Polat, Yu Feng, Eric W. Moore, Jake VanderPlas, Denis Laxalde, Josef Perktold, Robert Cimrman, Ian Henriksen, E.A. Quintero, Charles R Harris, Anne M. Archibald, Antônio H. Ribeiro, Fabian Pedregosa, Paul van Mulbregt, and SciPy 1.0 Contributors. (2020) [SciPy 1.0: Fundamental Algorithms for Scientific Computing in Python](https://www.nature.com/articles/s41592-019-0686-2?report=reader). Nature Methods, 17(3), 261-272.

