#  EVeMa 2018

# Tema: MATRICES

La álgebra lineal facilita la expresión de múltiples operaciones,
como por ejemplo las operaciones en ecuaciones lineales, como el siguiente
sistema: 

\begin{array}{c}
4x_{1}-5x_{2}=-13\\
-2x_{1}+3x_{2}=9
\end{array}


el sistema de ecuaciones anterior tiene igual número de ecuaciones y variables, por lo que presenta una solución única si las ecuaciones son linealmente independientes (ninguna de las ecuaciones es combinación lineal de otra). En notación matricial, el sistema de ecuaciones anterior se expresa de la siguiente forma: 

\begin{equation}
A\,\vec{x}=b
\end{equation}

con 

\begin{equation}
A=\begin{bmatrix}4 & -5\\
-2 & 3
\end{bmatrix},\qquad b=\begin{bmatrix}-13\\
9
\end{bmatrix}
\end{equation}

En el material del curso se utilizará la siguiente notación:


- Con $A\in\mathbb{R}^{m\times n}$ se define una matriz con $m$ filas
y $n$ columnas, donde en este caso todas las entradas de $A$ son
números reales.

- Con $\vec{x}\in\mathbb{R}^{n\times1}=\mathbb{R}^{n}$ se denota un
vector con $n$ entradas. Por convención, un vector $n$ dimensional
se define como una matriz de $n$ filas y $1$ columna, conocido como
el **vector columna**: 

\begin{equation}
\overrightarrow{x}=\begin{bmatrix}x_{1}\\
x_{2}\\
\vdots\\
x_{n}
\end{bmatrix}
\end{equation}

y el elemento $i$ del vector se denota como $x_{i}$. Un vector fila se define entonces de la siguiente forma (usando la definición de la transpuesta): 

\begin{equation}
\overrightarrow{x}^{T}=\begin{bmatrix}x_{1} & x_{2} & \ldots & x_{n}\end{bmatrix}
\end{equation}

- Para denotar los elementos de una matriz se usa la notación $a_{i,j}$
($A_{ij}$, $A_{i,j}$,$A\left(i,j\right)$, etc) para denotar una
entrada de la matriz $A$ en la fila $i$ y la columna $j$:


\begin{equation}
A=\begin{bmatrix}a_{1,1} & a_{1,2} & \ldots & a_{1,n}\\
a_{2,1} & a_{2,2} & \ldots & a_{2,n}\\
\vdots & \vdots & \ddots & \vdots\\
a_{m,1} & a_{m,2} &  & a_{m,n}
\end{bmatrix}
\end{equation}

y se define la columna $j$ de la matriz $A$ con $a_{j}$ o $A_{:,j}$,
de modo que la matriz $A$ está definida en términos de vectores columna
por:

\begin{equation}
A=\begin{bmatrix}| & | & \ldots & |\\
\overrightarrow{a}_{:,1} & \overrightarrow{a}_{:,2} & \ldots & \overrightarrow{a}_{:,n}\\
| & | & \ldots & |
\end{bmatrix}
\end{equation}

y se define la fila $i$ de tal matriz como $\vec{a}_{i,:}^{T}$ o $A_{i,:}$, por lo que en términos de tales vectores fila la matriz $A$ se expresa como:

\begin{equation}
A=\begin{bmatrix}- & \vec{a}_{1,:}^{T} & -\\
- & \vec{a}_{2,:}^{T} & -\\
 & \vdots\\
- & \vec{a}_{m,:}^{T} & -
\end{bmatrix}
\end{equation}


In [4]:
# uso del modulo lineal algebra (linalg) para resolver un sistema de ecuaciones como el anterior.

import numpy as np

# Se crea la matriz A 2x2 como arreglo
A = np.array([[4, -5],[-2, 3]])

# De igual forma se procede con B
B = np.array([-13, 9]) 

# En numpy linalg resuelve el sistema
print ('Solutions:\n',np.linalg.solve(A, B))

Solutions:
 [ 3.  5.]


In [5]:
# Las matrices se crean con los corchetes cuadrados [[]] como listas anidadas

# matriz 3*4 matrix where 3 is number of rows and 4 is number of columns.
A = [[10,80,75,85],[20,90,85,95],[5,40,30,15]]

print(A)

[[10, 80, 75, 85], [20, 90, 85, 95], [5, 40, 30, 15]]


In [6]:
# podemos crear tambien matrices con valores de un rango con numpy

from numpy import * 

B = range(16)

B = reshape(B,(4,4)) 

print(B) 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [7]:
# para acceder a datos especificos de una matriz, lo hacemos al igual que las listas por valores de subindices
# en corchetes cuadrados, por ejemplo para una matrix Z de la forma Z[row][col]

# Nos interesa la primera fila (0)
print(B[0])
print("\n")

# Nos interesa la ultima fila (3)
print(B[3])
print("\n")

# Nos interesa el "1" que pertenece a la fila (0) y columna (1)
print(B[0][1])
print("\n")

# Nos interesa el "10" que pertenece a la fila (2) y columna (2)
print(B[2][2])


[0 1 2 3]


[12 13 14 15]


1


10


In [29]:
# Nos interesa el "14" que pertenece a la fila (?) y columna (?)
print(B[][])

0


In [9]:
# otra forma de acceder a los valores de una matriz es con el uso de indices negativos, donde el -1 se refiere al
# ultimo dato, el -2 al penultimo etc

# nos interesa la ultima fila 
print(B[-1]) 
print("\n")

# nos interesa de la ultima fila, el penultimo valor
print(B[-1][-2]) 
print("\n")

# nos interesa de la penultima fila, el antepenultimo valor
print(B[-2][-3]) 


[12 13 14 15]


14


9


In [10]:
# recordamos de nuevo la matriz B

print (B)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [11]:
# es posible tambien partir una matriz, usando el formato (start:end:increment) con numpy

# nos interesa partir la matriz B y dejar solo las 3 primeras filas :3 con dos columnas [0,1]
print(B[:3,[0,1]])

[[0 1]
 [4 5]
 [8 9]]


In [12]:
# nos interesa partir la matriz B y dejar solo las dos ultimas filas con dos las columnas centrales
print(B[2:4,[1,2]])

[[ 9 10]
 [13 14]]


In [13]:
# es posible tambien agregar elementos a una matrix

# por ejemplo, podemos agregar una fila completa, para eso se recurre a append

B1 = append(B,[[16, 17, 18, 19]],0)

# here 0 is axis that represents the dimensions where 0 stands for row and 1 stands for column

print (B)
print("\n")
print (B1)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]]


In [14]:
# es posible tambien insertar una columna, en este caso recurrimos a insert

B2 = insert(B,[4],[[100],[200],[300],[400]],axis=1) 

# here axis represents the dimensions where 0 stands for row and 1 stands for column 

print (B2)

[[  0   1   2   3 100]
 [  4   5   6   7 200]
 [  8   9  10  11 300]
 [ 12  13  14  15 400]]


In [15]:
# otra tarea comun es borrar o remover elementos de una matriz

# por ejemplo, para borrar una fila se usa delete, en este caso para la fila i=2

B3 = delete(B2,[2],0)

# here 0 is axis that represents the dimensions where 0 stands for row and 1 stands for column

print (B2)
print("\n")
print (B3)

[[  0   1   2   3 100]
 [  4   5   6   7 200]
 [  8   9  10  11 300]
 [ 12  13  14  15 400]]


[[  0   1   2   3 100]
 [  4   5   6   7 200]
 [ 12  13  14  15 400]]


In [16]:
# para borrar una columna se usa delete, en este caso para la columna i=4

B4 = delete(B2, [4], 1)

# here 0 is axis that represents the dimensions where 0 stands for row and 1 stands for column

print (B2)
print("\n")
print (B4)

[[  0   1   2   3 100]
 [  4   5   6   7 200]
 [  8   9  10  11 300]
 [ 12  13  14  15 400]]


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [17]:
# para borrar varias columnas podemos usar slicing

B5 = delete(B2, s_[1::3], 1)

# here 0 is axis that represents the dimensions where 0 stands for row and 1 stands for column

print (B2)
print("\n")
print (B5)


# s_[x::y] x primera columna en borrar, y siguientes en orden y. 

[[  0   1   2   3 100]
 [  4   5   6   7 200]
 [  8   9  10  11 300]
 [ 12  13  14  15 400]]


[[ 0  2  3]
 [ 4  6  7]
 [ 8 10 11]
 [12 14 15]]


**La matriz identidad y diagonal**

La matriz identidad, definida como una matriz cuadrada $I\in\mathbb{R}^{n\times n}$ y está formada por una diagonal de unos, y el resto de entradas de la matriz está en cero: 


\begin{equation}
I_{i,j}=\begin{cases}
1 & i=j\\
0 & i\neq j
\end{cases}
\end{equation}

y es el neutro de la multiplicación matricial, por lo que para toda $A\in\mathbb{R}^{m\times n}$ se tiene que: 

\begin{equation}
A\,I=A
\end{equation}

la matriz identidad es un caso particular de una matriz diagonal, donde todos los elementos no diagonales son 0, lo que se denota como: $D=\textrm{diag}\left(d_{1},d_{2},\ldots,d_{n}\right)$ con: 

\begin{equation}
D_{i,j}=\begin{cases}
d_{i} & i=j\\
0 & i\neq j
\end{cases}
\end{equation}

por lo que entonces $I=\textrm{diag}\left(1,1,\ldots,1\right)$.


In [30]:
# en numpy podemos crear una matrix identidad especificando el # de 1's i.e el # de filas

np.identity(5)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

**La matriz transpuesta**

La transpuesta de una matriz es el resultado de cambiar las filas a columnas. Sea una matriz $A\in\mathbb{R}^{m\times n}$, su transpuesta se escribe como $A^{T}\in\mathbb{R}^{n\times m}$ y sus entradas están dadas por: 

\begin{equation}
\left(A^{T}\right)_{i,j}=A_{j,i}.
\end{equation}

Las siguientes son propiedades de la transpuesta: 

- $\left(A^{T}\right)^{T}=A$
- $\left(AB\right)^{T}=B^{T}A^{T}$
- $\left(A+B\right)^{T}=A^{T}+B^{T}$.


In [19]:
A=[[1,2,3],[4,5,6]]
C=[[7,8,9],[10,11,12]]
print(A)
print("\n")
print(C)
print("\n")
trans=np.transpose(A)
print(trans)
print("\n")
print(np.transpose(trans))

# hacer rutina de otras propiedades...

[[1, 2, 3], [4, 5, 6]]


[[7, 8, 9], [10, 11, 12]]


[[1 4]
 [2 5]
 [3 6]]


[[1 2 3]
 [4 5 6]]


**Matrices simétricas**

Una matriz cuadrada $A\in\mathbb{R}^{n\times n}$ es simétrica si $A=A^{T}$ y es anti simétrica si $A=-A^{T}$, Para toda matriz $A\in\mathbb{R}^{n\times n}$ es fácil demostrar que la matriz $A+A^{T}$ es simétrica y la matriz $A-A^{T}$ es anti-simétrica, por lo que se puede seguir que cualquier matriz cuadrada puede expresarse en términos de una matriz simétrica y anti-simétrica:
    
\begin{equation}
A=\frac{1}{2}\left(A+A^{T}\right)-\frac{1}{2}\left(A-A^{T}\right).
\end{equation}

Se define entonces el conjunto de matrices simétricas de dimensiones $n\times n$ como $\mathbb{S}^{n}$ por lo que $A\in\mathbb{S}^{n}$ si es simétrica. Las matrices simétricas son muy frecuentes en el reconocimiento de patrones, y presentan una serie de propiedades muy útiles que veremos más adelante. 

In [31]:
# caso de matriz simetrica

# sea B nuestra matriz original 

print(B)
print("\n")
S = 0.5*(B + np.transpose(B)) + 0.5*(B - np.transpose(B)) # ojo con el signo + 

print (S)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


[[  0.   1.   2.   3.]
 [  4.   5.   6.   7.]
 [  8.   9.  10.  11.]
 [ 12.  13.  14.  15.]]


**La traza de una matriz**

La traza de una matriz cuadrada $A\in\mathbb{R}^{n\times n}$ denotada como $\textrm{tr}\left(A\right)$ es la suma de los elementos en la diagonal de una matriz: 

\begin{equation}
\textrm{tr}\left(A\right)=\sum_{i=1}^{n}A_{i,i}
\end{equation}

La traza tiene las siguientes propiedades:

- $\textrm{tr}\left(A\right)=\textrm{tr}\left(A^{T}\right)$
- Superposición $\textrm{tr}\left(A+B\right)=\textrm{tr}\left(A\right)+\textrm{tr}\left(B\right)$
- Homogeneidad: Sea $t\in\mathbb{R}$, $\textrm{tr}\left(t\,A\right)=t\,\textrm{tr}\left(A\right)$
- Para $A$ y $B$ cuadradas, se tiene que $\textrm{tr}\left(A\,B\right)=\textrm{tr}\left(B\,A\right)$




In [32]:
# 

# caso identidad
IDN = np.eye(3)
T_IDN = np.trace(IDN)
print (IDN)
print("\n")

print (T_IDN)
print("\n")

# primero recordemos a la matriz B
print (B)
print("\n")

# calculo de la traza con numpy

print(np.trace(B))

[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]


3.0


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


30


**Producto de matrices**

El producto de dos matrices $A\in\mathbb{R}^{m\times n}$ y $B\in\mathbb{R}^{n\times p}$
es la matriz:
    
\begin{equation}
C=A\circ B=A\,B\in\mathbb{R}^{m\times p}
\end{equation}

donde:

\begin{equation}
C_{i,j}=A_{i,1}B_{1,j}+\ldots+A_{i,n}B_{n,j}=\sum_{k=1}^{n}A_{i,k}\,B_{k,j}
\end{equation}

observe que para efectuar el producto matricial la cantidad de columnas en $A$ debe ser igual a la cantidad de filas de la matriz $B$. A continuación se examinan los casos particulares del producto de matrices

**Producto vector-vector o producto punto**

Sean dos vectores $\overrightarrow{x},\overrightarrow{y}\in\mathbb{R}^{n}$ el **producto interno** o producto punto se puede definir, en términos del producto entre tales vectores de la siguiente forma:

\begin{equation}
\overrightarrow{x}\cdot\overrightarrow{y}=\overrightarrow{x}^{T}\:\overrightarrow{y}\in\mathbb{R}^{1}=\begin{bmatrix}x_{1} & x_{2} & \cdots & x_{n}\end{bmatrix}\begin{bmatrix}v_{1}\\
v_{2}\\
\vdots\\
v_{n}
\end{bmatrix}=\sum_{i=1}^{n}x_{i}\:y_{i}
\end{equation}

Observe entonces que el producto interno es un caso especial de la multiplicación de matrices, y que además, siempre se cumple que: 

\begin{equation}
\overrightarrow{x}^{T}\overrightarrow{y}=\overrightarrow{y}^{T}\overrightarrow{x}.
\end{equation}

El **producto externo** en cambio, está dado para dos vectores $\overrightarrow{x}\in\mathbb{R}^{m\times1}$, $\overrightarrow{y}\in\mathbb{R}^{1\times n}$ (no necesariamente de la misma dimensionalidad) se define como: 

\begin{equation}
\overrightarrow{x} \odot \overrightarrow{y}=\vec{x}\:\vec{y}^{T}\in\mathbb{R}^{m\times n}=\begin{bmatrix}x_{1}\\
x_{2}\\
\vdots\\
x_{m}
\end{bmatrix}\begin{bmatrix}y_{1} & y_{2} & \cdots & y_{n}\end{bmatrix}=\begin{bmatrix}x_{1}y_{1} & x_{1}y_{2} & \cdots & x_{1}y_{n}\\
x_{2}y_{1} & x_{2}y_{2} & \cdots & x_{2}y_{n}\\
\vdots & \vdots & \ddots & \vdots\\
x_{m}y_{1} & x_{m}y_{2} & \cdots & x_{m}y_{n}
\end{bmatrix}
\end{equation}


El producto externo permite, por ejemplo, crear una matriz $A\in\mathbb{R}^{m\times n}$ cuyas columnas sean igual a un vector $x\in\mathbb{R}^{m}$ usando un vector unitario $\overrightarrow{1}\in\mathbb{R}^{n}$, como sigue:

\begin{equation}
\overrightarrow{x}\,\overrightarrow{1}^{T}=\begin{bmatrix}x_{1}\\
x_{2}\\
\vdots\\
x_{m}
\end{bmatrix}\begin{bmatrix}1 & 1 & \cdots & 1\end{bmatrix}=\begin{bmatrix}| & | &  & |\\
\vec{x} & \vec{x} & \cdots & \vec{x}\\
| & | &  & |
\end{bmatrix}
\end{equation}



In [33]:
F = [[0, 5], [2, -1]]

print(F)
print("\n")

G = np.dot(F, F)
print(G)
print("\n")

GI = np.inner(F, F)
print(GI)
print("\n")

GO = np.outer(F, F)
print(GO)
print("\n")

[[0, 5], [2, -1]]


[[10 -5]
 [-2 11]]


[[25 -5]
 [-5  5]]


[[ 0  0  0  0]
 [ 0 25 10 -5]
 [ 0 10  4 -2]
 [ 0 -5 -2  1]]




**Producto matriz-vector**

Sea una matriz $A\in\mathbb{R}^{m\times n}$ y un vector (columna) $\overrightarrow{x}\in\mathbb{R}^{n\times1}$ su producto es el vector $\overrightarrow{y}\in\mathbb{R}^{m\times1}$ . 

Si se escribe a la matriz $A$ por columnas, entonces se puede expresar a $A\,\overrightarrow{x}$ como: 

\begin{equation}
\vec{y}=A\,\overrightarrow{x}=\begin{bmatrix}- & \vec{a}_{1,:}^{T} & -\\
- & \vec{a}_{2,:}^{T} & -\\
 & \vdots\\
- & \vec{a}_{m,:}^{T} & -
\end{bmatrix}\,\overrightarrow{x}=\begin{bmatrix}- & \vec{a}_{1,:}^{T} & -\\
- & \vec{a}_{2,:}^{T} & -\\
 & \vdots\\
- & \vec{a}_{m,:}^{T} & -
\end{bmatrix}\,\begin{bmatrix}x_{1}\\
x_{2}\\
\vdots\\
x_{n}
\end{bmatrix}=\begin{bmatrix}\vec{a}_{1,:}^{T}\:\vec{x}\\
\vec{a}_{2,:}^{T}\:\vec{x}\\
\vdots\\
\vec{a}_{m,:}^{T}\:\vec{x}
\end{bmatrix}
\end{equation}

En otras palabras, la fila $i$ de $y$ , $y_{i}$ es igual al producto interno de la fila $b_{i}$ con el vector $\overrightarrow{x}$.

Alternativamente, si se escribe la matriz $A$ en forma de columnas, el producto matriz-vector se puede expresar como:

\begin{equation}
\overrightarrow{y}=A\,\overrightarrow{x}=\begin{bmatrix}| & | & \ldots & |\\
\vec{a}_{:,1} & \vec{a}_{:,2} & \ldots & \vec{a}_{:,n}\\
| & | & \ldots & |
\end{bmatrix}\,\begin{bmatrix}x_{1}\\
x_{2}\\
\vdots\\
x_{n}
\end{bmatrix}=\left[\vec{a}_{:,1}\right]x_{1}+\left[\vec{a}_{:,2}\right]x_{2}+\ldots+\left[\vec{a}_{:,n}\right]x_{n}.
\end{equation}

ello es fácilmente corroborable si hacemos la multiplicación de sus transpuestas:

\begin{equation}
\overrightarrow{y}^{T}=\vec{x}^{T}\,A^{T}=\begin{bmatrix}x_{1} & x_{2} & \cdots & x_{n}\end{bmatrix}\,\begin{bmatrix}- & \vec{a}_{:,1}^{T} & -\\
- & \vec{a}_{:,2}^{T} & -\\
 & \vdots\\
- & \vec{a}_{:,n}^{T} & -
\end{bmatrix}=x_{1}\left[\vec{a}_{:,1}^{T}\right]+x_{2}\left[\vec{a}_{:,1}^{T}\right]+\ldots+x_{n}\left[\vec{a}_{:,n}^{T}\right].
\end{equation}

Lo anterior representa el hecho de que el vector $\overrightarrow{y}$ es una **combinación lineal** de las columnas de la matriz **$A$**, donde los coeficientes están definidos en el vector $\overrightarrow{x}$.

In [23]:
# ejemplo matriz-vector

**Producto matriz-matriz**

El producto matriz-matriz en general de dos matrices $A\in\mathbb{R}^{m\times n}$ y $B\in\mathbb{R}^{n\times p}$ dado por $C\in\mathbb{R}^{m\times p}$ se puede definir en términos de las filas y columnas, **donde para cada entrada $C_{i,j}$ el producto interno de la fila** $i$ de $A$ y la **columna $j$ de** $B$, simbólicamente esto se expresa como sigue: 

\begin{equation}
C=A\,B=\begin{bmatrix}- & \vec{a}_{1,:}^{T} & -\\
- & \vec{a}_{2,:}^{T} & -\\
 & \vdots\\
- & \vec{a}_{m,:}^{T} & -
\end{bmatrix}\,\begin{bmatrix}| & | & \ldots & |\\
\vec{b}_{1,:} & \vec{b}_{2,:} & \ldots & \vec{b}_{p,:}\\
| & | & \ldots & |
\end{bmatrix}=\begin{bmatrix}\vec{a}_{1,:}^{T}\vec{b}_{1,:} & \vec{a}_{1,:}^{T}\vec{b}_{2,:} & \cdots & \vec{a}_{1,:}^{T}\vec{b}_{p,:}\\
\vec{a}_{2,:}^{T}\vec{b}_{1,:} & \vec{a}_{2,:}^{T}\vec{b}_{2,:} & \cdots & \vec{a}_{2,:}^{T}\vec{b}_{p,:}\\
\vdots & \vdots & \ddots & \vdots\\
\vec{a}_{m,:}^{T}\vec{b}_{1,:} & \vec{a'}_{m}^{T}\vec{b}_{2,:} & \cdots & \vec{a}_{m,:}^{T}\vec{b}_{p,:}
\end{bmatrix}
\end{equation}

\begin{equation}
C=A\,B=\begin{bmatrix}| & | & \ldots & |\\
A\vec{b}_{1,:} & A\vec{b}_{2,:} & \ldots & A\vec{b}_{p,:}\\
| & | & \ldots & |
\end{bmatrix}
\end{equation}

La última igualdad representa el hecho de que la columna $j$ de la matriz $C$ es una combinación lineal de los vectores columna de la matriz $A$ con los coeficientes definidos por el vector columna $\vec{b}_{j,:}$. 

Las siguientes son propiedades fácilmente corroborables para el producto matricial: 

- Asociatividad: $\left(A\,B\right)C=A\left(B\,C\right)$.
- Distributividad: $A\left(B+C\right)=A\,B+A\,C$.
- No conmutatividad: $A\,B\neq B\,A$.


In [36]:
np.multiply(F, F)

array([[ 0, 25],
       [ 4,  1]])

**Independencia lineal y el rango de una matriz**

Un conjunto de vectores $\left\{ \vec{x}_{1},\vec{x}_{2},\ldots,\vec{x}_{n}\right\} \subset\mathbb{R}^{m}$ se dice que es linealmente independiente, si ningún vector de tal conjunto puede ser representado como una combinación lineal del resto de vectores. De lo contrario, si uno de los vectores en tal conjunto puede ser representado como una combinación lineal del resto de vectores, entonces los vectores son **linealmente dependientes**, lo que se expresa como: 

\begin{equation}
\vec{x}_{j}=\sum_{i=1}^{n-1}\alpha_{i}\vec{x}_{i}
\end{equation}

para cualquier conjunto de valores escalares $\alpha_{1},\ldots,\alpha_{n-1}\in\mathbb{R}$ se dice que el vector $\vec{x}_{j}\in\mathbb{R}^{m}$ es linealmente dependiente de los vectores $\vec{x}_{i}$. 

El **rango de columnas** de la matriz $A\in\mathbb{R}^{m\times n}$ corresponde a la cantidad más grande de columnas en la matriz $A$ linealmente independientes, de manera similar, el **rango de filas** se refiere a la cantidad más grande de filas en tal matriz linealmente independientes.

Para cualquier matriz $A\in\mathbb{R}^{m\times n}$ se puede comprobar que el rango de filas y el de columnas es el mismo, por lo que entonces la cantidad de filas y columnas linealmente independiente se le refiere con el **rango**:

$\textrm{rango}\left(A\right),$con las siguientes propiedades:
    
- $\forall A\in\mathbb{R}^{m\times n}$, $\textrm{rango}\left(A\right)\leq\min\left(m,n\right)$, y si $\textrm{rango}\left(A\right)=\textrm{min}\left(m,n\right)$ se dice que $A$ de **rango completo*.
- $\textrm{rango}\left(A\right)\leq\textrm{rango}\left(A^{T}\right)$
- $\textrm{rango}\left(A\,B\right)\leq\min\left(\textrm{rango}\left(A\right),\textrm{rango}\left(B\right)\right)$
- $\textrm{rango}\left(A+B\right)\leq\textrm{rango}\left(A\right)+\textrm{rango}\left(B\right)$

Ejemplo: 

Observe la siguiente matriz: 

\begin{equation}
\begin{bmatrix}1 & 2 & -1 & 3 & -2\\
2 & 1 & 0 & 1 & 1\\
2 & 4 & -2 & 6 & -4\\
0 & 0 & 0 & 0 & 0\\
5 & 4 & -1 & 5 & 0
\end{bmatrix}
\end{equation}

Fácilmente puede notarse que la fila $f_{3}=2f_{1}$ y además que $f_{5}=2f_{2}+f_{1}$, y que dado que la fila $f_{4}$ es nula, entonces puede ser expresada en términos de cualquier otra fila en una combinación  lineal.

**La matriz inversa**

La inversa de la matriz cuadrada $A\in\mathbb{R}^{n\times n}$ se denota como $A^{-1}$ es la única matriz que cumple lo siguiente:

\begin{equation}
A^{-1}A=I=A\,A^{-1}
\end{equation}

Nótese que no todas las matrices tienen inversas, por ejemplo las matrices no cuadradas no tienen inversas por definición, e incluso, pueden existir matrices cuadradas sin inversas.

- Se dice que $A$ es una matriz **invertible** o no singular si $A^{-1}$ existe, si la matriz $A$ presenta **rango completo**.
- Si la matriz $A^{-1}$ no existe, se dice que la matriz es **no invertible** o singular.

Las siguientes son las propiedades de la inversa, asumiendo que $A,B\in\mathbb{R}^{n\times n}$ son no-singulares:

- $\left(A^{-1}\right)^{-1}=A$.
- $\left(A\,B\right)^{-1}=B^{-1}A^{-1}$.
- $\left(A^{-1}\right)^{T}=\left(A^{T}\right)^{-1}$


In [34]:
matrix = np.matrix([[1, 4],[2, 0]])

inverse = np.linalg.inv(matrix)
print(inverse)

[[ 0.     0.5  ]
 [ 0.25  -0.125]]


In [35]:
inverse = np.linalg.inv(matrix)
print(inverse)

[[ 0.     0.5  ]
 [ 0.25  -0.125]]


**Matrices ortogonales**

Anteriormente se mencionó que dos vectores $\vec{x},\vec{y}\in\mathbb{R}^{n}$ son ortogonales si $\vec{x}^{T}\vec{y}=0$. Se dice dice que un vector $\vec{x}\in\mathbb{R}^{n}$ es normalizado si $\left\Vert \vec{x}\right\Vert _{2}=1$.

Una matriz cuadrada $U\in\mathbb{R}^{n\times n}$ es **ortogonal** si todas las columnas son ortogonales entre ellas. Si además, todos los vectores están normalizados, se dice que la matriz es **ortonormal**.

Las siguientes son propiedades de las matrices ortogonales: 
    
- Para toda matriz ortonormal $U\in\mathbb{R}^{n\times n}$ , se cumple que:$U^{T}U=I=U\,U^{T}$ y sabiendo que $U\,U^{-1}=I$ se arriba a que $U^{T}=U^{-1}$. Si $U\in\mathbb{R}^{m\times n}$ y $n<m$ pero sus columnas son ortonormales, entonces se cumple que $U^{T}U=I$ pero $U\,U^{T}\neq I$.
- Para toda matriz ortogonal $U\in\mathbb{R}^{n\times n}$ y vector $\vec{x}\in\mathbb{R}^{n}$, se cumple que el operar el vector con una matriz ortogonal, la norma euclidiana no cambia: 

\begin{equation}
\left\Vert U\,\vec{x}\right\Vert _{2}=\left\Vert \vec{x}\right\Vert _{2}
\end{equation}


**Rango y espacio nulo de la matriz**

Un **espacio generado** de un conjunto de vectores $\left\{ \vec{a}_{1},\vec{a}_{2},\ldots,\vec{a}_{m}\right\} \qquad\vec{a}_{i}\in\mathbb{R}^{n}$ es el conjunto de vectores que pueden ser expresados como combinación
lineal de tales vectores:

\begin{equation}
\textrm{espacioGenerado}\left(\left\{ \vec{a}_{1},\vec{a}_{2},\ldots,\vec{a}_{m}\right\} \right)=\left\{ \vec{v}:\vec{v}=\sum_{i=1}^{m}x_{i}\vec{a}_{i}\qquad x_{i}\in\mathbb{R}^{1}\right\} .
\end{equation}

Puede demostrarse que si el conjunto de vectores $\left\{ \vec{a}_{1},\vec{a}_{2},\ldots,\vec{a}_{m}\right\} \qquad\vec{a}_{i}\in\mathbb{R}^{n}$ es **linealmente independiente** (con $m\geq n$), el espacio
generado por tal conjunto de vectores es: 

\begin{equation}
\textrm{espacioGenerado}\left(\left\{ \vec{a}_{1},\vec{a}_{2},\ldots,\vec{a}_{m}\right\} \right)=\mathbb{R}^{n}.
\end{equation}

Por ejemplo, los vectores unitarios anteriormente presentados $\hat{i}=\begin{bmatrix}1\\
0\\
0
\end{bmatrix}$, $\hat{j}=\begin{bmatrix}0\\
1\\
0
\end{bmatrix}$ y $\hat{k}=\begin{bmatrix}0\\
0\\
1
\end{bmatrix}$ son linealmente independientes, por lo que entonces es fácil observar que la combinación lineal de tales vectores puede generar cualquier vector en el espacio $\mathbb{R}^{3}$. Por ejemplo, un vector $\vec{v}=\begin{bmatrix}3\\
5\\
7
\end{bmatrix}$ se puede representar como: 

\begin{equation}
\vec{v}=3\hat{i}+5\hat{j}+7\hat{k}=3\,\begin{bmatrix}1\\
0\\
0
\end{bmatrix}+5\,\begin{bmatrix}0\\
1\\
0
\end{bmatrix}+7\,\begin{bmatrix}0\\
0\\
1
\end{bmatrix}
\end{equation}

por lo que entonces $\vec{v}\in\textrm{espacioGenerado}\left(\left\{ \vec{i},\vec{j},\vec{k}\right\} \right)=\mathbb{R}^{3}$, con en este caso $x_{1}=3$, $x_{2}=5$ y $x_{3}=7$.

**La proyección** **de un vector** $\vec{y}\in\mathbb{R}^{n}$ en el espacio generado por el conjunto de vectores $\left\{ \vec{a}_{1},\vec{a}_{2},\ldots,\vec{a}_{m}\right\} \qquad\vec{a}_{i}\in\mathbb{R}^{n}$ corresponde al vector $\vec{v}\in\textrm{espacioGenerado}\left(\left\{ \vec{a}_{1},\vec{a}_{2},\ldots,\vec{a}_{m}\right\} \right)$ tal que $\vec{v}\in\mathbb{R}^{n}$ esté lo más cerca posible del vector $\vec{y}\in\mathbb{R}^{n}$, medido con por ejemplo una norma euclidiana $\left\Vert \vec{v}-\vec{y}\right\Vert _{2}$ y se puede definir formalmente como: 

\begin{equation}
\textrm{proy}\left(\vec{y};\left\{ \vec{a}_{1},\vec{a}_{2},\ldots,\vec{a}_{m}\right\} \right)=\textrm{argmin}_{\vec{v}\in\textrm{espacioGenerado}\left(\left\{ \vec{a}_{1},\vec{a}_{2},\ldots,\vec{a}_{m}\right\} \right)}\left\Vert \vec{v}-\vec{y}\right\Vert _{2}.
\end{equation}

Por otra parte, el **espacio de columnas** de una matriz $A\in\mathbb{R}^{m\times n}$ denotado como $\mathcal{C}\left(A\right)$ corresponde al espacio generado por las columnas de la matriz $A$, lo cual se representa como sigue: 

\begin{equation}
\mathcal{C}\left(A\right) = \left\{ \vec{v}\in\mathbb{R}^{m}:\vec{v}=A\,\vec{x},\;\vec{x}\in\mathbb{R}^{m},\:A\in\mathbb{R}^{n\times m}\right\} ,
\end{equation}

donde recordemos que la multiplicación matricial $A\,\vec{x}$ corresponde a una combinación lineal del vector $\vec{x}$:

\begin{equation}
A\,\overrightarrow{x}=\begin{bmatrix}| & | & \ldots & |\\
\vec{a}_{:,1} & \vec{a}_{:,2} & \ldots & \vec{a}_{:,n}\\
| & | & \ldots & |
\end{bmatrix}\,\begin{bmatrix}x_{1}\\
x_{2}\\
\vdots\\
x_{n}
\end{bmatrix}=x_{1}\left[\vec{a}_{:,1}\right]+x_{2}\left[a_{:,2}\right]+\ldots+x_{n}\left[a_{:,n}\right],
\end{equation}

por lo que entonces el espacio de columnas de la matriz $A$ equivale a:

\begin{equation}
{\mathcal{C}\left(A\right)} = espacioGenerado\left(\left\{ \vec{a}_{:,1},\vec{a}_{:,2},\ldots,\vec{a}_{:,n}\right\} \right)=\left\{ v:v=\sum_{i=1}^{n}x_{i}\vec{a}_{:,i}\qquad x_{i}\in\mathbb{R}^{1}\right\} .
\end{equation}

Asumiendo que $A$ es de **rango completo** y que $n<m$ se tiene que la proyección del vector $\vec{y\in\mathbb{R}^{n}}$ en el espacio de columnas de la matriz $A$ está dado por: 

\begin{equation}
\textrm{proy}\left(\vec{y};A\right)=\textrm{argmin}_{\vec{v}\in\mathcal{C}\left(A\right)}\left\Vert \vec{v}-\vec{y}\right\Vert _{2}=\textrm{argmin}_{\vec{x}}\sqrt{\left(A\:\vec{x}-\vec{y}\right)\cdotp\left(A\:\vec{x}-\vec{y}\right)}
\end{equation}

\begin{equation}
\Rightarrow\textrm{proy}\left(\vec{y};A\right)=\textrm{argmin}_{\vec{x}}\sqrt{\left(A\:\vec{x}-\vec{y}\right)^{T}\left(A\:\vec{x}-\vec{y}\right)}
\end{equation}

El encontrar el vector que minimice la ecuación $\left(A\:\vec{x}-\vec{y}\right)^{T}\left(A\:\vec{x}-\vec{y}\right)$
se le llama el problema de los **mínimos cuadrados**. Nos preocupamos de tal ecuación, pues usualmente se eleva el cuadrado la ecuación original de la proyección, dado que tomar su cuadrado no altera el mínimo:

\begin{equation}
\textrm{argmin}_{\vec{v}\in\mathcal{C}\left(A\right)}\left\Vert \vec{v}-\vec{y}\right\Vert _{2}^{2}=\textrm{argmin}_{\vec{x}}\left(A\:\vec{x}-\vec{y}\right)\cdotp\left(A\:\vec{x}-\vec{y}\right).
\end{equation}

Este tema se retomará al final del presente documento, una vez que se haya definido el concepto de gradiente matricial y se demostrará que: 

\begin{equation}
\textrm{proy}\left(\vec{y};A\right)=\textrm{argmin}_{\vec{v}\in\mathcal{C}\left(A\right)}\left\Vert \vec{v}-\vec{y}\right\Vert _{2}=A\,\left(A^{T}A\right)^{-1}A^{T}\vec{y}
\end{equation}

Para el caso en que $A$ está formada por una sola columna $\vec{a}\in\mathbb{R}^{m}$ (correspondiente a un espacio generador de un vector), se tiene el caso especial de la proyección de un vector sobre otro vector:

\begin{equation}
\textrm{proy}\left(\vec{y};\vec{a}\right)=\frac{\vec{a}\,\vec{a}^{T}}{\vec{a}^{T}\,\vec{a}}\vec{y}
\end{equation}

Observe que en tal caso de fijar un conjunto generador de un solo vector, el subespacio generado corresponde únicamente al escalamiento de tal vector, pero la dimensionalidad del vector proyectado tiene la misma dimensionalidad original (por lo que se denomina una proyección a un sub-espacio). La Figura \ref{fig:Proyecci=0000F3n-de-vector} muestra la proyección de un vector sobre otro vector.

<img src="imgs/proy.png" alt="Drawing" style="width: 300px;"/>
<h3 align="center">Proyección de vector $\vec{a}$ sobre $\vec{b}$.</h3> 


            function proyectar     
                v1 = [3; 7];  
                v2 = [9; 1];   
                proy = proyectarVector(v1, v2);  
                figure; 
                plotv([proy v1 ]);
                figure; 
                plotv([v2 v1 ]); 
            end
            
            function proyec = proyectarVector(b, a)
                %proyecta b sobre a     
                coefMatricial = ((a * a') / (a' * a)); 
               proyec = coefMatricial * b; 
            end


El **espacio nulo** de una matriz $A\in\mathbb{R}^{m\times n}$, se define como el conjunto de todos los vectores que al multiplicarse con la matriz $A$ resultan en $0$, y se denota como 

\begin{equation}
\mathcal{N}\left(A\right)=\left\{ \vec{x}\in\mathbb{R}^{n}:A\,\vec{x}=0\right\} 
\end{equation}

In [27]:
# Ejemplo rango y proyeccion

**Determinante de una matriz**

El determinante de una matriz cuadrada $A\in\mathbb{R}^{n\times n}$ es una función denotada con $\textrm{det}\left(A\right):\mathbb{R}^{n\times n}\rightarrow\mathbb{R}$. Antes de detallar la fórmula que define al determinante, examinaremos la interpretación geométrica del determinante. Sea una matriz compuesta por múltiples filas: 


\begin{equation}
A=\begin{bmatrix}- & \vec{a}_{1,:}^{T} & -\\
- & \vec{a}_{2,:}^{T} & -\\
 & \vdots\\
- & \vec{a}_{n,:}^{T} & -
\end{bmatrix}
\end{equation}

considere el conjunto de puntos $S\subset\mathbb{R}^{n}$ formado al tomar todas las combinaciones lineales posibles de los vectores fila $\vec{a}_{i,:}^{T}$, donde los coeficientes de tal combinación lineal cumplen que $0\leq\alpha_{i}\leq1,i=1,\ldots,n$, lo cual formalmente se denota como: 

\begin{equation}
S=\left\{ \vec{v}\in\mathbb{R}^{n}:\vec{v}=\sum_{i=1}^{n}\alpha_{i}\vec{a}_{i,:},\qquad0\leq\alpha_{i}\leq1,i=1,\ldots,n\right\} 
\end{equation}

El valor absoluto del determinanate de la matriz $A$, $\left|\textrm{det}\left(A\right)\right|$, corresponde a una medida del ``volumen'' de todo el conjunto $S$. 

Por ejemplo, para la matriz $A\in\mathbb{R}^{2\times2}$: 

\begin{equation}
A=\begin{bmatrix}1 & 3\\
3 & 2
\end{bmatrix}
\end{equation}

cuyos vectores fila están dados por: 

\begin{equation}
\vec{a}_{1,:}=\begin{bmatrix}1\\
3
\end{bmatrix}\qquad\vec{a}_{2,:}=\begin{bmatrix}3\\
2
\end{bmatrix}
\end{equation}

se muestra en la Figura \ref{fig:Regi=0000F3n--de}, sombreado, el conjunto de puntos $S$. Observe que el punto ``extremo'' $\vec{a}_{1,:}+\vec{a}_{2,:}=\begin{bmatrix}4\\
5
\end{bmatrix}$, viene dado cuando $\alpha_{1}=\alpha_{2}=1$. El determinante para una matriz de $2\times2$ se define como: 

\begin{equation}
\textrm{det}\left(\begin{bmatrix}a & b\\
c & d
\end{bmatrix}\right)=a\,d-b\,c
\end{equation}

y para cualquier matriz de $n\times n$ dimensiones, el determinante se define recursivamente como: 

\begin{equation}
\textrm{det}\left(A\right)=A_{1,1}\textrm{det}\left(A_{\backslash1,\backslash1}\right)-A_{1,2}\textrm{det}\left(A_{\backslash1,\backslash2}\right)+\ldots\pm A_{1,n}\textrm{det}\left(A_{\backslash1,\backslash n}\right)
\end{equation}

lo cual es equivalente también a escoger cualquier fila o columna a eliminar: 

\begin{equation}
\textrm{det}\left(A\right)=\sum_{i=1}^{n}\left(-1\right)^{i+j}A_{i,j}\left|A_{\backslash i,\backslash j}\right|=\sum_{j=1}^{n}\left(-1\right)^{i+j}A_{i,j}\left|A_{\backslash i,\backslash j}\right|
\end{equation}

Observe que el determinante consiste en la combinación lineal de los determinantes de las submatrices resultantes de eliminar la fila y columna $i$ (denotado como $\textrm{det}\left(A_{\backslash i,\backslash j}\right)$), multiplicado por el elemento $A_{1,i}$. Con la matriz de ejemplo $A=\begin{bmatrix}1 & 3\\ 3 & 2 \end{bmatrix}$ , el determinante viene entonces dado por: $\textrm{det}\left(A\right)=1\cdot2-3\cdot3=-7$, y tomando su valor absoluto, se tiene que $\left|\textrm{det}\left(A\right)\right|=7$, lo que corresponde al área del paralelogramo formado por el conjunto de puntos $S$ (en $n$ dimensiones, se refiere como paralelótopo).


<img src="imgs/regEjemplo.png" alt="Drawing" style="width: 500px;"/>
<h3 align="center">Región $S$ de ejemplo.</h3> 

Las siguientes son propiedades de la función determinante $\textrm{det}\left(A\right)$ para una matriz cuadrada $A\in\mathbb{R}^{n\times n}$ :

- El volumen de un hipercubo unitario es $\textrm{det}\left(I\right)=1$.
- Homogeneidad: Sea un escalar $s\in\mathbb{R}$, $\textrm{det}\left(s\,A\right)=s\,\textrm{det}\left(A\right)$
- $\textrm{det}\left(A\right)=\textrm{det}\left(A^{T}\right)$
- $\textrm{det}\left(A\,B\right)=\textrm{det}\left(A\right)\,\textrm{det}\left(B\right)$
- $\textrm{det}\left(A\right)=0$, implica que $A$ es una matriz singular (no invertible), por lo que entonces no tiene rango completo, y sus columnas son **linealmente dependientes**, lo que implica a demás la superficie $S$ no tiene volumen, al ser los vectores combinación lineal.
- $\textrm{det}\left(A^{-1}\right)=1/\textrm{det}\left(A\right)$


In [28]:
# ejemplo determinantes