## Espacios vectoriales

**Definición.** Un espacio vectorial es un conjunto $V$ con dos operaciones, denotadas $+$ y $\cdot$.
* La operación $+$, llamada suma, toma dos vectores $v,w \in V$ y devuelve un vector $v+w$.
* La operación $\cdot$, llamada producto por escalares, toma un número $\lambda \in \mathbb{R}$ y un vector $v$ y devuelve un vector $\lambda \cdot v \in V$.

**Ejemplos**
* $\mathbb{R}^n$ con la suma y producto componente a componente.
* Soluciones de sistemas de ecuaciones.

**Observación.** También se pueden considerar espacios vectoriales sobre $\mathbb{C}$ o, en general, sobre cualquier cuerpo.

Consideremos el sistema
$$
\left\{\begin{matrix}x+y=0 \\ 2x+2y=0\end{matrix}\right.
$$

Este sistema tiene por soluciones el conjunto $S$ de los puntos $(x,y) \in \mathbb{R}^2$ de la forma $(x,y)=(a, -a)$. Este conjunto es un espacio vectorial: Si yo cojo dos vectores $v = (a, -a)$ y $w = (b, -b)$ entonces $v+w=(a+b,-(a+b)) \in S$ y $\lambda v=(\lambda a, -\lambda a) \in S$.

De hecho, se tiene que $S$ es un subconjunto del espacio vectorial $\mathbb{R}^2$ y hereda sus operaciones. Este fenómeno se llama *subespacio vectorial*.

**Ejercicios.**
* El espacio de polinomios, $\mathbb{R}[x]$, con la suma de polinomios y el producto por números es un espacio vectorial.
* El espacio de polinomios de grado menor o igual que $n$, $\mathbb{R}^{\leq n}[x]$, es un espacio vectorial.

**Definición** Sea $V$ un espacio vectorial. Dado un subconjunto finito $\left\{b_1, \ldots, b_d\right\} \subseteq V$, se dice que es
* *Sistema de generadores* si, para todo $v \in V$, existen $\lambda_1, \ldots, \lambda_d \in \mathbb{R}$ tales que
$$
    v = \lambda_1 b_1 + \ldots + \lambda_d b_d.
$$
* *Linealmente independiente* si, para cualesquiera $\lambda_1, \ldots, \lambda_d \in \mathbb{R}$ tales que
$$
    \lambda_1 b_1 + \ldots + \lambda_d b_d = 0 \Rightarrow \lambda_1 = \lambda_2 = \ldots = \lambda_d = 0.
$$
* *Base* si es un sistema de generadores linealmente independiente. En ese caso se dice que $d$ es la dimensión de $V$ y se escribe $d = \mathrm{dim}\,V$.

**Ejemplos**
* $e_1 = (1,0,\ldots), \ldots, e_n = (0,\ldots, 1)$ es base de $\mathbb{R}^n$. Luego $\mathrm{dim}\,\mathbb{R}^n =n$.
* Dar una base y calcular la dimensión del espacio de polinomios de grado menor que $n$. ¿Y de todo el espacio de polinomios?
* Dar una base de $S$ del ejemplo anterior.

In [0]:
from sympy import *

x, y = symbols("x, y")
print(solve([x+y, 2*x+2*y], x, y))

In [0]:
# Otra manera de resolverlo

A = Matrix([[1,1],[2,2]])
print(A)

linsolve((A, Matrix([0,0])), x, y)

* Dar una base del espacio de soluciones del sistema

$$
\left\{\begin{matrix}
 x   + 2y   + 3z & = 0\\
4x  +5y  +6z& = 0\\
 7x   +8y   +9z& = 0\\
\end{matrix}\right.
$$

In [0]:
x, y, z = symbols("x, y, z")
print(solve([x + 2*y + 3*z, 4*x + 5*y + 6*z, 7*x + 8*y +9*z], x, y,z))

* Dar una base del espacio de soluciones del sistema

$$
\left\{\begin{matrix}
 x_1   +2x_2   +2x_3  -5x_4   +6x_5 & = 0\\
-x_1  -2x_2  -x_3   +x_4  -x_5& = 0\\
 4x_1   +8x_2   +5x_3  -8x_4   +9x_5& = 0\\
 3x_1   +6x_2   +x_3   +5x_4  -7x_5& = 0
\end{matrix}\right.
$$

In [0]:
x1, x2, x3, x4, x5 = symbols("x1, x2, x3, x4, x5")

A = Matrix([[1 ,  2 ,  2 , -5 ,  6], [-1, -2, -1,  1, -1], [4,  8,  5, -8,  9],[3,  6, 1,  5, -7]])
print(A)

linsolve((A, Matrix([0,0,0,0])), x1, x2, x3, x4, x5)

* **Modelo de Leontief.** Apple, Intel y Nvidia son tres empresas interrelacionadas, en el sentido de que cada una de ellas genera un bien específico (digamos Mac's, CPUs y tarjetas gráficas, respectivamente) que las demás requieren para continuar su proporción. Supongamos que las dependencias son como sigue: Cada unidad de Mac requiere 0.3 unidades de otros Mac's, 0.4 unidades CPUs y 0.3 unidades de tarjetas gráficas. Cada CPU producida por Intel necesita 0.3 unidades de Mac's, 0.2 CPUs y 0.5 tarjetas gráficas. Finalmente, cada tarjeta gráfica necesita 0.4 Mac's, 0.4 CPUs y 0.2 tarjetas gráficas para ser producidas. Determinar los niveles de proporción necesarios para que la economía se encuentre en equilibrio.

In [0]:
A = Matrix([[0.3-1,  0.4,  0.3], [0.3, 0.2-1, 0.5], [0.4,  0.4,  0.2-1]])
linsolve((A, Matrix([0,0,0])), x1, x2, x3)

# Aplicaciones lineales

**Definición** Sean $V, W$ dos espacio vectoriales. Una función $f: V \to W$ se dice una *aplicación lineal* si
* $f(v+w)=f(v) + f(w)$.
* $f(\lambda v) = \lambda f(v)$.

**Ejemplos **
* $f: \mathbb{R} \to \mathbb{R}$ dada por $f(x)=5x$.
* $f: \mathbb{R}^2 \to \mathbb{R}^3$ dada por $f(x,y) = (3x+5y, x-y, x-2y)$.
* $f: \mathbb{R} \to \mathbb{R}$ dada por $f(x)=x^2$ **no es** aplicación lineal.
* $f: \mathbb{R}[x] \to \mathbb{R}$, $f(P)=P(5)$.

**Definición** Si $f: V \to W$ es una aplicación lineal, definimos:
* El *kernel* (o *núcleo*) es
$$
    \mathrm{Ker}\,f = \left\{v \in V\,|\, f(v)=0\right\}.
$$
* La *imagen* es
$$
    \mathrm{Im}\,f = f(V) \subseteq W.
$$

La dimensión de la imagen se suele llamar el *rango* de $f$ y se denota $\mathrm{rk}\,f = \mathrm{dim}\,\mathrm{Im}\,f$.

**Ejercicios**
* $\mathrm{Ker}\,f \subseteq V$ es un subespacio vectorial.
* Calcular el kernel, la imagen y el rango de todas las aplicaciones anteriores.

**Proposición (Principio de inclusión-exclusión).** Para toda aplicación lineal $f: V \to W$, se tiene

$$
    \mathrm{dim}\,\mathrm{Ker}\,f + \mathrm{dim}\,\mathrm{Im}\,f = \mathrm{dim}\,V
$$

**Observación clave:** Una aplicación lineal $f: \mathbb{R}^n \to \mathbb{R}^m$ se puede describir como una matrix. Por ejemplo, la matrix de $f(x,y) = (3x+5y, x-y, x-2y)$ es
$$
    \begin{pmatrix}
    3 & 5 \\
    1 & -1 \\
    1 & -2 \\
    \end{pmatrix}
$$
de manera que
$$
f(x,y) = \begin{pmatrix}
    3 & 5 \\
    1 & -1 \\
    1 & -2 \\
    \end{pmatrix}\begin{pmatrix}
    x \\
    y \\
    \end{pmatrix}
$$

In [0]:
A = Matrix([[3,5],[1,-1],[1,-2]])
A

In [0]:
# Se puede calcular el kernel
print(A.nullspace())

# Y la imagen
print(A.columnspace())

**Ejercicio.** Calcular bases de la imagen y del kernel de las aplicaciones lineales dadas por las siguientes matrices:

$$
A= \begin{pmatrix}
1 & -1 & 0 \\ 0 & 1 & 2 \\
\end{pmatrix} \hspace{1cm}
A= \begin{pmatrix}
1 &0 &-1 \\ 2 &-4 &1 \\ -1 & 0 &-1 \\ 2 & -2 &-2\\
\end{pmatrix} \hspace{1cm}
A= \begin{pmatrix}
6 &-4 & 16 \\
-2 &-5 & 1 \\
1 &14 &-12 \\
\end{pmatrix}
$$

## Comprobación de Kernel nulo

Sea $f: V \to V$ una aplicación lineal y sea $A$ su matriz. ¿Cómo podemos comprobar si $\mathrm{Ker}\,f = 0$?

$$
\mathrm{Ker}\,f = 0 \Leftrightarrow Ax=0 \textrm{ solo tiene la solución trivial} \Leftrightarrow A \textrm{ es invertible } \Leftrightarrow \det{A}\neq 0.
$$

**Proposición.** Sea $f: V \to V$ una aplicación linea con matriz $A$. Entonces $\mathrm{Ker}\,f = 0$ si y solo si $\det{A} \neq 0$. 

*Demostración.* Sea $A$ la matriz de $f$. Entonces el kernel de $f$ está dado por los vectores $x = (x_1, \ldots, x_n)$ tales que 

$$
    Ax = 0
$$

Este sistema tiene la solución obvia $x = (0, \ldots, 0)$. Ahora bien, esta será la única solución si y solo si $\det{A} \neq 0$, que es exactamente la condición buscada.

**Observación.** Si $f: V \to V$ tiene kernel trivial, entonces $ \mathrm{dim}\,V= \mathrm{dim}\,\mathrm{Ker}\,f + \mathrm{dim}\,\mathrm{Im}\,f=\mathrm{dim}\,\mathrm{Im}\,f$ y, por tanto $f(V)=V$ y $f$ es sobreyectiva.

# Productos escalares


**Definición.** Sea $B: V \times V \to \mathbb{R}$. Se dice que $B$ es un *producto escalar* si
* $B$ es una aplicación bilineal: $B(-,v), B(v,-): V \to \mathbb{R}$ son lineales para todo $v \in B$
* $B$ es definido positivo: $B(v,v)\geq 0$ para todo $v \in V$ y $B(v,v)=0$ si y solo si $v=0$.
* $B$ es simétrico: $B(v,w)=B(w,v)$ para todo $v,w \in V$.
En ese caso $(V,B)$ se llama un *espacio euclídeo* o *espacio de Hilbert*. Dado $v \in V$, el número $||v||=\sqrt{B(v,v)}$ se llama la *norma* de $v$.


**Observación.** El producto $B(v,w)$ se suele denotar por $\langle v,w \rangle$ o simplemente por $v \cdot w$.

**Ejemplos**
* $\mathbb{R}^n$ con el producto escalar usual. Intrepretación geométrica: $v \cdot w = ||v||\,||w||\cos{\angle (u,v)}$.
* Espacio de polinomios con (Producto $L^2$)
$$
    \langle P, Q\rangle = \int_{-1}^1 P(t)Q(t)\,dt.
$$

**Definición.** Una base $v_1, \ldots, v_d$ de un espacio euclídeo $V$ se dice *ortonormal* si
* $\langle v_i, v_j\rangle = 0$ si $i \neq j$.
* $||v_i||=1$ para todo $i$.

**Ejemplo.** La base estándar de $\mathbb{R}^n$ es ortonormal.

**Proposición (Desigualdad de Cauchy-Schwarz).** En un espacio euclídeo se tiene que, para todos $v,w \in V$

$$
    \langle v,w \rangle \leq ||u||\,\,||w||
$$

Además, se tiene la igualdad si y solo si $v$ y $w$ son paralelos.

**Corolario (Desigualdad triangular).** Para todos $v,w \in V$ se tiene

$$
    ||v+ w || \leq ||v|| + ||w||.
$$

*Demostración.* Expandiendo la normal y usando la desigualdad de Cauchy-Schwarz tenemos

$$
    ||v + w||^2 = \langle v + w, v + w\rangle = ||v||^2 + ||w||^2 +2 \langle v, w\rangle \leq ||v||^2 + ||w||^2 +2||v||\, ||w|| = (||v|| + ||w||)^2.
$$

Tomando la raiz cuadrada, se obtiene el resultado.

## Proceso de Gram-Schmidt

Supongamos que tenemos una base $v_1, \ldots, v_n$ de un espacio euclídeo $V$ y queremos convertirla en una base ortogonal $v_1', \ldots, v_n'$. Para el primer vector es muy fácil, porque podemos tomar

$$
    v_1' = v_1
$$

Siguiendo el proceso recursivamente, supongamos que hemos conseguido ortonormalizar $v_1', \ldots, v_k'$. Entonces, si tomamos 

$$
    v_{k+1}' = v_{k+1} - \sum_{i=1}^k \frac{\langle v_{k+1}, v_i'\rangle}{||v_i'||^2} v_i',
$$

tenemos que, para todo $v_i'$ con $1 \leq i \leq k$,

$$
    \langle v_{k+1}', v_i'\rangle = \langle v_{k+1}, v_i'\rangle - \frac{\langle v_{k+1}, v_i'\rangle}{||v_i'||^2} \langle v_i',v_i'\rangle = 0.
$$

De este modo, obtenemos una base ortogonal $v_1', \ldots, v_n'$. Si queremos normalizarla para que sea, de hecho, ortogonal, podemo tomar $v_i'' = \frac{v_i'}{||v_i'||}$.

**Ejercicios.**
* Aplicar el proceso de Gram-Schmidt a la base de $\mathbb{R}^3$, $(1,-2,2), (0,0,1), (-1,0,1)$.

In [0]:
def GramSchmidt(base_original, B, base_ortogonal=[]):
    if len(base_ortogonal) == 0:
        base_ortogonal.append(base_original.pop(0))
        return GramSchmidt(base_original, B, base_ortogonal)
    
    if len(base_original) == 0:
        return [v/sqrt(B(v,v)) for v in base_ortogonal]

    v_k = base_original.pop(0)
    
    v = base_ortogonal[0]
    residuo = v*B(v_k, v)/(B(v,v))
    for v in base_ortogonal[1:]:
        residuo = residuo + v*B(v_k, v)/(B(v,v))
    
    v_kp = v_k - residuo
    base_ortogonal.append(v_kp)
    
    
    return GramSchmidt(base_original, B, base_ortogonal)

def B_euclideo(v, w):
    return sum([v[i]*w[i] for i in range(len(v))])

base_original = [Matrix([1,-2,2]), Matrix([0,0,1]), Matrix([-1,0,1])]
print(GramSchmidt(base_original, B_euclideo))

* Aplicar el proceso de Gram-Schimidt a la base $1, t, t^2$ del espacio de polinomios de grado menor o igual que $2$. Esta base se llama polinomios de Legendre.

In [0]:
x = symbols("x")

def B_polinomios(P, Q):
    return integrate(P*Q, (x, -1, 1))

base_original_pols = [1+0*x, x, x**2]
print(base_original_pols)

print(GramSchmidt(base_original_pols, B_polinomios, base_ortogonal=[]))

# Aplicaciones ortogonales

**Definición.** Una aplicación lineal $f: V \to W$ entre espacios euclídeos se dice *ortogonal* si
$$
    \langle f(v), f(w)\rangle = \langle v, w\rangle
$$
para todo $v,w\in V$.

**Observación.**
* Si $f$ es ortogonal, entonces $||f(v)|| = ||v||$. De este modo, se suele decir que una aplicación ortogonal es aquella que preserva módulos y ángulos.
* $f$ es ortogonal si y solo si manda bases ortonormales en bases ortonomales.
* En particular, eso implica que, si $A$ es la matriz de $f$, entonces las columnas de $A$ forman una base ortonormal. De este modo $f$ es ortogonal si y solo si $AA^t=\mathrm{I}$.

**Ejercicio.** Comprobar si las siguientes aplicaciones lineales son ortogonales

$$
A= \begin{pmatrix}
1 & -1 & 0 \\ 0 & 1 & 2 \\ 2 & 3 & 1 \\
\end{pmatrix} \hspace{1cm}
A= \begin{pmatrix}
1 &0 &-1 \\ 2 &-4 &1 \\ -1 & 0 &-1 \\
\end{pmatrix} \hspace{1cm}
A= \begin{pmatrix}
0 & 0 & 1 \\
1 & 0 & 0 \\
0 & 1 & 0 \\
\end{pmatrix}
$$

# Autovalores, autovectores y diagonalización

**Definición.** Sea $f: V \to W$ una aplicación lineal. Se dice que $v \in V$, $v \neq 0$, es un *autovector* de $f$ con autovalor $\lambda \in k$ si $f(v)=\lambda v$.

**Forma de cálculo.** Sea $A$ la matriz de la aplicación $f$.

$$
    v \textrm{ autovector de autovalor } \lambda \Leftrightarrow Av = \lambda v \Leftrightarrow Av-\lambda v=0 \Leftrightarrow (A-\lambda \mathrm{I})v=0 \Leftrightarrow v \in \mathrm{Ker}\left(A-\lambda \mathrm{I}\right)
$$

De este modo, $A$ tiene autovectores no nulos de autovalor $\lambda$ si y solo si $\mathrm{det}\left(A-\lambda \mathrm{I}\right)=0$. Esto proporciona una receta para calcular autovalores y autovectores:
* Para calcular los autovalores: se forma el polinomio $p(\lambda)=\mathrm{det}\left(A-\lambda \mathrm{I}\right)$, llamado polinomio característico. Los ceros de $p(\lambda)$ son los autovalores.
* Para calcular los autovectores de un autovalor: Una base de autovectores de autovalor $\lambda$ está dada por una base de $\mathrm{Ker}\left(A-\lambda \mathrm{I}\right)$

** Definición. ** Una matriz $A$ se dice *diagonalizable* si existe una base de autovectores de $A$.

** Ejemplo. ** Consideremos la matriz
$$
    A = \begin{pmatrix}
6 &-4 & 16 \\
-2 &-5 & 1 \\
1 &14 &-12 \\
\end{pmatrix}
$$
Determinar los autovalores de $A$, así como una base de autovectores para cada uno de ellos. ¿Es $A$ diagonalizable?

In [0]:
from sympy.solvers import solve

A = Matrix([[6 ,-4 , 16],[-2 ,-5 , 1],[1 ,14 ,-12]])

# Se forma la matrix A -lI
l = symbols("l")
I = eye(3)
print(A-l*I)

# Se forma el polinomio característico
p = (A-l*I).det()
print(p)

# Se resuelve el polinomio característico
print(solve(p, l))

In [0]:
print((A-(-16)*I).nullspace())
print((A-(0)*I).nullspace())
print((A-(5)*I).nullspace())

In [0]:
# Otra forma de hacerlo usando las bibliotecas de Python

print(A.eigenvals())
print(A.eigenvects())

Supongamos que $A$ es una matriz diagonalizable con una base de autovectores $v_1, \ldots, v_n$, con autovalores $\lambda_1, \ldots, \lambda_n$ respectivamente. Obsérvese que, en la base $v_1, \ldots, v_n$, la matriz de $A$ es la matriz diagonal
$$
D = \begin{pmatrix}
\lambda_1 & 0 & \ldots & & \vdots\\
0 & \lambda_2 & & \\
\vdots & \ddots & & \\
0 & & \ldots & & \lambda_n\\
\end{pmatrix}
$$
De este modo, si consideramos la matriz
$$
    P = \left(v_1 \left|\, v_2 \left|\, \ldots \left|\, v_n\right.\right.\right.\right),
$$
entonces se tiene
$$
A = PDP^{-1}.
$$
Es decir *$A$ es diagonal, pero en la base equivocada*.

*Demostración.*
La clave es que $Pe_i = v_i$ por construcción. Entonces $PDP^{-1}v_i=PDe_i=P\lambda_i e_i = \lambda_iPe_i=\lambda_i v_i$. De este modo, $PDP^{-1}v_i = Av_i$ para todo $v_i$ y, como los $v_i$ son una base, se tiene que $A=PDP^{-1}$.

**Ejercicio.** Dar las matrices $P$ y $D$ de la diagonalización de la matriz del ejercicio anterior.

In [0]:
# Formamos la matriz de los autovectores obtenidos

P = Matrix([[-10/13,-3/13,1], [-2,1, 1], [-26/3, 11/6,1]])
P = P.T
print(P)

In [0]:
# Formamos la matriz diagonal con los autovalores

D = Matrix([[-16,0,0], [0,0, 0], [0, 0, 5]])
print(D)

print(P*D*P.inv())

**Ejercicio.** Supongamos que Apple, Intel y Asus vuelven a estar en la situación del modelo de Leontief. Supongamos que, inicialmente, tenemos 3 Mac's, 5 CPU y 2 tarjetas gráficas. Comprobar cuánto stock tenemos tras 5 iteraciones de producción. ¿Y tras 100 iteraciones?

In [0]:
A = Matrix([[0.3,  0.4,  0.3], [0.3, 0.2, 0.5], [0.4,  0.4,  0.2]])
P, J = A.jordan_form(calc_transform=True) # Otra forma de calcular la diagonalizacion

In [0]:
# Si A = PDP^(-1) entonces A^s = PD^(s)P^(-1)

A5 = P*J**(5)*P.inv()
print(A5)
print(A5*Matrix([[3],[5],[2]]))

**Teorema (espectral).**
* Si $A$ es una aplicación ortogonal, entonces es diagonalizable.
* Si $A$ es una matriz simétrica (i.e. $A=A^t$) entonces $A$ es diagonalizable.

# Singular Value Decomposition

Sea $A$ una matriz. Si $A$ no es cuadrada, no podemos diagonalizar $A$. Sin embargo, existe una 'versión débil' de diagonalización que será muy útil para nuestros propósitos.

**Teorema (Descomposición en Valores Singulares, SVD).** Sea $A$ una matriz de tamaño $n \times m$. Existen aplicaciones ortogonales $U$ de orden $n$ y $V$ de orden $m$ tales que

$$
A = U\Sigma V^t.
$$

Aquí, $\Sigma = \textrm{diag}\left(\sigma_1, \ldots, \sigma_k\right)$ con $k = \min(n,m)$ y $\sigma_1 \geq \sigma_2 \geq \ldots \geq \sigma_k \geq 0$, llamados los *valores singulares*.

Para ser precisos, obsérvese que $\Sigma$ es de la forma
$$
\Sigma=\begin{pmatrix}
\sigma_1 & 0 & \ldots & & & 0 & \ldots & 0 \\
0 & \sigma_2 & & & & \vdots& &\vdots\\
\vdots & \ddots & & \\
0 & & \ldots & & \sigma_n & 0 & \ldots & 0\\
\end{pmatrix} \;\;\;\;\; \textrm{ si }n\leq m
$$
$$
\Sigma=\begin{pmatrix}
\sigma_1 & 0 & \ldots & \\
0 & \sigma_2 & & & \\
\vdots & \ddots & & \\
0 & & \ldots & & \sigma_m \\
0 & & \ldots & & 0 \\
\vdots & & \ldots & & \vdots \\
0 & & \ldots & & 0 \\
\end{pmatrix} \;\;\;\;\; \textrm{ si }n\geq m
$$

## Detección de componentes principales

Una de las utilidades prácticas más importantes de diagonalización y SVD es detectar los vectores 'más importantes' de un conjunto de datos. Para ilustrarlo, consideremos la base de datos MNIST.

In [0]:
from sklearn import datasets, svm, metrics
import numpy as np
from numpy import linalg as la
import matplotlib.pyplot as plt

mnist = datasets.load_digits()
digits = mnist['data']

In [0]:
def pintar_numero(d):
    pixels = d.reshape((8, 8))
    plt.imshow(pixels, cmap='gray')
    plt.show()

pintar_numero(digits[23])

In [0]:
digits_mean = digits.mean(0)

pintar_numero(digits_mean)

### Usando diagonalización

Consideremos un conjunto de datos $x_1, x_2, \ldots, x_N$, de media $\bar{x}$. La matrix
$$
    S = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})(x_i - \bar{x})^t
$$
se llama *matriz de covarianzas* de los datos. Su entrada $(i,j)$ mide 'como varían' los atributos $i$-ésimo y $j$-ésimo respecto de su media.

Los autovectores de $S$ pueden interpretarse como las 'direcciones de variación principal' y, cuanto mayor sea el autovalor asociado, mayor es la variación.

In [0]:
# Calculo de la matriz de covarianzas

cov = zeros(64,64)

for d in digits:
    cov = cov + Matrix(d - digits_mean)*Matrix(d-digits_mean).T

In [0]:
# Otra manera mas rapida de calcular la
# matriz de covarianzas usando numpy

digits_cent = [d - digits_mean for d in digits]
cov = sum([d.reshape(64,1)*d.reshape(64,1).T for d in digits_cent]).reshape(64,64)

eigenvalues, eigenvectors = la.eig(cov)

In [0]:
eigenvalues

In [0]:
eigenvectors[:,0] # Devuelve los autovectores por columnas

In [0]:
pintar_numero(eigenvectors[:,0])

### Usando SVD

Otra forma de realizar el mismo cálculo de forma más efectiva es la siguiente. Sea $X = \left(x_1 - \bar{x}\,|\, x_2- \bar{x}\,|\,\ldots\,|\, x_N- \bar{x}\right)$ la matriz de datos centrados en la media. Obsérvese que, en ese caso, $S = XX^t$.

Apliquemos una descomposición SVD a $X$, de forma que

$$
    X = U\Sigma V^t
$$
con $\Sigma = \mathrm{diag}(\sigma_1, \ldots, \sigma_N)$ con $\sigma_1 \geq \sigma_2 \geq \ldots \geq \sigma_N$ los valores principales ordenados. Entonces, tenemos que

$$
    S = XX^t = U\Sigma V^t V \Sigma^t U^t = U\Sigma\Sigma^t U^t = UD U^t,
$$

dónde $D = \mathrm{diag}(\sigma_1^2, \ldots, \sigma_N^2)$. De este modo, los autovalores de $S$ son $\sigma_1^2, \ldots, \sigma_N^2$ y los autovectores vienen dados por $U$.

In [0]:
# Formamos la matriz X

X = np.matrix(digits_cent).T

U, sigma, V = la.svd(X) # Calculamos la SVD de X

In [0]:
pintar_numero(U[:,2])
pintar_numero(eigenvectors[:,2])