# Algebra Lineal aplicada a la Ciencia de Datos

## Librerias

In [31]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.decomposition import PCA
from scipy.sparse.linalg import svds
from scipy.linalg import sqrtm

## Ejercicio 1

Utilizar la siguiente tabla que explica las preferencias de restaurantes de Alfonso, Brenda, Carlos y Diana para aplicar PCA tal como lo vimos en clase y explicar los resultados

|         | Italiana | Francesa | Mexicana | Japonesa |
|---------|----------|----------|----------|----------|
| Alfonso |    10    |     1    |     2    |     7    |
| Brenda  |     7    |     2    |     1    |    10    |
| Carlos  |     2    |     9    |     7    |     3    |
| Diana   |     3    |     6    |    10    |     2    |

In [2]:
X = np.array([
    [10, 1, 2,  7],
    [7,  2, 1, 10],
    [2,  9, 7,  3],
    [3,  6, 10, 2]
])

In [3]:
standarized = X - np.mean(X, axis=0)
cov = standarized @ standarized.T/X.shape[0]
cov

array([[ 10.9375,   8.5625, -10.3125,  -9.1875],
       [  8.5625,  11.1875,  -8.9375, -10.8125],
       [-10.3125,  -8.9375,  10.6875,   8.5625],
       [ -9.1875, -10.8125,   8.5625,  11.4375]])

In [4]:
eig_val, eig_vec = np.linalg.eig(cov)

In [5]:
print('Eigen valores:', eig_val)
print('Eigen vectores:', eig_vec)

Eigen valores: [3.92587241e+01 3.99291342e+00 7.98286130e-16 9.98362518e-01]
Eigen vectores: [[ 0.49611631  0.50762718  0.5        -0.49616857]
 [ 0.50376181 -0.49345547  0.5         0.50271835]
 [-0.48958265 -0.50644341  0.5        -0.50380939]
 [-0.51029547  0.49227169  0.5         0.4972596 ]]


In [6]:
idx = np.argsort(eig_val)[::-1]
eig_val = eig_val[idx]
eig_vec = eig_vec[:, idx]
pca = np.dot(X, eig_vec[:, range(2)])
print(pca)

[[ 0.91369133  7.01583139]
 [-1.11219956  6.98275286]
 [ 0.56812395 -5.49413361]
 [-1.40549766 -5.51774196]]


Los componentes obtenidos reflejas los restaurantes con votaciones similares o aquellos que estan correlacionados. Los restaurantes de comida Italiana y Japonesa, y Francesa y Mexicana son ejemplos de restaurantes con una valoracion parecida. 

## Ejercicio 2

Calcular el rango de las siguientes matrices asi como una aproximacion de grado 2, 3 y 5 respectivamente.

\begin{equation}
    \begin{bmatrix} 4 & 5 \\ 7 & 2 \end{bmatrix}
    \begin{bmatrix} 
    3 & 3 & 5 & 1 & 5  \\ 
    5 & 4 & 3 & 5 & 1  \\ 
    2 & 7 & 10 & 8 & 9 \\ 
    5 & 3 & 6 & 10 & 8 \\ 
    9 & 5 & 9 & 6 & 10 \\
    10 & 10 & 8 & 4 & 6
    \end{bmatrix}
    \begin{bmatrix} 
    5 & 1 & 3 & 9 & 3 & 10 & 3    \\ 
    5 & 4 & 1 & 7 & 8 & 3 & 2     \\
    3 & 7 & 2 & 1 & 9 & 2 & 8     \\
    2 & 5 & 3 & 10 & 10 & 1 & 7   \\
    10 & 3 & 5 & 8 & 7 & 10 & 10  \\
    9 & 2 & 10 & 3 & 8 & 3 & 4    \\
    5 & 10 & 3 & 7 & 9 & 4 & 9    \\
    8 & 7 & 4 & 6 & 7 & 8 & 9     \\
    \end{bmatrix}
\end{equation}


In [75]:
def get_range(X):
    U, D, V = np.linalg.svd(X)
    # No funciona con los filtros np.nonzero() y D>0. Validar con 1*e-10
    non_zero = D[D>1e-10]
    return len(non_zero)

### Primera matriz:

In [76]:
A = np.array([[4, 5], [7, 2]])

In [77]:
print('El rango de A es', get_range(A))

El rango de A es 2


### Segunda matriz:

In [54]:
B = np.array([[3, 3, 5, 1, 5], 
              [5, 4, 3, 5, 1],
              [2, 7, 10, 8, 9],
              [5, 3, 6, 10, 8],
              [9, 5, 9, 6, 10],
              [10, 10, 8, 4, 6]
             ])

In [82]:
print('El rango de B es', get_range(B))

El rango de B es 5


In [83]:
U_k, sigmas_k, Vt_k = svds(B.astype(float), k=3)
D_k = np.diag(sigmas_k)

In [85]:
B_aprox =  np.matmul(sqrtm(D_k), Vt_k) 
B_aprox.shape

(3, 5)

In [86]:
B_aprox

array([[ 1.11640152, -0.5004949 , -1.01097103,  1.5684416 , -0.8176254 ],
       [-1.83893873, -1.21342841,  0.20530918,  1.56618303,  0.98238838],
       [-2.43412972, -2.31003739, -2.98846898, -2.44005639, -2.89513336]])

### Tercera matriz:

In [91]:
C = np.array([
        [5,  1,  3,  9,  3,  10, 3 ],
        [5,  4,  1,  7,  8,  3,  2 ],
        [3,  7,  2,  1,  9,  2,  8 ],
        [2,  5,  3,  10, 10, 1,  7 ],
        [10, 3,  5,  8,  7,  10, 10],
        [9,  2,  10, 3,  8,  3,  4 ],
        [5,  10, 3,  7,  9,  4,  9 ],
        [8,  7,  4,  6,  7,  8,  9 ]
])

In [92]:
print('El rango de C es', get_range(C))

El rango de C es 7


In [93]:
U_k, sigmas_k, Vt_k = svds(C.astype(float), k=5)
D_k = np.diag(sigmas_k)

In [94]:
C_aprox =  np.matmul(sqrtm(D_k), Vt_k) 
C_aprox.shape

(5, 7)

In [95]:
C_aprox

array([[-0.75564885, -0.94258412,  0.58521029,  0.31091255, -0.34236264,
        -0.35611411,  1.38333539],
       [-0.10297746, -0.90731407,  0.85246082,  1.47067309,  1.04699079,
        -1.12485339, -1.39610383],
       [-1.24217272,  0.30602243, -1.86085653,  1.99194943, -0.40744192,
         0.73426722, -0.04231378],
       [ 1.26211105, -1.78859778,  0.67141623,  0.5769346 , -1.4956339 ,
         2.14321559, -0.76142552],
       [ 2.56020617,  2.10297879,  1.65974403,  2.70814772,  3.18903329,
         2.25028451,  2.88919002]])

## Ejercicio 3

Calcular el algoritmo de PageRank para el siguiente grafo:

<img src='graph.jpg' width=30%/>