# <center> Laboratorio 1 </center>
## <center> Computación científica II </center>
## <center> Ariel Sanhueza Román - asanhuez@alumnos.inf.utfsm.cl - 201173005-4 </center>
## <center> Gonzalo Moya Rodríguez - gemoya@alumnos.inf.utfsm.cl - 201173016-k </center>

# Introducción

El laboratorio consiste en varias partes, que tiene distintos ejes:
* La primera consiste en la construcción de distintos algoritmos (Power Iteration, Rayleigh Quotient Iteration y dos algoritmos propuestos). Además, se pide calcular su complejidad y además, para los algoritmos propuestos, corroborar su correctitud.
* La segunda parte consiste en probar los algoritmos y estudiar como se desempeñan (tanto en memoria como en tiempo).
* La tercera parte es realizar un análisis de unos datos y recoger información de ellos por medio de los algoritmos implementados.

# Previo
Primero, importaremos las bibliotecas previas:

In [1]:
import numpy as np
from scipy import linalg
%matplotlib inline
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from numpy.linalg import norm, solve
%load_ext memory_profiler

Ahora, cargaremos los datos entregados y generamos el vector inicial:

In [2]:
X = np.load('arcene.npy')
cov_x = X
cov_x -= cov_x.mean(axis=0)
cov_x = np.dot(np.transpose(cov_x),cov_x)
n = cov_x.shape[1]
cov_x = np.divide(cov_x,n-1)
i_guess  = np.ones(cov_x.shape[0])

# Desarrollo

## Pregunta 1
Primero, implementaremos los algoritmos de $\textbf{Power Iteration}$ y $\textbf{Rayleigh Quotient Iteration}$

### Power Iteration

In [3]:
# Adaptación del algoritmo publicado en el ipython de clases
def powerit(A, x, k):
  """
  Program 12.1 Power iteration
  Computes dominant eigenvector of square matrix
  Input: matrix A, initial (nonzero) vector x, number of steps k
  Output: dominant eigenvalue lam, eigenvector u
  """
  for j in range(k):
    u = np.divide(x, linalg.norm(x))
    x = np.dot(A, u)
    lam = float(np.dot(u.T, x))
  u = np.divide(x, linalg.norm(x))
  return lam, u

Dentro de todo el algoritmo, las líneas más costosas son (con sus respectivas complejidades):
* np.dot(A,U) $\rightarrow O(n^2)$, pues es un producto matriz vector.
* np.dot(u.T, x) $\rightarrow O(n)$, pues es un producto vector vector.
* El loop for, que depende de k.

Por lo que la complejidad de este algoritmo es de orden $O(kn^2)$

### Rayleigh Quotient Iteration

In [4]:
# Adaptación del algoritmo publicando en el ipython de clases
def rqi(A, x, k):
  """
  Program 12.3 Rayleigh Quotient Iteration
  Input: matrix A, initial (nonzero) vector x, number of steps k
  Output: eigenvalue lam, eigenvector of inv(A-sI)
  """
  aux,x = powerit(A, x, 2)
  for j in range(k):
    u = np.divide(x, linalg.norm(x))
    lam = float(np.dot(u.T, np.dot(A, u)))
    x = np.linalg.solve(A -lam*np.eye(*A.shape), u)
  u = np.divide(x, linalg.norm(x))
  lam = float(np.dot(u.T, np.dot(A, u)))
  return lam, u


Dentro de todo el algoritmo, las líneas más costosas son (con sus respectivas complejidades):
* np.dot(u.T, np.dot(A, u)) $\rightarrow O(n^2)$, pues está compuesto por dos productos puntos, por lo que la línea completa son aproximadamente $n^2 + n$ operaciones, lo que asintóticamente es $O(n^2)$
* El loop for, que depende de k
Por lo que la complejidad de este algoritmo es de orden $O(kn^2)$

## Pregunta 2

### Parte a)
Primero, como $A$ es simétrica, tenemos que sus valores propios son reales y sus vectores propios son ortogonales entre sí.

Tomemos $B = A - \lambda_iv_iv^T_i$. Entonces:

\begin{align*}
    Bv_k &= \lambda_kv_k \\
    (A - \lambda_iv_iv^T_i)v_k &= \lambda_kv_k \\
    Av_k - \lambda_iv_iv^T_iv_k &= \lambda_kv_k,\texttt{ pero }v^T_iv_k = 0 \\
    Av_k &= \lambda_kv_k
\end{align*}

Entonces vemos que los vectores y valores propios son los mismos en A y en B.

Ahora supongamos que $v_1$ es el vector propio dominante y $\lambda_1$ es el valor propio dominante de A (encontrado en la primera iteración, pues el valor y vector propio inicial son cero). 

\begin{align*}
    Bv_i &= \lambda_iv_i \\
    (A - \lambda_1v_1v^T_1)v_i &= \lambda_iv_i \\
    Av_i - \lambda_1v_1v^T_1v_i &= \lambda_iv_i, \texttt{ pero para } i \neq 1 \rightarrow v^T_1v_i = 0 \\
    Av_i &= \lambda_iv_i
\end{align*}

Entonces, se tienen que si aplicamos power iteration en B, encontraremos su valor/vector propio dominante. Pero como los vectores son los mismos en A y en B y $v_1$ y $\lambda_1$ no son dominantes en B, entonces los dominantes en B son los segundos más grandes en A. Si aplicamos esto $k$ veces, obtenemos los $k$ vectores y valores propios dominantes de A

### Parte b)
La complejidad de Power iteration vimos que era $O(pn^2)$ (en el caso del algoritmo propuesto, en power iteration $k = p$). Como el power iteration es ejecutado $k$ veces, entonces la complejidad total es $O(kpn^2)$.

### Parte c)

In [5]:
def k_eigen_finder(A, p, k, v_0):
    v = v_0
    l = 0
    lambdas = []
    vectors = []
    for i in range(k):
        A = A - l*np.dot(v, np.transpose(v))
        l, v = powerit(A, np.ones((A.shape[0],1)), p)
        lambdas.append(l)
        vectors.append(v)
    return lambdas, vectors

## Pregunta 3
### Parte a)
Primero tenemos que ver si los valores y vectores propios son los mismos en ambos casos. Sea $B = (A - \lambda_i v_i v_i^T)^p$ y $v_j$ vector propio de $A$, tenemos que:

\begin{align*}
Bv_j &= (A - \lambda_i v_i v_i^T)^pv_j \\
     &= (A - \lambda_i v_i v_i^T)^{p-1} (A - \lambda_i v_i v_i^T)v_j \\
     &= (A - \lambda_i v_i v_i^T)^{p-1} (Av_j - \lambda_i v_i v_i^T v_j)
\end{align*}

Si $i = j$, entonces vemos que $Av_j - \lambda_i v_i v_i^T v_j = 0$, por lo que $v_i$ no es vector propio dominante en $B$. Por el contrario, si $j \neq i$, tenemos que:
\begin{align*}
Bv_j &= (A - \lambda_i v_i v_i^T)^{p-1} Av_j \\
\vdots &= \vdots \\
Bv_j &= A^pv_j = \lambda_j^pv_j
\end{align*}

Por lo tanto, los vectores propios son los mismos en $B$, en $A^p$ y en $A$, y si los valores propios en $A$ son $\lambda_j$, en $B$ y en $A^p$ son $\lambda_j^p$. Por lo que el algoritmo es correcto, pero requiere de unos pequeños cambios.

### Parte b) 

Tomando en cuenta que calcular la potencia p de una matriz es equivalente a computar el producto matriz,matriz p veces, esto nos entrega una complejidad de $O(2pn^3)$, con $2n$ para el prodcuto y $n^2$ para la matriz.
Luego dentro del algoritmo detectamos instrucciones relevantes como el producto matriz vector de complejidad de $2n^2$ y posteriormente el producto matriz vector con $2n^2$ más el producto vector vector de complejidad $2n$.Estas instrucciones se realiza $k$ veces por lo que para obtener la complejidad general se construye dependiendo del numero de ciclos, es decir si $k<8np$ entonces la complejidad será $O(2pn^3)$, de lo contrario es $O(4kn^2)$. 

### Parte c)

In [6]:
def k_eigen_finder_plus(A, p, k, x):
    X = A
    l = 0
    v = np.zeros((A.shape[0], 1))
    lambdas = []
    vectors = []
    for i in range(k):
        X = X - l*np.dot(v, v.T)
        A_p = np.linalg.matrix_power(X, p)
        v = np.dot(A_p,x)
        v /= np.linalg.norm(v)
        l = np.dot(v.T, np.dot(A, v))
        lambdas.append(l)
        vectors.append(v)
    return lambdas, vectors

El cambio es que, en el algoritmo sale $A^p \leftarrow A^p - \lambda^p v_i v_i^T$ y fué reemplazado por $(A - \lambda_i v_i v_i^T)^p$, lo cual es lo usado en la demostración de la parte b. Dado que el error se produce al elevar la matriz muchas veces, se realiza una especie de mezcla con el algoritmo de la pregunta 2, al ir elevando a la potencia de p la matriz $X = X - \lambda_i v_i v_i^T$, así la matriz no crece demasiado, se realiza el shift que permite anular el valor propio dominante de la matriz anterior y se sigue utilizando la propiedad de la potencia.

## Pregunta 4
### Parte a)
Las modificaciones son pocas y simples:
* Si nuestra mariz es de dimensiones $nxn$, nuestro Q_0 inicial es cualquier matriz de dimensiones $nxk$, donde $k$ es la cantidad de eigen values que queremos encontrar.
* Al realizar la descomposición QR, usaremos su versión reducida.

### Parte b)
La complejidad de este nuevo algoritmo está determinada por:
* La factorización QR, que es de complejidad $O(n^3)$.
* La cantidad de iteraciones realizadas por el Unshifted QR (llamémoslo $m$).
Por lo tanto, la complejidad total es de $O(mn^3)$.

### Parte c)
La implementación es la siguiente forma:

In [7]:
def unshifted_qr_k(A, m, k):
    # The intial value of Q
    Q = np.dot(A, np.ones((A.shape[0], k)))
    for i in range(m):
        Q,_ = np.linalg.qr(np.dot(A,Q), mode='reduced')
    return np.diagonal(np.dot(np.dot(Q.T, A), Q))

## Pregunta 5

In [8]:
lam, u = powerit(cov_x, i_guess, 27)
print lam
print u

1838214.89054
[  7.92615633e-03  -1.03486901e-04  -1.64245597e-04 ...,   1.10023573e-02
  -2.38882889e-02   4.63108496e-05]


In [9]:
lam, u = rqi(cov_x, i_guess, 3)
print lam
print u

1838214.89061
[  7.92629513e-03  -1.03486836e-04  -1.64048140e-04 ...,   1.10022295e-02
  -2.38883604e-02   4.63112602e-05]


In [10]:
timeit powerit(cov_x, i_guess, 27)

1 loops, best of 3: 221 ms per loop


In [11]:
timeit rqi(cov_x, i_guess, 3)

1 loops, best of 3: 4.32 s per loop


In [12]:
memit powerit(cov_x, i_guess, 27)

peak memory: 132.22 MiB, increment: 0.02 MiB


In [13]:
memit rqi(cov_x, i_guess, 3)

peak memory: 227.62 MiB, increment: 95.39 MiB


Con los resultados anteriores podemos concluir que, para estos casos, power iteration demoró menos tiempo pero llegó a un resultado en más iteraciones mientras que RQI se demoró mucho más, pero con muy pocas iteraciones. Además, RQI requería más memoria que PI.

## Pregunta 6

In [14]:
l,u = k_eigen_finder(cov_x, 10, 10, i_guess)
print l

[1838050.995732637, 1195903.0584144755, 213920.88258184306, 154187.9455181963, 102028.30433202887, 68374.27226384028, 53875.61950935819, 42465.99574260609, 46424.82150974384, 43154.7019382914]


In [15]:
l,u = k_eigen_finder_plus(cov_x, 10, 10, i_guess)
print l,u

[1838145.5238796514, 73357.897930400184, 73358.844822236308, 73359.721764519913, 73360.536231458042, 73361.29466911497, 73362.002666313449, 73362.665092543219, 73363.286210079372, 73363.869765762705] [array([  7.71841822e-03,  -1.03578356e-04,  -4.59169459e-04, ...,
         1.11927747e-02,  -2.37802795e-02,   4.56950843e-05]), array([ 0.02000034,  0.0200003 ,  0.02000064, ...,  0.01999904,
        0.0200008 ,  0.02000032]), array([ 0.02000032,  0.02000029,  0.02000062, ...,  0.01999908,
        0.02000077,  0.02000031]), array([ 0.02000031,  0.02000028,  0.02000059, ...,  0.01999911,
        0.02000074,  0.0200003 ]), array([ 0.0200003 ,  0.02000027,  0.02000057, ...,  0.01999914,
        0.02000071,  0.02000029]), array([ 0.02000029,  0.02000026,  0.02000055, ...,  0.01999917,
        0.02000069,  0.02000028]), array([ 0.02000028,  0.02000025,  0.02000053, ...,  0.0199992 ,
        0.02000067,  0.02000027]), array([ 0.02000027,  0.02000024,  0.02000052, ...,  0.01999922,
        0.02

In [16]:
unshifted_qr_k(cov_x, 100, 10)

array([ 1838214.89061456,  1195796.43014677,   214003.16585597,
         154145.5921766 ,   102040.01804763,    68731.92840622,
          53790.19770729,    49679.85760233,    49428.86792734,
          39916.3129266 ])

Como podemos ver, una prueba con los algoritmos para encontrar los 10 primeros valores propios, "K eigen finder" y Unshifted QR retornan valores muy similares. La versión modificada de "K eigen values".

In [17]:
timeit k_eigen_finder(cov_x,10,10,i_guess)

1 loops, best of 3: 2.79 s per loop


In [18]:
timeit k_eigen_finder(cov_x,10,100,i_guess)

1 loops, best of 3: 29.2 s per loop


In [19]:
timeit k_eigen_finder(cov_x,10,1000,i_guess)

1 loops, best of 3: 4min 37s per loop


In [20]:
timeit k_eigen_finder_plus(cov_x, 10, 10, i_guess)

1 loops, best of 3: 2min 9s per loop


In [21]:
timeit k_eigen_finder_plus(cov_x, 10, 100, i_guess)

1 loops, best of 3: 21min 39s per loop


In [22]:
timeit k_eigen_finder_plus(cov_x, 10, 1000, i_guess)

KeyboardInterrupt: 

In [None]:
timeit unshifted_qr_k(cov_x, 100, 10)

In [None]:
timeit unshifted_qr_k(cov_x, 100, 100)

In [None]:
timeit unshifted_qr_k(cov_x, 100, 1000)

In [None]:
memit k_eigen_finder(cov_x,10,10,i_guess)

In [None]:
memit k_eigen_finder(cov_x,10,100,i_guess)

In [None]:
memit k_eigen_finder(cov_x,10,1000,i_guess)

In [None]:
memit k_eigen_finder_plus(cov_x, 10, 10, i_guess)

In [None]:
memit k_eigen_finder_plus(cov_x, 10, 100, i_guess)

In [None]:
memit k_eigen_finder_plus(cov_x, 10, 1000, i_guess)

In [None]:
memit unshifted_qr_k(cov_x, 100, 10)

In [None]:
memit unshifted_qr_k(cov_x, 100, 100)

In [None]:
memit unshifted_qr_k(cov_x, 100, 1000)

Con los resultados anteriores podemos concluir que, por lo menos en estos casos, K eigen finder es más rápido que Unshifted QR. En cuanto a la memoria utilizada, se ve claramente que Unshifted QR usa menos memoria (se ve notoriamente para los casos con poacs itearciones).

## Pregunta 7

### Parte a)

Para encontrar la proyección de las componentes principales basta encontrar una matriz formada por los dos primeros vectores propios asociados a los valores propios mas dominantes de la matriz de covarianza. Para luego multiplicar la matriz de covarianza por esta matriz formada descrita anteriormente. Utilizaremos K eigen finder pues se obtuvo mejor rendimiento en los casos de prueba anteriores.

In [None]:
l,u = k_eigen_finder(cov_x, 10, 2, i_guess)
u = np.column_stack((u[0],u[1]))
#new_base_2 = np.array(u[0],u[1])
#print new_base_2.shape
base_2 = np.dot(X,u)
#base_2 = np.dot(X,np.array(u))
#print base_2[2]
plt.plot(base_2[:,0], base_2[:,1], 'ro')
plt.show()

#print base_2.shape
cov_2 = base_2
cov_2 -= cov_2.mean(axis=0)
cov_2 = np.dot(np.transpose(cov_2),cov_2)
m = cov_2.shape[1]
cov_2 = np.divide(cov_2,m-1)
l_2,u_2 = k_eigen_finder(cov_2, 10, 2, i_guess)
explained_cov_2 = np.divide(np.sum(l_2),cov_2.sum())
print explained_cov_2

### Parte b)

In [None]:
l,u = k_eigen_finder(cov_x, 10, 3, i_guess)

u = np.column_stack((u[0],u[1],u[2]))
base_3 = np.dot(X,u)

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

ax.scatter(base_3[:,0], base_3[:,1], base_3[:,2], c='r', marker='o')

ax.set_xlabel('X Label')
ax.set_ylabel('Y Label')
ax.set_zlabel('Z Label')

plt.show()

cov_3 = base_3
cov_3 -= cov_3.mean(axis=0)
cov_3 = np.dot(np.transpose(cov_3),cov_3)
m = cov_3.shape[1]
cov_3 = np.divide(cov_3,m-1)
l_3,u_3 = k_eigen_finder(cov_3, 10, 3, i_guess)
explained_cov_3 = np.divide(np.sum(l_3),cov_3.sum())
print explained_cov_3




### Parte c)


# Conclusiones

# Referencias
* http://www.numpy.org
* 