# **Aprendizaje no supervisado**
# UL06. Principal component analysis (PCA) - SOLUCIÓN

## <font color='blue'>**Métodos lineales de reducción**</font>

En este notebook, se presentará el  Análisis de componentes principales (PCA) para reducción de dimensionalidad y extracción de características.

El método tiene implementaciones listas para usar en scikit-learn que son útiles para sus proyectos, pero para el propósito de este notebook  es implementar el métodos desde cero, usando solo OpenCV para abrir y guardar imágenes, y NumPy para manejar matrices.

El objetivo de PCA es obtener un subespacio (es decir, unas dimensiones más bajas) y proyectar la nube de puntos de datos al subespacio sin perder información incrustada en los datos originales con dimensiones más altas, por lo que busca un vector que maximice la variación de los datos.

## <font color='blue'>**Principal component analysis (PCA)**</font>

Si se pregunta por qué PCA es útil, estos son  los 3 principales beneficios:

1. Reduce el tiempo de entrenamiento, debido a un conjunto de datos más pequeño
2. Elimina el ruido al mantener solo lo relevante
3. Hace posible la visualización, en los casos en que tiene un máximo de 3 componentes principales

Principal Component Analysis (PCA) es un método estadístico que permite simplificar la complejidad de espacios muestrales con muchas dimensiones a la vez que conserva su información. Supóngase que existe una muestra con $n$ individuos cada uno con $p$ variables aleatorias $(X_1, X_2, …, X_p)$, es decir, el espacio muestral tiene $p$ dimensiones. PCA permite encontrar un número de factores subyacentes ($z<p$) que explican aproximadamente lo mismo que las p variables originales. Donde antes se necesitaban $p$ valores para caracterizar a cada individuo, ahora bastan $z$ valores. Cada una de estas $z$ nuevas variables recibe el nombre de componente principal. Esta tecnica pertenece a la familia de aprendizaje no supervisado.

PCA aborda esta tarea mediante la identificación de componentes principales, que son combinaciones lineales de las características originales. Estos componentes se extraen de modo que el primer componente principal encapsula la varianza máxima en el conjunto de datos, el segundo encapsula la varianza restante mientras no está correlacionado con el primero, y así sucesivamente.


## La intuición

¿Como proyectamos a una dimensión maximizando la varianza?

![Intuición1](https://drive.google.com/uc?export=view&id=1RgWr0oVb1ctZ_PlNBI-YbvpWQbxkuetY)

¿Y en este caso?

![Intuición1](https://drive.google.com/uc?export=view&id=1IZcDhrZ2S4YEnxIvvxUp4iUmlkTzNYEK)

Esto lo podemos modelar como un problema de maximización:

$$ \max_{v_1} (\frac{1}{n} \sum_{i=1}^n (U_1^Tx_i - U_1^T\bar{x})^2)$$ asumiendo $\bar{x}=0$, se tiene
$$ \max_{v_1} (\frac{1}{n} \sum_{i=1}^n (U_1^Tx_i)^2)$$, sujeto a $$ ||U_1||=1$$

Esta aproximación se llama **variance maximization approach**.

Al desarrollar el cuadrado obtenemos.

$$ \frac{1}{n}\sum_{i=1}^n(U_1^Tx_i)^2= U_1^T\frac{(X^TX)}{n}U_1$$,
Donde $\frac{(X^TX)}{n}$ es la matriz de covarianza.


Si quiere seguir profundizando puede ver:
https://medium.com/analytics-vidhya/mathematics-behind-principal-component-analysis-pca-1cdff0a808a9


Otra forma de ver el problema es establecerlo como un problema de minimización.

Otra forma de pensar en PCA es que se ajusta a la mejor línea que atraviesa nuestros datos con el objetivo de minimizar el error de proyección "d" para cada punto. Este enfoque se denomina enfoque de minimización de la distancia.

$$d^2 = ||x_i||^2 - (U_1^Tx_i)^2$$
$$=(x_i^Tx_i)-(U_1^Tx_i)^2$$

Entonces se quiere minimizar:

$$ \min_{U_1}\sum_{i=1}^n (x_i^Tx_i)-(U_1^Tx_i)^2$$ Sujeto a
$$ ||U_1||=1$$

La solución de estos problemas de optimización nos entregan las componentes principales.




## <font color='green'>**Actividad 1**</font>


El objetivo de esta actividad es aplicar el siguiente procedimiento para calcular las componentes principales y posteriormente visualizar las dos primeras componentes..


![Visualizando](https://drive.google.com/uc?export=view&id=1h7ea0kZsG4WIekE_CYAaFoeoF4EByTYz)







Vamos a analizar, un data set súper simple para aprender., Asi que vamos por con el conocido conjunto de datos Iris. Inicialmente tiene solo 4 características, aún imposible de visualizar y utilizaremos PCA para visualizar caracteristicas.

![Iris](https://drive.google.com/uc?export=view&id=1wB6sEo2oIupsW3ZBEgj9CYotC-07m-Tv)

Procedimiento:

1. Cargue la la siguiente data y transformelo a numpy.

```
df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')
```

2. Visualice la data y observe que tienen distintos valores. Por lo tanto es necesario normalizar la data. Utilice

```
from sklearn.preprocessing import StandardScaler
```
3. Calcule la matriz de covariaza sobre las features.

```
features = X_scaled.T
cov_matrix = np.cov(features)
```

4. Calcule los autovalores, autovectores y el contenido de información de cada componente.



```
print(100*eig_val_cov/eig_val_cov.sum())
```

5. Proyecte las dos primeras componentes.

```
projected_1 = X_scaled.dot(eig_vec_cov.T[0])
```

6. Visualice las dos primeras componentes.

7. Compare el resultado con pca de sklearn.





In [None]:
import numpy as np
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')

X = df.to_numpy()
print(X[:5])

<font color='green'>Fin Actividad 1</font>

## <font color='green'>Actividad 2</font>

## Compresión de una imagen a través del uso de PCA.

Determine la cantidad de componentes necesarias para obtener una calidad adecuada. Primero realice un PCA y posteriormente invierta la transformación con las componentes seleccionadas.


```
import numpy as np
import glob
import cv2
path1 = 'ruta imagenes'
images = []
for path in glob.glob(path1+"test/*.jpg"):
    images.append(cv2.cvtColor(cv2.imread(path), cv2.COLOR_BGR2GRAY))
```



In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Leemos nuestras imagenes
import numpy as np
import glob
import cv2
path1 = '/content/drive/MyDrive/Becas_Capital_Humano/Material/M05-Apredizaje_No_supervisado/data/'
images = []
for path in glob.glob(path1+"/*.jpg"): #Leemos todas las imagenes
  images.append(cv2.cvtColor(cv2.imread(path), cv2.COLOR_BGR2GRAY))


In [None]:
#Trabajaremos solo con la primera
print(images[0].shape)

In [None]:
#TIP
#import matplotlib.pyplot as plt
#plt.figure(figsize=[12,8])
#lt.imshow(image_recon,cmap = plt.cm.gray)

<font color='green'>Fin Actividad 2</font>

## <font color='green'>Actividad 3</font>

### Desafío 2: Realice esto mismo pero para el caso de una imagen color


## <font color='green'>Actividad 4</font>

Esta actividad tiene por objetivo extender los conceptos de PCA para el caso que existan comportamientos no lineales. Para esto se utilizará el concepto de Kernel utilizado en SVM.

**Kernel PCA:** PCA es un método lineal. Es decir, solo se puede aplicar a conjuntos de datos que son linealmente separables. Pero, si lo usamos para conjuntos de datos no lineales, podríamos obtener un resultado que puede no ser la reducción de dimensionalidad óptima. Kernel PCA utiliza una función de kernel para proyectar el conjunto de datos en un espacio de características de mayor dimensión, donde es linealmente separable. Es similar a la idea de Support Vector Machines.

Hay varios métodos de kernel como lineal, polinomial y gaussiano.

![Visualizando](https://drive.google.com/uc?export=view&id=1IjMqDaBhF60Y4px5dKzuuGeE7eI4Ey8V)

En la imagen anterior, los datos estan en dos dimensiones. Los denotaremos por $x=(x_1,x_2)$. EN su forma original, los datos son inseparables en su espacio. Sin emabrgo a traves de la aplicación de una funcion kernel lo podemos transformar para ser separable linealmente.

$$ \phi \rightarrow x_1^2,x_2^2,\sqrt{2}x_1x_2$$

1. Utilice el conjunto de datos make_moons, genere un dataset y visualice su forma.

2. Aplique el método de PCA y visualice sus componentes.

3. Aplique el método de kernel PCA y visualice sus componentes.

4. Genere alguna conclusión.

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons

X, y = make_moons(n_samples = 500, noise = 0.02, random_state = 417)

plt.scatter(X[:, 0], X[:, 1], c = y)
plt.show()

<font color='green'>Fin Actividad 4</font>

<img src="https://drive.google.com/uc?export=view&id=1bqkJJ7QiIOTsp-7jm5eUtK-XYWMEq2_K" width="100" align="left" />
<br clear="left">

## <font color='blue'>**Resumen**</font>

PCA es una técnica de reducción de dimensionalidad utilizada en el análisis de datos y el aprendizaje automático. Su objetivo principal es transformar un conjunto de datos con múltiples características en un conjunto de dimensiones más bajas mientras se conserva la mayor cantidad posible de variabilidad.

Funcionamiento:

1. Identificación de componentes: PCA busca las direcciones (componentes principales) a lo largo de las cuales los datos tienen la mayor variabilidad.

2. Proyección: Los datos originales se proyectan en el espacio definido por los componentes principales.

3. Selección de componentes: Se pueden seleccionar los componentes principales más significativos o reducir la dimensionalidad manteniendo solo los primeros componentes.

Ventajas de PCA:

1. Reducción de dimensionalidad: Permite reducir la cantidad de características sin perder mucha información, lo que simplifica el análisis y acelera los algoritmos de aprendizaje automático.

2. Eliminación de correlación: PCA transforma las características correlacionadas en componentes no correlacionados, lo que puede mejorar la interpretación de los datos.

3. Visualización: PCA permite visualizar datos en dimensiones reducidas para entender mejor la estructura de los datos.

Desventajas de PCA:

1. Pérdida de interpretabilidad: Los componentes principales son combinaciones lineales de características originales, lo que puede dificultar la interpretación de los nuevos ejes.

2. Sensibilidad a escalas: La escala de las características puede afectar el resultado de PCA, por lo que es necesario escalar los datos antes de aplicarlo.

3. No linealidad: PCA es adecuado para identificar patrones lineales en los datos, pero puede no ser efectivo para relaciones no lineales.

Ejemplos de aplicaciones de PCA:

1. Análisis de imágenes: En el procesamiento de imágenes, PCA se usa para reducir la cantidad de píxeles y extraer características principales para reconocimiento de objetos.

2. Reconocimiento de patrones: En aprendizaje automático, PCA puede utilizarse como preprocesamiento para reducir la dimensionalidad de los datos antes de entrenar modelos de clasificación.

3. Biometría: En aplicaciones de reconocimiento facial, PCA puede ayudar a reducir la cantidad de características faciales y mejorar la precisión del reconocimiento.

4. Análisis de datos financieros: En finanzas, PCA se utiliza para identificar las principales tendencias y factores que afectan los rendimientos de activos financieros.

En resumen, PCA es una técnica poderosa para reducir la dimensionalidad de los datos, lo que puede mejorar la eficiencia y rendimiento de los modelos de aprendizaje automático. Sin embargo, es importante considerar sus limitaciones y seleccionar adecuadamente el número de componentes principales para cada aplicación.