# Sprint 13 - Análisis de Componentes Principales (Sesiones)
**Versión para estudiantes**

¡Felicidades! Ya conoces todos los fundamentos del aprendizaje computacional supervisado. En este caso vamos a profundizar un poco más en el análisis de componentes principales (*PCA*) y en el algoritmo de regresión lineal a fin de evidenciar la importancia de una herramienta fundamental para todo científico de datos: el **álgebra lineal**. Esta área de estudio de las matemáticas se ocupa de dar tratamiento a las combinaciones y transformaciones de estructuras algebraicas en espacios vectoriales, utilizando para esto de diversas aplicaciones lineales.

En lo que respecta a nuestro aprendizaje de modelos predictivos, podemos entender como *estructuras algebraicas* a la forma tabular en la que se representan nuestros datos, los cuales existen en *espacios vectoriales* dados por las variables que los caracterizan. Y por *aplicaciones lineales* nos referimos a las distintas operaciones que podemos hacer con ellos para procesarlos e implementarlos en un algoritmo (i.e escalamientos, codificaciones o agregaciones).

Adicional a lo expuesto, en este caso vamos a presentar el concepto de **multicolinealidad** en los datos. Debes saber que muchos algoritmos asumen que los atributos no mantienen ninguna relación entre sí, por lo que la existencia de la mencionada **multicolinealidad** puede ser problemática para el aseguramiento de pronósticos más confiables y robustos.

## Entendimiento del contexto

Una empresa que produce y distribuye alimentos congelados se ha visto expuesta al escrutinio público en las últimas semanas. En distintos medios se ha anunciado que muchos lotes de sus productos no cumplen con los estándares sanitarios mínimos, y se sospecha que los problemas pueden encontrarse en el mantenimiento de la cadena de frío al momento de transportar los productos desde los centros de distribución hacia los puntos de venta minorista.

Ante esto, la empresa te ha solicitado apoyo para predecir el nivel microbiano que se genera en distintos lotes de sus productos una vez que los mismos salen de dichos centros y se distribuyen en camiones frigoríficos alrededor de la ciudad. 

Algunas consideraciones importantes que debes conocer sobre las operaciones logísticas de la empresa:

* Cada un de estos camiones utilizados para el despacho de productos cuenta con 4 sensores de temperatura, ubicados en cada una de las cuatro esquinas del cajón de carga.
* Al día siguiente de entregados los productos en los puntos de venta, un técnico de la empresa recorre estos locales y mide aleatoriamente items del lote entregado registrando las unidades de formación de colonias (CFU) por gramo.
* La normativa ISO vigente establece que un producto es apto para el consumo humano si su $CFU/gramo <= 100$ al momento de ser perchados.  

Por tanto, un modelo de detección anticipada de este indicador no solamente que permitirá una mejor gestión de productos que salen del centro de distribución, sino que además tendrá efectos beneficiosos en lo que respecta a la salud de los consumidores. Lo anterior, sin perjuicio de la evidente mejora en la imagen corporativa de la empresa que podrá anunciar que cumple con las normativas vigentes y que además cuenta con sistemas predictivos inteligentes para un mejor control de calidad.

## Entendimiento de los datos

Importa las librerías a utilizar. Considera que necesitaremos *PCA* e implementaremos un algoritmo de regresión lineal.

La empresa te ha facilitado el dataset **refrigeracion** que contiene información respecto a la temperatura registrada en los camiones y a la medición de $CFU/gramo$ de 144 lotes. En concreto, estas son las columnas existentes en la tabla:

* temp_fi: Temperatura en grados Kelvin en la parte delantera izquierda del camión.
* temp_fd: Temperatura en grados Kelvin en la parte delantera derecha del camión.
* temp_bi: Temperatura en grados Kelvin en la parte trasera izquierda del camión.
* temp_bd: Temperatura en grados Kelvin en la parte trasera derecha del camión.
* cfu_gram: Unidades de formación de colonias por gramo detectadas en productos entregados en puntos de venta.

Explora estos datos y establece a partir de allí, el objetivo técnico, los algoritmos y métricas a utilizar, y el plan de acción para preparación e ingeniería de datos.

**OBJETIVO TÉCNICO**

< Aquí tu respuesta>

**ALGORITMO Y METRICAS DE RENDIMIENTO**

< Aquí tu respuesta>

**PLAN DE ACCIÓN PARA PREPARACIÓN E INGENIERÍA DE DATOS**

< Aquí tu respuesta>

## Análisis exploratorio de datos

En este análisis exploratorio vamos a validar si en efecto existe **multicolinealidad** entre los atributos en cuestión. Se dice que existe **multicolinealidad** entre atributos si hay una relación estadística entre ellos que pueda representarse de manera lineal. Ante todo, vale hacer referencia a los problemas que se pueden ocasionar si no se corrige esta condición a nivel de un algoritmo de regresión lineal:

* Por un lado, dada la existencia de multicolinealidad el modelo será poco robusto y con bajo poder predictivo. Un cambio pequeño en uno de los atributos tenderá a incidir en cambios a nivel de todos los demás, alterando el valor predicho de manera poco controlada. En términos matemáticos, nótese que ante multicolinealidad de un atributo $x_i$ con el resto, se cumple que:

$$ y = X\cdot w + \epsilon = \sum_{x\in X}(w_x x) + \epsilon $$
$$ \implies \frac{\partial y}{\partial x_i} = w_i + \sum_{x_j \neq x_i}{w_j k_j} $$
$$ \implies \frac{\partial y}{\partial x_i} = w_i + \tau_i \neq w_i $$

donde $\tau_i$ es un ruido en el peso correspondiente que distorciona la predicción deseada.

* Por otro, el modelo no será útil para interpretaciones asociadas al impacto o importancia que tiene un atributo sobre la variable objetivo, lo cual conlleva a que sea menos confiable a la hora de utilizarlo para la toma de decisiones estratégicas.

Visto esto, calcula la covarianza entre los atributos para evidenciar la existencia de una alta relación estadística entre ellos. 

Veamos ahora si en efecto esta relación es estrictamente lineal. Para ello considera que en caso de existir esta particularidad, la misma implicará que cada variable pueda ser predicha por las demás justamente mediante una regresión lineal.

En otras palabras, ante multicolinealidad de un atributo $x_i$ se cumplirá que

$$ x_i = X_{j\neq i}\cdot\beta + \eta $$

Entonces, encuentra los valores de R2 correspondientes a regresiones lineales que pronostiquen cada atributo con relación a los demás.

Los valores de R2 obtenidos son en todos los casos superiores a 70% lo cual es una evidencia fuerte de que existe multicolinealidad entre todos los atributos.

## Ingeniería de atributos

El propósito de esta etapa será la eliminación de la multicolinealidad detectada en los atributos. Para ello vamos a utilizar *PCA*, solamente que ahora lo haremos sin el uso de funciones de **Scikit-Learn**, sino que partiremos de su definición matemática formal.

Antes de iniciar, conviene separar definitivamente los atributos de la variable objetivo. Haslo.

### Vectores y valores propios

Al igual que un número compuesto puede factorizarse entre sus divisores primos (i.e $24 = 2^3 \times 3$), una matriz tiene diferentes tipos de factorizaciones, entre las que destaca la **descomposición por vectores propios**. Para entender como funciona este método, sea $A$ una matriz cuadrada de dimensiones $n\times n$, la misma que cumple con

$$ A\cdot v = \lambda\cdot v $$

donde $v$ es un vector de $n$ elementos y $\lambda$ un escalar (número real). Dado que se cumple esta igualdad, se dice que $v$ es un vector propio de $A$, y $\lambda$ es su valor propio asociado.

Por definición existen al menos $n$ vectores propios de $A$, por lo que es factible derivar la descomposición buscada:

$$ A = Q\cdot\Lambda\cdot Q^{-1} $$

donde 
* $Q = [v_1 \quad ... \quad v_n]$ es la matriz compuesta por los $n$ vectores propios de $A$. 
* $\Lambda = diag(\lambda_1 \quad ... \quad \lambda_n)$ es una matriz diagonal con los $n$ valores propios asociados.
* $Q^{-1}$ es la matriz inversa de $Q$ tal que $Q\cdot Q^{-1} = I$.

Más allá de esta definición, una característica importante de los vectores propios de una matriz es que son **ortogonales**, es decir, son independientes entre sí. Además, y esto quizás te es útil saber, un sinónimo de los vectores propios es el de "componentes principales" de la matriz $A$.

### Descomposición de vectores propios para PCA

Ahora bien, ¿cómo se relaciona esto con el *PCA*? Supongamos que mediante este método se desea transformar un conjunto de atributos $X$ que tienen multicolinealidad y que están centrados en 0. Para hacerlo, es necesario extraer la matriz de covarianzas $\Sigma_X$ de este conjunto, y aplicando la descomposición de vectores propios se tiene que

$$ \Sigma_X = Q\cdot \Lambda\cdot Q^{-1} $$

Notemos que dada la independencia entre las columnas de $Q$, toda la información asociada a la multicolinealidad existente debería permanecer únicamente en $\Lambda$. Por tanto, si se proyecta $X$ en el espacio de $Q$ (o lo que es lo mismo, si se obtiene el producto punto entre estas dos matrices), se garantiza que el resultado obtenido consista de una matriz con columnas igualmente independientes.

Entonces, la transformación PCA no es más que generar una nueva matriz de $b$ atributos $X_b$ tal que

$$ X_b = X\cdot Q_{(b)} $$

Solamente basta indicar que $b$ hace referencia a la cantidad de componentes principales (o vectores propios) que deseamos.

### Aplicación de PCA paso a paso

Apliquemos todos estos conceptos en nuestros datos para verificar si con esto corregimos la multicolinealidad encontrada. 

Primero centra los datos del conjunto $X$ tal que todas las columnas tengan un valor promedio de 0.

A continuación genera la matriz de covarianzas de los datos centrados y guárdala en `mat_cov`.

Extre los valores y vectores propios de esta matriz con la función `np.linalg.eig`.

Solamente por temas de formalidad, cambia el signo de todos los valores de primer y tercer vector propio de $Q$ a fin que su dirección sea positiva. No te preocupes porque esto no altera en absoluto los resultados finales. 

Comprueba que la descomposición de vectores propios funciona. Es decir verifica que $ \Sigma_X = Q\cdot\Lambda\cdot Q^{-1} $ utilizando multiplicación matricial (producto punto).

Comprueba que los vectores propios en la matriz $Q$ sean ortogonales. Es decir verifica que

$$ Q\cdot Q^T = I $$

donde $I$ es la matriz identidad y $Q^T$ es la transpuesta de $Q$.

Proyecta la matriz de atributos centrada en el espacio de $Q$ (o lo que es lo mismo, multiplica matricialmente ambas matrices).

Verifica finalmente que estas nuevas columnas ya no tengan multicolinealidad.

### PCA con Scikit-Learn

Ahora que ya sabemos cómo funciona por detrás este método aplicalo con la función correspondiente de **Scikit-Learn**.

¿De qué se trata todo esto al fin y al cabo? La mejor manera de entender las transformaciones matriciales como el *PCA* es imaginar que estamos viendo los mismos datos desde una perspectiva diferente. Y en este caso, la perspectiva que buscamos es aquella en la que no exista el problema de la multicolinealidad.

Mira por ejemplo estas fotografías de la galaxia Andrómeda cortesía de la NASA: 

![](m31.png){width="700"}

Cada una de ellas se toma con un lente distinto en el telescopio para brindar una nueva perspectiva del mismo objeto, y cada una contiene información relevante a estudiar. Aquí hacemos lo mismo, vemos los datos con lentes diferentes con el propósito de corregir distorciones o enfocarnos en los aspectos que más nos interesa.

Ejecuta el siguiente código para que puedas apreciar de mejor manera como estamos cambiando de lentes con el *PCA*.

```py
umbral_x = max(abs(X_pca["pc1"]))*1.01
umbral_y = max(abs(X_pca["pc2"]))*1.01

X_pca.plot(
    x = "pc1",
    y = "pc2",
    kind = "scatter",
    xlim = [-umbral_x,umbral_x],
    ylim = [-umbral_y,umbral_y],
    alpha = 0.5,
    figsize = [6,6]
)
plt.axhline(y = 0, color = "gray", linestyle = "--")
plt.axvline(x = 0, color = "gray", linestyle = "--")
plt.grid(linestyle = ":")

plt.arrow(0, 0, Q[0,0]*l[0], Q[0,1]*l[1], width = 0.025, color = "green", head_width = 0.2)
plt.arrow(0, 0, -Q[0,0]*l[0], -Q[0,1]*l[1], width = 0.025, color = "green", head_width = 0.2)
plt.annotate(text = X.columns[0], xy = [Q[0,0]*l[0], Q[0,1]*l[1]*1.1], fontsize = 8, ha = "left", va = "top", color = "darkgreen")

plt.arrow(0, 0, Q[1,0]*l[0], Q[1,1]*l[1], width = 0.025, color = "green", head_width = 0.2)
plt.arrow(0, 0, -Q[1,0]*l[0], -Q[1,1]*l[1], width = 0.025, color = "green", head_width = 0.2)
plt.annotate(text = X.columns[1], xy = [Q[1,0]*l[0] ,Q[1,1]*l[1]*0.9], fontsize = 8, ha = "left", va = "bottom", color = "darkgreen")

plt.arrow(0, 0, Q[2,0]*l[0], Q[2,1]*l[1], width = 0.025, color = "red", head_width = 0.2)
plt.arrow(0, 0, -Q[2,0]*l[0], -Q[2,1]*l[1], width = 0.025, color = "red", head_width = 0.2)
plt.annotate(text = X.columns[2], xy = [Q[2,0]*l[0], Q[2,1]*l[1]*1.1], fontsize = 8, ha = "left", va = "bottom", color = "red")

plt.arrow(0, 0, Q[3,0]*l[0], Q[3,1]*l[1], width = 0.025, color = "red", head_width = 0.2)
plt.arrow(0, 0, -Q[3,0]*l[0], -Q[3,1]*l[1], width = 0.025, color = "red", head_width = 0.2)
plt.annotate(text = X.columns[3], xy = [Q[3,0]*l[0], Q[3,1]*l[1]*0.9], fontsize = 8, ha = "left", va = "top", color = "red")

plt.show()
```

## Creación de modelo base

Crea y entrena un modelo base con los datos transformados por *PCA* y utilizando un algoritmo de regresión lineal.

Evalúa el rendimiento de este modelo, tanto de forma visual como calculando las métricas correspondientes.

Hemos generado un modelo de pronóstico no solamente asertivo, sino confiable y robusto puesto que no tiene multicolinealidad en sus atributos. La empresa cuenta con una herramienta poderosa para gestionar la calidad de los productos que ofrece a sus consumidores, y que le brindará alertas anticipadas de riesgos sanitarios.