----------------------------------- ----------------------------------- ----------------------------------- 
----------------------------------- ESPACIO PARA BANNER DE LA MAESTRIA -----------------------------------
----------------------------------- ----------------------------------- ----------------------------------- 

# Reducción de la Dimensionalidad y Analisis de Componentes Principales

Este cuaderno es un breve tutorial sobre las funciones y librerías básicas de Python que el lector va a necesitar para el desarrollo de buena parte de las actividades de este curso. NO es necesario editar el archivo o hacer una entrega. Sin embargo, es libre de modificarlo editando celdas de texto (celdas Markdown) o las celdas de código (celdas con código ejecutable están en gris). Esta puede ser una buena forma de aprender nuevas funcionalidades del cuaderno, o experimentar variaciones en los códigos de ejemplo.

# Reducción de la Dimensionalidad

Uno de los principales problemas que aborda el aprendizaje no supervisado es el de reducción de la dimensionalidad. A modo de ejemplo, supongamos que se dispone de una base de datos de inviduos con 10 variables socioeconómicas. Estas variables socioeconómicas en la base tratan de medir el bienestar de una personas, y por lo tanto incluyen variables como ser el ingreso, sus gastos, sus años de educación, entre otras. La pregunta entonces que nos motiva, es si es posible constuir una suerte de indice que permita condensar todas estas dimensiones en una sola que resuman el bienestar de cada una de ellas. La primer respuesta obvia sería construir un indice que promedie estas variables. Sin embargo, todas las variables pueden no importar de manera igual. El problema que estudiaremos en este cuaderno se puede pensar como cuál es la mejor forma de construir el indice combinando linealmente las variables iniciales.

Trabajar directamente con datos de alta dimensión, como ser texto e imágenes, conlleva algunas dificultades: es difícil de analizar, la interpretación es difícil, la visualización es casi imposible y (desde un punto de vista práctico) el almacenamiento de los vectores de datos puede ser muy costos. 

Sin embargo, los datos de alta dimensión a menudo tienen propiedades que podemos aprovechar. Por ejemplo, los datos de alta dimensión suelen estar demasiado completos, es decir, muchas dimensiones son redundantes y pueden explicarse mediante una combinación de otras dimensiones. 

Además, las dimensiones en los datos de alta dimensión a menudo se correlacionan de modo que los datos posean una estructura intrínseca de dimensiones inferiores. La reducción de dimensionalidad aprovecha la estructura y la correlación y nos permite trabajar con una representación más compacta de los datos, idealmente sin perder información. Podemos pensar en la reducción de dimensionalidad como una técnica de compresión, similar a jpeg o mp3, que son algoritmos de compresión para imágenes y música.
En este capítulo, discutiremos el análisis de componentes principales (PCA), un algoritmo para la reducción de dimensionalidad lineal. La PCA, propuesta por Pearson (1901) y Hotelling (1933), existe desde hace más de 100 años y sigue siendo una de las técnicas más utilizadas para la compresión y visualización de datos. También se utiliza para la identificación de patrones simples, factores latentes y estructuras de datos de alta dimensión. 


En esta notebooks vamos a explorar el hallazgo de las componentes principales en alguno de los datasets vistos en clases anteriores. La idea de componentes principales (y de muchas otras técnicas de reducción dimensional) es encontrar una combinación de los features originales que condensen gran parte de la variabilidad de nuestros datos. La utilidad de esto radica en poder:
- visualizar los datos en un espacio mucho más chico que el espacio original;
- encontrar direcciones que condensen la variación de features fuertemente correlacionados y, por lo tanto, eliminar información redundante;
- alimentar modelos de regresión o clasificación con menos variables independientes;
- comprimir información (parte 2).

La descomposición en componentes principales es parte del conjunto de algoritmos conocidos como de **aprendizaje no-supervisado**. Esto se debe a que estos algoritmos trabajan sobre el conjunto de features, sin que exista una variable que querramos predecir (variable *target*).

In [101]:

import os
import pandas as pd
import numpy as np

In [102]:
os.getcwd()

'/Users/iggy/Dropbox/Teaching/2022/MIAD/Unsupervised_Learning_MIAD/Tutoriales/Week1'

In [110]:
gasto = pd.read_csv('../../../gasto_col_2017_norm2.csv')
gasto = gasto.set_index("Ciudad")
gasto.head()

Unnamed: 0_level_0,Alimentos y bebidas no alcohólicas,Bebidas alcohólicas y tabaco
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Arauca,-0.893243,-1.491704
Armenia,1.411143,-0.317263
Barrancabermeja,-1.14593,0.551373
Barranquilla,-0.183745,-0.774835
Bogotá,1.355724,0.255023


In [111]:
S = gasto.cov()
S

Unnamed: 0,Alimentos y bebidas no alcohólicas,Bebidas alcohólicas y tabaco
Alimentos y bebidas no alcohólicas,1.0,-0.109692
Bebidas alcohólicas y tabaco,-0.109692,1.0


In [112]:
eig_val, eig_vec = np.linalg.eig(S)
eig_val

array([1.10969201, 0.89030799])

In [113]:
from sklearn.decomposition import PCA

In [114]:
pca = PCA(n_components = 1)  

In [117]:
pca = PCA(n_components=1).fit(gasto)

print(pca.explained_variance_)
print(pca.components_)

[1.10969201]
[[-0.70710678  0.70710678]]
