# Entrega 4 - Análisis de datos (PCA, K-Means)

### Grupo 07:
     - Renzo Gambone C.I. 5.155.486-4
     - Germán Ouviña C.I. 4.823.566-1
     - Leandro Rodríguez C.I 4.691.736-4


## 1. Introducción
***
### 1.1. Objetivo
***
El objetivo de esta tarea fue analizar bajo distintos enfoques el corpus _aquienvoto.uy_. Más específicamente, se tuvieron en cuenta los siguientes lineamientos:
- Implementar un algoritmo de reducción de dimensionalidad (algoritmo PCA) para visualizar los datos.
- Implementar un modelo de aprendizaje no supervisado (algoritmo K-means) para agrupar los datos.
- Analizar los resultados intermedios generados en cada enfoque, buscando patrones y extrayendo información de utilidad en el proceso.
- Analizar los resultados finales generados en cada enfoque, contestando a las preguntas planteadas en el práctico y a otras surgidas de las observaciones del corups.
- Enfocar dichos análisis desde un punto de vista cualitativo, teniendo en cuenta métricas cuantitativas con el fin de orientar dicho análisis.

### 1.2. Entrega
***
La entrega de esta tarea consta de dos grandes componentes:
- **Informe** en formato de Jupyter Notebook (este informe).
- **Programa** que permite analizar el conjunto de datos utilizando **PCA** o **KMeans**, generar distintas gráficas, evaluar el desempeño de los algoritmos utilizados, entre otras utilidades.

El objetivo del **informe** es centralizar la información relativa a los distintos métodos de análisis empleados, así como los resultados obtenidos y las conclusiones generadas. En esta ocasión, es posible ejecutar el código principal completamente desde el informe, agregandose las funciones necesarias en las secciones correspondientes (ver sección 1.3. para una descripción detallada sobre el código encontrado en cada sección).

Por otra parte, el **programa** ofrece una interfaz en consola que permite la ejecución de ambos algoritmos acorde a distintas configuraciones paramétricas, así como generar todos los datos mostrados en el informe. Si bien todas estas herramientas fueron pensadas para uso del grupo, en el archivo *README.md* se adjunta una sencilla guía de como utilizarlas.

A diferencia de las anteriores entregas, el **programa** y su interfaz se agregó como una herramienta puramente auxiliar. Como se mencionó anteriormente, es posible ejecutar el código principal en el **informe**. De todas formas, con el fin de facilitar la lectura, se redujo el uso de código dentro del informe lo máximo posible. Para un mayor entendimiento de los algoritmos empleados, referir a los archivos de código fuente.

### 1.3. Estructura
***
Dado que en esta ocasión el objetivo principal está en el **análisis** y no en la **construcción** de uno o varios modelos, tanto la estructura como las tareas realizadas difieren bastante con respecto a las anteriores entregas. A continuación se adjunta una breve introducción del contenido de cada sección:

- En la **Sección 2 (Enfoque)** se define y contrasta los dos grandes enfoques utilizados a lo largo de la tarea (reducción de dimensionalidad y aprendizaje no supervisado), manteniéndose dicha dualidad en el resto de secciones.
- En la **Sección 3 (Diseño)** se tratan los aspectos matemáticos y técnicos de cada enfoque, definiendo los algoritmos empleados, formas de evaluación generales, etc.
- En la **Sección 4 (Experimentación)** se define la metodología empleada a la hora de experimentar, así como el proceso de generación de resultados, los resultados en sí y el análisis posterior de los mismos. También se desarrolla una sección con información generada durante la investigación previa realizada en relación al marco teórico del corpus, justificando la toma de decisiones de los distintos experimentos realizados. 
- En la **Sección 5 (Conclusiones)** se adjuntan las conclusiones generales obtenidas en el desarrollo de la tarea, organizandose las mismas según distintas subsecciones.


## 2. Enfoque
***
Como se mencionó en la sección anterior, el objetivo principal de la tarea es estudiar el corpus de _aquienvoto.uy_. El interés general radica en analizar la relación entre los potenciales votantes, buscando patrones en sus respuestas y enfocandose en el análisis cualitativo, es decir, priorizar las observaciones e interpretaciones de los datos.

Existen mútliples estrategias posibles para encarar dicho problema, por lo que a continuación se definen los dos enfoques utilizados:

### 2.1. Enfoque 1 - Reducción de Dimensionalidad
***
Por un lado, es posible analizar los datos sin utilizar ningún modelo de aprendizaje automático. Dado que el corpus cuenta con **26 atributos**, el primer enfoque se centra en la **reducción de dimensionalidad** del corpus en sí, buscando reducir la cantidad de dimensiones para poder visualizar los datos y buscar una relación entre votantes graficamente.

Dicho enfoque puede presentar varios problemas, ya que para poder graficar los datos es necesario pasar de **26 dimensiones** a **2 dimensiones**, siendo factible una pérdida importante de información en el proceso. De hecho, dado un corpus específico, dependiendo de la técnica de reducción de dimensionalidad empleada y de la relación de los datos en sí, es posible determinar que tanto impactará la reducción de dimensiones en la integridad del corpus.

De todas formas, si el corpus cuenta con una estructura "resistente" a la reducción de dimensiones y el algoritmo utilizado es compatible con dicha estructura, sería posible observar o descartar patrones entre los votantes.

Tomando en cuenta lo anterior, existen múltiples técnicas de reducción de dimensionalidad. En el contexto de esta tarea se utilizará **PCA (Principal Component Analysis)**. En la sección 3.1 se especifican los aspectos técnicos de dicho algoritmo y en la sección 4.4 los resultados de la experimentación y análisis empleando dicha técnica.

### 2.2. Enfoque 2 - Aprendizaje no Supervisado (Clustering)
***
Por otra parte, es posible analizar los datos utilizando modelos de aprendizaje automático, más concretamente modelos que implementen técnicas de **clustering** o **agrupamiento**, siendo está una forma de **aprendizaje no supervisado**.

Dicho enfoque genera distintos grupos de votantes, basandose en su distribución en un espacio de **26 dimensiones**. Dependiendo de la naturaleza del corpus, esto puede generar problemas. Al igual que en el anterior enfoque, es posible determinar la cantidad óptima de grupos a generar (ya que a priori, esta es desconocida).

Tomando en cuenta lo anterior, existen múltiples técnicas de clustering. En el contexto de esta tarea se utilizará **K-Means**. En la sección 3.2 se especifican los aspectos técnicos de dicho algoritmo y en la sección 4.5 los resultados de la experimentación y análisis empleando dicha técnica.

## 3. Diseño
***
En esta sección se detallan las características del diseño utilizado para construir las herramientas de análisis para cada enfoque, profundizandose las estrategias y algoritmos empleados, así como tratando otros puntos, como el procesamiento previo al análisis y/o entrenamiento y la evaluación posterior al mismo.

### 3.1. Enfoque 1 - Reducción de Dimensionalidad
***
El primer enfoque

#### 3.1.1. Preprocesamiento
***
A

#### 3.1.2. Algoritmo
***
A

#### 3.1.3. Evaluación
***
A

#### 3.1.4. Análisis
***
A


### 3.2. Enfoque 2 - Aprendizaje no Supervisado (Clustering)
***
El primer enfoque

#### 3.2.1. Modelo
***
Acá hablar de generalidades de KMeans y aprendizaje no supervisado (no especificar algoritmo usado)

#### 3.2.2. Preprocesamiento
***
Acá hablar del 

#### 3.2.3. Algoritmo
***
Acá hablar del algoritmo de KMeans tradicional usado, por arriba. Mencionar especificaciones

#### 3.2.4. Evaluación
***
Acá hablar de que como no es supervisado no se puede evaluar como los modelos de tareas anteriores. Hablar del problema de caer en un optimo local. Hablar de silhouette y ARI, como funcionan y por que nos sirven

#### 3.2.5. Análisis
***
Utilidad en el análisis, encontrar un patrón 


## 4. Experimentación
***
En esta sección se detallan los aspectos relacionados a las distintas pruebas realizadas, tratando tanto los lineamientos previos como los análisis realizados sobre los resultados.

### 4.1. Metodología
***

Dado el objetivo de buscar patrones en el corpus, se utilizó una metodología de experimentación particular, dividiendola en las siguientes etapas:

1. **Investigación previa:** Al tratarse de un corpus con un contexto específico (posibles votaciones en elecciones nacionales), fue necesario realizar una investigación genérica sobre dicho contexto para poder evaluarlo lo mejor posible. En resumen, se investigó sobre generalidades de la política partidaria, análisis estadísticos en poblaciones de votantes, variables indicadoras, entre otros. En la sección 4.2 se profundiza la información recabada y los sesgos introducidos por la interpretación de la misma.
<br><br>
2. **Análisis del corpus:** Habiendo realizado el sondeo de información básica sobre el tema, se analizó la estructura del corpus, especulando sobre su correctitud. En la sección 4.3 se estudian las posibles ventajas y desventajas de esta estructura.
<br><br>
3. **Generación de resultados:** Una vez realizada la investigación y el análisis preliminar, se ejecutaron distintas configuraciones de ambos enfoques con el fin de observar los datos resultantes. En la sección 4.4 se expanden las elecciones de configuraciones utilizadas, la justificación de dichas elecciones, los resultados más importantes y se adjuntan los scripts que fueron implementados.
<br><br>
4. **Análisis de enfoques:** Teniendo los resultados generados, se realizó un estudio de los mismos con un enfoque de análisis cualitativo, utilizando los conocimientos generados en las etapas previas. Se analizaron métricas descriptivas de ambos algoritmos, también realizandose observaciones e interpretaciones de cada resultado.En la sección 4.5 se expanden estos puntos y se adjuntan los scripts necesarios para evaluar el desempeño del algoritmo utilizado y la calidad de los resultados analizados.
<br><br>
5. **Contraste entre enfoques:** Para finalizar, se contrastó de forma general los resultados, observaciones e interpretaciones de cada enfoque, con el objetivo de detectar alguna contradicción o parámetro en común que permita rescatar o descartar conclusiones. En la sección 4.6 se tratan estos temas.

### 4.2. Marco Teórico
***

Links:
- https://es.wikipedia.org/wiki/Gr%C3%A1fico_de_Nolan
- https://es.wikipedia.org/wiki/Espectro_pol%C3%ADtico
- https://es.wikipedia.org/wiki/Izquierda_y_derecha_(pol%C3%ADtica)
- https://es.wikipedia.org/wiki/Partido_pol%C3%ADtico

Separaciones:
- Candidatos
- Partidos
- Izquierda / derecha
- Grafica de Nolan 1
- Grafica de Nolan 2

### 4.3. Análisis - Corpus
***

Acá analizamos el corpus usando los datos de la parte anterior.
- Hay 3 grupos de preguntas que tal vez no son representativos
- Hay 26 preguntas que tal vez no son representativas
- Los puntajes tal vez no son representativos


### 4.4. Análisis - Reducción de dimensionalidad
***
A

#### 4.4.1. Proceso
***
Acá mencionar que cosas corrimos

#### 4.4.2. Resultados
***
Acá mostrar

In [None]:
# Acá script que corre PCA y muestra resultados generales (grafica sin diferenciacion)

#### 4.4.3. Análisis cualitativo
***
Acá no se compara, se hacen observaciones e interpretaciones

In [None]:
# Acá script que muestra los resultados para partido (opciones: Todos juntos, cada partido)

Acá se habla de los resultados por partido

In [1]:
# Acá script que muestra los resultados para izquierda derecha

Acá se habla de los resultados por izquierda derecha

In [None]:
# Acá script que muestra los resultados para Nolan

Acá se habla de los resultados para Nolan

Acá también se concluye que no esta mostrando nada

#### 4.4.4. Evaluación
***
Acá se evalua si PCA encara (para saber si el corpus es el que esta mal o es PCA)

In [2]:
# Acá script que muestra valores propios

Acá se habla de que hay un PC muy grande y eso significa que no encara

In [None]:
# Acá script que muestra ratio de varianza

Acá se habla de que al reducir a 2 dimensiones se perdio mas del 60% de la info

In [None]:
# Acá script que muestra matriz de covarianza

Acá se analiza la matriz de covarianza y como impacta la relacion entre las preguntas

### 4.5. Análisis - Aprendizaje no Supervisado (Clustering)
***
A

#### 4.5.1. Proceso
***
Acá mencionar que cosas corrimos

#### 4.5.2. Resultados
***
Acá mostrar

In [None]:
# Acá script que corre Kmeans y muestra grafica de torta de clusterings para k=2,3,5,10, mostrando Silhouette de cada uno

Acá se habla de cual fue mejor silhouette

#### 4.5.3. Análisis cualitativo
***
Se hacen observaciones e interpretaciones

In [None]:
# Acá script que muestra para k=2,3,5,10 como se separan los candidatos

Acá se habla de que no se observa patrones en la separacion de candidatos pero que hay que ver con grupos mas grandes

In [None]:
# Acá script que muestra para k=11 como se separan los partidos y muestra el Silhouette y calcula el ARI

Acá se analiza esto de arriba

In [None]:
# Acá script que muestra para k=3 como se separan los espectros izquierda derecha y muestra el Silhouette y calcula el ARI

Acá se analiza esto de arriba

In [None]:
# Acá script que muestra para k=5 como se separan los candidatos y muestra el Silhouette y calcula el ARI

Acá se analiza esto de arriba

Se concluye cual es la mejor cantidad de clusters en base al silhouette y el ARI

### 4.6. Comparación
***

Acá se comparan las observaciones e interpretaciones surgidas en ambos enfoques, con el fin de ver si tienen lineamientos similares o se contraponen en algo.

## 5. Conclusiones
***
#### 5.1. Respecto a los Datos
***
Acá hablamos sobre el dataset, pudiendo mencionar cosas como:
- La elección de atributos, probablemente desacertada
- La representación de los datos y su relación con los candidatos a votar, probablemente sesgada

#### 5.2. Respecto a los Enfoques
***
Acá hablamos sobre los enfoques (pca y kmeans), pudiendo mencionar cosas como:
- Por que pca no fue util (demasiada reduccion de dimensionalidad, los nuevos atributos no agrupan bien las preguntas, etc)
- Por que kmeans fue mas util pero tampoco separo del todo (depende de la cantidad de clusters, etc)

#### 5.3. Respecto a los Resultados
***
Acá hablamos sobre los resultados de ambos enfoques (pca y kmeans), pudiendo mencionar cosas como:
- Información que pudimos sacar gracias a algun enfoque o la mezcla de los dos (la separacion de partidos politicos, otros posibles espectros politicos)

#### 5.4. Posibles mejoras
***
Para cerrar, se adjunta una lista de mejoras consideradas a la experimentación actual:
- Como mejorar general (cambiar atributos)
- Como mejorar pca (elegir otro especto, reducir la dimensionalidad a un valor optimo)
- Como mejorar kmeans (probar mas clusters, idk)

## 6. Referencias
***
[1] Hola
