## Resumen del Proyecto

Este proyecto tiene como objetivo analizar el clima de opinión digital en torno al Plebiscito Nacional de Chile de 2020 y compararlo con los resultados oficiales de la votación (SERVEL). En la entrega anterior, se realizó una exploración inicial de los datos recolectados de Twitter (ahora X), identificando tendencias temporales y patrones de interacción.

En esta nueva etapa, recolcetamos nuevamente tweets, esta vez los pudimos convertir a csv, y avanzamos hacia el modelamiento predictivo. 
Utilizamos técnicas de Procesamiento de Lenguaje Natural (NLP) y Aprendizaje Supervisado para clasificar automáticamente la postura política de los tweets ("Apruebo" vs. "Rechazo") y estimar la representatividad de la discusión en redes sociales frente a la realidad electoral. La hipótesis central previo a crear nuestro modelo de prediccion es que las redes sociales pueden haber funcionado como una "cámara de eco", sobrerrepresentando ciertas posturas en comparación con el voto popular.


## 2. Análisis de Datos

### 2.1 Metodología y Seleccion de los Datos
Para este análisis, se utilizaron como principal fuente de información:

Datos de Entrenamiento (Ground Truth): Se construyó un dataset etiquetado combinando tweets provenientes de archivos temáticos específicos (apruebo.csv y rechazo_campaña.csv). Esto permitió contar con ejemplos claros de cada postura para entrenar al modelo.

### 2.2 Preprocesamientos y Seleccion de Variables

Dado que la información principal es texto no estructurado, se aplicaron las siguientes transformaciones
Limpieza de Texto: Se eliminaron valores nulos y duplicados para asegurar la calidad de los datos.
Vectorización TF-IDF: Se transformó el texto en una matriz numérica utilizando TF-IDF (Term Frequency - Inverse Document Frequency).

### 2.3 Selección del Modelo y Configuración

Se eligió un modelo de Regresión Logística para la tarea de clasificación binaria.

Justificación:

Interpretabilidad: La regresión logística permite analizar los coeficientes para entender qué palabras "empujan" la predicción hacia una clase u otra.

Eficiencia: Es computacionalmente ligera y funciona muy bien con matrices dispersas de texto como las generadas por TF-IDF.

Manejo de Desbalance: Se utilizó el parámetro class_weight='balanced' para corregir automáticamente el desbalance natural en los datos (donde la opción "Apruebo" tenía muchas más muestras que el "Rechazo"), asegurando que el modelo no ignorara la clase minoritaria.

### 2.4 Análisis No Supervisado (PCA)
Complementariamente, se aplicó un Análisis de Componentes Principales (PCA) para reducir la dimensionalidad de 3,000 a 2 componentes, para así tambien permitir visualizar en un plano cartesiano si los discursos del "Apruebo" y "Rechazo" eran semánticamente distinguibles.

Resultado: El gráfico de dispersión no mostró una separación clara generalmente, mostrando que los temas en comun y el tipo de lenguaje era compartido, pero aun asi habian ciertso casos donde se ve la separación,  confirmando que tambien existen vocabularios distintivos para cada opción, aunque comparten temáticas transversales.

### 2.6 Predicción Final y Comparación

Finalmente, el modelo entrenado se aplicó a la totalidad de los tweets recolectados para estimar la distribución de opinión en la plataforma.

Resultado del Modelo: 
Apruebo: 83.24%
Rechazo: 16.76%

Comparación con la Realidad: Al contrastar esto con los datos del SERVEL (78% Apruebo), se evidenció una discrepancia significativa, sugiriendo una sobre-representación del discurso del Apruebo en Twitter durante el periodo estudiado.

## 3. Analisis de Resultados
La pregunta central que guio esta parte del análisis fue la de predicción:

Predicción: ¿Puede la intensidad y polarización del discurso en redes sociales predecir, al menos parcialmente, la proporción de votos de un candidato o el nivel de participación en un plebiscito?. "Realizaremos un análisis comparativo entre la actividad y el sentimiento expresado en redes sociales sobre las opciones 'Apruebo' y 'Rechazo', y contrastar dichos datos con los resultados electorales oficiales publicados por el SERVEL para el plebiscito."

Tras aplicar el modelo de Regresión Logística entrenado sobre la totalidad de los datos recolectados, los resultados indican que la conversación digital en Twitter estuvo alineada, aunque con una ligera sobreestimación, con el resultado electoral real.

Predicción del Modelo: El análisis de sentimiento y postura política en Twitter proyectó un 83.24% de apoyo a la opción "Apruebo" y un 16.76% para el "Rechazo".

Resultado Real (SERVEL): Los datos oficiales muestran que el "Apruebo" obtuvo un 78.31% de los votos, mientras que el "Rechazo" alcanzó un 21.69

La diferencia entre la proyección digital y la realidad fue de 4.93 puntos porcentuales. Esto sugiere que, contrario a la primera hipótesis que nos planteabamos al empezar esta predicción, que era el de una "cámara de eco" desconectada de la realidad, en este caso particular, el clima de opinión en Twitter fue un termómetro razonablemente preciso del consenso nacional, aunque con una leve tendencia a amplificar la opción mayoritaria
La desviación de casi 5 puntos a favor del "Apruebo" en los tweets creemos que puede atribuirse al activismo digital más intenso de los grupos jóvenes, quienes tienden a ser más progresistas y  suelen tener una mayor presencia y actividad en redes sociales en comparación con los segmentos demográficos más conservadores o de mayor edad.

## 4. ¿Que podría salir mal?
A pesar de que el modelo logró una predicción cercana al resultado del SERVEL, asumir que las redes sociales son un espejo fiel de la sociedad conlleva riesgos significativos. A continuación, se detallan las limitaciones técnicas y los dilemas éticos identificados en este proyecto y en esta etapa.

### Sesgos de los Datos (Sesgo de Selección y Representatividad)
Brecha Digital y Demográfica: Los usuarios de Twitter tienden a ser más jóvenes, urbanos y con mayor nivel educativo que el votante promedio. Esto explica por qué nuestro modelo sobreestimó el "Apruebo" (83% vs 78% real): es probable que el segmento demográfico más conservador o de mayor edad (que tiende a votar más Rechazo) esté subrepresentado en la plataforma.
Otro problema es que nuestro análisis solo está capturando a quienes escriben tweets. Ignora a la gran masa de usuarios pasivos ("lurkers") y a quienes no tienen acceso a internet. Basar decisiones políticas solo en este análisis invisibilizaría a las poblaciones más vulnerables o desconectadas.

### Limitaciones Metodologicas
El problema del NLP
Incapacidad de detectar Ironía y Sarcasmo: El modelo de Regresión Logística utilizado se basa en la presencia de palabras clave. No comprende el contexto y eso dificulta el proceso de clasificación. Un tweet sarcástico como "Qué gran idea destruir la economía, #Apruebo" sería clasificado incorrectamente como apoyo positivo debido a las palabras "gran" y "Apruebo".
Otro problema fue que asumimos que los usuarios que no usan hashtags hablan igual que los militantes que sí los usan. Esta suposición puede ser falsa; el votante indeciso suele usar un lenguaje más moderado o ambiguo que el modelo podría malinterpretar.
