# Introducción
### **Descripción del problema**
La obesidad es reconocida en Argentina como un importante problema de salud pública. Existen campañas y programas, tanto a nivel nacional como provincial, que buscan reducir su prevalencia. Sin embargo, según datos de la Encuesta Nacional de Factores de Riesgo (ENFR), la tendencia sigue en aumento: en 2018, 6 de cada 10 personas presentaban exceso de peso, y 2 de esas 6 tenían obesidad.
Frente a este panorama, este proyecto propone mirar el problema desde otra perspectiva: ¿qué se dice sobre la obesidad en las redes sociales? ¿Cómo se construye el discurso público sobre el tema? Se parte de la idea de que factores culturales y sociales también pueden influir en este fenómeno y que, al analizarlos, podríamos entender mejor por qué sigue creciendo.
Para esto, trabajamos con un conjunto de datos compuesto por tweets que mencionan palabras clave relacionadas con la obesidad. Esta base incluye información como el contenido del tweet, la cantidad de likes, retweets, respuestas, citas, la fecha de publicación, el mes y la provincia desde donde fue publicado. A partir de este material, el proyecto busca explorar cómo se percibe y discute la obesidad en el espacio digital, qué temas predominan, qué emociones circulan y si existen diferencias regionales o temporales en la forma en que se habla del tema.

A partir de este dataset, se busca conocer un poco más sobre la percepción social de la obesidad, a partir de tópicos de discusión, patrones de interacción (likes, retweets, respuestas, etc) o análisis de sentimiento. Además, se pueden explorar posibles diferencias regionales o estacionales en los tweets y su relación con características propias del lenguaje. El proyecto también deja abierta la posibilidad de explorar otros aspectos relacionados con la temática y los distintos enfoques sobre la obesidad.


### **Problemas interesantes a abordar**

¿Cuáles son los principales temas de conversación sobre obesidad en Twitter?
¿Existen diferencias en el contenido compartido según la provincia? ¿Y según el mes?
¿Cómo varía el nivel de interacción (likes, retweets, respuestas) según el tipo de contenido del tweet?
¿Se pueden detectar períodos de mayor actividad relacionados con eventos específicos?
¿La cantidad de palabras que se utilizan en el tweet se asocia a un sentimiento negativo o positivo, o es indistinto?

### **Descripción del dataset**
Este repositorio contiene una base de datos con 11111 registros y 13 columnas recopilados de Twitter a partir de palabras clave sobre obesidad. La información fue extraída con el objetivo de analizar conversaciones en torno a la obesidad en Argentina, incluyendo interacciones, fechas, hashtags y datos geográficos. Para identificar la provincia de origen de los usuarios que generaron los tweets, se realizó un proceso de reconocimiento de localidades, ciudades y departamentos más relevantes y frecuentes a partir de la variable "location" asociada a cada usuario. Posteriormente, se asignó una provincia a cada tweet con base en esa información. En los casos en que un tweet presenta dos o más provincias identificadas, esto se debe a que el usuario mencionó múltiples lugares en su descripción de ubicación. Esta variable se denominó "pcia".

Más información disponible [aquí](https://github.com/eugehaluszka/mentoria_2025/tree/main/datasets).

## **Práctico 1**

En esta primera etapa, se trabajará con el dataset de tweets sobre obesidad para realizar un análisis exploratorio inicial. El objetivo es identificar patrones generales en los datos mediante visualizaciones: distribución de tweets por provincia o mes, volumen de interacciones (likes, retweets, respuestas), y posibles tendencias en la conversación pública. También se podrán contemplar la cantidad de palabras utilizadas en cada tweet, así como los términos más utilizados entre otros análisis descriptivos.
Se espera que este práctico permita conocer mejor la estructura de los datos y generar preguntas o hipótesis para análisis posteriores.

### **Cargando el dataset**

In [None]:
#Importar librerias de interes

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import missingno as msno
import zipfile
%matplotlib inline

In [None]:
#Descargar la base desde el github

!wget -O base_obesidad_completa.zip "https://github.com/eugehaluszka/mentoria_2025/raw/refs/heads/main/datasets/base_obesidad_completa.zip"
with zipfile.ZipFile("base_obesidad_completa.zip", "r") as z:
    z.extractall()

--2025-06-02 11:54:02--  https://github.com/eugehaluszka/mentoria_2025/raw/refs/heads/main/datasets/base_obesidad_completa.zip
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/eugehaluszka/mentoria_2025/refs/heads/main/datasets/base_obesidad_completa.zip [following]
--2025-06-02 11:54:02--  https://raw.githubusercontent.com/eugehaluszka/mentoria_2025/refs/heads/main/datasets/base_obesidad_completa.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1043853 (1019K) [application/zip]
Saving to: ‘base_obesidad_completa.zip’


2025-06-02 11:54:02 (88.2 MB/s) - ‘base_obesidad_completa.zip’ saved [1043

In [None]:
#Abrir la base de datos
df = pd.read_csv("base_obesidad_completa.csv", encoding="utf-8-sig")
df_original = df.copy() #se genera copia
df.head(3)

Unnamed: 0,id_str,date,rawContent,replyCount,retweetCount,likeCount,quoteCount,conversationId,hashtags,viewCount,pcia,mes,user_id
0,1747300752475730129,2024-01-16 16:52:17,Boluda ahí dice que yo debería pesar 43kg eso ...,1,0,1.0,0,1747290800474476846,[],18.0,['argentina'],1,0
1,1747297783743197385,2024-01-16 16:40:29,"Jugador de +30 años, vendehumo, con tendencias...",0,0,1.0,0,1747268216882102581,[],21.0,['buenos aires'],1,1
2,1747295025363341318,2024-01-16 16:29:31,"yo, re pesada mal: ✨EL UNIVERSO CONSPIRA A MI ...",0,0,0.0,0,1747295025363341318,[],54.0,['buenos aires'],1,2


### Conocer el dataset: **Análisis exploratorio**, aplicación de medidas resumen

#### Ejercicio 1.
Cargar dataset y describir brevemente su estructura:
* a. ¿Cuántas filas y columnas tiene?
* b. ¿Qué tipo de variables contiene (texto, numérico, fechas)?
* c. ¿Hay valores faltantes? ¿En qué columnas?
* d. ¿Hay valores atípicos? ¿En qué variables? ¿A qué pueden deberse?

#### Ejercicio 2.
* Elegir 5 columnas y describí su distribución o contenido. Por ejemplo: fecha del tweet (dias, o meses, u horarios), texto del tweet, provincia o ubicación geográfica, cantidad de likes, retweets o respuestas, etc.

*En este ejercicio deberán aplicar conocimientos de estadística sobre medidas resumen adecuadas al tipo de dato contenido en las variables.*


### **Visualización de datos**

#### Ejercicio 3
Tendencias de tweets en el tiempo, ¿Qué observamos en nuestro dataset?

* a. Se debe graficar la cantidad de tweets de acuerdo a la fecha (puede ser por mes, día, horario, semana). Al menos dos gráficos.
* b. Interpretar la visualización elegida. ¿Se observan picos o caídas en los gráficos? ¿Qué podría inferir de acuerdo a lo observado?
* c. Respecto a la distribución espacial, se deberá graficar la distribución de tweets por provincia. Elegir una medida adecuada y justificar su elección. (frecuencias absolutas, relativas, quantiles de distribución , etc)
* d. Realizar interpretación del gráfico de distribución espacial. Generar inferencias de acuerdo a lo observado.

#### Ejercicio 4

* a. Retomando el ejercicio 1.d. Cómo podrán observar en la base detectarán que la cantidad de likes, retweets y respuestas suele variar, observandose algunos outliers. ¿Pueden identificarlos? ¿Qué medidas podrían tomar al respecto de acuerdo a la descripción del problema? justificar.
* b. Existen hashtags con mayor o menor frecuencia de uso en esta muestra de datos. ¿Puede reconocerlos? Generar una visualización para tal fin que brinde información pero también sea visualmente amigable.


### Contenido de tipo texto

#### Ejercicio 5

* a. Identificar las palabras más frecuentes incluyendo stopwords (utilizar gráficos según considere necesario).
* b. Identificar las palabras más frecuentes sin incluir stopwords (utilizar gráficos según considere necesario).
* c. Calcular la cantidad de palabras considerando stopwords por tweet en una nueva variable. Luego otra sin considerar las stopwords. Graficar las distribuciones. Realice una interpretación de los graficos.
* d. Agrupar los tweets por provincia o mes y observar posibles diferencias en los términos más frecuentes entre lugares o períodos.

¿Qué otras variables se les ocurre incluir o generar a partir de los análisis realizados? ¿Qué procesos de curación de datos considera idóneos para implementar en el próximo práctico?


In [None]:
# Descargamos stopwords en español (pueden usar las de nltk, spacy, etc)
#!pip install nltk spacy
#!python -m spacy download es_core_news_sm

import nltk
from nltk.corpus import stopwords
import spacy

nltk.download('stopwords')
stop_words = set(stopwords.words('spanish'))

# Cargamos modelo de spaCy para español
nlp = spacy.load('es_core_news_sm')

# Removemos stopwords y palabras con menos de 3 caracteres (esta decisión es propia, pueden modificarla)
def remover_stopwords(texto):
    doc = nlp(texto)
    tokens = [token.text for token in doc if token.text not in stop_words and len(token.text) > 2]
    return ' '.join(tokens)

df['texto_limpio'] = df['rawContent'].apply(remover_stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
# Calculamos la longitud de cada mensaje
df['longitud_mensaje'] = df['texto_limpio'].str.len()  #caracteres
df['cantidad_palabras'] = df['texto_limpio'].str.split().str.len()  #palabras

### Análisis estadístico

#### Ejercicio 6

Se comenzará el plan de análisis que será desarrollado a lo largo de los tres prácticos. En esta primera parte más introductoria les propongo:

* a. Reconocer posibles correlaciones entre variables. ¿En qué supuesto se basan?. Luego de aplicar el test estadístico interpretar los resultados y fundamentar la elección del mismo a partir de la naturaleza de los datos. No duden en consultarme ante cualquier inconveniente en este punto!

### Ejercicio final

* ¿Qué hallazgos te parecieron más interesantes?
* ¿Qué hipótesis o líneas de análisis podrías plantear a partir de lo visto?
* A partir del ejercicio 5. ¿Qué otras variables o aspectos sería útil incorporar en el análisis?


La fecha de entrega del práctico es para el día 30/6, la semana del 16/6 tendremos una instancia de consulta con cada grupo para ver como vienen con el práctico. El entregable será una notebook, vayan realizando visualizaciones pensando en la presentación de video posterior al segundo práctico.
Recuerden que es una instancia de aprendizaje por lo cual no duden en consultar lo que necesiten para resolver el práctico.  

Les dejo disponibles algunos recursos de introducción al NLP y text mining que podrían ser de utilidad.

NLP avanzado con spacy: https://course.spacy.io/es/