# Introducción

Obtener información sobre el proceso de recolección de datos resulta fundamental para entender nuestra base y poder tomar decisiones justificadas a la hora de la limpieza y curación de la misma. A continuación se comparte un fragmento de la metodología aplicada para la recolección de datos, la cual tiene por objetivo brindar mayor información sobre la base trabajada.

### **Descripción del proceso de recolección de datos**

La recolección de los tweets se realizó a través de un proceso de scrapping, utilizando la libreria [twscrape](https://github.com/vladkens/twscrape). Para la búsqueda de tweets, se utilizó un filtro de palabras claves relacionadas a obesidad. La recolección de datos tuvo lugar entre enero de 2024 y diciembre de 2024, de forma ininterrumpida. Así, se obtuvo una muestra de 11111 tweets. La recolección se llevó a cabo con un script que utiliza el lenguaje de programación Python, el cual permitió almacenar los datos en MongoDB, una base de datos no relacional. Este trabajo utilizó recursos computacionales del Centro de Cómputos de Alto Desempeño (CCAD) de la Universidad Nacional de Córdoba (https://ccad.unc.edu.ar/), que forman parte del Sistema Nacional de Computación de Alto Desempeño del MinCyT de la República Argentina.

#### Selección de palabras clave

Para poder identificar aquellos tweets que correspondían a la temática de obesidad se utilizaron palabras clave como filtro de búsqueda. Este filtro al momento de ser utilizado (año 2024) no permite el uso de expresiones regulares (las cuales permiten considerar patrones para hacer coincidir secuencias de caracteres). Dada esta situación, y asumiendo que existen diversas formas coloquiales de escribir en esta red social que pueden contener errores de ortografía, de tipeo, entre otros, se tomó la decisión de sistematizar el proceso de selección de palabras clave para que el mismo sea objetivo y se pierda la menor cantidad de información posible. Además, se consideró que existen otras palabras que son utilizadas por los usuarios/as de Twitter para referirse a la obesidad, justificando la búsqueda de posibles sinónimos. En un comienzo se identificaron las palabras consideradas “semilla”, es decir aquellas que servirían como precursoras del resto de las palabras. Las palabras semilla consideradas fueron las distintas flexiones de la palabra obesidad: “obesidad”, “obeso”, “obesa”, “obesos” y “obesas”. Para reconocer otras palabras claves que estuvieran relacionadas a la temática y que pueden ser utilizadas en el mismo contexto se empleó la técnica de Word Embedding (WE). El WE es una técnica de PLN que utiliza distintos métodos para representar las palabras de un texto mediante vectores de números reales. Las palabras se ubican en el espacio vectorial de acuerdo con la relación y similitud semántica que guardan entre ellas. La distancia entre las mismas se denomina índice de similitud de coseno, el cual mientras más cercano a 1, mayor será la similitud entre las palabras observadas. El WE utilizado fue entrenado previamente con un corpus de tweets de Argentina por investigadores de la Facultad de Matemática, Astronomía, Física y Computación – FaMAF (Peréz y Luque, 2019). Se identificaron aquellas 50 palabras que presentaron un mayor índice de similitud del coseno por cada palabra semilla mencionada. Luego, se seleccionaron como palabras claves sólo aquellas que cumplieran con un criterio de sinonimia, es decir, que puedan ser utilizadas en reemplazo de la palabra semilla y dado el mismo contexto no perdieran el significado semántico. Así, finalmente se obtuvieron un total de 21 palabras clave:          
       
*'Obesidad', 'obesidaddd', 'gordura', 'sobrepeso', 'gorduras', 'adiposidad', 'Sobrepeso', 'obesito', 'obesoo', 'obesidad', 'obeso', 'obesa', 'gorrrdura', 'obesaa', 'obesita', 'Obesa', 'obesaaa', 'Obesos', 'Obesas', 'obesas', 'obesos'.*

#### Geolocalización de los tweets

Para asignar un valor de provincia a cada publicación se utilizó la variable "location" la cual es la localización expresada por el usuario. Puede ser una ciudad, provincia, país, región, entre otras, lo cual dificulta el proceso de etiquetado. En este trabajo, se observaron las frecuencias de las ciudades mencionadas reconocimiendo simila

### **Problemas interesantes a abordar**

¿Cuáles son los principales temas de conversación sobre obesidad en Twitter?
¿Existen diferencias en el contenido compartido según la provincia? ¿Y según el mes?
¿Cómo varía el nivel de interacción (likes, retweets, respuestas) según el tipo de contenido del tweet?
¿Se pueden detectar períodos de mayor actividad relacionados con eventos específicos?
¿La cantidad de palabras que se utilizan en el tweet se asocia a un sentimiento negativo o positivo, o es indistinto?

### **Descripción del dataset**
Este repositorio contiene una base de datos con 11111 registros y 13 columnas recopilados de Twitter a partir de palabras clave sobre obesidad. La información fue extraída con el objetivo de analizar conversaciones en torno a la obesidad en Argentina, incluyendo interacciones, fechas, hashtags y datos geográficos. Para identificar la provincia de origen de los usuarios que generaron los tweets, se realizó un proceso de reconocimiento de localidades, ciudades y departamentos más relevantes y frecuentes a partir de la variable "location" asociada a cada usuario. Posteriormente, se asignó una provincia a cada tweet con base en esa información. En los casos en que un tweet presenta dos o más provincias identificadas, esto se debe a que el usuario mencionó múltiples lugares en su descripción de ubicación. Esta variable se denominó "pcia".

Más información disponible [aquí](https://github.com/eugehaluszka/mentoria_2025/tree/main/datasets).

## **Práctico 1**

En esta primera etapa, se trabajará con el dataset de tweets sobre obesidad para realizar un análisis exploratorio inicial. El objetivo es identificar patrones generales en los datos mediante visualizaciones: distribución de tweets por provincia o mes, volumen de interacciones (likes, retweets, respuestas), y posibles tendencias en la conversación pública. También se podrán contemplar la cantidad de palabras utilizadas en cada tweet, así como los términos más utilizados entre otros análisis descriptivos.
Se espera que este práctico permita conocer mejor la estructura de los datos y generar preguntas o hipótesis para análisis posteriores.

### **Cargando el dataset**

In [1]:
#Importar librerias de interes

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import missingno as msno
import zipfile
%matplotlib inline

In [2]:
#Descargar la base desde el github

!wget -O base_obesidad_completa.zip "https://github.com/eugehaluszka/mentoria_2025/raw/refs/heads/main/datasets/base_obesidad_completa.zip"
with zipfile.ZipFile("base_obesidad_completa.zip", "r") as z:
    z.extractall()

--2025-07-01 13:52:42--  https://github.com/eugehaluszka/mentoria_2025/raw/refs/heads/main/datasets/base_obesidad_completa.zip
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/eugehaluszka/mentoria_2025/refs/heads/main/datasets/base_obesidad_completa.zip [following]
--2025-07-01 13:52:43--  https://raw.githubusercontent.com/eugehaluszka/mentoria_2025/refs/heads/main/datasets/base_obesidad_completa.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1043853 (1019K) [application/zip]
Saving to: ‘base_obesidad_completa.zip’


2025-07-01 13:52:43 (28.4 MB/s) - ‘base_obesidad_completa.zip’ saved [1043

In [3]:
#Abrir la base de datos
df = pd.read_csv("base_obesidad_completa.csv", encoding="utf-8-sig")
df_original = df.copy() #se genera copia
df.head(3)

Unnamed: 0,id_str,date,rawContent,replyCount,retweetCount,likeCount,quoteCount,conversationId,hashtags,viewCount,pcia,mes,user_id
0,1747300752475730129,2024-01-16 16:52:17,Boluda ahí dice que yo debería pesar 43kg eso ...,1,0,1.0,0,1747290800474476846,[],18.0,['argentina'],1,0
1,1747297783743197385,2024-01-16 16:40:29,"Jugador de +30 años, vendehumo, con tendencias...",0,0,1.0,0,1747268216882102581,[],21.0,['buenos aires'],1,1
2,1747295025363341318,2024-01-16 16:29:31,"yo, re pesada mal: ✨EL UNIVERSO CONSPIRA A MI ...",0,0,0.0,0,1747295025363341318,[],54.0,['buenos aires'],1,2


### Procesamiento y curación del dataset, para su posterior aplicación de machine learning

Al finalizar este práctico 2 obtendrán una base de datos lista para usar en el práctico 3. Es por eso que deben entregar la notebook con las resoluciones y la base de datos alojada en un repositorio (puede ser el mismo de la mentoria, me pasan sus usuarios y les doy permiso a editar el repo), o alojada en un repositorio de uds mismos.

### **Limpieza de la base de datos**

#### Ejercicio 1.
A partir de la información brindada sobre el proceso de recolección y construcción de la base de datos se propone:

- a. Eliminar de la base aquellos tweets que, según lo trabajado en el Práctico 1, fueron considerados como irrelevantes para el análisis de esta temática o que podrían generar ruido en las interpretaciones. Este proceso es fundamental para ambos grupos e implica una serie de pasos cíclicos o repetitivos, hasta que la base de datos esté lista para el análisis. Por ello, en este ejercicio se espera que desarrollen y describan el proceso de limpieza de la base de manera detallada, fundamentando adecuadamente cada una de las decisiones tomadas.
- b. Ejecutar nuevamente al menos tres de los gráficos descriptivos vistos en el práctico 1, que el grupo considere más relevantes, con el objetivo de observar si la distribución de las variables se ha visto significativamente modificada a partir de los cambios realizados en la base de datos. Se pueden incluir más gráficos si así lo desean.


### **Limpieza del cuerpo de texto**

#### Ejercicio 2

Para analizar el contenido de tipo texto es importante eliminar todo el ruido que puede dificultar la interpretación del mismo. En este punto será importante conocer sobre expresiones regulares y cómo funcionan. Pueden probar en [regexr](https://regexr.com/) o en [regex101](https://regex101.com/)

- a. Se deberá generar una nueva columna en la base que considere el cuerpo de texto "limpio". Para ello deberán eliminar del cuerpo de texto todo lo que consideran como ruido para su análisis posterior, justificando el por qué pueden considerarlo ruido o no.
Usualmente se suelen eliminar símbolos o caracteres extraños, enlaces, nombres de usuarios, **emojis**, hashtags, entre otros. ¿Ustedes que decisiones tomarían?


### Creación y transformación de variables

Para conocer en mayor profundidad el conjunto de datos de texto (corpus) con el que estamos trabajando, es importante aplicar diversas técnicas básicas de procesamiento del lenguaje natural (NLP), las cuales pueden aportar información valiosa. En el Práctico 1, identificar las palabras más frecuentes resultó útil; sin embargo, muchas otras palabras que describen con mayor precisión el contenido de las publicaciones pueden tener baja frecuencia o pasar desapercibidas en un análisis superficial.

Por esta razón, es habitual aplicar técnicas como la lematización, que permiten unificar distintas formas flexionadas de una misma palabra (por ejemplo, singular/plural o masculino/femenino), facilitando una representación más coherente del contenido textual.

Además, al aplicar el análisis gramatical propio del NLP, podemos reconocer las categorías gramaticales presentes en los textos, como sustantivos, adjetivos y verbos, entre otras. Esto puede enriquecer la comprensión del corpus y abrir nuevas posibilidades de análisis.

A partir de estas ideas, se proponen los siguientes ejercicios:

#### Ejercicio 3: Exploración básica con NLP

- a. Usar una librería de procesamiento de lenguaje natural que sea compatible con corpus en español para procesar el texto de los tweets. Deberán generar una nueva variable en la base de datos que contenga únicamente los términos pertenecientes a una categoría gramatical de su elección. Por ejemplo: una columna llamada "sustantivos", que incluya todos los sustantivos reconocidos en cada tweet.

  Es importante seleccionar y justificar:  la librería utilizada, y el modelo de lenguaje elegido (por ejemplo, es_core_news_sm en spaCy).

*Deberán decidir si aplican el procesamiento NLP sobre el texto limpio o sobre el texto crudo del tweet, y explicar las razones de esa elección.*

- b. Aplicar lematización a los términos reconocidos en la categoría gramatical seleccionada, generando una nueva variable con los términos lematizados. Observar y comparar los términos más frecuentes en esta categoría, tanto en su forma lematizada como sin lematizar. Finalmente, reflexionar sobre cuál de las dos representaciones elegirían para describir el dataset y justificar la elección.
- c. Discutir cómo podría aprovecharse esta información en tareas como análisis de sentimientos, detección de tópicos o predicción de engagement.

#### Ejercicio 4: Transformar variables

- a. Identificar columnas que necesiten transformación para ser usadas en modelos de ML (por ejemplo, fechas, categorías, frecuencias absolutas, etc.). *En este punto se espera ver el uso de técnicas de transformación de datos en al menos dos variables. Esto debe realizarse más allá de si será la variable utilizada a futuro*
- b. Generar nuevas variables a partir de la columna de fecha (por ejemplo, día de la semana, mes, hora).
- c. Convertir variables categóricas en variables numéricas (por ejemplo, usando codificación one-hot o label encoding).


### Selección de variables relevantes

Cuán aplicamos técnicas de ML precisamos reconocer qué variables serán incluídas en nuestro modelo, cómo es la influencia que las mismas tienen sobre nuestra variable respuesta, y si deberíamos incluirlas o no, y cómo. En este caso, la problemática que se presenta es poder identificar qué variables influyen en los patrones de interacción de las publicaciones, específicamente en la cantidad de likes que puede tener un posteo. Para ello se solicitan las siguientes tareas.

#### Ejercicio 5

a. Identificar qué variables creen que podrían ser relevantes para el problema que abordarán con ML. Mencionar qué otras variables sería interesantes incorporar y que no están disponibles en el dataset proporcionado o que estén disponibles en fuentes externas.
b. Aplicar distintar pruebas estadísticas para conocer la influencia/relación que presentan con la variable respuesta mencionada (likes). Interpretar los resultados y mencionar qué variables se pueden incluir y cuales eliminar.
c. (**Opcional**) Aplicar técnicas automáticas de selección de características (por ejemplo, usando feature importance, chi2, mutual info, etc.).

### Ejercicio final

* ¿Qué técnicas utilizadas en el práctico les parecieron más interesantes?
* Para el próximo práctico 3 deberán aplicar su modelo de ML, para ello es importante realizar una vectorización del texto de los tweets (convertir el texto a números). Algunas técnicas más utilizadas pueden ser TF-IDF, countvectorizer, bag of words, entre otras. Es importante que hagan una revisión/búsqueda sobre cuales ténicas de vectorización utilizar, ventajas y desventajas, y cuál se acomoda mejor a su problemática y corpus.


La fecha de entrega del práctico es para el día 21/7, durante julio estaré trabajando (no tengo vacaciones) así que porfavor avisenme si necesitan que nos juntemos (aunque sea con una persona del grupo) para resolver cualquier duda o consulta.