### Tecnolgías del Lenguaje. Entregable 4
---
#### Reducción del número de posts por usuario

El dataset original contiene un número muy variable de publicaciones por usuario: algunos autores escriben miles de posts, mientras que otros solo unos pocos. Esto puede introducir un desequilibrio importante en los análisis posteriores, ya que los usuarios más prolíficos dominarían los modelos y sesgarían los resultados. Además, **el tiempo de cómputo es un cuello de botella** en este problema: lo hemos comprobado en las primeras aproximaciones a la solución, cuando pretendíamos utilizar un modelo transformer para seleccionar las frases (dentro de cada post) más similares a las frases que se utilizaron en el cuestionario del Big-5. Para mitigar este problema, se ha aplicado un proceso de reducción simple y controlada:
- Se cargan los datos agrupados por usuario, donde cada fila contiene el nombre del autor y una lista con todos sus posts.
- Se seleccionan, para cada usuario, como máximo 10 publicaciones, escogiendo aquellas de mayor longitud (en número de caracteres).
- La longitud del texto se usa como criterio porque los posts más extensos suelen contener más información lingüística y psicológica relevante para el análisis de rasgos de personalidad. No es una solución muy acertada, pero recortará considerablemente los tiempos de ejecución.

Finalmente, se guarda el nuevo dataset reducido, que mantiene una representación equilibrada y rica en contenido de cada usuario, pero con un tamaño total mucho más manejable para el procesamiento posterior. No es la solución que utilizaremos finalmente, pero puede servir como *baseline*.

In [1]:
import pandas as pd

input_path = "material/post_by_author.csv"
output_path = "material/post_by_author_reducido.csv"

# Cargar dataset agrupado por usuario
df = pd.read_csv(input_path, quoting=1)

# Convertir la columna 'body' de string a lista
import ast
df['body'] = df['body'].apply(ast.literal_eval)

# Función para quedarnos con los 10 posts más largos
def top_n_longest(posts, n=10):
    # Ordenar los posts por longitud (número de caracteres) de mayor a menor
    posts_sorted = sorted(posts, key=len, reverse=True)
    # Quedarse con los n primeros
    return posts_sorted[:n]

# Aplicar a cada fila
df['body'] = df['body'].apply(lambda posts: top_n_longest(posts, n=10))

# Guardar CSV reducido
df.to_csv(output_path, index=False, quoting=1)

print(f"✅ Dataset reducido guardado en {output_path}")

✅ Dataset reducido guardado en material/post_by_author_reducido.csv
