# Desarrollo de una aplicación de Procesamiento del Lenguaje Natural

**EJERCICIO 5**

## PASO PREVIO 5.0.1:  Compilación del corpus y uso de procesamiento léxico

## UNIR LOS SUBREDDITS

## PASO PREVIO 5.0.2 OBTENER EL DATASET

Partiendo de los archivos json obtenidos en el ejercicio uno, que guardan toda la información de los hilos con la que trabajamos, vamos a crear un dataframe de pandas a partir del que nos será más facil trabajar en los demás ejercicios del notebook.

In [None]:
import pandas as pd
import json
output_folder = "subreddit_data"
dataset = []
for file in os.listdir(output_folder):
    if file.endswith('.json'):
        with open(os.path.join(output_folder, file), 'r', encoding='utf-8') as f:
            subreddit_data = json.load(f)
            thread_comments = [ {'thread_id':thread['thread_id'],'user': comment['user'], 'comment': comment['comment'], 'score': comment['score'], 'date': comment['date'], 'label':subreddit_data['label']}
                                for thread in subreddit_data['data']
                                  for comment in thread['comments'] ]
            dataset.extend(thread_comments)


df = pd.DataFrame(dataset)
#df.to_csv('dataset.csv', index=False)



In [None]:
df.head(10)

Unnamed: 0,thread_id,user,comment,score,date,label
0,7etmk7,joelharris1980,How come in previous instances of this fight t...,1,2017-11-28 02:59:01,askscience
1,7etmk7,russiansduringpoopin,Net Neutrality is and why ISPs are wanting to ...,1,2017-11-25 22:50:32,askscience
2,7etmk7,jeffpcaron,"If you don’t like the terms of your ISP, switc...",0,2017-11-23 18:05:04,askscience
3,7etmk7,joeschmo945,I wrote my congressman this morning with this ...,1,2017-11-23 16:56:48,askscience
4,7etmk7,GamerFan2012,These are the 3 people left deciding the fate ...,1,2017-11-23 16:52:46,askscience
5,7etmk7,Unknown,Ajai is doing a great thing. With net neutrali...,0,2017-11-23 15:40:42,askscience
6,7etmk7,Trust_No_1_,Doesnt net neutrality only guarantee stopping ...,1,2017-11-23 14:22:10,askscience
7,7etmk7,oeynhausener,Goddammit stop it with these imperative titles...,1,2017-11-23 13:18:35,askscience
8,7etmk7,tylertjh,Unpopular post: Net neutrality only came into ...,1,2017-11-23 12:21:39,askscience
9,7etmk7,Keeemps,"This is really bothering me, but I am from Ger...",1,2017-11-23 10:21:28,askscience


Antes de proseguir vamos a comprobar que todos los subreddits tengan 20x50 comentarios y no haya ningún subreddit para el que no hayamos podido alcanzar el número de comentarios que queríamos.

In [None]:
for label in df.label.unique():
  print(label, df[df.label == label].shape[0])

askscience 1000
Cooking 1000
nba 1000
nutrition 1000
nfl 1000
technology 1000


Vemos como hay 22 comentarios en todo el dataset que se repiten.
En sí esta no es una cifra muy alta teniendo en cuenta que tenemos 6000 comentarios.

In [None]:
len(df.comment.unique())

5978

# Paso 5: Resumen automático abstractivo

Comenzamos cargando los datos de los subreddits, donde crearemos una nueva clave que almacenará la concatenación de texto del título, descripción y comentarios de un hilo:

In [None]:
import os
import pandas as pd
import json

In [None]:
output_folder = "subreddit_data"
dataset_summary = []
for file in os.listdir(output_folder):
    if file.endswith('.json'):
        with open(os.path.join(output_folder, file), 'r', encoding='utf-8') as f:
            subreddit_data_summary = json.load(f)
            # Ordenamos la lista de threads por la clave 'date'.
            # Cada elemento de subreddit_data_summary['data'] es un diccionario que representa un hilo.
            # La función lambda toma cada hilo (x) y obtiene el valor de la clave 'date'.
            # Si un hilo no tiene 'date', se usa una cadena vacía '' como valor por defecto, para evitar errores.
            # Esto permite ordenar cronológicamente los hilos (de más antiguo a más reciente).
            threads = sorted(subreddit_data_summary['data'], key=lambda x: x.get('date', ''))
            summary_comments = [ {'thread_id': thread['thread_id'],'concatenated_title_description_comments':' '.join([thread['title'], thread['description'],' '.join([comments['comment'] for comments in thread['comments']])])}
                                for thread in subreddit_data_summary['data']]  #
            dataset_summary.extend(summary_comments)


df_summary = pd.DataFrame(dataset_summary)

In [None]:
df_summary.head()

Unnamed: 0,thread_id,concatenated_title_description_comments
0,7etmk7,Help us fight for net neutrality! The ability ...
1,7etmk7,Help us fight for net neutrality! The ability ...
2,7etmk7,Help us fight for net neutrality! The ability ...
3,7etmk7,Help us fight for net neutrality! The ability ...
4,7etmk7,Help us fight for net neutrality! The ability ...


## 5.1 Modelo preentrenado


Para este apartado hemos utilizado el modelo mT5_multilingual_XLSum. Este modelo es una versión multilingüe de T5, entrenada específicamente con el dataset XLSum, que contiene artículos de noticias en más de 40 idiomas, cada uno acompañado de un resumen de una sola oración. Gracias a este entrenamiento, el modelo está optimizado para generar resúmenes concisos en distintos idiomas, y resulta adecuado para resumir contenido generado por usuarios, como los hilos de Reddit, especialmente cuando estos incluyen contenido en español.

Creamos una función lambda que elimina espacios innecesarios dentro de los comentarios para que el modelo funcione mejor. Luego vamos iterando por cada hilo y pasándole tanto al modelo como al tokenizador el texto concatenado.
Por último post-procesamos los resultados del modelo y los guardamos en un diccionario que usará como clave el thread_id y como valor el resultado del modelo.


Cargamos las librerías necesarias:

In [None]:
from transformers import AutoTokenizer, BitsAndBytesConfig, AutoModelForCausalLM, AutoModelForSeq2SeqLM
import re
import json
from huggingface_hub import login
import torch

In [None]:
#  Cargamos el Tokenizador y modelo preentrenado
login(token="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")
model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer_mT5 = AutoTokenizer.from_pretrained(model_name)
model_mT5 = AutoModelForSeq2SeqLM.from_pretrained(model_name).to("cuda")
# Empleamos WHITESPACE_HANDLER para limpiar el texto para nuestro modelo preentrenado
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
resumen_hilo = {}
# Recorremos el dataframe y generamos el resumen para cada hilo
for thread_id in df_summary.thread_id.unique():
    # Vamos obtener el texto concatenado de título, descripción y comentarios por ID del hilo
    concatenated_text = df_summary[df_summary['thread_id'] == thread_id].concatenated_title_description_comments.values[0]
    cleaned_text = WHITESPACE_HANDLER(concatenated_text)

    # Tokenizamos entrada y la pasamos a tensores y lo pasamos a la GPU
    input_ids = tokenizer_mT5(
        [cleaned_text],
        return_tensors="pt",
        padding="max_length",
        truncation=True,
        max_length=512
    )["input_ids"].to("cuda")

    # Generamos un resumen sin gradientes ya que no estamos entrenando el modelo
    with torch.no_grad():
        output_ids = model_mT5.generate(
            input_ids=input_ids,
            max_length=84,
            no_repeat_ngram_size=2,
            num_beams=4
        )[0]

    # Decodificamos resumen (post-procesamiento)
    summary = tokenizer_mT5.decode(
        output_ids,
        skip_special_tokens=True,
        clean_up_tokenization_spaces=False
    )

    resumen_hilo[thread_id] = summary

# Guardamos resultados en un archivo JSON
with open("resumen_preentrenado1.json", "w", encoding="utf-8") as f:
    json.dump(resumen_hilo, f, ensure_ascii=False, indent=2)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/730 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

Guardamos el modelo y el tokenizador:

In [None]:
model_mT5.save_pretrained(model_name)
tokenizer_mT5.save_pretrained(model_name)

('csebuetnlp/mT5_multilingual_XLSum/tokenizer_config.json',
 'csebuetnlp/mT5_multilingual_XLSum/special_tokens_map.json',
 'csebuetnlp/mT5_multilingual_XLSum/spiece.model',
 'csebuetnlp/mT5_multilingual_XLSum/added_tokens.json',
 'csebuetnlp/mT5_multilingual_XLSum/tokenizer.json')

## 5.2 Zero-shot Learning mediante SLMs

Vamos a realizar una breve comparativa entre Llama 3.2 y Gemma 2B para decidir con cúal quedarnos:

🧠 Comparación: Gema 2B vs LLaMA 3.2 (1B)

| Característica         | **Gema (2B)**                       | **LLaMA 3.2 (1B)**                   |
|------------------------|-------------------------------------|--------------------------------------|
| **Tamaño del modelo**  | 2 mil millones de parámetros        | ~1.2 mil millones de parámetros      |
| **Arquitectura base**  | Decoder-only, estilo GPT            | Meta LLaMA (más moderna)             |
| **Entrenamiento**      | Fine-tuned por Google               | Meta preentrenado (open source)      |
| **Rendimiento**        | Bueno en tareas NLU y conversación  | Sólido rendimiento general           |
| **Consumo de RAM/VRAM**| Más pesado                          | Más liviano                          |
| **Soporte/Comunidad**  | Limitado                            | Muy amplio y activo                  |
| **Multilingüe**        | Enfocado en inglés (limitado)       | Buena cobertura multilingüe          |

---

En nuestro caso eligiremos Gema 2B debido a su potencia en tareas como resumenes de texto, a pesar de contar con mñas parámetros y por tanto conllevar un mayor coste computacional.
A pesar de estar enfocado en inglés, también fue entrenado de forma multilingüe, aunque en menor grado.

El Zero Shot Learning consiste en usamos nuestro modelo de **gemma-2b-it** para resumir textos sin proporcionarle ejemplos previos de cómo hacerlo, simplemente le proporcionaremos una serie de instrucciones en el prompt, y el modelo intenta generar una respuesta sobre el texto proporcionado basándose en el conocimiento adquirido durante su entrenamiento previo.

In [None]:
!pip install bitsandbytes
from transformers import AutoTokenizer, BitsAndBytesConfig, AutoModelForCausalLM, AutoModelForSeq2SeqLM
import re
import json
from huggingface_hub import login
import torch



In [None]:
# Cargamos nuestro token de Hugging Face
login(token="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")
# Nombre del modelo preentrenado
model_path = "google/gemma-2b-it"
# Configuramos la cuantización 4-bit para reducir el tamaño del modelo:
quantization_config = BitsAndBytesConfig(load_in_4bit=True)

# Cargamos el tokenizador y modelo en GPU
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quantization_config,
    device_map="auto"  # Asigna automáticamente GPU si está disponible
).eval()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


model.safetensors.index.json:   0%|          | 0.00/13.5k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/67.1M [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/137 [00:00<?, ?B/s]

Para lograr un código más limpio vamos a definir una función que realice el resumen de los textos. Esta función nos permite modificar tanto el prompt a utilizar como los parámetros que controlan la generación de texto:

    - Temperatura
    - Top-p
    - Top-k.

In [None]:
def generate_response(full_texts, temperature, top_p, top_k):
    device = model.device # Aseguramos que el modelo esté en la GPU
    # Definimos el prompt para la generación de texto
    prompt = (
        "You are a helpful assistant. Your task is to summarize the following Reddit thread into one concise paragraph.\n"
        "You must return only the summary in this format:\n"
        "Summary: <summary goes here>\n\n"
        "Thread:\n"
    )
    # Concatenamos el prompt con el texto completo
    messages = [
        {"role": "user", "content": f"{prompt}{full_texts.strip()}"}
    ]

    # Usamos el template del modelo chat
    inputs = tokenizer.apply_chat_template(
            messages,
            add_generation_prompt=True, # Añadimos el prompt de generación
            tokenize=True, # Tokenizamos el texto
            max_length=1024, # Longitud máxima de entrada
            return_tensors="pt", # Devolvemos tensores
            return_dict=True, # Devolvemos un diccionario
            truncation=True, # Truncamos el texto si es necesario
        ).to(device)

        # Generamos el texto:
    with torch.no_grad():  # Mejora el uso de memoria y velocidad
      outputs = model.generate(
          **inputs,
          max_new_tokens=150,  # Aumentado para evitar truncamiento
          temperature=temperature, # Controla la aleatoriedad de la generación
          top_p=top_p, # Controla la probabilidad acumulada de los tokens
          top_k=top_k, # Controla el número de tokens a considerar
          do_sample=True,  # Activado para que temperature, top_p, top_k tengan efecto
          length_penalty=1.2, # Penaliza la longitud del texto generado, cuando es mayor que la entrada
          early_stopping=True, # Detiene la generación si se alcanza el final del texto
          eos_token_id=tokenizer.eos_token_id, # ID del token de fin de secuencia
      )

        # Decodificamos la salida completa (post-procesamiento)
    generated_tokens = outputs[0][inputs["input_ids"].shape[-1]:]
    generated_text = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()

    return generated_text


In [None]:
resumen_hilo_SMLs = {} #Diccionario para guardar los resúmenes de cada hilo
for thread in df_summary.thread_id:
  # Vamos obtener el texto concatenado de título, descripción y comentarios por ID del hilo

  concatenated_text = df_summary[df_summary['thread_id'] == thread].concatenated_title_description_comments.values[0]
  respuestas = generate_response(concatenated_text, temperature = 0.75, top_p = 0.95, top_k = 30) #Modelo coherente pero con cierta capacidad de creatividad, 95% de las palarbas confiables suman la probabilidad total y liitamos opciones  a las 30 palarbas más probables
  resumen_hilo_SMLs[thread] = respuestas
# Guardamos resultados en un archivo JSON
with open("resumen_SLMs1.json", "w", encoding="utf-8") as f:
    json.dump(resumen_hilo_SMLs, f, ensure_ascii=False, indent=2)

Temperature < 1 Menos aleatorio, más predecible, menos creativo, evitando así desviarse del tema

Top-k: Limita la elección del próximo token a los k tokens más probables.

El modelo elimina todos los tokens menos los k más probables, y luego elige uno al azar entre esos


Top-k: También se conoce como "nucleus sampling".

En lugar de limitar por cantidad (top_k), elige el grupo más pequeño de tokens cuya suma de probabilidades es ≥ p.

Luego selecciona uno al azar de ese grupo.

Guardamos el modelo y el tokenizador:

In [None]:
model.save_pretrained(model_path)
tokenizer.save_pretrained(model_path)

('google/gemma-2b-it/tokenizer_config.json',
 'google/gemma-2b-it/special_tokens_map.json',
 'google/gemma-2b-it/tokenizer.model',
 'google/gemma-2b-it/added_tokens.json',
 'google/gemma-2b-it/tokenizer.json')

## 5.3 Elección y evaluación de los resumenes de 10 hilos aleatorios

En este ejercicio usaremos 10 hilos aleatorios para comprar el rendimiento y efectividad de los dos modelos anteriores:

In [None]:
from sklearn.utils import shuffle

In [None]:
df_summary = shuffle(df_summary, random_state=42).reset_index(drop=True) # Aleatoriezamos el df para seleccionar los 10 primeros hilos de forma aleatoria
df_summary_10 = df_summary.head(10) ##df.iloc[0:10] o df.head(10)

# Diccionario de salida
resumen_10 = {
    "mT5_multilingual_XLSum": {}, # Un diccionario para guardar los resúmenes de cada hilo en el modelo mT5
    "gemma_2B": {} # Un diccionario para guardar los resúmenes de cada hilo en el modelo gemma_2B
}
# Recorremos el dataframe y generamos el resumen para cada hilo
for thread in df_summary_10.thread_id:
    # Vamos obtener el texto concatenado de título, descripción y comentarios por ID del hilo
    concatenated_text = df_summary[df_summary['thread_id'] == thread].concatenated_title_description_comments.values[0]
    cleaned_text = WHITESPACE_HANDLER(concatenated_text)
    input_ids = tokenizer_mT5(
          [cleaned_text],
          return_tensors="pt",
          padding="max_length",
          truncation=True,
          max_length=512
      )["input_ids"].to("cuda")

    # Generamos un resumen sin gradientes ya que no estamos entrenando el modelo
    with torch.no_grad():
        output_ids = model_mT5.generate(
              input_ids=input_ids,
              max_length=84,
              no_repeat_ngram_size=2,
              num_beams=4
          )[0]

    # Decodificamos resumen (post-procesamiento)
    summary = tokenizer_mT5.decode(
        output_ids,
        skip_special_tokens=True,
        clean_up_tokenization_spaces=False
    )
    # Generamos el resumen con el modelo gemma_2B
    respuestas = generate_response(concatenated_text, temperature = 0.75, top_p = 0.95, top_k = 30) #Modelo determinista
    resumen_10['mT5_multilingual_XLSum'][thread] = {'Resumen':summary}
    resumen_10['gemma_2B'][thread] = {'Resumen':respuestas}
# Guardamos resultados en un archivo JSON
with open("resumenes_modelos.json", "w", encoding="utf-8") as f:
    json.dump(resumen_10, f, ensure_ascii=False, indent=2)





## Resultados:

Tras analizar los resúmenes generados por el modelo mT5_multilingual_XLSum (preentrenado) y el modelo Gemma 2B (Small Large Model en modo Zero-Shot), se observan diferencias notables en cuanto a calidad, profundidad y fidelidad al contenido original observados en el JSON creado.

En general, Gemma 2B ofrece resúmenes más extensos, detallados y ajustados al contenido real del hilo.

Gemma tiende a capturar el contexto completo del tema, incluir ejemplos y explicar implicaciones o posturas expresadas en los comentarios, haciendo el texto mucho más legible y robusto. Por ejemplo, en el hilo 1gz88wb, Gemma no solo menciona la compra del queso parmesano a precio bajo, sino que también incluye que se trataba de un error de etiquetado y da ejemplos de recetas. Este nivel de detalle refleja una mejor comprensión semántica del conjunto de datos de entrada con respecto del modelo preentrenado.

Por otro lado, mT5 genera resúmenes mucho más cortos y en algunos casos irrelevantes o que no aportan información relevante. Varios resúmenes no reflejan el contenido del hilo ni los temas tratados. Por ejemplo:

En 7trnof, mT5 simplemente indica: *“This is a full transcript of ancient Egyptian history”*, lo cual es genérico y poco informativo, por lo que no es de gran utilidad en este caso, mientras que Gemma ofrece un resumen sobre la dificultad de interpretar lenguas antiguas.

En 3by2nk, mT5 dice: *“Reddit has closed a number of its subReddits…”* sin ningún contexto, mientras que Gemma explica que la causa fue la falta de comunicación entre admins y la plataforma.

Asimismo, mT5 parece reutilizar frases tipo “This is a full transcript…” en varios hilos, lo cual sugiere que no está realizando una verdadera abstracción del contenido, sino más bien una salida predecible o superficial que sea más directa de cara al usuario.

También se identifican diferencias en el tono:

Gemma suele usar un lenguaje más explicativo e informal (incluso con frases como “Sure, here is the summary”), lo que sugiere una orientación más conversacional.

mT5, aunque más formal y directo, sacrifica información útil por concisión.

mT5 tarda 3 veces menos que Gemma 2B, aun así los resultados reflejan que es preferible emplear Gemma 2B para el resumen de texto debido a que con esta, se obtienen resultados que aún empelando un lenguaje más informal, proporcionan mejores resultados, con un resumen más robusto y con un claro enriquecimiento respecto del vocalublaio y los ejemplos, así como una mayor contextualización del texto en el resultado.