# **Transformers**


## **1. DistilBERT**


### **Bias**

En este experimento se aborda la clasificaci√≥n autom√°tica del sesgo en noticias utilizando t√©cnicas de Deep Learning basadas en Transformers, espec√≠ficamente DistilBERT. El objetivo es construir un modelo capaz de predecir si un texto pertenece a una de tres categor√≠as de sesgo, aprendiendo a capturar patrones sem√°nticos y estil√≠sticos del lenguaje sin intervenci√≥n manual en la extracci√≥n de caracter√≠sticas.

DistilBERT es una versi√≥n ligera de BERT, preentrenada sobre grandes corpus de texto en ingl√©s. Su principal ventaja es un menor tama√±o y menor n√∫mero de parametros conservando un 97% de la precision de BERT 

Los objetivos que esperamos son los siguientes:

- Entrenar un modelo DistilBERT fine-tuneado sobre un subset del dataset de noticias
- Evaluar el rendimiento en t√©rminos de accuracy y macro F1, m√©tricas apropiadas para clasificaci√≥n multiclase, especialmente con clases desbalanceadas.
- Identificar si el modelo es capaz de captar patrones sem√°nticos que diferencian los distintos tipos de sesgo en el contenido textual.

Tambi√©n esperamos varias complicaciones siendo la primera la falta de potencia computacional por nuestra parte lo que no puede llevar a problemas como truncamiento de texto,tama√±o de dataset y clases desbalanceadas al intentar limitar el modelo por la falta de potencia que tenemos 

Nuestras expectativas son conseguir que el modelo capture relaciones semanticas generales aunque no sean perfectas ni mucho menos y conseguir que sea un modelo lo suficientemente bueno par aque se pudiese usar como base para mejoras futuras con mejores capacidades y el uso de GPU

#### 1. Carga y Preparaci√≥n de Datos

Para entrenar un modelo de NLP como DistilBERT es fundamental partir de un dataset limpio y bien estructurado. En este caso se utiliza train_clean.csv, un archivo previamente procesado que contiene noticias ya depuradas. Este dataset ha pasado por pasos de limpieza de texto, tales como:

- Eliminaci√≥n de caracteres especiales, enlaces y signos de puntuaci√≥n innecesarios.
- Normalizaci√≥n de may√∫sculas/min√∫sculas.
- Correcci√≥n de espacios y saltos de l√≠nea.

Del dataset completo se seleccionan solo las columnas necesarias que son content_clean (el texto de la noticia ya procesado y listo para tokenizar) y  bias (la etiqueta que indica el tipo de sesgo de la noticia, que puede tener tres posibles valores). Esta selecci√≥n garantiza que el modelo reciba √∫nicamente la informaci√≥n relevante y evita ruido innecesario que podr√≠a afectar el aprendizaje.

Una vez filtradas las columnas, se procede a dividir el dataset en tres subconjuntos:

- Entrenamiento (Train): aproximadamente el 72% del dataset total. Se utiliza para ajustar los pesos del modelo durante el fine-tuning y es importante que contenga ejemplos de todas las clases para que el modelo pueda aprender las diferencias sem√°nticas entre ellas.

- Validaci√≥n (Validation): alrededor del 8% del dataset total. Se utiliza durante el entrenamiento para evaluar el modelo en datos no vistos y ajustar hiperpar√°metros, como el learning rate o el n√∫mero de epochs y nos ayuda a detectar overfitting, ya que si el modelo mejora en el train pero empeora en validaci√≥n, significa que no generaliza bien.

- Prueba (Test): 20% restante del dataset. Este conjunto solo se utiliza despu√©s de finalizar el entrenamiento para medir el rendimiento real del modelo en datos completamente nuevos y nos permite calcular m√©tricas como accuracy, macro F1, precision y recall de manera objetiva.

Para asegurar que cada conjunto contenga una proporci√≥n representativa de cada clase, se usa el par√°metro stratify de train_test_split, esto evita que algunas clases queden subrepresentadas en el conjunto de validaci√≥n o test, lo que podr√≠a sesgar la evaluaci√≥n y dar m√©tricas poco fiables y es especialmente importante en datasets desbalanceados, donde algunas clases podr√≠an ser minoritarias

In [1]:
import pandas as pd
import numpy as np
import torch

from torch.utils.data import Subset
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, classification_report

from transformers import (
    DistilBertTokenizerFast,
    DistilBertForSequenceClassification,
    Trainer,
    TrainingArguments
)


  from .autonotebook import tqdm as notebook_tqdm


In [None]:
# Cargamos el dataset
df = pd.read_csv("data/data_clean/train_clean.csv")

# Nos quedamos solo con las columnas relevantes para la tarea
df = df[["content_clean", "bias"]].dropna()  # Eliminamos filas con valores faltantes

# Mostramos las primeras filas del DataFrame 
df.head()


Unnamed: 0,content_clean,bias
0,besides his most recent trip to quetta mr raha...,0
1,poll prestigious colleges wo nt make you happi...,0
2,house speaker paul ryan at a private dinner ea...,2
3,cnn president donald trump has reason to hope ...,0
4,the controversial immigrationreform bill that ...,2


In [None]:
# Dividimos los datos originales en conjuntos de entrenamiento y prueba
train_texts, test_texts, train_labels, test_labels = train_test_split(
    df["content_clean"].tolist(),  # Lista de textos limpios
    df["bias"].tolist(),           # Lista de etiquetas de sesgo
    test_size=0.2,                 # 20% de los datos se reservan para el test
    random_state=42,               # Semilla para reproducibilidad
    stratify=df["bias"]             
)

# Dividimos el conjunto de entrenamiento en entrenamiento y validaci√≥n
train_texts, val_texts, train_labels, val_labels = train_test_split(
    train_texts,                    
    train_labels,                   
    test_size=0.1,                  
    random_state=42,                
    stratify=train_labels            
)

# Mostramos la cantidad de ejemplos en cada conjunto
print(f"Train: {len(train_texts)}")
print(f"Validation: {len(val_texts)}")
print(f"Test: {len(test_texts)}")


Train: 20143
Validation: 2239
Test: 5596
Train: 20143
Validation: 2239
Test: 5596


####  2. Tokenization

Antes de alimentar los textos al modelo, es necesario convertirlos en una representaci√≥n que DistilBERT pueda procesar: los tokens. Para ello, utilizamos el DistilBertTokenizerFast, que transforma cada noticia en una secuencia de IDs num√©ricos correspondientes a subpalabras reconocidas por el modelo.

Se aplica truncamiento y padding para que todas las secuencias tengan la misma longitud m√°xima (128 tokens en este caso). Esto permite que los lotes de entrenamiento sean consistentes y que el modelo pueda procesarlos de forma eficiente.

Se tokenizan conjuntos limitados de datos (train, validation y test) para reducir el tiempo de ejecuci√≥n en CPU, seleccionando los primeros 3000, 1000 y 1000 ejemplos respectivamente. Esta estrategia permite experimentar de manera r√°pida sin perder la representatividad general de los datos, aunque sacrifica parte de la cobertura completa del dataset.

In [None]:
# Cargamos el tokenizador r√°pido de DistilBERT preentrenado
tokenizer = DistilBertTokenizerFast.from_pretrained(
    "distilbert-base-uncased"  # Tokenizador compatible con el modelo preentrenado
)

# Funci√≥n que tokeniza una lista de textos y los prepara para el modelo
def tokenize(texts):
    return tokenizer(
        texts,
        truncation=True,             # Trunca los textos que exceden la longitud m√°xima
        padding="max_length",        # Rellena los textos m√°s cortos hasta la longitud m√°xima
        max_length=128,              # Longitud m√°xima de tokens por entrada
        return_tensors="pt"          # Devuelve los tensores 
    )

# Limitar la cantidad de datos 
max_train = 3000
max_val   = 1000
max_test  = 1000

train_encodings = tokenize(train_texts[:max_train])  # Tokenizamos el conjunto de entrenamiento
val_encodings   = tokenize(val_texts[:max_val])      # Tokenizamos el conjunto de validaci√≥n
test_encodings  = tokenize(test_texts[:max_test])    # Tokenizamos el conjunto de test


####  3. Dataset

Una vez que los textos se han convertido en representaciones num√©ricas mediante la tokenizaci√≥n, el siguiente paso es organizarlos junto con sus etiquetas para que el modelo pueda aprender de manera eficiente. Aqu√≠ es donde entran en juego los Datasets de PyTorch.

Los Datasets act√∫an como contenedores estructurados de los datos, que permiten:

1. Almacenar y vincular datos y etiquetas de forma coherente:
Cada ejemplo del Dataset contiene tanto la representaci√≥n num√©rica del texto como su etiqueta correspondiente. Esto asegura que cada batch extra√≠do durante el entrenamiento tenga la informaci√≥n completa necesaria para que el modelo aprenda la relaci√≥n entre entrada y salida.

2. Facilitar el acceso por √≠ndice:
El modelo y el Trainer necesitan poder acceder r√°pidamente a ejemplos individuales o batches completos. El Dataset permite extraer datos por √≠ndice, lo que habilita operaciones como el entrenamiento en lotes (mini-batches) y el submuestreo de los datos para pruebas r√°pidas o validaciones parciales.

3. Optimizar el manejo de memoria y procesamiento:
Los conjuntos de datos pueden ser muy grandes, y no siempre es posible cargarlos completamente en memoria. Al estructurar los datos como Dataset, es posible trabajar con subconjuntos y cargar solo lo necesario para cada batch 

4. Compatibilidad con herramientas de PyTorch y Transformers:
La creaci√≥n de Datasets permite integrarse de manera fluida con los DataLoaders y el Trainer de Hugging Face. Esto automatiza la creaci√≥n de batches, la gesti√≥n de tensores, el c√°lculo de m√©tricas y la evaluaci√≥n del modelo, haciendo el flujo de entrenamiento m√°s eficiente y reproducible.

5. Flexibilidad para experimentaci√≥n:
Al usar Datasets, se puede f√°cilmente crear subconjuntos de entrenamiento, validaci√≥n o test, controlar la cantidad de ejemplos procesados, y ajustar r√°pidamente los experimentos sin modificar los datos originales.

In [5]:
class NewsDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels
    
    def __len__(self):
        return len(self.labels)
    
    def __getitem__(self, idx):
        # Para cada ejemplo devolvemos los tensores de input_ids, attention_mask y la etiqueta
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

# Crear datasets de entrenamiento, validaci√≥n y test
train_dataset = NewsDataset(train_encodings, train_labels)
val_dataset   = NewsDataset(val_encodings, val_labels)
test_dataset  = NewsDataset(test_encodings, test_labels)


train_subset = Subset(train_dataset, range(min(3000, len(train_dataset))))
val_subset   = Subset(val_dataset,   range(min(1000, len(val_dataset))))
test_subset  = Subset(test_dataset,  range(min(1000, len(test_dataset))))


####  4. Enternamiento

El entrenamiento del modelo DistilBERT consiste en ajustar los pesos del modelo preentrenado para que pueda clasificar correctamente los textos de noticias seg√∫n su sesgo. Partimos de un modelo ya preentrenado, lo que significa que DistilBERT ya ha aprendido representaciones ling√º√≠sticas generales a partir de grandes corpus de texto. Durante esta fase, estas representaciones se refinan espec√≠ficamente para nuestro problema de clasificaci√≥n de sesgo. Esto permite que el modelo aprenda patrones sem√°nticos y contextuales relevantes para distinguir entre las tres clases de sesgo definidas en nuestro dataset.

Para hacer el entrenamiento m√°s manejable y eficiente, se trabaja sobre un subset limitado de los datos, seleccionando solo unos miles de ejemplos de entrenamiento y validaci√≥n. Esto reduce el tiempo de entrenamiento, especialmente importante cuando se trabaja en CPU, y permite iterar m√°s r√°pidamente sobre la configuraci√≥n de los hiperpar√°metros.

El proceso de entrenamiento se gu√≠a por una funci√≥n de p√©rdida que compara las predicciones del modelo con las etiquetas reales, ajustando los pesos para minimizar el error. Al mismo tiempo, se aplican t√©cnicas como la regularizaci√≥n por weight decay y un peque√±o calentamiento de los pasos iniciales (warmup) para estabilizar el aprendizaje y evitar que el modelo se desestabilice al principio.

Durante cada epoch, el modelo revisa todos los ejemplos de entrenamiento, actualizando gradualmente sus par√°metros. Adem√°s, se registran m√©tricas de desempe√±o como la p√©rdida, para monitorizar c√≥mo mejora el modelo a lo largo del tiempo. Este entrenamiento permite que DistilBERT adapte sus embeddings y capas internas a nuestro conjunto de noticias, buscando extraer patrones discriminativos √∫tiles para la clasificaci√≥n de sesgo.

In [None]:
# Cargamos el modelo DistilBERT preentrenado para clasificaci√≥n de secuencias
model = DistilBertForSequenceClassification.from_pretrained(
    "distilbert-base-uncased",  
    num_labels=3                 # N√∫mero de clases de salida para la tarea de clasificaci√≥n
)


Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
def compute_metrics(eval_pred):
    logits, labels = eval_pred                # Recibe la salida del modelo y las etiquetas reales
    preds = np.argmax(logits, axis=1)        # Convierte los logits en la clase predicha
    
    acc = accuracy_score(labels, preds)      # Calcula Accuracy
    f1  = f1_score(labels, preds, average="macro")  # Calcula Macro-F1 
    
    return {
        "accuracy": acc,
        "macro_f1": f1
    }



In [None]:
# Configuraci√≥n para el trainer
training_args = TrainingArguments(
    output_dir="./results",                   
    num_train_epochs=3,                      # Num de epochs
    per_device_train_batch_size=8,           # Tama√±o del batch durante el entrenamiento
    per_device_eval_batch_size=16,           # Tama√±o del batch durante la evaluaci√≥n
    warmup_steps=20,                         # Num de steps
    weight_decay=0.01,                       # weight decay
    logging_steps=100,                       # loggear
    save_steps=500,                           # guardar modelo
    save_total_limit=1,                       # Limita checkpoints 
    no_cuda=True,                             
    eval_strategy="epoch",                    # Evaluar el modelo al final de cada epoch
    report_to="none"                        
)




In [None]:


train_subset = Subset(train_dataset, range(3000))  
val_subset   = Subset(val_dataset, range(2500))    

# Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_subset, 
    eval_dataset=val_subset,    
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)


  trainer = Trainer(


In [None]:
# Entrenamos el modelo usando el trainer configurado previamente
train_output = trainer.train()

#informaci√≥n  del entrenamiento
print("\n=== Train Output ===")
print(train_output)  


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


Epoch,Training Loss,Validation Loss,Accuracy,Macro F1
1,0.9441,0.885592,0.597,0.588982
2,0.7135,0.86507,0.626,0.622499
3,0.3688,1.075154,0.624,0.6217


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}



=== Train Output ===
TrainOutput(global_step=1125, training_loss=0.6955495376586914, metrics={'train_runtime': 5817.322, 'train_samples_per_second': 1.547, 'train_steps_per_second': 0.193, 'total_flos': 298056962304000.0, 'train_loss': 0.6955495376586914, 'epoch': 3.0})


####  5. Evaluaci√≥n

Tras el entrenamiento de DistilBERT con nuestro subconjunto de datos, procedimos a evaluar el rendimiento del modelo tanto en el conjunto de validaci√≥n como en el de test, utilizando m√©tricas est√°ndar de clasificaci√≥n: accuracy, macro-F1, y p√©rdida (loss). Estas m√©tricas permiten valorar no solo la proporci√≥n de aciertos totales, sino tambi√©n c√≥mo se comporta el modelo frente a clases menos representadas.

En las primeras epochs, los resultados de validaci√≥n mostraban una mejora gradual del accuracy y macro-F1, mientras que la p√©rdida disminu√≠a, lo que indica que el modelo estaba aprendiendo a discriminar entre las clases. Por ejemplo, en la primera epoch el accuracy rondaba el 59% y el macro-F1 estaba en torno a 0.59. Esto refleja que aunque el modelo estaba captando ciertas relaciones entre palabras y sesgos de los textos, a√∫n no era capaz de generalizar completamente.

A medida que avanz√°bamos a la segunda y tercera epoch, observamos que el accuracy y macro-F1 aumentaban ligeramente hasta valores cercanos al 62-64%, mientras que la p√©rdida mostraba un comportamiento m√°s fluctuante. Este aumento se debe a que el modelo va refinando los embeddings internos y ajustando los pesos, captando patrones m√°s complejos de lenguaje que permiten diferenciar mejor entre noticias con sesgos distintos. La ligera subida en la p√©rdida en la tercera epoch se puede explicar por el tama√±o reducido del subconjunto de validaci√≥n y la limitaci√≥n de ejemplos, lo que genera cierta variabilidad en la evaluaci√≥n.

El informe de clasificaci√≥n final sobre el conjunto de test confirma esta tendencia. Las m√©tricas por clase muestran que el modelo tiene mejor desempe√±o en las clases m√°s frecuentes o con patrones ling√º√≠sticos m√°s claros, mientras que las clases m√°s heterog√©neas o menos representadas presentan valores ligeramente inferiores de recall y f1-score. Esto es consistente con los resultados de macro-F1, que pondera todas las clases de manera equitativa, mostrando que el modelo generaliza razonablemente pero todav√≠a tiene margen de mejora.

Estos resultados se lograron gracias a varias decisiones clave en el proceso: la pretokenizaci√≥n y truncado de textos a una longitud m√°xima de 128 tokens permiti√≥ que el modelo procesara la informaci√≥n de forma eficiente, mientras que el uso de subconjuntos representativos para entrenamiento y validaci√≥n redujo dr√°sticamente los tiempos de ejecuci√≥n, manteniendo patrones significativos en los datos. Adem√°s, la configuraci√≥n de DistilBERT como modelo base, facilit√≥ entrenar varias epochs sin necesidad de GPU, consiguiendo que los embeddings se ajustaran a nuestro problema espec√≠fico de clasificaci√≥n de sesgo en noticias.

En conjunto, los resultados indican que el modelo ha logrado capturar relaciones sem√°nticas √∫tiles para la clasificaci√≥n de bias, aunque su desempe√±o sigue limitado por el tama√±o del dataset y la reducci√≥n de ejemplos para acelerar el entrenamiento. Para mejorar, ser√≠a clave aumentar la cantidad de datos, permitir que el modelo vea m√°s ejemplos por clase y considerar t√©cnicas de fine-tuning m√°s profundo o aumento de datos, lo que podr√≠a ayudar a que las clases menos representadas obtengan mayor f1-score y que la p√©rdida de validaci√≥n se estabilice a√∫n m√°s.

In [None]:
# Evaluamos el modelo usando los datos de validaci√≥n
eval_results = trainer.evaluate()
print("\n=== Validation Results ===")
# Mostramos los resultados de validaci√≥n
for k, v in eval_results.items():
    print(f"{k}: {v:.4f}")  # 4 decimales 

# Realizamos predicciones sobre el subconjunto de test
preds_output = trainer.predict(test_subset)
# Convertimos las predicciones del modelo a etiquetas finales tomando la clase con mayor probabilidad
preds = np.argmax(preds_output.predictions, axis=1)
# Obtenemos las etiquetas reales del conjunto de test para compararlas
labels = preds_output.label_ids

# Mostramos el informe de clasificaci√≥n con m√©tricas como precisi√≥n, recall y F1-score
print("\n=== Test Classification Report ===")
print(classification_report(labels, preds, digits=4))  

# Guardamos el modelo e
trainer.save_model("models/distilbert_debug")
# Guardamos el tokenizador 
tokenizer.save_pretrained("models/distilbert_debug")


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}



=== Validation Results ===
eval_loss: 1.0752
eval_accuracy: 0.6240
eval_macro_f1: 0.6217
eval_runtime: 121.7037
eval_samples_per_second: 8.2170
eval_steps_per_second: 0.5180
epoch: 3.0000


  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}



=== Test Classification Report ===
              precision    recall  f1-score   support

           0     0.6254    0.6218    0.6236       349
           1     0.6546    0.6059    0.6293       269
           2     0.6609    0.6990    0.6794       382

    accuracy                         0.6470      1000
   macro avg     0.6470    0.6422    0.6441      1000
weighted avg     0.6468    0.6470    0.6464      1000



('models/distilbert_debug\\tokenizer_config.json',
 'models/distilbert_debug\\special_tokens_map.json',
 'models/distilbert_debug\\vocab.txt',
 'models/distilbert_debug\\added_tokens.json',
 'models/distilbert_debug\\tokenizer.json')

#### 6, Comparaci√≥n con otros modelos

En la tarea de clasificaci√≥n de bias, los modelos basados en representaciones tradicionales de texto contin√∫an mostrando el mejor rendimiento. En particular, TF-IDF alcanza una Accuracy de 0.71 y un Macro-F1 de 0.70, lo que indica que la informaci√≥n basada en la frecuencia y relevancia de t√©rminos captura de manera muy efectiva los patrones discriminativos necesarios para esta tarea. Bag-of-Words, aunque ligeramente inferior, sigue mostrando un desempe√±o s√≥lido, con una Accuracy de 0.63 y un Macro-F1 de 0.63, reflejando la importancia de considerar la presencia de palabras clave concretas en lugar de su contexto sem√°ntico m√°s amplio.

Los embeddings no contextuales, como Word2Vec y FastText, obtienen resultados intermedios, con Accuracy alrededor de 0.54 y Macro-F1 de 0.53‚Äì0.54. Estos modelos capturan relaciones sem√°nticas entre palabras, pero al aplicarlos con un clasificador lineal como Logistic Regression, no superan el rendimiento de TF-IDF. Esto sugiere que, para la clasificaci√≥n de bias, la mera presencia de t√©rminos clave es m√°s determinante que la informaci√≥n sem√°ntica distribuida que estos embeddings aportan.

Los embeddings contextuales, incluyendo Sentence Transformers y BERT, muestran un comportamiento mixto. Sentence Transformers alcanza una Accuracy de 0.535 y un Macro-F1 de 0.535, similar a los embeddings no contextuales. Por otro lado, BERT sin un entrenamiento exhaustivo obtiene un desempe√±o muy bajo (Accuracy 0.366, Macro-F1 0.366). Esto refleja la dificultad de ajustar modelos de gran capacidad con datasets limitados y clases desbalanceadas, donde el modelo puede sobreajustarse o no generalizar correctamente.

Al comparar estos resultados con DistilBERT fine-tuneado, se observa un patr√≥n coherente. DistilBERT, aunque ya se ha ajustado a la tarea de bias, sigue sin superar a TF-IDF en Accuracy o Macro-F1. La explicaci√≥n principal es que DistilBERT est√° dise√±ado para capturar relaciones contextuales complejas y matices sem√°nticos, pero la clasificaci√≥n de bias depende en gran medida de palabras y expresiones espec√≠ficas. En este caso, la riqueza contextual de DistilBERT no se traduce autom√°ticamente en mejor rendimiento, especialmente cuando el conjunto de datos es peque√±o y el fine-tuning no es suficiente para extraer patrones fiables. Por el contrario, TF-IDF, al enfatizar la frecuencia relativa de t√©rminos clave, resulta m√°s robusto y eficaz para esta tarea concreta.

En conclusi√≥n, aunque DistilBERT fine-tuneado aporta capacidades contextuales avanzadas, los modelos tradicionales como TF-IDF siguen siendo m√°s efectivos para la clasificaci√≥n de bias en datasets limitados. Los embeddings no contextuales y contextuales muestran un desempe√±o moderado, pero no logran superar a las t√©cnicas basadas en frecuencia de t√©rminos debido a la naturaleza de la tarea y la dependencia de palabras clave espec√≠ficas.

### **Topic and Source**

#### 1. Carga de datos

In [32]:
import pandas as pd
import numpy as np
import torch

from torch.utils.data import Subset
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, classification_report

from transformers import (
    DistilBertTokenizerFast,
    DistilBertForSequenceClassification,
    Trainer,
    TrainingArguments
)

# Cargamos el dataset limpio desde CSV
df = pd.read_csv("data/data_clean/train_clean.csv")

# Nos quedamos solo con las columnas relevantes para la tarea (source y topic)
# Ejemplo: para clasificar la fuente
df_source = df[["content_clean", "source"]].dropna()  # Eliminamos filas con valores faltantes
# Ejemplo: para clasificar el tema
df_topic = df[["content_clean", "topic"]].dropna()    # Eliminamos filas con valores faltantes

# Mostramos las primeras filas para verificar la carga
df_source.head()
df_topic.head()

Unnamed: 0,content_clean,topic
0,besides his most recent trip to quetta mr raha...,terrorism
1,poll prestigious colleges wo nt make you happi...,education
2,house speaker paul ryan at a private dinner ea...,us_house
3,cnn president donald trump has reason to hope ...,white_house
4,the controversial immigrationreform bill that ...,immigration


In [45]:
# Filtrar clases con al menos 2 ejemplos para evitar errores con stratify
counts_source = df_source['source'].value_counts()
df_source_filtered = df_source[df_source['source'].isin(counts_source[counts_source >= 2].index)]

# Dividir en train/test
train_texts_source, test_texts_source, train_labels_source, test_labels_source = train_test_split(
    df_source_filtered["content_clean"].tolist(),
    df_source_filtered["source"].tolist(),
    test_size=0.2,
    random_state=42,
    stratify=df_source_filtered["source"]
)

# Dividir train/val
train_texts_source, val_texts_source, train_labels_source, val_labels_source = train_test_split(
    train_texts_source,
    train_labels_source,
    test_size=0.1,
    random_state=42,
    stratify=train_labels_source
)

# Crear diccionario para mapear etiquetas a enteros
source_classes = list(set(train_labels_source + val_labels_source + test_labels_source))
source2id = {cls: i for i, cls in enumerate(source_classes)}

# Mapear etiquetas
train_labels_source = [source2id[label] for label in train_labels_source]
val_labels_source   = [source2id[label] for label in val_labels_source]
test_labels_source  = [source2id[label] for label in test_labels_source]

print(f"Source - Train: {len(train_texts_source)}, Validation: {len(val_texts_source)}, Test: {len(test_texts_source)}")


# --- TOPIC ---

# Filtrar clases con al menos 2 ejemplos
counts_topic = df_topic['topic'].value_counts()
df_topic_filtered = df_topic[df_topic['topic'].isin(counts_topic[counts_topic >= 2].index)]

# Dividir en train/test
train_texts_topic, test_texts_topic, train_labels_topic, test_labels_topic = train_test_split(
    df_topic_filtered["content_clean"].tolist(),
    df_topic_filtered["topic"].tolist(),
    test_size=0.2,
    random_state=42,
    stratify=df_topic_filtered["topic"]
)

# Dividir train/val
train_texts_topic, val_texts_topic, train_labels_topic, val_labels_topic = train_test_split(
    train_texts_topic,
    train_labels_topic,
    test_size=0.1,
    random_state=42,
    stratify=train_labels_topic
)

# Crear diccionario para mapear etiquetas a enteros
topic_classes = list(set(train_labels_topic + val_labels_topic + test_labels_topic))
topic2id = {cls: i for i, cls in enumerate(topic_classes)}

# Mapear etiquetas
train_labels_topic = [topic2id[label] for label in train_labels_topic]
val_labels_topic   = [topic2id[label] for label in val_labels_topic]
test_labels_topic  = [topic2id[label] for label in test_labels_topic]

print(f"Topic - Train: {len(train_texts_topic)}, Validation: {len(val_texts_topic)}, Test: {len(test_texts_topic)}")



Source - Train: 20106, Validation: 2234, Test: 5586
Topic - Train: 20143, Validation: 2239, Test: 5596


#### 2. Tokenizer

In [46]:
tokenizer = DistilBertTokenizerFast.from_pretrained("distilbert-base-uncased")

def tokenize(texts):
    return tokenizer(
        texts,
        truncation=True,
        padding="max_length",
        max_length=128,
        return_tensors="pt"
    )

max_train = 3000
max_val   = 1000
max_test  = 1000

# Source
train_encodings_source = tokenize(train_texts_source[:max_train])
val_encodings_source   = tokenize(val_texts_source[:max_val])
test_encodings_source  = tokenize(test_texts_source[:max_test])

# Topic
train_encodings_topic = tokenize(train_texts_topic[:max_train])
val_encodings_topic   = tokenize(val_texts_topic[:max_val])
test_encodings_topic  = tokenize(test_texts_topic[:max_test])



#### 3. Dataset

In [53]:
class NewsDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels
    
    def __len__(self):
        return len(self.labels)
    
    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

# Source
train_dataset_source = NewsDataset(train_encodings_source, train_labels_source)
val_dataset_source   = NewsDataset(val_encodings_source, val_labels_source)
test_dataset_source  = NewsDataset(test_encodings_source, test_labels_source)

# Topic
train_dataset_topic = NewsDataset(train_encodings_topic, train_labels_topic)
val_dataset_topic   = NewsDataset(val_encodings_topic, val_labels_topic)
test_dataset_topic  = NewsDataset(test_encodings_topic, test_labels_topic)


# --- SUBCONJUNTOS LIMITADOS ---

train_subset_source = Subset(train_dataset_source, range(min(2000, len(train_dataset_source))))
val_subset_source   = Subset(val_dataset_source, range(min(800, len(val_dataset_source))))
test_subset_source  = Subset(test_dataset_source, range(min(800, len(test_dataset_source))))

train_subset_topic = Subset(train_dataset_topic, range(min(2000, len(train_dataset_topic))))
val_subset_topic   = Subset(val_dataset_topic, range(min(800, len(val_dataset_topic))))
test_subset_topic  = Subset(test_dataset_topic, range(min(800, len(test_dataset_topic))))

#### 4. Entrenamiento

In [54]:
# N√∫mero de clases calculado din√°micamente
num_labels_source = len(df_source["source"].unique())
num_labels_topic  = len(df_topic["topic"].unique())

# --- Source ---
model_source = DistilBertForSequenceClassification.from_pretrained(
    "distilbert-base-uncased",
    num_labels=num_labels_source
)

# --- Topic ---
model_topic = DistilBertForSequenceClassification.from_pretrained(
    "distilbert-base-uncased",
    num_labels=num_labels_topic
)


Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [55]:
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    preds = np.argmax(logits, axis=1)
    
    acc = accuracy_score(labels, preds)
    f1  = f1_score(labels, preds, average="macro")
    
    return {"accuracy": acc, "macro_f1": f1}



In [56]:
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=16,
    warmup_steps=20,
    weight_decay=0.01,
    logging_steps=100,
    save_steps=500,
    save_total_limit=1,
    no_cuda=True,              # Forzar CPU
    eval_strategy="epoch",
    report_to="none"
)

In [57]:

# --- Source ---
trainer_source = Trainer(
    model=model_source,
    args=training_args,
    train_dataset=train_subset_source,
    eval_dataset=val_subset_source,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

# --- Topic ---
trainer_topic = Trainer(
    model=model_topic,
    args=training_args,
    train_dataset=train_subset_topic,
    eval_dataset=val_subset_topic,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)


  trainer_source = Trainer(
  trainer_topic = Trainer(


In [None]:
train_output_source = trainer_source.train()
print("\n=== Train Output Source ===")
print(train_output_source)

# Topic
train_output_topic = trainer_topic.train()
print("\n=== Train Output Topic ===")
print(train_output_topic)



  item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}


Epoch,Training Loss,Validation Loss


#### 5. Evaluaci√≥n

In [None]:
# Source
eval_results_source = trainer_source.evaluate()
print("\n=== Validation Results Source ===")
for k, v in eval_results_source.items():
    print(f"{k}: {v:.4f}")

preds_output_source = trainer_source.predict(test_subset_source)
preds_source = np.argmax(preds_output_source.predictions, axis=1)
labels_source = preds_output_source.label_ids
print("\n=== Test Classification Report Source ===")
print(classification_report(labels_source, preds_source, digits=4))

# Topic
eval_results_topic = trainer_topic.evaluate()
print("\n=== Validation Results Topic ===")
for k, v in eval_results_topic.items():
    print(f"{k}: {v:.4f}")

preds_output_topic = trainer_topic.predict(test_subset_topic)
preds_topic = np.argmax(preds_output_topic.predictions, axis=1)
labels_topic = preds_output_topic.label_ids
print("\n=== Test Classification Report Topic ===")
print(classification_report(labels_topic, preds_topic, digits=4))


# ===========================
# GUARDAR MODELOS
# ===========================

trainer_source.save_model("models/distilbert_source")
trainer_topic.save_model("models/distilbert_topic")

tokenizer.save_pretrained("models/distilbert_source")  # el mismo tokenizador sirve para ambos

#### 6. Comparaci√≥n

## **2. Text Summarization**

Adem√°s de la tarea principal de clasificaci√≥n de sesgo, el dataset de noticias utilizado permite abordar de forma natural otras tareas relevantes de Procesamiento de Lenguaje Natural. Una de las m√°s adecuadas en este contexto es el text summarization, ya que las noticias suelen ser documentos relativamente largos que contienen informaci√≥n redundante o secundaria. La capacidad de generar res√∫menes concisos y coherentes resulta especialmente √∫til en escenarios reales, como la lectura r√°pida de informaci√≥n, la indexaci√≥n de contenidos o la visualizaci√≥n eficiente de grandes vol√∫menes de noticias.

El text summarization consiste en generar una versi√≥n m√°s corta de un texto original conservando sus ideas principales y su significado global. En este proyecto se aborda como una tarea abstractive summarization, en la que el modelo no se limita a extraer frases del texto original, sino que es capaz de reformular el contenido y generar nuevas frases que sinteticen la informaci√≥n m√°s relevante. Este enfoque es especialmente adecuado para textos period√≠sticos, donde la informaci√≥n clave puede estar distribuida a lo largo del documento y no concentrada en frases concretas.

Para llevar a cabo esta tarea se ha seleccionado un modelo basado en Transformers disponible en Hugging Face, concretamente BART (Bidirectional and Auto-Regressive Transformers). BART es una arquitectura encoder‚Äìdecoder dise√±ada espec√≠ficamente para tareas de generaci√≥n de texto, como el resumen, la traducci√≥n o la generaci√≥n de respuestas. En particular, se utiliza una versi√≥n de BART preentrenada para el resumen de noticias, entrenada previamente sobre grandes corpus period√≠sticos, lo que la hace especialmente adecuada para el tipo de textos presentes en nuestro dataset.

El uso de un modelo preentrenado permite aplicar el resumen sin necesidad de realizar fine-tuning adicional, lo cual es una ventaja importante dadas las limitaciones de recursos computacionales. De este modo, el modelo puede aplicarse directamente sobre un subconjunto de noticias para generar res√∫menes y analizar cualitativamente sus resultados. Esta estrategia cumple con el objetivo de la entrega, que es familiarizarse con otras tareas y arquitecturas de NLP, sin requerir un entrenamiento costoso o evaluaciones complejas.

Los objetivos principales de esta parte del trabajo son, en primer lugar, explorar una tarea de NLP diferente a la clasificaci√≥n, ampliando el alcance del proyecto m√°s all√° de la predicci√≥n de etiquetas. En segundo lugar, se busca comprender c√≥mo los modelos generativos basados en Transformers procesan y condensan informaci√≥n textual, y qu√© tipo de salidas producen cuando se aplican a noticias reales. Finalmente, esta tarea permite reflexionar sobre el potencial uso pr√°ctico de el text summarization como complemento a la clasificaci√≥n de sesgo, por ejemplo, para ofrecer res√∫menes r√°pidos de noticias ya categorizadas.

No obstante, tambi√©n se esperan varias limitaciones e inconvenientes. En primer lugar, al trabajar sin fine-tuning espec√≠fico sobre nuestro dataset, los res√∫menes generados pueden no capturar siempre los matices m√°s relevantes del texto original o pueden omitir detalles importantes relacionados con el sesgo. Adem√°s, los modelos de resumizaci√≥n suelen tener restricciones en la longitud m√°xima de entrada, lo que obliga a truncar textos largos y puede provocar p√©rdida de informaci√≥n. Por √∫ltimo, el uso de estos modelos en CPU implica tiempos de ejecuci√≥n relativamente altos, lo que limita la cantidad de ejemplos que pueden procesarse durante los experimentos.

### 1. Carga de Datos

En esta etapa del proyecto se centra en obtener y preparar la informaci√≥n que se utilizar√° para generar los res√∫menes autom√°ticos. Primero, se accede al conjunto de noticias previamente limpiado y procesado, que contiene toda la informaci√≥n textual organizada en columnas. DEspues se selecciona √∫nicamente la columna que contiene el contenido principal de cada noticia, descartando cualquier informaci√≥n que no sea relevante para la tarea de resumen.

Se eliminan los valores vac√≠os o nulos para asegurar que todos los textos que se procesen tengan contenido real y significativo. Para facilitar las pruebas y la visualizaci√≥n de resultados, se trabaja inicialmente con un subconjunto representativo de los textos, evitando as√≠ procesar el conjunto completo en las etapas iniciales. Adem√°s, se descartan los textos demasiado cortos, que no aportar√≠an suficiente informaci√≥n para generar res√∫menes coherentes.

El objetivo de esta fase es garantizar que el modelo reciba √∫nicamente informaci√≥n √∫til y consistente, evitando errores o resultados irrelevantes. Se espera que, al final de este bloque, se tenga una lista de noticias limpias y consistentes, cada una con suficiente contenido para que el modelo pueda producir res√∫menes coherentes y significativos, y que facilite la comparaci√≥n posterior entre los textos originales y los res√∫menes generados.

In [25]:
import pandas as pd
import torch
import textwrap
from transformers import pipeline


In [3]:
# Cargar dataset
df = pd.read_csv("data/data_clean/train_clean.csv")

# Nos quedamos solo con la columna de texto
texts = df["content_clean"].dropna().tolist()

print(f"N√∫mero total de noticias: {len(texts)}")


N√∫mero total de noticias: 27978


In [None]:
texts_subset = texts[:20]  

# para ignorar textos cortos
texts_subset = [t for t in texts_subset if len(t.strip()) > 20] 


### 2. Selecci√≥n de Modelo

Para esta tarea se ha escogido BART (Bidirectional and Auto-Regressive Transformers) en su versi√≥n ‚Äúlarge‚Äù entrenada para resumir textos, conocido como facebook/bart-large-cnn. Este modelo combina una arquitectura de encoder-decoder con un entrenamiento espec√≠fico en tareas de resumen de textos largos, lo que le permite identificar la informaci√≥n m√°s importante y generar res√∫menes coherentes y comprensibles. BART es especialmente potente para textos de noticias, ya que puede manejar secuencias extensas y capturar las relaciones contextuales entre diferentes partes del texto, asegurando que los res√∫menes mantengan la esencia de la informaci√≥n original.

La elecci√≥n del modelo tambi√©n se ha hecho considerando la capacidad computacional disponible. Aunque BART large es un modelo pesado y exigente en recursos, la configuraci√≥n se ajustaa la CPU cuando la GPU no est√© disponible. Esto asegura que los res√∫menes se generen de manera eficiente sin comprometer la calidad, adapt√°ndose a las limitaciones del entorno de trabajo.

El objetivo de este bloque es garantizar que el modelo seleccionado pueda resumir las noticias de manera precisa y eficiente, extrayendo la informaci√≥n m√°s relevante y produciendo resultados que sean f√°cilmente comparables con los textos originales. Se espera que, gracias a la elecci√≥n de BART large, los res√∫menes sean coherentes, informativos y representativos del contenido de cada noticia, permitiendo evaluar de manera confiable el rendimiento del sistema de resumen autom√°tico.

In [None]:
# Definimos el nombre del modelo de resumen que vamos a usar
model_name = "facebook/bart-large-cnn"  # BART large entrenado para res√∫menes de noticias

# Creamos el pipeline 
summarizer = pipeline(
    "summarization",        
    model=model_name,       
    tokenizer=model_name,      
    device=0 if torch.cuda.is_available() else -1 
)

Device set to use cpu


### 3. Generaci√≥n de Resumenes

Este bloque constituye el n√∫cleo de la tarea de resumen, ya que es el encargado de procesar cada noticia y producir un resumen coherente y completo. La estrategia central consiste en tomar un texto, analizarlo en profundidad y extraer su informaci√≥n m√°s relevante, asegurando que el resultado sea comprensible y representativo de todo el contenido original.

Dado que los textos pueden ser muy largos, se utiliza un enfoque de procesamiento por fragmentos. Cada noticia se divide en segmentos de tama√±o limitado, adaptados a la capacidad del modelo, para evitar que se supere el l√≠mite de entrada que los transformadores pueden procesar de una sola vez. Esto permite que incluso los textos extensos puedan ser resumidos sin perder informaci√≥n cr√≠tica. Cada fragmento se analiza de manera independiente y se genera un resumen parcial para ese segmento.

Para mejorar la adaptabilidad del modelo, se ajustan los par√°metros de longitud m√°xima del resumen en funci√≥n del tama√±o del fragmento, de manera que los fragmentos muy cortos no generen res√∫menes desproporcionados o incompletos. Esto asegura que los res√∫menes parciales sean coherentes y mantengan un equilibrio adecuado entre concisi√≥n y exhaustividad.

Una vez que se han generado los res√∫menes de todos los fragmentos, estos se unen para formar el resumen final de la noticia completa. De esta forma, se preserva la informaci√≥n esencial de cada parte del texto original, garantizando que el resultado global refleje de manera fiel el contenido total.

Durante todo el proceso se contempla la posibilidad de errores o excepciones, como fragmentos que puedan exceder la capacidad del modelo o problemas imprevistos en la generaci√≥n. En esos casos, se maneja el error de manera controlada, registrando el fragmento problem√°tico y continuando con los dem√°s, lo que asegura la robustez del sistema frente a textos complejos o con irregularidades.

Finalmente, este bloque se aplica iterativamente a cada texto del conjunto seleccionado, generando un resumen individual para cada noticia. El resultado esperado es que cada resumen sea claro, coherente y representativo, facilitando la comparaci√≥n con el texto original y cumpliendo con el objetivo principal del proyecto: automatizar la s√≠ntesis de informaci√≥n relevante de manera eficiente y confiable.

In [None]:
# Resume un texto dividi√©ndolo en fragmentos si es demasiado largo para el modelo.

def summarize_text(text, max_length=130, min_length=40, chunk_size=1024):

    summaries = []
    
    # dividir el texto en fragmentos
    for i in range(0, len(text), chunk_size):
        chunk = text[i:i+chunk_size]
        #se ajusta por si es muy corto el texto original
        adjusted_max = min(max_length, len(chunk)//2)
        try:
            summary = summarizer(
                chunk,
                max_length=max_length,
                min_length=min_length,
                do_sample=False
            )[0]['summary_text']
            summaries.append(summary)
        except Exception as e:
            # por si falla
            summaries.append("")
            print(f"Error en el fragmento {i//chunk_size + 1}: {e}")
    
    # unir los res√∫menes parciales
    return " ".join(summaries)


In [None]:
summaries = []  # Lista donde almacenaremos los res√∫menes generados

# Iteramos sobre cada texto del subconjunto de noticias
for i, text in enumerate(texts_subset):
    try:
        # Generamos el resumen del texto usando la funci√≥n principal
        summary = summarize_text(text)
        summaries.append(summary)
        # mensaje informativo 
        print(f"Resumen {i+1} generado, longitud texto: {len(text)}")
    except Exception as e:
        # En caso de que falle la generaci√≥n del resumen, a√±adimos un string vac√≠o
        summaries.append("")
        # mensaje de error 
        print(f"Error en el texto {i+1} (longitud {len(text)}): {e}")


Your max_length is set to 130, but your input_length is only 79. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=39)


Resumen 1 generado, longitud texto: 2471
Resumen 2 generado, longitud texto: 4081
Resumen 3 generado, longitud texto: 4807
Resumen 4 generado, longitud texto: 9124
Resumen 5 generado, longitud texto: 4000
Resumen 6 generado, longitud texto: 3933
Resumen 7 generado, longitud texto: 8926


Your max_length is set to 130, but your input_length is only 79. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=39)


Resumen 8 generado, longitud texto: 5473


Your max_length is set to 130, but your input_length is only 40. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=20)


Resumen 9 generado, longitud texto: 5279


Your max_length is set to 130, but your input_length is only 34. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=17)


Resumen 10 generado, longitud texto: 2212


Your max_length is set to 130, but your input_length is only 62. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=31)


Resumen 11 generado, longitud texto: 6453
Resumen 12 generado, longitud texto: 6820


Your max_length is set to 130, but your input_length is only 43. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=21)


Resumen 13 generado, longitud texto: 4306
Resumen 14 generado, longitud texto: 1967


Your max_length is set to 130, but your input_length is only 44. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=22)


Resumen 15 generado, longitud texto: 3264


Your max_length is set to 130, but your input_length is only 29. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=14)


Resumen 16 generado, longitud texto: 6290
Resumen 17 generado, longitud texto: 3061


Your max_length is set to 130, but your input_length is only 18. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=9)


Resumen 18 generado, longitud texto: 7260


Your max_length is set to 130, but your input_length is only 20. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=10)


Resumen 19 generado, longitud texto: 8276


Your max_length is set to 130, but your input_length is only 14. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=7)


Resumen 20 generado, longitud texto: 10292


### 4. Visualizaci√≥n de Resultados

En este proyecto, hemos conseguido extraer autom√°ticamente la informaci√≥n m√°s relevante de un conjunto de noticias, generando res√∫menes coherentes y comprensibles a partir de textos originales extensos. Para ello hemos seleccionado  el modelo BART large, entrenado espec√≠ficamente para tareas de resumen. Esta elecci√≥n nos ha permitido equilibrar la calidad de los res√∫menes con la capacidad computacional disponible, adapt√°ndonos a la CPU . De esta manera, aseguramos que nuestro sistema pueda funcionar de manera eficiente incluso con limitaciones de hardware, lo cual es fundamental para aplicaciones pr√°cticas.

Uno de los logros m√°s importantes ha sido implementar un m√©todo que divide los textos largos en fragmentos manejables para el modelo. Gracias a esta estrategia hemos podido superar la limitaci√≥n de tama√±o de entrada de los transformadores y generar res√∫menes parciales que, al unirse, mantienen la coherencia y la informaci√≥n esencial de cada noticia. Este enfoque nos ha permitido procesar textos extensos sin perder contenido cr√≠tico, aunque observamos que algunos res√∫menes parciales pueden repetir informaci√≥n o generar transiciones no muy buenas entre fragmentos.

Durante el desarrollo del proyecto tambi√©n identificamos algunas dificultades y limitaciones. Los textos muy cortos o con estructuras poco convencionales a veces produjeron res√∫menes incompletos o vac√≠os, lo que nos ense√±√≥ la importancia de filtrar adecuadamente los datos antes de procesarlos. Adem√°s, aunque BART large genera res√∫menes detallados, en ciertos casos los resultados fueron m√°s extensos de lo esperado, ya que el modelo intenta conservar muchos detalles de la noticia. Esto nos indica que en futuras implementaciones podr√≠a ser √∫til ajustar con mayor precisi√≥n los par√°metros de longitud m√°xima y m√≠nima o tambien considerar modelos alternativos seg√∫n la extensi√≥n y el tipo de noticia.

Otro aspecto clave ha sido la visualizaci√≥n y presentaci√≥n de los resultados. Al mostrar los textos originales y sus res√∫menes en p√°rrafos legibles, con un ancho de l√≠nea limitado, hemos podido comparar de manera r√°pida y clara la fidelidad de los res√∫menes. Este enfoque nos permiti√≥ identificar f√°cilmente que res√∫menes capturan correctamente la informaci√≥n principal y cuales requieren ajustes, proporcionando un feedback inmediato sobre el desempe√±o del modelo.

Con estos resultados dedujimos varias cosas. Primero, es posible automatizar de manera eficiente la s√≠ntesis de noticias largas, reduciendo significativamente el tiempo que dedicar√≠amos a revisar grandes vol√∫menes de informaci√≥n. Segundo, la calidad de los res√∫menes depende tanto del modelo elegido como de la preparaci√≥n y filtrado de los datos, lo que demuestra la importancia de contar con un dataset limpio y bien seleccionado. Tercero, aunque la automatizaci√≥n es efectiva, los modelos actuales a√∫n pueden generar repeticiones o incluir detalles irrelevantes, por lo que consideramos recomendable realizar revisiones humanas cuando se busque alta precisi√≥n.

In [None]:

# Creamos un DataFrame que combina los textos originales con los res√∫menes generados
df_summaries = pd.DataFrame({
    "Original_Text": texts_subset,
    "Generated_Summary": summaries
})

# Mostramos las primeras filas
df_summaries.head()


Unnamed: 0,Original_Text,Generated_Summary
0,besides his most recent trip to quetta mr raha...,mr rahami visited karachi pakistan in 2005 an...
1,poll prestigious colleges wo nt make you happi...,Gallup poll finds prestigious colleges don't m...
2,house speaker paul ryan at a private dinner ea...,House speaker paul ryan at a private dinner ea...
3,cnn president donald trump has reason to hope ...,Donald trump has reason to hope his luck is ch...
4,the controversial immigrationreform bill that ...,The controversial immigrationreform bill that ...


In [None]:
#guardamos resumenes
df_summaries.to_csv("news_summaries_bart.csv", index=False)

In [None]:
width = 100

#MOstramos ejemplos de lso resumenes hechos
for i in range(3):
    original_text = df_summaries.loc[i, "Original_Text"][:500] + "..."
    generated_summary = df_summaries.loc[i, "Generated_Summary"]

    print("\n--- NOTICIA ORIGINAL ---\n")
    print("\n".join(textwrap.wrap(original_text, width=width)))
    
    print("\n--- RESUMEN GENERADO ---\n")
    print("\n".join(textwrap.wrap(generated_summary, width=width)))
    print("\n" + "="*width + "\n")  


--- NOTICIA ORIGINAL ---

besides his most recent trip to quetta mr rahami visited karachi pakistan in 2005 both of those
cities reputations have become entwined with the militant groups who have sheltered there karachi as
a haven for the pakistani taliban and al qaeda and quetta as the headquarters of the exiled afghan
taliban leadership but both cities are also home to generations of afghans who have fled violence in
their home country much about his new jersey life did seem unremarkable amarjit singh a limousine
drive...

--- RESUMEN GENERADO ---

 mr rahami visited karachi pakistan in 2005 and quetta in 2005 both of those cities reputations have
become entwined with the militant groups who have sheltered there. Both cities are also home to
generations of afghans who have fled violence in their home country much about his new jersey life
did seem unremarkable. Mr rahami had a daughter with a high school girlfriend according to friends
reached at her home on monday night she decline