In [1]:
import json
import pandas as pd
from collections import defaultdict

# BASSE dataset

Procesa un archivo JSONL de resúmenes y devuelve una lista de objetos (diccionarios). Cada objeto contiene el índice, el documento original y los resúmenes de varios modelos.
Además, se puede convertir la lista de objetos en un DataFrame de Pandas para un análisis más fácil.

In [2]:
def get_list_of_objects_from_basse_dataset(filepath):
    """
    Procesa un archivo JSONL de resúmenes y devuelve una lista de objetos (diccionarios).

    Args:
        filepath (str): La ruta al archivo .jsonl.

    Returns:
        list: Una lista de diccionarios, donde cada diccionario representa un objeto JSON procesado.
    """
    data_list = []

    with open(filepath, 'r', encoding='utf-8') as f:
        for line_number, line in enumerate(f, 1):
            try:
                json_object = json.loads(line.strip())

                idx = json_object.get('idx')
                round_val = json_object.get('round')
                original_document = json_object.get('original_document')

                model_summaries = json_object.get('model_summaries', {})

                claude_summ = model_summaries.get('claude-5w1h', {}).get('summ')
                commandr_summ = model_summaries.get('commandr-5w1h', {}).get('summ')
                gpt4o_summ = model_summaries.get('gpt4o-5w1h', {}).get('summ')
                reka_summ = model_summaries.get('reka-5w1h', {}).get('summ')
                llama3_summ = model_summaries.get('llama3-5w1h', {}).get('summ')

                data_list.append({
                    'idx': idx,
                    'round': round_val,
                    'original_document': original_document,
                    'claude-5w1h_summ': claude_summ,
                    'commandr-5w1h_summ': commandr_summ,
                    'gpt4o-5w1h_summ': gpt4o_summ,
                    'reka-5w1h_summ': reka_summ,
                    'llama3-5w1h_summ': llama3_summ
                })
            except json.JSONDecodeError:
                print(f"Advertencia (Línea {line_number}): Se omitió una línea (resúmenes) debido a un error de decodificación JSON: {line.strip()}")
            except Exception as e:
                print(f"Advertencia (Línea {line_number}): Se omitió una línea (resúmenes) debido a un error inesperado ({e}): {line.strip()}")

    return data_list

Procesar el archivo JSONL de resúmenes y generar una lista de diccionarios.


In [None]:
def process_basse_summaries(jsonl_file_path_summaries):
    # Procesar el archivo JSONL de resúmenes 
    list_of_summary_objects = get_list_of_objects_from_basse_dataset(jsonl_file_path_summaries)

    # Ahora 'list_of_summary_objects' es una lista de diccionarios.
    if list_of_summary_objects:
        print("Primer objeto de la lista de resúmenes:")
        print(json.dumps(list_of_summary_objects[0], indent=2, ensure_ascii=False))

    return list_of_summary_objects


# Procesar el archivo JSONL de resúmenes
basse_summaries = process_basse_summaries('../data/basse/BASSE.jsonl')


Convertir la lista de diccionarios en un DataFrame de Pandas para mejor visualización (opcional)

In [4]:
# Para convertir la lista de diccionarios en un DataFrame de Pandas:
df_summaries = pd.DataFrame(basse_summaries)
print("\nDataFrame creado desde la lista de resúmenes:")
df_summaries


DataFrame creado desde la lista de resúmenes:


Unnamed: 0,idx,round,original_document,claude-5w1h_summ,commandr-5w1h_summ,gpt4o-5w1h_summ,reka-5w1h_summ,llama3-5w1h_summ
0,http://elpais.com/deportes/2019/08/17/actualid...,1,"El jet lag ante Argentina , que quedó maquilla...",Aquí tienes un resumen del texto utilizando el...,Aquí está el resumen del texto utilizando el m...,Qué: La selección española de baloncesto sufri...,Qué: España perdió su segundo partido de prepa...,Aquí te presento el resumen del texto utilizan...
1,http://elpais.com/elpais/2019/07/10/planeta_fu...,1,Para poderos contar nuestra pequeña historia t...,Aquí está el resumen del texto utilizando el m...,Aquí está el resumen del texto utilizando el m...,Qué:\nProyecto para la construcción y mantenim...,¿Qué? La historia de cinco universitarias que ...,"A continuación, te presento un resumen del tex..."
2,http://elpais.com/ccaa/2019/09/12/madrid/15683...,1,La situación ya había llegado al límite entre ...,Resumen usando el método 5W1H:\nQué: Debate y ...,Aquí está el resumen del texto utilizando el m...,Qué: Debate y votación en una junta de vecinos...,Qué: Un edificio histórico en Madrid limitó la...,Qué: La votación en una junta de vecinos de un...
3,http://elpais.com/deportes/2019/08/10/actualid...,1,"Deporte pionero en el uso de la tecnología , e...",Aquí está el resumen del texto usando el métod...,Aquí está un resumen del texto utilizando el m...,Qué: World Rugby está implementando cambios no...,Qué: El rugby está considerando cambios radica...,Aquí te presento el resumen del texto utilizan...
4,http://elpais.com/elpais/2019/07/11/gente/1562...,1,Fue el primer concursante confirmado para part...,Aquí tienes un resumen del texto usando el mét...,Aquí está el resumen del texto utilizando el m...,"Qué: Nicolás Vallejo-Nájera, conocido como Col...","¿Qué? Nicolás Vallejo-Nájera, conocido como Co...","Qué: Colate, un empresario y expareja de la ca..."
5,http://elpais.com/elpais/2019/07/19/ciencia/15...,1,India ha lanzado hoy la nave Chandrayaan 2 con...,Aquí está el resumen del texto usando el métod...,Aquí está el resumen del texto sobre el lanzam...,Qué: India ha lanzado la nave Chandrayaan 2 co...,Qué: India ha lanzado la nave espacial Chandra...,Aquí te presento el resumen del texto utilizan...
6,http://elpais.com/ccaa/2019/09/28/catalunya/15...,1,La Policía ha detenido en Alemania al joven de...,Aquí está el resumen del texto utilizando el m...,Aquí está el resumen del texto usando el métod...,Qué: La policía ha detenido al joven de 17 año...,Qué: La Policía alemana ha detenido a un joven...,Aquí te presento el resumen del texto utilizan...
7,http://elpais.com/elpais/2019/07/17/gente/1563...,1,Se confirma : Alejandro Sanz ( 50 años ) y Raq...,Aquí está el resumen del texto usando el métod...,\nAquí está un resumen del texto utilizando el...,Qué: Alejandro Sanz y Raquel Perera se separan...,Qué: Alejandro Sanz y Raquel Perera se han sep...,"¡Claro! A continuación, te presento el resumen..."
8,http://elpais.com/tecnologia/2019/08/20/actual...,1,"Apasionante el programa de la nueva edición , ...",Aquí tienes un resumen del texto usando el mét...,Aquí está el resumen del texto sobre el Festiv...,Qué: El Festival de Cine Judío de Barcelona pr...,"Qué: El Festival de Cine Judío de Barcelona, e...",Aquí te presento el resumen del texto utilizan...
9,http://elpais.com/elpais/2019/07/05/ideas/1562...,1,Nuestras redes están llenas de imágenes de niñ...,Aquí está el resumen del texto usando el métod...,Aquí está el resumen del texto utilizando el m...,Qué: El fenómeno de compartir fotos de niños e...,¿Qué? El artículo explora la práctica extendid...,"El artículo discute el fenómeno del ""sharentin..."


# Flares dataset
El preprocesamiento es similar al anterior, pero para un archivo JSON que contiene una lista de objetos, cada uno con un id, text, y una lista de tags.
Cada tag tiene un campo '5W1H_Label', 'Reliability_Label','Tag_Text' y 'Tag_Start'.

In [2]:
def process_flares_single_object_tags_nested_with_position(json_object):
    """
    Procesa un objeto JSON de etiquetas y anida las etiquetas procesadas
    (con enumeración y posición 'Tag_Start') dentro de una lista en el objeto resultante.
    """
    processed_object = {
        'Id': json_object.get('Id'),
        'Text': json_object.get('Text'),
        'Processed_Tags': []
    }

    tags = json_object.get('Tags', [])
    w5h1_label_counts = defaultdict(int)

    if tags:
        for tag_item in tags:
            original_w5h1_label = tag_item.get('5W1H_Label')

            processed_tag = {
                '5W1H_Label': original_w5h1_label,
                'Enumerated_Tag_Id': None,
                'Reliability_Label': tag_item.get('Reliability_Label'),
                'Tag_Text': tag_item.get('Tag_Text'),
                'Tag_Start': tag_item.get('Tag_Start')
            }

            if original_w5h1_label:
                w5h1_label_counts[original_w5h1_label] += 1
                current_count = w5h1_label_counts[original_w5h1_label]
                processed_tag['Enumerated_Tag_Id'] = f"{original_w5h1_label}_{current_count}"

            processed_object['Processed_Tags'].append(processed_tag)

    return processed_object

def get_list_of_objects_from_tags_jsonl(filepath):
    """
    Procesa un archivo JSONL (con estructura de Tags) y devuelve una lista de objetos,
    donde cada objeto contiene sus etiquetas procesadas de forma anidada y con su posición.
    """
    all_processed_objects = []

    with open(filepath, 'r', encoding='utf-8') as f:
        for line_number, line in enumerate(f, 1):
            try:
                json_object = json.loads(line.strip())
                processed_data = process_flares_single_object_tags_nested_with_position(json_object)
                all_processed_objects.append(processed_data)
            except json.JSONDecodeError:
                print(f"Advertencia (Línea {line_number}): Se omitió una línea (etiquetas) debido a un error de decodificación JSON.")
            except Exception as e:
                print(f"Advertencia (Línea {line_number}): Se omitió una línea (etiquetas) debido a un error inesperado ({e}).")

    return all_processed_objects

# Procesar el archivo JSONL de etiquetas y generar una lista de diccionarios.

In [3]:
flares_train_jsonl_file_path = '../data/flares/5w1h_subtarea_1_train.json'
flares_trial_jsonl_file_path = '../data/flares/5w1h_subtask_1_trial.json'

list_of_tagged_objects_nested_train = get_list_of_objects_from_tags_jsonl(flares_train_jsonl_file_path)
list_of_tagged_objects_nested_trial = get_list_of_objects_from_tags_jsonl(flares_trial_jsonl_file_path)

# Combinar ambos conjuntos de datos en una sola lista
flares_dataset_merged = list_of_tagged_objects_nested_train + list_of_tagged_objects_nested_trial

# Ahora 'flares_dataset_merged' es una lista de diccionarios,
# y cada diccionario tiene una clave 'Processed_Tags' con una lista de etiquetas.
# Imprime un resumen del resultado
print(f"Se procesaron {len(flares_dataset_merged)} objetos de los archivos de etiquetas.")
if flares_dataset_merged:
    print("Primer objeto de la lista de etiquetas (estructura anidada):")
    print(json.dumps(flares_dataset_merged[0], indent=2, ensure_ascii=False))

Se procesaron 1753 objetos de los archivos de etiquetas.
Primer objeto de la lista de etiquetas (estructura anidada):
{
  "Id": 732,
  "Text": "Dos días, exactamente han pasado dos días desde que Sánchez compareciera en rueda de prensa en la Moncloa afirmando que a España llegarían, entre abril y septiembre, un total de 87 millones de vacunas para darnos cuenta de que las mentiras de Sánchez hacen bueno ese refrán que dice que “la mentira tiene las patas muy cortas”.",
  "Processed_Tags": [
    {
      "5W1H_Label": "WHO",
      "Enumerated_Tag_Id": "WHO_1",
      "Reliability_Label": "confiable",
      "Tag_Text": "Sánchez",
      "Tag_Start": 52
    },
    {
      "5W1H_Label": "WHERE",
      "Enumerated_Tag_Id": "WHERE_1",
      "Reliability_Label": "confiable",
      "Tag_Text": "en rueda de prensa en la Moncloa",
      "Tag_Start": 73
    },
    {
      "5W1H_Label": "WHO",
      "Enumerated_Tag_Id": "WHO_2",
      "Reliability_Label": "confiable",
      "Tag_Text": "a España",
  

# Filtrar y Seleccionar la Mejor Combinación por "Pirámide Invertida"


Esta función toma la lista generada en el paso anterior y la filtra para dejar un único objeto "óptimo" por cada noticia, basándose en la primera etiqueta confiable de cada tipo.

In [6]:
def select_best_5w1h_combination(list_of_objects_with_tags):
    """
    Filtra y transforma una lista de objetos. Para cada objeto, selecciona
    la primera etiqueta 'confiable' de cada tipo 5W1H basándose en su
    posición en el texto ('Tag_Start').

    Args:
        list_of_objects_with_tags (list): La lista de objetos generada en el paso anterior.

    Returns:
        list: Una nueva lista que contiene un único objeto "óptimo" por cada
              objeto de entrada que cumplió los criterios.
    """

    best_combinations_list = []
    REQUIRED_LABELS = {'WHO', 'WHAT', 'WHEN', 'WHERE'} # Solo consideramos estas etiquetas. 'HOW' y 'WHY' son menos ocurrentes por lo que limitaría demasiado el dataset.

    for obj in list_of_objects_with_tags:
        grouped_tags = defaultdict(list)
        for tag in obj.get('Processed_Tags', []):
            label = tag.get('5W1H_Label')
            if label:
                grouped_tags[label].append(tag)

        # Primero, verificar si el objeto tiene al menos una etiqueta de cada tipo requerido
        if not REQUIRED_LABELS.issubset(grouped_tags.keys()):
            continue # Si no tiene todos los tipos, no puede ser un candidato.

        best_tags_for_this_object = []
        is_complete_with_reliable = True

        for label in REQUIRED_LABELS:
            reliable_tags = [
                tag for tag in grouped_tags[label]
                if tag.get('Reliability_Label') == 'confiable'
            ]

            if not reliable_tags:
                is_complete_with_reliable = False
                break

            reliable_tags.sort(key=lambda x: x['Tag_Start'])
            best_tag_for_label = reliable_tags[0]
            best_tags_for_this_object.append(best_tag_for_label)

        if is_complete_with_reliable:
            # Ordenar las etiquetas finales por su posición en el texto para consistencia
            best_tags_for_this_object.sort(key=lambda x: x['Tag_Start'])

            new_object = {
                'Id': obj['Id'],
                'Text': obj['Text'],
                'Processed_Tags': best_tags_for_this_object
            }
            best_combinations_list.append(new_object)

    return best_combinations_list

# 1. Llamar a la función usando la lista del paso de procesamiento como entrada.
lista_final_optima = select_best_5w1h_combination(flares_dataset_merged)

# 2. Imprime un resumen del resultado
print(f"Después de aplicar el filtro de 'mejor combinación', quedaron {len(lista_final_optima)} objetos.")

# 3. Inspeccionar el primer objeto de la lista final
if lista_final_optima:
    print("\n--- Primer objeto de la lista final ---")
    print(json.dumps(lista_final_optima[0], indent=2, ensure_ascii=False))

Después de aplicar el filtro de 'mejor combinación', quedaron 94 objetos.

--- Primer objeto de la lista final ---
{
  "Id": 732,
  "Text": "Dos días, exactamente han pasado dos días desde que Sánchez compareciera en rueda de prensa en la Moncloa afirmando que a España llegarían, entre abril y septiembre, un total de 87 millones de vacunas para darnos cuenta de que las mentiras de Sánchez hacen bueno ese refrán que dice que “la mentira tiene las patas muy cortas”.",
  "Processed_Tags": [
    {
      "5W1H_Label": "WHO",
      "Enumerated_Tag_Id": "WHO_1",
      "Reliability_Label": "confiable",
      "Tag_Text": "Sánchez",
      "Tag_Start": 52
    },
    {
      "5W1H_Label": "WHERE",
      "Enumerated_Tag_Id": "WHERE_1",
      "Reliability_Label": "confiable",
      "Tag_Text": "en rueda de prensa en la Moncloa",
      "Tag_Start": 73
    },
    {
      "5W1H_Label": "WHEN",
      "Enumerated_Tag_Id": "WHEN_1",
      "Reliability_Label": "confiable",
      "Tag_Text": "entre abril y 

In [8]:
def flatten_optimal_objects(optimal_list):
    """
    Transforma una lista de objetos anidados a un formato plano. Extrae
    la información de 'Processed_Tags', usando '5W1H_Label' como
    la nueva clave (en formato Título) y 'Tag_Text' como su valor.

    Args:
        optimal_list (list): La lista de objetos "óptimos" generada en el
                             paso anterior.

    Returns:
        list: Una nueva lista con los objetos en formato plano.
    """

    flattened_list = []

    for obj in optimal_list:
        # Iniciar el nuevo objeto plano con los datos base.
        new_flattened_obj = {
            'Id': obj.get('Id'),
            'Text': obj.get('Text')
        }

        # Iterar a través de la lista de etiquetas ya seleccionadas.
        for tag in obj.get('Processed_Tags', []):
            label = tag.get('5W1H_Label')
            text = tag.get('Tag_Text')

            # Asegurarse de que la etiqueta tiene un tipo 5W1H.
            if label:
                # Usar el tipo de etiqueta como la nueva clave
                new_flattened_obj[label.title()] = text

        flattened_list.append(new_flattened_obj)

    return flattened_list

# Llama a la función de aplanado usando la lista del paso anterior.
lista_plana_final = flatten_optimal_objects(lista_final_optima)


# Imprime el resultado para verificar.
print(f"Se transformaron {len(lista_plana_final)} objetos a formato plano.")

if lista_plana_final:
    print("\n--- Primer objeto en el formato final plano ---")
    print(json.dumps(lista_plana_final[0], indent=2, ensure_ascii=False))

Se transformaron 94 objetos a formato plano.

--- Primer objeto en el formato final plano ---
{
  "Id": 732,
  "Text": "Dos días, exactamente han pasado dos días desde que Sánchez compareciera en rueda de prensa en la Moncloa afirmando que a España llegarían, entre abril y septiembre, un total de 87 millones de vacunas para darnos cuenta de que las mentiras de Sánchez hacen bueno ese refrán que dice que “la mentira tiene las patas muy cortas”.",
  "Who": "Sánchez",
  "Where": "en rueda de prensa en la Moncloa",
  "When": "entre abril y septiembre",
  "What": "un total de 87 millones de vacunas"
}


# Crear un DataFrame de Pandas desde la lista de etiquetas procesadas para mejor visualización (opcional)

In [9]:
df_final = pd.DataFrame(lista_plana_final)
print("\n--- DataFrame Final ---")
df_final


--- DataFrame Final ---


Unnamed: 0,Id,Text,Who,Where,When,What
0,732,"Dos días, exactamente han pasado dos días desd...",Sánchez,en rueda de prensa en la Moncloa,entre abril y septiembre,un total de 87 millones de vacunas
1,1229,"A modo de ejemplo, los hospitales privados lle...",los hospitales privados,de todo el territorio nacional.Esta,cuando se habla de igualdad de género (ODS 5),más del 30% de las intervenciones quirúrgicas
2,840,El comité de medicamentos humanos (CHMP) esper...,El comité de medicamentos humanos (CHMP),en todos los países europeos,el 8 de marzo,el análisis de todo el paquete de datos de est...
3,397,Estas cifras confirman las palabras que el pre...,"el presidente de la Generalitat, Ximo Puig",en la sesión de control en las Cortes,esta mañana,las palabras
4,1523,"De esta forma, ya son 322.092 personas en la C...",322.092 personas,en la Comunidad Valenciana,desde que comenzó la pandemia,han superado la enfermedad
...,...,...,...,...,...,...
89,828,El Gobierno Nacional dio a conocer este lunes ...,El Gobierno Nacional,en los aeropuertos del país,este lunes,los lineamientos de bioseguridad
90,746,"La ONU planea que para el año 2030, cada perso...",La ONU,en todo el mundo,para el año 2030,con una identifición biométrica
91,109,"Por un lado, desde 2013 desde la UE, a través ...",de la Autoridad Europea de Seguridad Alimentar...,en los distintos procesos de fabricación,desde 2013,campañas
92,158,Tras encerrar en prisión al líder de la oposic...,al líder de la oposición,en prisión,Tras encerrar,la campaña internacional a favor de la Sputnik V
