In [1]:
import json
import pandas as pd
from collections import defaultdict

# BASSE dataset

Procesa un archivo JSONL de resúmenes y devuelve una lista de objetos (diccionarios).
Cada objeto contiene el índice, el documento original y los resúmenes de varios modelos.
Además, se puede convertir la lista de objetos en un DataFrame de Pandas para un análisis más fácil.

In [2]:
def get_list_of_objects_from_basse_dataset(filepath):
    """
    Procesa un archivo JSONL de resúmenes y devuelve una lista de objetos (diccionarios).

    Args:
        filepath (str): La ruta al archivo .jsonl.

    Returns:
        list: Una lista de diccionarios, donde cada diccionario representa un objeto JSON procesado.
    """
    data_list = []

    with open(filepath, 'r', encoding='utf-8') as f:
        for line_number, line in enumerate(f, 1):
            try:
                json_object = json.loads(line.strip())

                idx = json_object.get('idx')
                round_val = json_object.get('round')
                original_document = json_object.get('original_document')

                model_summaries = json_object.get('model_summaries', {})

                claude_summ = model_summaries.get('claude-5w1h', {}).get('summ')
                commandr_summ = model_summaries.get('commandr-5w1h', {}).get('summ')
                gpt4o_summ = model_summaries.get('gpt4o-5w1h', {}).get('summ')
                reka_summ = model_summaries.get('reka-5w1h', {}).get('summ')
                llama3_summ = model_summaries.get('llama3-5w1h', {}).get('summ')

                data_list.append({
                    'idx': idx,
                    'round': round_val,
                    'original_document': original_document,
                    'claude-5w1h_summ': claude_summ,
                    'commandr-5w1h_summ': commandr_summ,
                    'gpt4o-5w1h_summ': gpt4o_summ,
                    'reka-5w1h_summ': reka_summ,
                    'llama3-5w1h_summ': llama3_summ
                })
            except json.JSONDecodeError:
                print(f"Advertencia (Línea {line_number}): Se omitió una línea (resúmenes) debido a un error de decodificación JSON: {line.strip()}")
            except Exception as e:
                print(f"Advertencia (Línea {line_number}): Se omitió una línea (resúmenes) debido a un error inesperado ({e}): {line.strip()}")

    return data_list

Procesar el archivo JSONL de resúmenes y generar una lista de diccionarios.


In [3]:
# Procesar el archivo JSONL de resúmenes
jsonl_file_path_summaries = 'data/basse/BASSE.jsonl'
list_of_summary_objects = get_list_of_objects_from_basse_dataset(jsonl_file_path_summaries)

# Ahora 'list_of_summary_objects' es una lista de diccionarios.
if list_of_summary_objects:
    print("Primer objeto de la lista de resúmenes:")
    print(json.dumps(list_of_summary_objects[0], indent=2, ensure_ascii=False))

Primer objeto de la lista de resúmenes:
{
  "idx": "http://elpais.com/deportes/2019/08/17/actualidad/1566005143_044557.html",
  "round": 1,
  "original_document": "El jet lag ante Argentina , que quedó maquillado por el arrebato febril de Ricky ( 15 puntos en los últimos cuatro minutos ) , se consolidó 24 horas después ante Rusia . A tres días del comienzo del Mundial , de nuevo sin Marc Gasol en la rotación , el conjunto de Scariolo firmó su segunda derrota de la preparación y , por números y sensaciones , abrazó las dudas justo antes del estreno oficial . En el marcador , un contundente 55-74 ; en la estadística , unos pobres porcentajes de tiro ( 15 de 37 de dos , 3 de 18 en triples y 16 de 19 en tiros libres ) , 18 pérdidas , 12 robos del rival… Los 26 puntos y 11 rebotes de Willy Hernangómez fueron lo único lustroso de una prueba para olvidar , o para tentarse la ropa . “ Esperemos que esta no sea la referencia . Nos faltan muchos jugadores y la cabeza estará también en una dimens

Convertir la lista de diccionarios en un DataFrame de Pandas (opcional)

In [4]:
# Para convertir la lista de diccionarios en un DataFrame de Pandas:
df_summaries = pd.DataFrame(list_of_summary_objects)
print("\nDataFrame creado desde la lista de resúmenes:")
df_summaries


DataFrame creado desde la lista de resúmenes:


Unnamed: 0,idx,round,original_document,claude-5w1h_summ,commandr-5w1h_summ,gpt4o-5w1h_summ,reka-5w1h_summ,llama3-5w1h_summ
0,http://elpais.com/deportes/2019/08/17/actualid...,1,"El jet lag ante Argentina , que quedó maquilla...",Aquí tienes un resumen del texto utilizando el...,Aquí está el resumen del texto utilizando el m...,Qué: La selección española de baloncesto sufri...,Qué: España perdió su segundo partido de prepa...,Aquí te presento el resumen del texto utilizan...
1,http://elpais.com/elpais/2019/07/10/planeta_fu...,1,Para poderos contar nuestra pequeña historia t...,Aquí está el resumen del texto utilizando el m...,Aquí está el resumen del texto utilizando el m...,Qué:\nProyecto para la construcción y mantenim...,¿Qué? La historia de cinco universitarias que ...,"A continuación, te presento un resumen del tex..."
2,http://elpais.com/ccaa/2019/09/12/madrid/15683...,1,La situación ya había llegado al límite entre ...,Resumen usando el método 5W1H:\nQué: Debate y ...,Aquí está el resumen del texto utilizando el m...,Qué: Debate y votación en una junta de vecinos...,Qué: Un edificio histórico en Madrid limitó la...,Qué: La votación en una junta de vecinos de un...
3,http://elpais.com/deportes/2019/08/10/actualid...,1,"Deporte pionero en el uso de la tecnología , e...",Aquí está el resumen del texto usando el métod...,Aquí está un resumen del texto utilizando el m...,Qué: World Rugby está implementando cambios no...,Qué: El rugby está considerando cambios radica...,Aquí te presento el resumen del texto utilizan...
4,http://elpais.com/elpais/2019/07/11/gente/1562...,1,Fue el primer concursante confirmado para part...,Aquí tienes un resumen del texto usando el mét...,Aquí está el resumen del texto utilizando el m...,"Qué: Nicolás Vallejo-Nájera, conocido como Col...","¿Qué? Nicolás Vallejo-Nájera, conocido como Co...","Qué: Colate, un empresario y expareja de la ca..."
5,http://elpais.com/elpais/2019/07/19/ciencia/15...,1,India ha lanzado hoy la nave Chandrayaan 2 con...,Aquí está el resumen del texto usando el métod...,Aquí está el resumen del texto sobre el lanzam...,Qué: India ha lanzado la nave Chandrayaan 2 co...,Qué: India ha lanzado la nave espacial Chandra...,Aquí te presento el resumen del texto utilizan...
6,http://elpais.com/ccaa/2019/09/28/catalunya/15...,1,La Policía ha detenido en Alemania al joven de...,Aquí está el resumen del texto utilizando el m...,Aquí está el resumen del texto usando el métod...,Qué: La policía ha detenido al joven de 17 año...,Qué: La Policía alemana ha detenido a un joven...,Aquí te presento el resumen del texto utilizan...
7,http://elpais.com/elpais/2019/07/17/gente/1563...,1,Se confirma : Alejandro Sanz ( 50 años ) y Raq...,Aquí está el resumen del texto usando el métod...,\nAquí está un resumen del texto utilizando el...,Qué: Alejandro Sanz y Raquel Perera se separan...,Qué: Alejandro Sanz y Raquel Perera se han sep...,"¡Claro! A continuación, te presento el resumen..."
8,http://elpais.com/tecnologia/2019/08/20/actual...,1,"Apasionante el programa de la nueva edición , ...",Aquí tienes un resumen del texto usando el mét...,Aquí está el resumen del texto sobre el Festiv...,Qué: El Festival de Cine Judío de Barcelona pr...,"Qué: El Festival de Cine Judío de Barcelona, e...",Aquí te presento el resumen del texto utilizan...
9,http://elpais.com/elpais/2019/07/05/ideas/1562...,1,Nuestras redes están llenas de imágenes de niñ...,Aquí está el resumen del texto usando el métod...,Aquí está el resumen del texto utilizando el m...,Qué: El fenómeno de compartir fotos de niños e...,¿Qué? El artículo explora la práctica extendid...,"El artículo discute el fenómeno del ""sharentin..."


# Flares dataset
El preprocesamiento es similar al anterior, pero para un archivo JSON que contiene una lista de objetos, cada uno con un id, text, y una lista de tags.
Cada tag tiene un campo '5W1H_Label', 'Reliability_Label' y 'Tag_Text'.

In [5]:
def process_single_object_tags_nested(json_object):
    """
    Procesa un único objeto JSON y anida las etiquetas procesadas (con enumeración)
    dentro de una lista en el objeto resultante.
    """
    processed_object = {
        'Id': json_object.get('Id'),
        'Text': json_object.get('Text'),
        'Processed_Tags': [] # Lista para las etiquetas procesadas
    }

    tags = json_object.get('Tags', [])
    w5h1_label_counts = defaultdict(int) # Contador para enumerar

    if tags:
        for tag_item in tags:
            original_w5h1_label = tag_item.get('5W1H_Label')
            reliability_label = tag_item.get('Reliability_Label')
            tag_text = tag_item.get('Tag_Text')

            enumerated_tag_id = None
            if original_w5h1_label:
                w5h1_label_counts[original_w5h1_label] += 1
                current_count = w5h1_label_counts[original_w5h1_label]
                enumerated_tag_id = f"{original_w5h1_label}_{current_count}"

            processed_object['Processed_Tags'].append({
                'Original_5W1H_Label': original_w5h1_label, # Mantenemos la original
                'Enumerated_Tag_Id': enumerated_tag_id, # Ej: WHO_1, WHAT_2
                'Reliability_Label': reliability_label,
                'Tag_Text': tag_text
            })

    return processed_object

In [6]:
def get_list_of_objects_from_tags_jsonl_nested(filepath):
    """
    Procesa un archivo JSONL (con estructura de Tags) y devuelve una lista de objetos,
    donde cada objeto contiene sus etiquetas procesadas de forma anidada.

    Args:
        filepath (str): La ruta al archivo .jsonl.

    Returns:
        list: Una lista de diccionarios.
    """
    all_processed_objects = []

    with open(filepath, 'r', encoding='utf-8') as f:
        for line_number, line in enumerate(f, 1):
            try:
                json_object = json.loads(line.strip())
                processed_data = process_single_object_tags_nested(json_object)
                all_processed_objects.append(processed_data)
            except json.JSONDecodeError:
                print(f"Advertencia (Línea {line_number}): Se omitió una línea (etiquetas) debido a un error de decodificación JSON: {line.strip()}")
            except Exception as e:
                print(f"Advertencia (Línea {line_number}): Se omitió una línea (etiquetas) debido a un error inesperado ({e}): {line.strip()}")

    return all_processed_objects

Procesar el archivo JSONL de etiquetas y generar una lista de diccionarios.

In [7]:
jsonl_file_path_tags_nested = 'data/flares/5w1h_subtask_1_trial.json'
list_of_tagged_objects_nested = get_list_of_objects_from_tags_jsonl_nested(jsonl_file_path_tags_nested)

# Ahora 'list_of_tagged_objects_nested' es una lista de diccionarios,
# y cada diccionario tiene una clave 'Processed_Tags' con una lista de etiquetas.
if list_of_tagged_objects_nested:
    print("Primer objeto de la lista de etiquetas (estructura anidada):")
    print(json.dumps(list_of_tagged_objects_nested[0], indent=2, ensure_ascii=False))

Primer objeto de la lista de etiquetas (estructura anidada):
{
  "Id": 72,
  "Text": "En cuanto a la incidencia acumulada, vuelve a subir, y se sitúa en los 255,55 casos por cada 100.000 habitantes, mientras que ayer, lunes 28 de diciembre de 2020, era de 246,19.",
  "Processed_Tags": [
    {
      "Original_5W1H_Label": "WHAT",
      "Enumerated_Tag_Id": "WHAT_1",
      "Reliability_Label": "confiable",
      "Tag_Text": "la incidencia acumulada"
    },
    {
      "Original_5W1H_Label": "WHERE",
      "Enumerated_Tag_Id": "WHERE_1",
      "Reliability_Label": "confiable",
      "Tag_Text": "en los 255,55 casos por cada 100.000 habitantes"
    },
    {
      "Original_5W1H_Label": "WHEN",
      "Enumerated_Tag_Id": "WHEN_1",
      "Reliability_Label": "confiable",
      "Tag_Text": "ayer, lunes 28 de diciembre de 2020"
    }
  ]
}


Para crear un DataFrame principal (las etiquetas estarán como listas en una columna):

In [8]:
df_tags_main = pd.DataFrame(list_of_tagged_objects_nested)
print("\nDataFrame principal creado desde la lista de etiquetas (anidado):")
df_tags_main


DataFrame principal creado desde la lista de etiquetas (anidado):


Unnamed: 0,Id,Text,Processed_Tags
0,72,"En cuanto a la incidencia acumulada, vuelve a ...","[{'Original_5W1H_Label': 'WHAT', 'Enumerated_T..."
1,64,La doctora Margarite Griesz-Brisson es una esp...,"[{'Original_5W1H_Label': 'WHO', 'Enumerated_Ta..."
2,49,Los síntomas de alerta agudos son dolores de c...,"[{'Original_5W1H_Label': 'WHAT', 'Enumerated_T..."
3,130,También indicó a la agencia oficial TASS que l...,"[{'Original_5W1H_Label': 'WHO', 'Enumerated_Ta..."
4,61,El segundo problema es que las células nervios...,"[{'Original_5W1H_Label': 'WHAT', 'Enumerated_T..."
...,...,...,...
163,23,"Además, hay un 26,8% que ya tiene también al s...","[{'Original_5W1H_Label': 'WHO', 'Enumerated_Ta..."
164,129,"La sustancia resultante, la acrilamida, confie...","[{'Original_5W1H_Label': 'WHAT', 'Enumerated_T..."
165,102,"Por este motivo, las autoridades sanitarias, t...","[{'Original_5W1H_Label': 'WHO', 'Enumerated_Ta..."
166,0,“Los sueros de las personas vacunadas neutrali...,"[{'Original_5W1H_Label': 'WHO', 'Enumerated_Ta..."


Para "desanidar" las etiquetas en filas separadas (formato largo):


In [9]:
if not df_tags_main.empty and 'Processed_Tags' in df_tags_main.columns:
    df_tags_exploded = df_tags_main.explode('Processed_Tags')
      # Normalizar la columna que ahora contiene diccionarios de etiquetas
    df_tags_normalized = pd.json_normalize(df_tags_exploded['Processed_Tags'])
      # Unir con las columnas originales (Id, Text) del DataFrame explotado
    df_tags_final_long = pd.concat(
        [df_tags_exploded[['Id', 'Text']].reset_index(drop=True), df_tags_normalized.reset_index(drop=True)],
        axis=1
    )
print("\nDataFrame en formato largo (cada etiqueta es una fila):")
df_tags_final_long


DataFrame en formato largo (cada etiqueta es una fila):


Unnamed: 0,Id,Text,Original_5W1H_Label,Enumerated_Tag_Id,Reliability_Label,Tag_Text
0,72,"En cuanto a la incidencia acumulada, vuelve a ...",WHAT,WHAT_1,confiable,la incidencia acumulada
1,72,"En cuanto a la incidencia acumulada, vuelve a ...",WHERE,WHERE_1,confiable,"en los 255,55 casos por cada 100.000 habitantes"
2,72,"En cuanto a la incidencia acumulada, vuelve a ...",WHEN,WHEN_1,confiable,"ayer, lunes 28 de diciembre de 2020"
3,64,La doctora Margarite Griesz-Brisson es una esp...,WHO,WHO_1,confiable,La doctora Margarite Griesz-Brisson
4,64,La doctora Margarite Griesz-Brisson es una esp...,WHAT,WHAT_1,confiable,una especialista alemana en neurofisiología y ...
...,...,...,...,...,...,...
546,102,"Por este motivo, las autoridades sanitarias, t...",HOW,HOW_1,confiable,minimizando su presencia
547,102,"Por este motivo, las autoridades sanitarias, t...",WHERE,WHERE_1,confiable,en los alimentos
548,0,“Los sueros de las personas vacunadas neutrali...,WHO,WHO_1,confiable,la agencia federal rusa
549,104,"•Comprarlas en su punto óptimo de maduración, ...",HOW,HOW_1,confiable,"en su punto óptimo de maduración, sin brotes y..."
