# Create Training set for Mistral Model

In [1]:
import pandas as pd

In [2]:
# Load the data
task1_train = pd.read_json('Flares-dataset/5w1h_subtarea_1_train.json', lines=True)
task1_test = pd.read_json('Flares-dataset/5w1h_subtask_1_trial.json', lines=True)

In [3]:
# Check the shape of the DataFrame
print("Shape of the DataFrame train:", task1_train.shape)
print("Shape of the DataFrame test:", task1_test.shape)

Shape of the DataFrame train: (1585, 3)
Shape of the DataFrame test: (168, 3)


In [4]:
task1_train.head()

Unnamed: 0,Id,Text,Tags
0,732,"Dos días, exactamente han pasado dos días desd...","[{'Tag_Start': 52, 'Tag_End': 59, '5W1H_Label'..."
1,219,"Pero no pasará nada, el PSOE no exigirá la dim...","[{'Tag_Start': 21, 'Tag_End': 28, '5W1H_Label'..."
2,559,Pero los investigadores no encontraron evidenc...,"[{'Tag_Start': 5, 'Tag_End': 23, '5W1H_Label':..."
3,1296,Sus otras dos cabezas más visibles han sido el...,"[{'Tag_Start': 22, 'Tag_End': 34, '5W1H_Label'..."
4,1229,"A modo de ejemplo, los hospitales privados lle...","[{'Tag_Start': 19, 'Tag_End': 42, '5W1H_Label'..."


## Text labeling

Text labeling works by putting the position of the first letter in Tag_start and the last letter + 1 in Tag_end.

In [7]:
# Your text
text = task1_train['Text'][0]

In [8]:
# Loop through each tag in the first item of task1_train['Tags']
for tag in task1_train['Tags'][0]:
    # Extract the text based on Tag_Start and Tag_End
    extracted_text = text[tag['Tag_Start']:tag['Tag_End']]
    # Print the extracted text and the corresponding 5W1H label
    print(f"Extracted Text: {extracted_text}, 5W1H Label: {tag['5W1H_Label']}")

Extracted Text: Sánchez, 5W1H Label: WHO
Extracted Text: en rueda de prensa en la Moncloa, 5W1H Label: WHERE
Extracted Text: a España, 5W1H Label: WHO
Extracted Text: entre abril y septiembre, 5W1H Label: WHEN
Extracted Text: un total de 87 millones de vacunas, 5W1H Label: WHAT
Extracted Text: las mentiras, 5W1H Label: WHAT
Extracted Text: de Sánchez, 5W1H Label: WHO
Extracted Text: ese refrán que dice, 5W1H Label: WHAT


In [9]:
text[52]

'S'

In [10]:
text[59]

' '

Queremos algo asi:

In [13]:
true = {"input": text, "output": "Text: Sánchez, 5W1H Label: WHO \n Text: en rueda de prensa en la Moncloa, 5W1H Label: WHERE \n Text: a España, 5W1H Label: WHO \n Text: entre abril y septiembre, 5W1H Label: WHEN \n Text: un total de 87 millones de vacunas, 5W1H Label: WHAT \n Text: las mentiras, 5W1H Label: WHAT \n Text: de Sánchez, 5W1H Label: WHO \n Text: ese refrán que dice, 5W1H Label: WHAT"}

In [14]:
true

{'input': 'Dos días, exactamente han pasado dos días desde que Sánchez compareciera en rueda de prensa en la Moncloa afirmando que a España llegarían, entre abril y septiembre, un total de 87 millones de vacunas para darnos cuenta de que las mentiras de Sánchez hacen bueno ese refrán que dice que “la mentira tiene las patas muy cortas”.',
 'output': 'Text: Sánchez, 5W1H Label: WHO \n Text: en rueda de prensa en la Moncloa, 5W1H Label: WHERE \n Text: a España, 5W1H Label: WHO \n Text: entre abril y septiembre, 5W1H Label: WHEN \n Text: un total de 87 millones de vacunas, 5W1H Label: WHAT \n Text: las mentiras, 5W1H Label: WHAT \n Text: de Sánchez, 5W1H Label: WHO \n Text: ese refrán que dice, 5W1H Label: WHAT'}

In [15]:
formatted_data = []  # List to hold the formatted dictionaries

for i in range(len(task1_train['Text'])):
    # Constructing the 'input' part
    input_text = task1_train['Text'][i]
    
    # Initializing the 'output' part
    output_text = ''
    
    # Loop through each tag and append the extracted text and 5W1H label to 'output'
    for tag in task1_train['Tags'][i]:
        extracted_text = input_text[tag['Tag_Start']:tag['Tag_End']]
        output_text += f"Text: {extracted_text}, 5W1H Label: {tag['5W1H_Label']} \n "
    
    # Remove the last newline and space
    output_text = output_text.rstrip('\n ')
    
    # Append the formatted dictionary to the list
    formatted_data.append({'input': input_text, 'output': output_text})

# Now `formatted_data` contains all your formatted dictionaries
# Here's how you can print the first formatted dictionary to check
print(formatted_data[0])

{'input': 'Dos días, exactamente han pasado dos días desde que Sánchez compareciera en rueda de prensa en la Moncloa afirmando que a España llegarían, entre abril y septiembre, un total de 87 millones de vacunas para darnos cuenta de que las mentiras de Sánchez hacen bueno ese refrán que dice que “la mentira tiene las patas muy cortas”.', 'output': 'Text: Sánchez, 5W1H Label: WHO \n Text: en rueda de prensa en la Moncloa, 5W1H Label: WHERE \n Text: a España, 5W1H Label: WHO \n Text: entre abril y septiembre, 5W1H Label: WHEN \n Text: un total de 87 millones de vacunas, 5W1H Label: WHAT \n Text: las mentiras, 5W1H Label: WHAT \n Text: de Sánchez, 5W1H Label: WHO \n Text: ese refrán que dice, 5W1H Label: WHAT'}


In [17]:
# Print the first five elements of formatted_data
for i in range(5):
    print(formatted_data[i])
    print()  # Print a newline for better readability between entries

{'input': 'Dos días, exactamente han pasado dos días desde que Sánchez compareciera en rueda de prensa en la Moncloa afirmando que a España llegarían, entre abril y septiembre, un total de 87 millones de vacunas para darnos cuenta de que las mentiras de Sánchez hacen bueno ese refrán que dice que “la mentira tiene las patas muy cortas”.', 'output': 'Text: Sánchez, 5W1H Label: WHO \n Text: en rueda de prensa en la Moncloa, 5W1H Label: WHERE \n Text: a España, 5W1H Label: WHO \n Text: entre abril y septiembre, 5W1H Label: WHEN \n Text: un total de 87 millones de vacunas, 5W1H Label: WHAT \n Text: las mentiras, 5W1H Label: WHAT \n Text: de Sánchez, 5W1H Label: WHO \n Text: ese refrán que dice, 5W1H Label: WHAT'}

{'input': 'Pero no pasará nada, el PSOE no exigirá la dimisión de este machista, porque para eso es de los suyos, de la izquierda rabiosa de este país que se dedica a dar lecciones de feminismo y a la mínima de cambio insultan a las mujeres por su forma de vestir.', 'output': 'Te