## 1. Load NERs extracted previously

In [1]:
import json

with open("../out/prompting_ners_gpt_4.1_mini.json", "r", encoding="utf-8") as fr:
    prompting_ners = json.load(fr)

## 2. Preparing LLM for RE

In [32]:
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
import os

In [33]:
load_dotenv()

llm = ChatOpenAI(
    model="gpt-4.1-mini",
    temperature=0,
    api_key=os.getenv("OPENAI_API_KEY"),
)

In [86]:
with open("../data/introduccion.txt", "r", encoding="utf-8") as fr:
    text = fr.read()
    
with open("../data/historia_juan_rana.txt", "r", encoding="utf-8") as fr:
    text += fr.read()

In [34]:
import pandas as pd
import ast
    
data = pd.read_csv("../data/DicatJuanRana_w_clarified_sentences.csv", sep=";", encoding="utf-8", converters={"sentences": ast.literal_eval, "clarified_sentences": ast.literal_eval})

### 2.1. First approach: Analyze the entire text passing NERs and text into the prompt

In [35]:
from langchain.prompts import PromptTemplate

entire_text_prompt = PromptTemplate(
    input_variables=["text", "entities"],
    template="""
        Dado el siguiente texto y una lista de entidades nombradas previamente extraídas, identifica todas las relaciones explícitas o implícitas entre dichas entidades.

        Las relaciones deben expresarse únicamente en el formato:
        (Entidad1)-[relación]-(Entidad2)

        Donde:

        - Entidad1 y Entidad2 deben coincidir con entidades de la lista proporcionada.

        - [relación] debe ser un verbo o una expresión verbal que indique la relación entre las entidades en el contexto del texto.

        - Si una relación puede expresarse con sinónimos más generales o normalizados (por ejemplo, "dirige", "es jefe de" → "dirige"), elige el término más general.

        - Ignora relaciones que no se puedan inferir directamente del texto.

        Lista de entidades (NERs):
        {entities}

        Texto de entrada:
        {text}

        Salida esperada:
        (EntidadA)-[relación]-(EntidadB)
        (EntidadC)-[relación]-(EntidadD)
        …
        
        Muestra la salida únicamente con las relaciones encontradas, sin ningún otro texto adicional.
    """,
)

In [36]:
entities = "\n".join([
    f"{key}: {', '.join(values)}"
    for key, values in prompting_ners.items()
    if key in ["PER", "LOC", "EVENT", "WORK_OF_ART", "ORG", "GPE"]
])

# years_to_test = [1636, 1643, 1648, 1651, 1653, 1656, 1665, 1666, 1670]

# text = "\n\n".join(
#     text for text in data[data["year"].astype(int).isin(years_to_test)]["text"]
# )

text = "\n\n".join(
    text for text in data["text"]
)

response = llm.invoke(
    entire_text_prompt.invoke({
        "text": text,
        "entities": entities,
    })
).content

In [37]:
relations = response.split("\n")
total_re_found = len(relations)

In [39]:
unique_relations = {relation 
                        for relation in relations 
                            if relation and len(relation.split("-")) >= 3}

print(f"Total de relaciones encontradas: {total_re_found}, de las cuales {len(unique_relations)} son únicas.")

Total de relaciones encontradas: 1675, de las cuales 94 son únicas.


In [41]:
unique_relations

{'(Cosme Pérez)-[actuó en obra de]-(Alonso de Olmedo)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Ana Coronel)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Andrés de Claramonte)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonia del Pozo)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio Marín)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio Mejía)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio Ramos)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio de',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio de Escamilla)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio de Prado)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio de Rueda)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio de Solís)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio de Vitoria)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio de la Granja)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Antonio de la Rosa)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Bernarda Manuela)  ',
 '(Cosme Pérez)-[actuó en obra de]-(Bernarda Ramírez)  ',
 '(Cosme Pérez)-[actu

In [None]:
import json

with open("../out/relation_extractions/full_text_re.json", "w", encoding="utf-8") as fw:
    json.dump({"full_text_relations": list(unique_relations)}, fw, ensure_ascii=False, indent=4)

In [43]:
with open("../out/relation_extractions/full_text_re.txt", "w", encoding="utf-8") as fw:
    relations_to_write = '\n'.join(rel for rel in relations)
    fw.write(relations_to_write)

### 2.2. Second approach: Analyze each paragraph

In [94]:
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
import os

In [95]:
load_dotenv()

llm = ChatOpenAI(
    model="gpt-4.1-mini",
    temperature=0,
    api_key=os.getenv("OPENAI_API_KEY"),
)

In [102]:
import pandas as pd
import ast
    
data = pd.read_csv("../data/DicatJuanRana_w_clarified_sentences.csv", sep=";", encoding="utf-8", converters={"sentences": ast.literal_eval, "clarified_sentences": ast.literal_eval})

In [98]:
from langchain.prompts import PromptTemplate

paragraph_text_prompt = PromptTemplate(
    input_variables=["text", "entities"],
    template="""
        Dado el siguiente texto y una lista de entidades nombradas previamente extraídas, identifica todas las relaciones explícitas o implícitas entre dichas entidades.

        Las relaciones deben expresarse únicamente en el formato:
        (Entidad1)-[relación]-(Entidad2)

        Donde:

        - Entidad1 y Entidad2 deben coincidir con entidades de la lista proporcionada.

        - [relación] debe ser un verbo o una expresión verbal que indique la relación entre las entidades en el contexto del texto.

        - Si una relación puede expresarse con sinónimos más generales o normalizados (por ejemplo, "dirige", "es jefe de" → "dirige"), elige el término más general.

        - Ignora relaciones que no se puedan inferir directamente del texto.

        Salida esperada:
        (EntidadA)-[relación]-(EntidadB)
        (EntidadC)-[relación]-(EntidadD)
        …
        
        Muestra la salida únicamente con las relaciones encontradas, sin ningún otro texto adicional.
        Lista de entidades (NERs):
        {entities}

        Texto de entrada:
        {text}
    """,
)

In [103]:
from tqdm.auto import tqdm
from collections import defaultdict

entities = "\n".join([
    f"{key}: {', '.join(values)}"
    for key, values in prompting_ners.items()
])

total_re_found = 0

per_paragraph = defaultdict(set)

for _, row in tqdm(data.iterrows(), total=len(data)):
    paragraph = "".join(row["clarified_sentences"])

    response = llm.invoke(
        paragraph_text_prompt.invoke({
            "text": paragraph,
            "entities": entities,
        })
    ).content
    
    total_re_found += len(response.split("\n"))

    for relation in response.split("\n"):
        relation = relation.strip()
        if relation and len(relation.split("-")) >= 3:
            per_paragraph[row["year"]].add(relation)

  0%|          | 0/38 [00:00<?, ?it/s]

In [104]:
unique_relations = {relation for relations in per_paragraph.values() for relation in relations}

In [105]:
print(f"Total de relaciones encontradas: {total_re_found}, de las cuales {len(unique_relations)} son únicas.")

Total de relaciones encontradas: 536, de las cuales 519 son únicas.


In [106]:
import json

with open("../out/per_paragraph_text_re.json", "w", encoding="utf-8") as fw:
    json.dump({key: list(values) for key, values in per_paragraph.items()}, fw, ensure_ascii=False, indent=4)

### 2.3. Third approach: Analyze each sentence with overlap

In [1]:
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
import pandas as pd
import os

In [34]:
load_dotenv()

llm = ChatOpenAI(
    model="gpt-4o-mini",
    temperature=0,
    api_key=os.getenv("OPENAI_API_KEY"),
)

In [3]:
import json

with open("../out/prompting_ners_gpt_4.1_mini.json", "r", encoding="utf-8") as fr:
    prompting_ners = json.load(fr)

In [10]:
import pandas as pd
import ast
    
data = pd.read_csv("../data/DicatJuanRana_w_sentences.csv", sep=";", encoding="utf-8", converters={"sentences": ast.literal_eval, "clarified_sentences": ast.literal_eval})

In [47]:
from langchain.prompts import PromptTemplate

entire_text_prompt = PromptTemplate(
    input_variables=["text", "prev_context", "entities"],
    template="""
        Dada la siguiente frase y una lista de entidades nombradas previamente extraídas, identifica todas las relaciones explícitas o implícitas entre las entidades que tanto en la frase como en la lista de entidades.
        
        Las frases pueden contener un contexto para ayudar a identificar las relaciones (para frases que comiencen con fue..., el cual..., etc.) pero no se deben sacar relaciones del propio contexto.

        Las relaciones deben expresarse únicamente en el formato:
        (Entidad1)-[relación]-(Entidad2)

        Donde:

        - Entidad1 y Entidad2 deben coincidir con entidades de la lista proporcionada.

        - [relación] debe ser un verbo o una expresión verbal que indique la relación entre las entidades en el contexto del texto.

        - Si una relación puede expresarse con sinónimos más generales o normalizados (por ejemplo, "dirige", "es jefe de" → "dirige"), elige el término más general.
        
        - Ignora relaciones que no se puedan inferir directamente del texto.
        
        - Haz relaciones que se puedan leer naturalmente, no que suene robotico.

        Salida esperada:
        (EntidadA)-[relación]-(EntidadB)
        (EntidadC)-[relación]-(EntidadD)
        …
        
        Muestra la salida únicamente con las relaciones encontradas, sin ningún otro texto adicional.
        
        Lista de entidades (NERs):
        {entities}

        Contexto de la frase (es útil para entender mejor la frase actual de la que se están extrayendo las relaciones):
        El texto forma parte de la biografía de Cosme Pérez. 
        
        - Contexto previo a la frase: {prev_context}

        Frase de entrada:
        {text}
    """,
)

In [None]:
from tqdm.auto import tqdm
from collections import defaultdict

entities = "\n".join([
    f"{key}: {', '.join(values)}"
    for key, values in prompting_ners.items()
    if key in ["PER", "LOC", "EVENT", "WORK_OF_ART", "ORG", "GPE"]
])

sentences_of_context = 3 # Number of sentences to consider as context for each sentence

total_re_found = 0
relations = set()

per_sentence = defaultdict(set)
years_to_test = [1636, 1643, 1648, 1651, 1653, 1656, 1665, 1666, 1670]


# for _, year in tqdm(data.iterrows(), total=len(data), position=0):
# for _, year in tqdm(data[(data["year"].astype(int) == 1653) | (data["year"].astype(int) == 1656) | (data["year"].astype(int) == 1670)].iterrows(), position=0):
# for _, year in tqdm(data[data["year"].astype(int) == 1643].iterrows(), position=0):
for _, year in tqdm(data[data["year"].astype(int).isin(years_to_test)].iterrows(), total=len(years_to_test), position=0):
        
    context = []
    sentences = year["sentences"]
    
    for sentence in tqdm(sentences, position=1, leave=True):

        response = llm.invoke(
            entire_text_prompt.invoke({
                "text": sentence.strip(),
                "prev_context": "\n".join(context),
                # "next_context": "\n".join(sentences[i+1:i+1+sentences_of_context]),
                "entities": entities,
            })
        ).content
    
        total_re_found += len(response.split("\n"))

        # for relation in response.split("\n"):
        #     relation = relation.strip()
        #     if relation and len(relation.split("-")) >= 3:
        #         relations.add(relation)
        
        for relation in response.split("\n"):
            relation = relation.strip()
            per_sentence[year["year"]].add(relation)
        
        # DEBUGGING 
        # print("Relaciones encontradas:\n", response.strip())
        # print(f"Frase: {sentence.strip()}")
        # print(f"Contexto previo: {' '.join(context)}")
        # print(f"Contexto posterior: {' '.join(sentences[i+1:i+1+sentences_of_context])}")
        # print()
        
        context.append(sentence.strip())
        if len(context) > sentences_of_context:
            context = context[-sentences_of_context:]  # Keep only the last 'sentences_of_context' sentences

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/13 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/18 [00:00<?, ?it/s]

  0%|          | 0/14 [00:00<?, ?it/s]

In [49]:
unique_relations = {relation for relations in per_sentence.values() for relation in relations}

In [50]:
print(f"Total de relaciones encontradas: {total_re_found}, de las cuales {len(unique_relations)} son únicas.")

Total de relaciones encontradas: 251, de las cuales 235 son únicas.


In [5]:
import rich as rc

rc.print(data[data["year"].astype(int) == 1670]["clarified_sentences"].values[0])

In [51]:
unique_relations

{'(A. de la Granja)-[estima]-(desembolso)',
 '(A. de la Granja)-[publica]-(testamento)',
 '(A. de la Granja)-[publicó]-(testamento)',
 '(Agustín Merlo)-[mantiene reyerta con]-(Valdés)',
 '(Andrómeda y Perseo)-[es de]-(Calderón)',
 '(Andrómeda y Perseo)-[fue]-("comedia")',
 '(Antonio García de Prado)-[otorga]-(Cosme Pérez)',
 '(Antonio García de Prado)-[otorga]-(Francisco Ortiz)',
 '(Antonio de Escamilla)-[debe]-(Cosme Pérez)',
 '(Antonio de Solís)-[escribe]-(loa)',
 "(Antonio de Solís)-[escribió]-('Juan Rana')",
 '(Antonio de Solís)-[escribió]-(El infierno de Juan Rana)',
 '(Baccio del Bianco)-[describe]-((fiesta))',
 '(Baccio)-[describe]-(loa)',
 '(Bernarda Ramírez)-[es célebre por]- (Juan Rana)',
 '(Bernarda Ramírez)-[imitó]-(Juan Rana)',
 '(Bernarda Ramírez)-[interpreta]-("Alma" de Juan Rana)',
 '(Bernarda Ramírez)-[interpretó]-(Juan Rana)',
 '(Bernarda Ramírez)-[intervino]-(El infierno de Juan Rana)',
 '(Bernarda Ramírez)-[participó en]-(Darlo todo y no dar nada)',
 '(Bernarda Ramí

In [18]:
import json

with open("../out/per_sentence_text_re.json", "w", encoding="utf-8") as fw:
    json.dump({key: list(values) for key, values in per_sentence.items()}, fw, ensure_ascii=False, indent=4)

### 2.4. Fourth Approach: Analyze each sentence but with ner extraction per sentence.

In [18]:
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
import pandas as pd
import os

In [19]:
load_dotenv()

llm = ChatOpenAI(
    model="gpt-4.1-mini",
    temperature=0,
    api_key=os.getenv("OPENAI_API_KEY"),
)

In [21]:
import json

with open("../out/ners_extractions/prompting_ners_gpt_4.1_mini.json", "r", encoding="utf-8") as fr:
    prompting_ners = json.load(fr)

In [22]:
import pandas as pd
import ast
    
data = pd.read_csv("../data/DicatJuanRana_w_sentences.csv", sep=";", encoding="utf-8", converters={"sentences": ast.literal_eval, "clarified_sentences": ast.literal_eval})

In [23]:
from langchain.prompts import PromptTemplate

ner_extraction_prompt = PromptTemplate(
    input_variables=["text"],
    template="""
        Dada la siguiente frase, extrae todas las entidades nombradas (NERs) que aparecen en ella. Las entidades nombradas pueden ser personas, organizaciones, lugares, eventos y obras de arte.
        
        Las entidades deben expresarse únicamente en el formato:
            Entidad: Tipo   
        
        Donde:
        - Entidad es el nombre de la entidad nombrada.
        - Tipo es el tipo de entidad (por ejemplo, PER para personas, ORG para organizaciones, LOC para lugares, EVENT para eventos, WORK_OF_ART para obras de arte, GPE para entidades geopolíticas).    
        
        Salida esperada:
            Entidad1: Tipo1
            Entidad2: Tipo2
            Entidad3: Tipo3
            …   
            
        Asegúrate de que el tipo de entidad sea el mencionado antriormente (PER, ORG, LOC, EVENT, WORK_OF_ART, GPE).
        
        Muestra la salida únicamente con las entidades encontradas, sin ningún otro texto adicional.
        
        Frase de entrada:
        {text}
    """,
)


sentence_prompt = PromptTemplate(
    input_variables=["text", "prev_context", "entities"],
    template="""
        Dada la siguiente frase y una lista de entidades nombradas previamente extraídas, identifica todas las posibles relaciones explícitas o implícitas entre las entidades que tanto en la frase como en la lista de entidades.
        
        Se debe extraer el máximo número de relaciones posibles, pero se debe asegurar que estas relaciones sean coherentes y relevantes en el contexto del texto.
        
        Haz un especial énfasis en las relaciones intrapersonales, padre de, marido de, hijo de, etc y de eventos.
        
        Las frases pueden contener un contexto para ayudar a identificar las relaciones (para frases que comiencen con fue..., el cual..., etc.) pero no se deben sacar relaciones del propio contexto.

        Las relaciones deben expresarse únicamente en el formato:
        (Entidad1)-[relación]-(Entidad2)

        Donde:

        - La Entidad1 debe coincidir con alguna de las entidades de la lista proporcionada.

        - [relación] debe ser un verbo o una expresión verbal que indique la relación entre las entidades en el contexto del texto.
        
        - Ignora relaciones que no se puedan inferir directamente del texto.

        Salida esperada:
        (EntidadA)-[relación]-(EntidadB)
        (EntidadC)-[relación]-(EntidadD)
        …
        
        Ejemplo:

            NERs:
            Cosme Pérez, Francisca Pérez.
        
            Frase de Entrada:
            Cosme Pérez fue un conocido artista, quien además tenía una hija, Francisca Pérez.
            
            Salida esperada:
            (Francisca Pérez)-[hija de]-(Cosme Pérez)
            (Cosme Pérez)-[padre de]-(Francisca Pérez)
            (Cosme Pérez)-[fue]-(conocido artista)
        
        
        Muestra la salida únicamente con las relaciones encontradas, sin ningún otro texto adicional.
        
        Lista de entidades (NERs):
        {entities}

        Contexto de la frase (es útil para entender mejor la frase actual de la que se están extrayendo las relaciones):
        El texto forma parte de la biografía de Cosme Pérez. 
        
        - Contexto previo a la frase: {prev_context}

        Frase de entrada:
        {text}
    """,
)

In [25]:
from tqdm.auto import tqdm
from collections import defaultdict


sentences_of_context = 3 # Number of sentences to consider as context for each sentence

total_re_found = 0
relations = set()

per_sentence = defaultdict(set)
years_to_test = [1636, 1643, 1648, 1651, 1653, 1656, 1665, 1666, 1670]


# for _, year in tqdm(data[data["year"].astype(int) == 1643].iterrows(), position=0):
# for _, year in tqdm(data[data["year"].astype(int).isin(years_to_test)].iterrows(), total=len(years_to_test), position=0):
for _, year in tqdm(data.iterrows(), total=len(data), position=0):
        
    context = []
    ners_context = []
    sentences = year["sentences"]
    
    for sentence in tqdm(sentences, position=1, leave=True):
        
        ners_extracted = llm.invoke(
            ner_extraction_prompt.invoke({
                "text": sentence.strip(),
            })
        ).content.split("\n")
        
        entities = ", ".join([
            ner.split(": ")[0] for ner in ners_extracted
        ])
        
        total_ners = entities + ", " + ", ".join(ners_context) if ners_context else entities
        total_ners = ", ".join(set(total_ners.split(", ")))  # Remove duplicates

        response = llm.invoke(
            sentence_prompt.invoke({
                "text": sentence.strip(),
                "prev_context": "\n".join(context),
                # "next_context": "\n".join(sentences[i+1:i+1+sentences_of_context]),
                "entities": total_ners,
            })
        ).content
    
        total_re_found += len(response.split("\n"))

        # for relation in response.split("\n"):
        #     relation = relation.strip()
        #     if relation and len(relation.split("-")) >= 3:
        #         relations.add(relation)
        
        for relation in response.split("\n"):
            relation = relation.strip()
            per_sentence[year["year"]].add(relation)
        
        # DEBUGGING 
        # print("Relaciones encontradas:\n", response.strip())
        # print(f"Frase: {sentence.strip()}")
        # print(f"Contexto previo: {' '.join(context)}")
        # print(f"Contexto posterior: {' '.join(sentences[i+1:i+1+sentences_of_context])}")
        # print()
        
        context.append(sentence.strip())
        ners_context.append(entities)
        if len(context) > sentences_of_context:
            context = context[-sentences_of_context:]  # Keep only the last 'sentences_of_context' sentences
            ners_context = ners_context[-sentences_of_context:]

  0%|          | 0/38 [00:00<?, ?it/s]

  0%|          | 0/93 [00:00<?, ?it/s]

  0%|          | 0/5 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/6 [00:00<?, ?it/s]

  0%|          | 0/8 [00:00<?, ?it/s]

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/6 [00:00<?, ?it/s]

  0%|          | 0/12 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/6 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/8 [00:00<?, ?it/s]

  0%|          | 0/13 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/5 [00:00<?, ?it/s]

  0%|          | 0/19 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/7 [00:00<?, ?it/s]

  0%|          | 0/21 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/18 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/14 [00:00<?, ?it/s]

  0%|          | 0/19 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

In [28]:
unique_relations = {relation 
                        for relations in per_sentence.values() 
                            for relation in relations 
                                if relation and len(relation.split("-")) >= 3}

print(f"Total de relaciones encontradas: {total_re_found}, de las cuales {len(unique_relations)} son únicas.")

Total de relaciones encontradas: 1433, de las cuales 1332 son únicas.


In [29]:
unique_relations

{'(Juan Bautista Valenciano)-[pertenece a]-(compañía)',
 '(donativo)-[fue para]-(Cofradía de Nuestra Señora de la Novena)',
 '(Cotarelo)-[identificó al autor de esta formación con]-(Roque de Figueroa)',
 '(Cosme Pérez)-[recibir]-(32 rs.)',
 '(Juan Rana)-[hizo el papel de]-(Rey)',
 '(Juan Rana)-[representó en]-(Corpus de Sevilla)',
 '(Carnestolendas)-[fueron celebradas en]-(Palacio del Buen Retiro)',
 '(Cosme Pérez)-[estuvo casado con]-(Bernarda Ramírez)',
 '(Su Magestad)-[dio orden escrita en]-(Aranjuez)',
 '(El ayo)-[se representó con motivo de]-(cumpleaños del rey Felipe IV)',
 '(Cosme Pérez)-[actor de]-(compañía de Pedro de la Rosa)',
 '(Cosme Pérez)-[es miembro de la compañía de]-(Antonio García de Prado)',
 '(Jerónimo de Barrionuevo)-[describe]-(La restauración de España)',
 '(Juan Rana)-[actuó en]-(loa y sainetes)',
 '(Mariana de Austria)-[hacía su entrada en]-(Madrid)',
 '(Francisca María Pérez)-[fue]-(hija de Cosme Pérez)',
 '(Francisco García)-[representa]-(compañía de Francis

In [31]:
import json

with open("../out/relation_extracted_per_method/per_sentence_text_re.json", "w", encoding="utf-8") as fw:
    json.dump({key: list(values) for key, values in per_sentence.items()}, fw, ensure_ascii=False, indent=4)

### 2.5 Analyze each sentence with clarified text

In [1]:
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
import pandas as pd
import os

In [2]:
load_dotenv()

llm = ChatOpenAI(
    model="gpt-4.1-mini",
    temperature=0,
    api_key=os.getenv("OPENAI_API_KEY"),
)

In [3]:
import json

with open("../out/prompting_ners_gpt_4.1_mini.json", "r", encoding="utf-8") as fr:
    prompting_ners = json.load(fr)

In [4]:
import pandas as pd
import ast
    
data = pd.read_csv("../data/DicatJuanRana_w_sentences.csv", sep=";", encoding="utf-8", converters={"sentences": ast.literal_eval, "clarified_sentences": ast.literal_eval})

In [5]:
from langchain.prompts import PromptTemplate

ner_extraction_prompt = PromptTemplate(
    input_variables=["text"],
    template="""
        Dada la siguiente frase, extrae todas las entidades nombradas (NERs) que aparecen en ella. Las entidades nombradas pueden ser personas, organizaciones, lugares, eventos y obras de arte.
        
        Si no se encuentran entidades nombradas, devuelve un mensaje vacío.
        
        Las entidades deben expresarse únicamente en el formato:
            Entidad: Tipo   
        
        Donde:
        - Entidad es el nombre de la entidad nombrada.
        - Tipo es el tipo de entidad (por ejemplo, PER para personas, ORG para organizaciones, LOC para lugares, EVENT para eventos, WORK_OF_ART para obras de arte, GPE para entidades geopolíticas).    
        
        Salida esperada:
            Entidad1: Tipo1
            Entidad2: Tipo2
            Entidad3: Tipo3
            …   
            
        Asegúrate de que el tipo de entidad sea el mencionado antriormente (PER, ORG, LOC, EVENT, WORK_OF_ART, GPE).
        
        Muestra la salida únicamente con las entidades encontradas, sin ningún otro texto adicional.
        
        Frase de entrada:
        {text}
    """,
)


clarified_sentence_prompt = PromptTemplate(
    input_variables=["sentence", "prev_context", "post_context", "entities"],
    template="""
       Actúa como un agente experto en procesamiento de lenguaje natural, objetivo es aclarar referencias ambiguas en una frase dada, especialmente aquellas relacionadas con:

         - Sujeto omitido o implícito (ej. "fue", "llegó", "respondió")

         - Complemento directo (ej. "la comedia", "la llamó", "lo rechazaron")

         - Complemento indirecto (ej. "le dijo", "le enviaron")

        Tu tarea es sustituir estas referencias por el nombre o entidad concreta a la que se refieren, usando el contexto de  dos o tres frases anteriores y posteriores.
        
        Si no puedes determinar a qué se refiere una referencia ambigua, devuelve la frase original sin cambios. 
        
        No intentes adivinar o hacer suposiciones sobre el significado de la referencia, modifica únicamente las referencias que puedas aclarar con certeza basándote en el contexto proporcionado.
        
        Devuelve la frase modificada, asegurándote de que la referencia sea clara y específica. Si la frase original ya es clara, devuélvela sin cambios.
        
        Asegúrate de que la frase resultante sea gramaticalmente correcta y mantenga el significado original de la frase.
        
        La frase que devuelvas debe ser una versión corregida de la frase original, con las referencias ambiguas aclaradas. No añadas ni elimines información que no esté presente en la frase original.
        
        **EJEMPLO Complemento Directo**

            Entrada:
            La comedia fue muy bien. La comedia era Constantino.

            Salida:
            Constantino fue muy bien. La comedia era Constantino.
            o
            La comedia Constantino fue muy bien. La comedia era Constantino.
        
        **EJEMPLO Sujeto Omitido**

            Entrada:
            Ayer llegaron todos menos Ana. Fue quien organizó el evento. 

            Salida:
            Ayer llegaron todos menos Ana. Ana organizó el evento. 
        
        -------------------------------------------------------------------------
        
        Contexto Previo:
        El texto forma parte de la biografía de Cosme Pérez. 
        {prev_context}
        
        Contexto Posterior:
        {post_context}
        
        Frase de entrada:
        {sentence} 
    """,
)


sentence_prompt = PromptTemplate(
    input_variables=["text", "prev_context", "entities"],
    template="""
        Dada la siguiente frase y una lista de entidades nombradas previamente extraídas, identifica todas las posibles relaciones explícitas o implícitas entre las entidades que tanto en la frase como en la lista de entidades.
        
        Se debe extraer el máximo número de relaciones posibles, pero se debe asegurar que estas relaciones sean coherentes y relevantes en el contexto del texto.
        
        Haz un especial énfasis en las relaciones intrapersonales, padre de, marido de, hijo de, etc y de eventos.
        
        Las frases pueden contener un contexto para ayudar a identificar las relaciones (para frases que comiencen con fue..., el cual..., etc.) pero no se deben sacar relaciones del propio contexto.

        Las relaciones deben expresarse únicamente en el formato:
        (Entidad1)-[relación]-(Entidad2)

        Donde:

        - La Entidad1 debe coincidir con alguna de las entidades de la lista proporcionada.

        - [relación] debe ser un verbo o una expresión verbal que indique la relación entre las entidades en el contexto del texto.
        
        - Ignora relaciones que no se puedan inferir directamente del texto.

        Salida esperada:
        (EntidadA)-[relación]-(EntidadB)
        (EntidadC)-[relación]-(EntidadD)
        …
        
        Ejemplo:

            NERs:
            Cosme Pérez, Francisca Pérez.
        
            Frase de Entrada:
            Cosme Pérez fue un conocido artista, quien además tenía una hija, Francisca Pérez.
            
            Salida esperada:
            (Francisca Pérez)-[hija de]-(Cosme Pérez)
            (Cosme Pérez)-[padre de]-(Francisca Pérez)
            (Cosme Pérez)-[fue]-(conocido artista)
        
        
        Muestra la salida únicamente con las relaciones encontradas, sin ningún otro texto adicional.
        
        Lista de entidades (NERs):
        {entities}

        Contexto de la frase (es útil para entender mejor la frase actual de la que se están extrayendo las relaciones):
        El texto forma parte de la biografía de Cosme Pérez. 
        
        - Contexto previo a la frase: {prev_context}

        Frase de entrada:
        {text}
    """,
)

In [None]:
from tqdm.auto import tqdm
from collections import defaultdict
import rich as rc


sentences_of_context = 3 # Number of sentences to consider as context for each sentence

total_re_found = 0
relations = set()

per_sentence = defaultdict(set)
years_to_test = [1636, 1643, 1648, 1651, 1653, 1656, 1665, 1666, 1670]

all_clarified_sentences = []


# for _, year in tqdm(data[data["year"].astype(int) == 1656].iterrows(), total=1, position=0):
# for _, year in tqdm(data[data["year"].astype(int).isin(years_to_test)].iterrows(), total=len(years_to_test), position=0):
for _, year in tqdm(data.iterrows(), total=len(data), position=0):
    
        
    clarified_sentences = []
    
    sentences = year["sentences"]
    ners_context = defaultdict(str)
    
    for i, sentence in tqdm(enumerate(sentences), total=len(sentences), position=1, leave=True):
        
        prev_context = sentences[max(0, i-sentences_of_context):i]
        next_context = sentences[i+1:i+1+sentences_of_context]
        
        total_ners = []
        for ss in prev_context + next_context + [sentence]:
            if ss.strip() in ners_context:
                total_ners.append(ners_context[ss.strip()])
                continue
            
            ners_extracted = llm.invoke(
                ner_extraction_prompt.invoke({
                    "text": sentence.strip(),
                })
            ).content.split("\n")
            
            entities = ", ".join([
                ner.split(": ")[0] for ner in ners_extracted
            ])
            
            ners_context[ss.strip()] = entities
        
        total_ners = ", ".join(total_ners)
        total_ners = ", ".join(set(total_ners.split(", ")))  # Remove duplicates
        
        clarified_sentence = llm.invoke(
            clarified_sentence_prompt.invoke({
                "sentence": sentence.strip(),
                "prev_context": "\n".join(prev_context),
                "post_context": "\n".join(next_context),
                "entities": total_ners,
            })
        ).content.strip()
        
        clarified_sentences.append(clarified_sentence)

        response = llm.invoke(
            sentence_prompt.invoke({
                "text": clarified_sentence.strip(),
                "prev_context": "\n".join(prev_context),
                "entities": total_ners,
            })
        ).content
    
        total_re_found += len(response.split("\n"))
        
        # rc.print(dict(ners_context))
        # rc.print(f"Clarified Sentence: {clarified_sentence}")
        # rc.print(f"Original Sentence: {sentence.strip()}")
        # rc.print(f"Entities for response: {entities_for_response}")
        
        for relation in response.split("\n"):
            relation = relation.strip()
            per_sentence[year["year"]].add(relation)
        
        # DEBUGGING 
        # print("Relaciones encontradas:\n", response.strip())
        # print(f"Frase: {sentence.strip()}")
        # print(f"Contexto previo: {' '.join(context)}")
        # print(f"Contexto posterior: {' '.join(sentences[i+1:i+1+sentences_of_context])}")
        # print()
        
    all_clarified_sentences.append(clarified_sentences)
        

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/13 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/18 [00:00<?, ?it/s]

  0%|          | 0/14 [00:00<?, ?it/s]

In [7]:
unique_relations = {relation for relations in per_sentence.values() for relation in relations}

print(f"Total de relaciones encontradas: {total_re_found}, de las cuales {len(unique_relations)} son únicas.")

Total de relaciones encontradas: 239, de las cuales 223 son únicas.


In [8]:
unique_relations

{'',
 '(150 dcs. de vellón)-[eran para]-(Cofradía de Nuestra Señora de la Novena)',
 '(50 dcs.)-[corresponden a]-(fiesta del Corpus)',
 '(A. de la Granja)-[observó]-(posibilidad de que el origen de Cosme Pérez estuviera en Tudela de Duero)',
 '(A. de la Granja)-[publicó]-(testamento)',
 '(Agustín Merlo)-[acusó a]-(otros)',
 '(Agustín Merlo)-[fue detenido por]-(mantener una reyerta con el hijo de Valdés)',
 '(Albaceas y testamentarios)-[poder de vender]-(bienes de Cosme Pérez)',
 '(Andrómeda y Perseo)-[es]-(comedia)',
 '(Antonio García de Prado)-[es]-(autor de comedias)',
 '(Antonio García de Prado)-[otorgó poder a]-(Cosme Pérez)',
 '(Antonio García de Prado)-[otorgó poder a]-(Francisco Ortiz)',
 '(Antonio de Escamilla)-[debía dinero a]-(Cosme Pérez)',
 '(Antonio de Escamilla)-[vendió vestido a]-(Cosme Pérez)',
 '(Baccio del Bianco)-[denomina]-(Juan Rana)',
 '(Baccio del Bianco)-[describe]-(fiesta)',
 '(Baccio del Bianco)-[escribió]-(carta)',
 '(Baccio)-[describe]-(loa)',
 '(Bernarda Ra

In [9]:
import json

with open("../out/per_clarified_sentence_text_re.json", "w", encoding="utf-8") as fw:
    json.dump({key: list(values) for key, values in per_sentence.items()}, fw, ensure_ascii=False, indent=4)

### 2.6 Analyze each sentence with extracted clarified text

In [6]:
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
import pandas as pd
import os

In [7]:
load_dotenv()

llm = ChatOpenAI(
    model="gpt-4.1-mini",
    temperature=0,
    api_key=os.getenv("OPENAI_API_KEY"),
)

In [None]:
import json

with open("../out/prompting_ners_gpt_4.1_mini.json", "r", encoding="utf-8") as fr:
    prompting_ners = json.load(fr)

In [12]:
import pandas as pd
import ast
    
data = pd.read_csv("../data/DicatJuanRana_w_clarified_sentences.csv", sep=";", encoding="utf-8", converters={"sentences": ast.literal_eval, "clarified_sentences": ast.literal_eval})

In [10]:
from langchain.prompts import PromptTemplate

ner_extraction_prompt = PromptTemplate(
    input_variables=["text"],
    template="""
        Dada la siguiente frase, extrae todas las entidades nombradas (NERs) que aparecen en ella. Las entidades nombradas pueden ser personas, organizaciones, lugares, eventos y obras de arte.
        
        Si no se encuentran entidades nombradas, devuelve un mensaje vacío.
        
        Las entidades deben expresarse únicamente en el formato:
            Entidad: Tipo   
        
        Donde:
        - Entidad es el nombre de la entidad nombrada.
        - Tipo es el tipo de entidad (por ejemplo, PER para personas, ORG para organizaciones, LOC para lugares, EVENT para eventos, WORK_OF_ART para obras de arte, GPE para entidades geopolíticas).    
        
        Salida esperada:
            Entidad1: Tipo1
            Entidad2: Tipo2
            Entidad3: Tipo3
            …   
            
        Asegúrate de que el tipo de entidad sea el mencionado antriormente (PER, ORG, LOC, EVENT, WORK_OF_ART, GPE).
        
        Muestra la salida únicamente con las entidades encontradas, sin ningún otro texto adicional.
        
        Frase de entrada:
        {text}
    """,
)


sentence_prompt = PromptTemplate(
    input_variables=["text", "prev_context", "entities"],
    template="""
        Dada la siguiente frase y una lista de entidades nombradas previamente extraídas, identifica todas las posibles relaciones explícitas o implícitas entre las entidades que tanto en la frase como en la lista de entidades.
        
        Se debe extraer el máximo número de relaciones posibles, pero se debe asegurar que estas relaciones sean coherentes y relevantes en el contexto del texto.
        
        Haz un especial énfasis en las relaciones intrapersonales, padre de, marido de, hijo de, etc y de eventos.
        
        Las frases pueden contener un contexto para ayudar a identificar las relaciones (para frases que comiencen con fue..., el cual..., etc.) pero no se deben sacar relaciones del propio contexto.

        Las relaciones deben expresarse únicamente en el formato:
        (Entidad1)-[relación]-(Entidad2)

        Donde:

        - La Entidad1 debe coincidir con alguna de las entidades de la lista proporcionada.

        - [relación] debe ser un verbo o una expresión verbal que indique la relación entre las entidades en el contexto del texto.
        
        - Ignora relaciones que no se puedan inferir directamente del texto.

        Salida esperada:
        (EntidadA)-[relación]-(EntidadB)
        (EntidadC)-[relación]-(EntidadD)
        …
        
        Ejemplo:

            NERs:
            Cosme Pérez, Francisca Pérez.
        
            Frase de Entrada:
            Cosme Pérez fue un conocido artista, quien además tenía una hija, Francisca Pérez.
            
            Salida esperada:
            (Francisca Pérez)-[hija de]-(Cosme Pérez)
            (Cosme Pérez)-[padre de]-(Francisca Pérez)
            (Cosme Pérez)-[fue]-(conocido artista)
        
        
        Muestra la salida únicamente con las relaciones encontradas, sin ningún otro texto adicional.
        
        Lista de entidades (NERs):
        {entities}

        Contexto de la frase (es útil para entender mejor la frase actual de la que se están extrayendo las relaciones):
        El texto forma parte de la biografía de Cosme Pérez. 
        
        - Contexto previo a la frase: {prev_context}

        Frase de entrada:
        {text}
    """,
)

In [15]:
from tqdm.auto import tqdm
from collections import defaultdict
import rich as rc

total_re_found = 0
relations = set()

sentences_of_context = 2

per_sentence = defaultdict(set)
years_to_test = [1636, 1643, 1648, 1651, 1653, 1656, 1665, 1666, 1670]

# for _, year in tqdm(data[data["year"].astype(int) == 1656].iterrows(), total=1, position=0):
# for _, year in tqdm(data[data["year"].astype(int).isin(years_to_test)].iterrows(), total=len(years_to_test), position=0):
for _, year in tqdm(data.iterrows(), total=len(data), position=0):
    
    sentences = year["clarified_sentences"]
    ners_context = defaultdict(str)
    
    for i, sentence in tqdm(enumerate(sentences), total=len(sentences), position=1, leave=True):
        
        prev_context = sentences[max(0, i-sentences_of_context):i]
        
        total_ners = []
        for ss in prev_context + [sentence]:
            if ss.strip() in ners_context:
                total_ners.append(ners_context[ss.strip()])
                continue
            
            ners_extracted = llm.invoke(
                ner_extraction_prompt.invoke({
                    "text": sentence.strip(),
                })
            ).content.split("\n")
            
            entities = ", ".join([
                ner.split(": ")[0] for ner in ners_extracted
            ])
            
            ners_context[ss.strip()] = entities
        
        total_ners = ", ".join(total_ners)
        total_ners = ", ".join(set(total_ners.split(", ")))  # Remove duplicates

        response = llm.invoke(
            sentence_prompt.invoke({
                "text": sentence.strip(),
                "prev_context": "\n".join(prev_context),
                "entities": total_ners,
            })
        ).content
    
        total_re_found += len(response.split("\n"))
        
        # rc.print(dict(ners_context))
        # rc.print(f"Clarified Sentence: {clarified_sentence}")
        # rc.print(f"Original Sentence: {sentence.strip()}")
        # rc.print(f"Entities for response: {entities_for_response}")
        
        for relation in response.split("\n"):
            relation = relation.strip()
            per_sentence[year["year"]].add(relation)
        
        # DEBUGGING 
        # print("Relaciones encontradas:\n", response.strip())
        # print(f"Frase: {sentence.strip()}")
        # print(f"Contexto previo: {' '.join(context)}")
        # print(f"Contexto posterior: {' '.join(sentences[i+1:i+1+sentences_of_context])}")
        # print()

  0%|          | 0/38 [00:00<?, ?it/s]

  0%|          | 0/93 [00:00<?, ?it/s]

  0%|          | 0/5 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/6 [00:00<?, ?it/s]

  0%|          | 0/8 [00:00<?, ?it/s]

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/6 [00:00<?, ?it/s]

  0%|          | 0/12 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/6 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/8 [00:00<?, ?it/s]

  0%|          | 0/13 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/5 [00:00<?, ?it/s]

  0%|          | 0/19 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/7 [00:00<?, ?it/s]

  0%|          | 0/21 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/9 [00:00<?, ?it/s]

  0%|          | 0/18 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/14 [00:00<?, ?it/s]

  0%|          | 0/19 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

In [16]:
unique_relations = {relation for relations in per_sentence.values() for relation in relations}

print(f"Total de relaciones encontradas: {total_re_found}, de las cuales {len(unique_relations)} son únicas.")

Total de relaciones encontradas: 1164, de las cuales 1066 son únicas.


In [17]:
import json

with open("../out/per_clarified_sentences_re.json", "w", encoding="utf-8") as fw:
    json.dump({key: list(values) for key, values in per_sentence.items()}, fw, ensure_ascii=False, indent=4)

# Test de la mejor combinación

Clarified Text + prev + post

```{'(Andrómeda y Perseo)-[es obra de]-(Calderón)',
 '(Andrómeda y Perseo)-[fue escrita por]-(Calderón)',
 '(Andrómeda y Perseo)-[se representó en]-(Coliseo del Buen Retiro)',
 '(Conde de Altamira)-[transmitió respuesta a]-(Cosme Pérez)',
 '(Cosme Pérez)-[alias]-(Juan Rana)',
 '(Cosme Pérez)-[es alias de]-(Juan Rana)',
 '(Cosme Pérez)-[recibió]-(1.000 rs.)',
 '(Cosme Pérez)-[representó el papel de]-(Bato)',
 '(Cosme Pérez)-[solicitó]-(paso de una ración ordinaria)',
 '(Felipe IV)-[daba cuenta a]-(Luisa Enríquez Manrique)',
 '(Francisca María Pérez)-[es hija de]-(Cosme Pérez)',
 '(Francisca María Pérez)-[no puede gozar ración si]-(anda en la farsa)',
 '(Juan Rana)-[cumplió con]-(Andrómeda y Perseo)',
 '(ración ordinaria)-[goza por]-(casa de la Reyna nuestra señora)',
 '(ración ordinaria)-[para]-(Francisca María Pérez)'}
```

Clarified Text + prev

```{'(Andrómeda y Perseo)-[es obra de]-(Calderón de la Barca)',
 '(Andrómeda y Perseo)-[es una comedia de]-(Calderón)',
 '(Andrómeda y Perseo)-[escrita por]-(Calderón)',
 '(Andrómeda y Perseo)-[se representó en]-(Coliseo del Buen Retiro)',
 '(Conde de Altamira)-[transmite respuesta a]-(Cosme Pérez)',
 '(Cosme Pérez)-[alias]-(Juan Rana)',
 '(Cosme Pérez)-[es alias de]-(Juan Rana)',
 '(Cosme Pérez)-[goza]-(casa de la Reyna nuestra señora)',
 '(Cosme Pérez)-[recibió]-(1.000 rs.)',
 '(Cosme Pérez)-[representó el papel de]-(Bato)',
 '(Cosme Pérez)-[solicita]-(Conde de Altamira)',
 '(Cosme Pérez)-[tiene hija]-(Francisca María Pérez)',
 '(Felipe IV)-[daba cuenta a]-(Luisa Enríquez Manrique)',
 '(Francisca María Pérez)-[goza]-(casa de la Reyna nuestra señora)',
 '(Juan Rana)-[ha cumplido con]-(sus obligaciones)'}
```
Clarified Text

```{'(Andrómeda y Perseo)-[es obra de]-(Calderón)',
 '(Andrómeda y Perseo)-[fue escrita por]-(Calderón)',
 '(Andrómeda y Perseo)-[se representó en]-(Coliseo del Buen Retiro)',
 '(Conde de Altamira)-[transmitió respuesta a]-(Cosme Pérez)',
 '(Cosme Pérez)-[es alias de]-(Juan Rana)',
 '(Cosme Pérez)-[recibió]-(fiestas del Corpus de Madrid)',
 '(Cosme Pérez)-[representó el papel de]-(Bato)',
 '(Cosme Pérez)-[tiene hija]-(Francisca María Pérez)',
 '(Felipe IV)-[daba cuenta a]-(Luisa Enríquez Manrique)',
 '(Juan Rana)-[ha cumplido con]-Andrómeda y Perseo',
 '(casa de la Reyna nuestra señora)-[proporciona ración a]-(Francisca María Pérez)'}
```
Texto Normal

```{'(Andrómeda y Perseo)-[es obra de]-(Calderón)',
 '(Comedia)-[se representó en]-(Coliseo del Buen Retiro)',
 '(Conde de Altamira)-[transmitió respuesta a]-(Cosme Pérez)',
 '(Cosme Pérez)-[alias]-(Juan Rana)',
 '(Cosme Pérez)-[recibió]-(fiestas del Corpus de Madrid)',
 '(Cosme Pérez)-[representó el papel de]-(Bato)',
 '(Cosme Pérez)-[solicitó]-(Conde de Altamira)',
 '(Cosme Pérez)-[tiene hija]-(Francisca María Pérez)',
 '(Felipe IV)-[daba cuenta a]-(Luisa Enríquez Manrique)',
 '(Francisca María Pérez)-[recibe ración ordinaria de]-(casa de la Reyna nuestra señora)',
 '(Juan Rana)-[ha cumplido]-(obligaciones)'}
```
Texto Normal + prev

```{'(Andrómeda y Perseo)-[fue obra de]-(Calderón)',
 '(Comedia)-[se representó en]-(Coliseo del Buen Retiro)',
 '(Conde de Altamira)-[transmitió respuesta a]-(Cosme Pérez)',
 '(Cosme Pérez)-[alias]-(Juan Rana)',
 '(Cosme Pérez)-[recibió]-(1.000 rs.)',
 '(Cosme Pérez)-[representó el papel de]-(Bato)',
 '(Cosme Pérez)-[representó]-(Bato)',
 '(Cosme Pérez)-[solicitó]-(paso de una ración ordinaria)',
 '(Felipe IV)-[daba cuenta a]-(Luisa Enríquez Manrique)',
 '(Francisca María Pérez)-[es hija de]-(Cosme Pérez)',
 '(Juan Rana)-[cumplió]-(obligaciones)',
 '(Juan Rana)-[ha cumplido con]-(obligaciones)',
 '(paso de una ración ordinaria)-[goza por]-(casa de la Reyna nuestra señora)',
 '(paso de una ración ordinaria)-[para]-(Francisca María Pérez)'}
```
Texto Normal + prev + post

```{'(Andrómeda y Perseo)-[fue escrita por]-(Calderón)',
 '(Comedia)-[fue representada en]-(Coliseo del Buen Retiro)',
 '(Conde de Altamira)-[transmitió respuesta a]-(Cosme Pérez)',
 '(Cosme Pérez)-[alias]-(Juan Rana)',
 '(Cosme Pérez)-[es]-(Juan Rana)',
 '(Cosme Pérez)-[recibió]-(1.000 rs.)',
 '(Cosme Pérez)-[representó el papel de]-(Bato)',
 '(Cosme Pérez)-[representó]-(Bato)',
 '(Cosme Pérez)-[solicitó]-(Conde de Altamira)',
 '(Cosme Pérez)-[solicitó]-(paso de una ración ordinaria)',
 '(Cosme Pérez)-[tiene hija]-(Francisca María Pérez)',
 '(Felipe IV)-[daba cuenta a]-(Luisa Enríquez Manrique)',
 '(Francisca María Pérez)-[recibe ración ordinaria de]-(casa de la Reyna nuestra señora)',
 '(Juan Rana)-[cumplió]-(obligaciones)',
 '(pasó de una ración ordinaria)-[goza por]-(casa de la Reyna nuestra señora)',
 '(pasó de una ración ordinaria)-[para]-(Francisca María Pérez)'}
```