# NER y Extracción de Contextos

Paso 1: Tener un diccionario donde las llaves sean las entidades y los valores los contextos

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
from transformers import pipeline
import pandas as pd
import os
from collections import defaultdict

# Función para dividir el texto en máximo `max_palabras` palabras
def dividir_texto(texto, max_palabras=100):
    palabras = texto.split()
    return [" ".join(palabras[i:i+max_palabras]) for i in range(0, len(palabras), max_palabras)]

# Función para extraer entidades y generar un diccionario con contexto
def extraer_entidades_con_contexto(gen, libro, n):
    entidad_contexto = defaultdict(list)
    ner_pipeline = pipeline("ner", model="mrm8488/bert-spanish-cased-finetuned-ner", grouped_entities=True)

    for i in range(1, n+1):
        ruta = f"/content/drive/MyDrive/Proyecto_Text2KG/Texto/gen{gen}libro{libro}_carpetatxt/gen{gen}libro{libro}_page-{i:04d}.txt"

        if not os.path.exists(ruta):
            print(f"Archivo no encontrado: {ruta}")
            continue

        with open(ruta, "r", encoding="utf-8") as f:
            texto = f.read()

        fragmentos = dividir_texto(texto, max_palabras=100)

        for fragmento in fragmentos:
            try:
                entidades = ner_pipeline(fragmento)
            except Exception as e:
                print(f"Error procesando página {i}, fragmento omitido: {e}")
                continue

            for entidad in entidades:
                nombre = entidad["word"].strip()
                if nombre:  # evitar entidades vacías
                    entidad_contexto[nombre].append(fragmento)

    return entidad_contexto


Ahora probamos nuestro código

In [19]:
diccionario1962l1 = extraer_entidades_con_contexto(gen=1962, libro=1, n=10)

# Por ejemplo, imprimir todo lo relacionado con "Madero"
for contexto in diccionario1962l1.get("Madero", []):
    print("'Madero',", repr(contexto))


Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


'Madero', 'del pueblo se impuso, y don Porfirio abandondé el pafs. Desde luego hubo elecciones li- bres, En ellas result6 elegido para la Presidencia de la Repdblica el jefe de la Revolucién. Igualmente fueron elegidos li- bremente por el pueblo los diputa- dos, los senadores y los goberna- dores de los Estados. Por desgracia, el gobierno de- mocratico de Madero duré sola- mente dos afios escasos, porque en'
'Madero', 'Madero. Gran parte del antiguo ejército tomé preso a Madero y al Vice- pez6, encabezada por Madero, el 20 de noviembre de 1910. presidente y los asesiné el 22 de febrero de 1913.'
'Madero', 'Madero. Gran parte del antiguo ejército tomé preso a Madero y al Vice- pez6, encabezada por Madero, el 20 de noviembre de 1910. presidente y los asesiné el 22 de febrero de 1913.'
'Madero', 'Madero. Gran parte del antiguo ejército tomé preso a Madero y al Vice- pez6, encabezada por Madero, el 20 de noviembre de 1910. presidente y los asesiné el 22 de febrero de 1913.'


In [20]:
diccionario1962l1

defaultdict(list,
            {'México': ['MI SERVICIO A MEXICO 1. Mi patria es México. Debo servirla siempre con mi pensa- miento, con mis palabras, con mis actos. 2. México necesita y merece, para asegurar su dicha y para aumentar su grandeza, el trabajo material ¢ intelectual de sus hijos y la moralidad de todos ellos. 3. Debo ser digno, justo, generoso y dtil. Asi honraré a mi familia, a la sociedad en que vivo, a mi pais y a la humanidad. 4. Debo ser agradecido con mis padres y con mis maestros; reconocer los sacrificios que realizan para mi educacién; hacer buen uso de los',
              'MI SERVICIO A MEXICO 1. Mi patria es México. Debo servirla siempre con mi pensa- miento, con mis palabras, con mis actos. 2. México necesita y merece, para asegurar su dicha y para aumentar su grandeza, el trabajo material ¢ intelectual de sus hijos y la moralidad de todos ellos. 3. Debo ser digno, justo, generoso y dtil. Asi honraré a mi familia, a la sociedad en que vivo, a mi pais y a la hum

Paso 2: Hacemos diccionarios (y a la par csv's) de entidades y contextos. Esto será lo que le pasaremos al LLM.

In [5]:
filas = []
for entidad, contextos in diccionario1962l1.items():
    for contexto in contextos:
        filas.append([entidad, contexto])

df = pd.DataFrame(filas, columns=["Entidad", "Contexto"])
df.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/ejemplo.csv", index=False)


In [9]:
ejemplo = pd.read_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/ejemplo.csv")
ejemplo.head()

Unnamed: 0,Entidad,Contexto
0,México,MI SERVICIO A MEXICO 1. Mi patria es México. D...
1,México,MI SERVICIO A MEXICO 1. Mi patria es México. D...
2,México,"I, México a principios del presente siglo. Hab..."
3,México,"I, México a principios del presente siglo. Hab..."
4,México,RESUMEN: Don Venustiano Carranza se puso al fr...


Paso 3: Pasarle al LLM nuestro diccionario de entidades y contextos. Buscamos que se nos devuelva un diccionario donde el valor sea el nombre "canónico" de la entidad y que el valor sea una lista con los nombres que también fueron utilizado en el texto

In [10]:
!pip install rdflib
import openai
import json
from openai import OpenAI
import os
import rdflib



In [11]:
llave_openai = "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"
from google.colab import drive
drive.mount('/content/drive')
main_path = "/content/drive/MyDrive/Proyecto_Text2KG/Texto/"

client = OpenAI(
    api_key=llave_openai,  # This is the default and can be omitted
)

doc_path = os.path.join(main_path,"gen1962libro1_carpetatxt")
doc_count = len([f for f in os.listdir(doc_path) if os.path.isfile(os.path.join(doc_path, f)) and f.endswith(".txt")])
print(f"Se montó el drive con {doc_count} documentos")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Se montó el drive con 11 documentos


Haremos una función que genere el prompt

In [15]:
from openai import OpenAI
import json

llave_openai = "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"

client = OpenAI(
    api_key=llave_openai,  # This is the default and can be omitted
)

# Prompt del sistema
sysprompt = "Eres un experto en NLP. Deduplicas entidades con nombres variantes y devuelves diccionarios JSON limpios."

# Función para crear el mensaje del usuario
def crear_prompt(diccionario):
    return f'''Aquí hay una lista de entidades, cada una con una lista de contextos donde se menciona.
Por favor, deduplica las entidades y devuelve un diccionario JSON que tenga como llave el nombre más común
de la entidad, y como valor la lista de otras formas en que aparece (sin repetir el principal).

Aquí tienes los datos:
{json.dumps(diccionario, indent=2, ensure_ascii=False)}
'''

# Función para enviar el mensaje
def send_message(sysp, userp):
    chat_completion = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": sysp},
            {"role": "user", "content": userp},
        ],
        response_format={"type": "json_object"},
    )
    return json.loads(chat_completion.choices[0].message.content)

# Ejemplo de diccionario para probar
diccionario = {
    "Francisco I. Madero": ["Madero fue presidente...", "Francisco I. Madero luchó por la democracia."],
    "Madero": ["Madero participó en la Revolución."],
    "F. I. Madero": ["F. I. Madero fue asesinado."],
    "Don Franscisco Madero": ["Don Franscisco Madero fue presidente.", "Don Franscisco Madero luchó en la revolución"]
}

# Ejecutar
respuesta = send_message(sysprompt, crear_prompt(diccionario))

# Mostrar resultado
print("Diccionario deduplicado:")
print(json.dumps(respuesta, indent=2, ensure_ascii=False))


Diccionario deduplicado:
{
  "Francisco I. Madero": [
    "Madero",
    "F. I. Madero",
    "Don Franscisco Madero"
  ]
}


¡Funciona! Ahora intentemos con un ejemplo real.

In [21]:
respuesta2 = send_message(sysprompt, crear_prompt(diccionario1962l1))
print('Diccionario deduplicado de la generación 1962 libro 1: \n')
print(json.dumps(respuesta2, indent=2, ensure_ascii=False))

Diccionario deduplicado de la generación 1962 libro 1: 

{
  "México": [],
  "Secretaria de Salubridad y Asistencia": [],
  "Libros de Texto Gratutto": [],
  "Porfirio Diaz": [
    "Don Porfirio Diaz",
    "don Porfirio",
    "Porfi-",
    "rio Diaz"
  ],
  "Maestro don Justo Sierra": [],
  "Francisco I. Madero": [
    "Don Francisco I. Madero",
    "Francisco I. Ma",
    "Madero",
    "Francisco I."
  ],
  "Presidente": [
    "] Presidente",
    "Presidente Madero"
  ],
  "Vicepresidente": [
    "José Maria Pino Suarez",
    "Vice-",
    "Vicepresidente"
  ],
  "Revolución Mexicana": [
    "Revolucién",
    "volucié",
    "Revolucién Mexicana"
  ],
  "Don Venustiano Carranza": [
    "don Venustiano Carranza"
  ],
  "Emiliano Zapata": [
    "Tierra y Libertad",
    "ZAPATA"
  ],
  "Constitución": [
    "Constitucién",
    "Constitu",
    "Cons-"
  ],
  "Articulo 123": [
    "Artfculo 123"
  ]
}


¡Funciona bien! (Acá casi lloramos de la emoción).

Paso 5. Ahora definimos una función para homologar todas las relaciones en una misma

In [28]:
def crear_diccionario_homologado(entidades):
    diccionario_homologado = {}

    for entidad, homologos in entidades.items():
        for homologo in homologos:
          diccionario_homologado[homologo] = entidad

    return diccionario_homologado

Entonces ahora tendremos un diccionario de la forma:

{
'entidad1.0' : 'nombre homologado',
'entidad1.1' : 'nombre homologado',
}

Probemos nuestro código

In [33]:
homologos1962l1 = crear_diccionario_homologado(respuesta2)

¡Funciona bien!

Paso 6. En el DataFrame original, quitamos todos los errores de OCR con una función auxiliar, después homologamos los nombres de las entidades y normalizamos.

In [54]:
def normalizar(homologos, df_sin_homologar):
    df_sin_homologar['Entidad'] = df_sin_homologar['Entidad'].apply(lambda x: homologos.get(x, x))
    return df_sin_homologar


Ahora probamos nuestra función

In [55]:
df_ner_1962l1 = pd.read_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/ejemplo.csv")
df_ner_1962l1.head()

Unnamed: 0,Entidad,Contexto
0,México,MI SERVICIO A MEXICO 1. Mi patria es México. D...
1,México,MI SERVICIO A MEXICO 1. Mi patria es México. D...
2,México,"I, México a principios del presente siglo. Hab..."
3,México,"I, México a principios del presente siglo. Hab..."
4,México,RESUMEN: Don Venustiano Carranza se puso al fr...


In [56]:
import pandas as pd
import re
def limpiar_entidades(df):
    # Quitar entidades con solo símbolos, partes fragmentadas o subpalabras
    def es_fragmento(texto):
        return (
            len(texto) < 4 or
            len(texto) > 32 or
            texto.startswith("##") or
            bool(re.fullmatch(r"[^\w\s]+", texto))
        )

    df_filtrado = df[~df["Entidad"].apply(es_fragmento)].copy()

    # Eliminar espacios iniciales/finales y capitalizar consistentemente
    df_filtrado["Entidad"] = df_filtrado["Entidad"].str.strip()
    df_filtrado["Entidad"] = df_filtrado["Entidad"].str.replace(r"\s+", " ", regex=True)

    return df_filtrado

In [57]:
df_ner_1962l1 = limpiar_entidades(df_ner_1962l1)

In [58]:
n1962l1 = normalizar(homologos1962l1, df_ner_1962l1)
n1962l1

Unnamed: 0,Entidad,Contexto
0,México,MI SERVICIO A MEXICO 1. Mi patria es México. D...
1,México,MI SERVICIO A MEXICO 1. Mi patria es México. D...
2,México,"I, México a principios del presente siglo. Hab..."
3,México,"I, México a principios del presente siglo. Hab..."
4,México,RESUMEN: Don Venustiano Carranza se puso al fr...
...,...,...
68,Emiliano Zapata,Las cosechas son oportunamente distribuidas y ...
69,Estado de More,Tierra y Libertad Sin duda que habrds ofdo el ...
74,Emiliano Zapata,Tierra y Libertad Sin duda que habrds ofdo el ...
75,Articulo 123,Las cosechas son oportunamente distribuidas y ...


In [59]:
n1962l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/ejemplo2.csv", index=False)

Ya tenemos NER con contextos. Ahora lo haremos para cada generación y cada libro y lo guardaremos en DataFrames. Los pasos a seguir ahora son:

* 1. Crear diccionarios de la forma
diccionario1962l1 = extraer_entidades_con_contexto(gen=1962, libro=1, n=10)

* 2. Lo convertimos en DataFrame y lo guardamos en nuestra carpeta de Drive

* 3. Quitar entidades que sean errores de OCR. (ver si esto va después)

* 4. Aplicamos el LLM y obtenemos un diccionario de entidades con sus homólogos.

* 5. Limpiamos y homologamos el nuevo DataFrame

* 6. Guardamos el DataFrame en un nuevo archivo.

In [62]:
import pandas as pd
import os

# Diccionarios ya generados con la función extraer_entidades_con_contexto
diccionarios = {
    "g1960l2": extraer_entidades_con_contexto(1960, 2, 9),
    "g1960l3": extraer_entidades_con_contexto(1960, 3, 24),
    "g1962l1": extraer_entidades_con_contexto(1962, 1, 11),
    "g1962l2": extraer_entidades_con_contexto(1962, 2, 24),
    "g1972l1": extraer_entidades_con_contexto(1972, 1, 4),
    "g1982l1": extraer_entidades_con_contexto(1982, 1, 5),
    "g1993l1": extraer_entidades_con_contexto(1993, 1, 45),
    "g1993l2": extraer_entidades_con_contexto(1993, 2, 24),
    "g2008l1": extraer_entidades_con_contexto(2008, 1, 23),
    "g2008l2": extraer_entidades_con_contexto(2008, 2, 36),
    "g2011l1": extraer_entidades_con_contexto(2011, 1, 67),
    "g2014l1": extraer_entidades_con_contexto(2014, 1, 71),
    "g2019l1": extraer_entidades_con_contexto(2019, 1, 71)
}

# Carpeta destino
output_dir = "/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL"
os.makedirs(output_dir, exist_ok=True)

# Crear y guardar cada DataFrame
for nombre, diccionario in diccionarios.items():
    filas = []
    for entidad, contextos in diccionario.items():
        for contexto in contextos:
            filas.append([entidad, contexto])

    df = pd.DataFrame(filas, columns=["Entidad", "Contexto"])
    ruta_csv = f"{output_dir}/{nombre}.csv"
    df.to_csv(ruta_csv, index=False)
    print(f"✅ Guardado: {ruta_csv}")

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler

Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen1993libro1_carpetatxt/gen1993libro1_page-0002.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen1993libro1_carpetatxt/gen1993libro1_page-0004.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen1993libro1_carpetatxt/gen1993libro1_page-0006.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen1993libro1_carpetatxt/gen1993libro1_page-0008.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen1993libro1_carpetatxt/gen1993libro1_page-0010.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen1993libro1_carpetatxt/gen1993libro1_page-0012.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen1993libro1_carpetatxt/gen1993libro1_page-0014.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen1993libro1_carpetatxt/gen1993libro1_page-0016.txt
Archivo no encontrado: /

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler

Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2011libro1_carpetatxt/gen2011libro1_page-0002.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2011libro1_carpetatxt/gen2011libro1_page-0004.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2011libro1_carpetatxt/gen2011libro1_page-0006.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2011libro1_carpetatxt/gen2011libro1_page-0008.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2011libro1_carpetatxt/gen2011libro1_page-0010.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2011libro1_carpetatxt/gen2011libro1_page-0012.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2011libro1_carpetatxt/gen2011libro1_page-0014.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2011libro1_carpetatxt/gen2011libro1_page-0016.txt
Archivo no encontrado: /

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2014libro1_carpetatxt/gen2014libro1_page-0002.txt


Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2014libro1_carpetatxt/gen2014libro1_page-0004.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2014libro1_carpetatxt/gen2014libro1_page-0006.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2014libro1_carpetatxt/gen2014libro1_page-0008.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2014libro1_carpetatxt/gen2014libro1_page-0010.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2014libro1_carpetatxt/gen2014libro1_page-0012.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2014libro1_carpetatxt/gen2014libro1_page-0014.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2014libro1_carpetatxt/gen2014libro1_page-0016.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2014libro1_carpetatxt/gen2014libro1_page-0018.txt
Archivo no encontrado: /

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2019libro1_carpetatxt/gen2019libro1_page-0002.txt


Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2019libro1_carpetatxt/gen2019libro1_page-0004.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2019libro1_carpetatxt/gen2019libro1_page-0006.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2019libro1_carpetatxt/gen2019libro1_page-0008.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2019libro1_carpetatxt/gen2019libro1_page-0010.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2019libro1_carpetatxt/gen2019libro1_page-0012.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2019libro1_carpetatxt/gen2019libro1_page-0014.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2019libro1_carpetatxt/gen2019libro1_page-0016.txt
Archivo no encontrado: /content/drive/MyDrive/Proyecto_Text2KG/Texto/gen2019libro1_carpetatxt/gen2019libro1_page-0018.txt
Archivo no encontrado: /

Tardó 9:24 minutos en correr.

Seguimos con el paso 4. Lo malo es que ya los guardamos como DataFrames, pero podemos rerescatar la información desde el DataFrame

In [65]:
from collections import defaultdict
import pandas as pd

def reconstruir_diccionario_desde_csv(ruta_csv):
    df = pd.read_csv(ruta_csv)
    diccionario = defaultdict(list)
    for _, row in df.iterrows():
        diccionario[row["Entidad"]].append(row["Contexto"])
    return diccionario


defaultdict(list,
            {'México': ['MI SERVICIO A MEXICO 1. Mi patria es México. Debo servirla siempre con mi pensa- miento, con mis palabras, con mis actos. 2. México necesita y merece, para asegurar su dicha y para aumentar su grandeza, el trabajo material ¢ intelectual de sus hijos y la moralidad de todos ellos. 3. Debo ser digno, justo, generoso y dtil. Asi honraré a mi familia, a la sociedad en que vivo, a mi pais y a la humanidad. 4. Debo ser agradecido con mis padres y con mis maestros; reconocer los sacrificios que realizan para mi educacién; hacer buen uso de los',
              'MI SERVICIO A MEXICO 1. Mi patria es México. Debo servirla siempre con mi pensa- miento, con mis palabras, con mis actos. 2. México necesita y merece, para asegurar su dicha y para aumentar su grandeza, el trabajo material ¢ intelectual de sus hijos y la moralidad de todos ellos. 3. Debo ser digno, justo, generoso y dtil. Asi honraré a mi familia, a la sociedad en que vivo, a mi pais y a la hum

In [69]:
archivos = {
    "1960l2": "g1960l2.csv",
    "1960l3": "g1960l3.csv",
    "1962l1": "g1962l1.csv",
    "1962l2": "g1962l2.csv",
    "1972l1": "g1972l1.csv",
    "1982l1": "g1982l1.csv",
    "1993l1": "g1993l1.csv",
    "1993l2": "g1993l2.csv",
    "2008l1": "g2008l1.csv",
    "2008l2": "g2008l2.csv",
    "2011l1": "g2011l1.csv",
    "2014l1": "g2014l1.csv",
    "2019l1": "g2019l1.csv"
}

base_path = "/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/"

for clave, archivo in archivos.items():
    ruta = f"{base_path}{archivo}"
    diccionario = reconstruir_diccionario_desde_csv(ruta)
    respuesta = send_message(sysprompt, crear_prompt(diccionario))
    globals()[f"respuesta{clave}"] = respuesta
    print(f"✅ Generada respuesta para {clave}")


✅ Generada respuesta para 1960l2


RateLimitError: Error code: 429 - {'error': {'message': 'Request too large for gpt-4o in organization org-En6KZwot34ulhFtCvvvfEjiT on tokens per min (TPM): Limit 30000, Requested 105021. The input or output tokens must be reduced in order to run successfully. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}

Hay error porque el request es muy largo :( Veamos si esta función puede arreglarlo:

In [88]:
import os
import pandas as pd

# Diccionario de archivos
archivos = {
    "1960l2": "g1960l2.csv",
    "1960l3": "g1960l3.csv",
    "1962l1": "g1962l1.csv",
    "1962l2": "g1962l2.csv",
    "1972l1": "g1972l1.csv",
    "1982l1": "g1982l1.csv",
    "1993l1": "g1993l1.csv",
    "1993l2": "g1993l2.csv",
    "2008l1": "g2008l1.csv",
    "2008l2": "g2008l2.csv",
    "2011l1": "g2011l1.csv",
    "2014l1": "g2014l1.csv",
    "2019l1": "g2019l1.csv"
}

base_path = "/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/"

# Función para dividir un diccionario en partes de tamaño fijo
def dividir_diccionario(d, chunk_size):
    items = list(d.items())
    return [dict(items[i:i+chunk_size]) for i in range(0, len(items), chunk_size)]

for clave, archivo in archivos.items():
    ruta = os.path.join(base_path, archivo)

    try:
        # Reconstruir diccionario desde CSV
        diccionario = reconstruir_diccionario_desde_csv(ruta)

        # Dividir en partes de 70 entidades
        partes = dividir_diccionario(diccionario, 70)

        # Acumular respuestas parciales
        respuesta_completa = {}
        for parte in partes:
            respuesta_parcial = send_message(sysprompt, crear_prompt(parte))

            # Verificamos que sea un diccionario
            if isinstance(respuesta_parcial, dict):
                respuesta_completa.update(respuesta_parcial)
            else:
                print(f"⚠️ La respuesta de una parte de {clave} no es un dict. Se omitirá.")

        # Guardar la respuesta final como variable global
        globals()[f"respuesta{clave}"] = respuesta_completa
        print(f"✅ Generada respuesta para {clave}, total entidades: {len(respuesta_completa)}")

    except Exception as e:
        print(f"❌ Error procesando {clave}: {e}")

✅ Generada respuesta para 1960l2, total entidades: 14
✅ Generada respuesta para 1960l3, total entidades: 149
✅ Generada respuesta para 1962l1, total entidades: 8
✅ Generada respuesta para 1962l2, total entidades: 112
✅ Generada respuesta para 1972l1, total entidades: 12
✅ Generada respuesta para 1982l1, total entidades: 16
✅ Generada respuesta para 1993l1, total entidades: 120
✅ Generada respuesta para 1993l2, total entidades: 186
✅ Generada respuesta para 2008l1, total entidades: 118
✅ Generada respuesta para 2008l2, total entidades: 92
✅ Generada respuesta para 2011l1, total entidades: 90
✅ Generada respuesta para 2014l1, total entidades: 113
❌ Error procesando 2019l1: Error code: 429 - {'error': {'message': 'Request too large for gpt-4o in organization org-En6KZwot34ulhFtCvvvfEjiT on tokens per min (TPM): Limit 30000, Requested 30052. The input or output tokens must be reduced in order to run successfully. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type'

Tardó 26 minutos en compilar, pero ya acabó.

Ahora vamos con el paso de homologar y guardar las DataFrame finales

In [92]:
# Función para homologar
def crear_diccionario_homologado(entidades):
    diccionario_homologado = {}
    for entidad, homologos in entidades.items():
        for homologo in homologos:
            diccionario_homologado[homologo] = entidad
    return diccionario_homologado

# Aplicamos a cada variable respuesta
for clave in archivos:
    nombre_variable = f"respuesta{clave}"
    if nombre_variable in globals():
        respuesta = globals()[nombre_variable]

        try:
            homologado = crear_diccionario_homologado(respuesta)
            globals()[f"homologado{clave}"] = homologado
            print(f"✅ Diccionario homologado creado para {clave}, total: {len(homologado)}")
        except Exception as e:
            print(f"❌ Error al homologar {clave}: {e}")
    else:
        print(f"⚠️ No se encontró {nombre_variable}, se omite.")


✅ Diccionario homologado creado para 1960l2, total: 19
✅ Diccionario homologado creado para 1960l3, total: 142
✅ Diccionario homologado creado para 1962l1, total: 6
✅ Diccionario homologado creado para 1962l2, total: 60
✅ Diccionario homologado creado para 1972l1, total: 19
✅ Diccionario homologado creado para 1982l1, total: 30
✅ Diccionario homologado creado para 1993l1, total: 114
✅ Diccionario homologado creado para 1993l2, total: 178
✅ Diccionario homologado creado para 2008l1, total: 135
✅ Diccionario homologado creado para 2008l2, total: 76
✅ Diccionario homologado creado para 2011l1, total: 68
✅ Diccionario homologado creado para 2014l1, total: 96
⚠️ No se encontró respuesta2019l1, se omite.


Finalmente, creamos y guardamos como DataFrames nuestras listas con entidades normalizadas.

In [98]:
ruta_base = "/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/"
g1960l2 = pd.read_csv(ruta_base + "g1960l2.csv")
g1960l3 = pd.read_csv(ruta_base + "g1960l3.csv")
g1962l1 = pd.read_csv(ruta_base + "g1962l1.csv")
g1962l2 = pd.read_csv(ruta_base + "g1962l2.csv")
g1972l1 = pd.read_csv(ruta_base + "g1972l1.csv")
g1982l1 = pd.read_csv(ruta_base + "g1982l1.csv")
g1993l1 = pd.read_csv(ruta_base + "g1993l1.csv")
g1993l2 = pd.read_csv(ruta_base + "g1993l2.csv")
g2008l1 = pd.read_csv(ruta_base + "g2008l1.csv")
g2008l2 = pd.read_csv(ruta_base + "g2008l2.csv")
g2011l1 = pd.read_csv(ruta_base + "g2011l1.csv")
g2014l1 = pd.read_csv(ruta_base + "g2014l1.csv")
g2019l1 = pd.read_csv(ruta_base + "g2019l1.csv")


In [99]:
import re

# Funciones ya definidas antes
def limpiar_entidades(df):
    def es_fragmento(texto):
        return (
            len(texto) < 4 or
            len(texto) > 32 or
            texto.startswith("##") or
            bool(re.fullmatch(r"[^\w\s]+", texto))
        )
    df_filtrado = df[~df["Entidad"].apply(es_fragmento)].copy()
    df_filtrado["Entidad"] = df_filtrado["Entidad"].str.strip()
    df_filtrado["Entidad"] = df_filtrado["Entidad"].str.replace(r"\s+", " ", regex=True)
    return df_filtrado

def normalizar(homologos, df_sin_homologar):
    df_sin_homologar['Entidad'] = df_sin_homologar['Entidad'].apply(lambda x: homologos.get(x, x))
    return df_sin_homologar

# Normalizamos cada archivo
for clave in archivos:
    nombre_df = f"g{clave}"
    nombre_homologado = f"homologado{clave}"

    if nombre_df in globals() and nombre_homologado in globals():
        try:
            df = globals()[nombre_df]
            homologos = globals()[nombre_homologado]

            df_limpio = limpiar_entidades(df)
            df_normalizado = normalizar(homologos, df_limpio)

            globals()[f"n{clave}"] = df_normalizado
            print(f"✅ Normalizado {clave} ({len(df_normalizado)} filas)")

        except Exception as e:
            print(f"❌ Error en {clave}: {e}")
    else:
        print(f"⚠️ Faltan datos para {clave}")


✅ Normalizado 1960l2 (62 filas)
✅ Normalizado 1960l3 (527 filas)
✅ Normalizado 1962l1 (76 filas)
✅ Normalizado 1962l2 (550 filas)
✅ Normalizado 1972l1 (32 filas)
✅ Normalizado 1982l1 (39 filas)
✅ Normalizado 1993l1 (444 filas)
✅ Normalizado 1993l2 (563 filas)
✅ Normalizado 2008l1 (443 filas)
✅ Normalizado 2008l2 (320 filas)
✅ Normalizado 2011l1 (363 filas)
✅ Normalizado 2014l1 (448 filas)
⚠️ Faltan datos para 2019l1


In [101]:
n1960l2.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n1960l2.csv", index=False)
n1960l3.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n1960l3.csv", index=False)
n1962l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n1962l1.csv", index=False)
n1962l2.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n1962l2.csv", index=False)
n1972l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n1972l1.csv", index=False)
n1982l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n1982l1.csv", index=False)
n1993l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n1993l1.csv", index=False)
n1993l2.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n1993l2.csv", index=False)
n2008l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n2008l1.csv", index=False)
n2008l2.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n2008l2.csv", index=False)
n2011l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n2011l1.csv", index=False)
n2014l1.to_csv("/content/drive/MyDrive/Proyecto_Text2KG/Texto/NERFINAL/normalizados/n2014l1.csv", index=False)