# HOHFELD

In [1]:
import os

dir_bas = os.getcwd()
dir_bas

bas = '/home/jovyan'

In [2]:
import os
import re
import pandas as pd

# Función para procesar cada párrafo y extraer las relaciones y entidades
def procesar_parrafo(parrafo, article):
    # Listas para almacenar los datos
    data = []

    # Expresiones regulares para encontrar las etiquetas y relaciones
    e1_pattern = re.compile(r'<e1>(.*?)</e1>')
    e2_pattern = re.compile(r'<e2>(.*?)</e2>')
    rel_pattern = re.compile(r'<rel>(.*?)</rel>')
    comp_pattern = re.compile(r'<comp>(.*?)</comp>')
    
    # Extraer entidades y relaciones del párrafo, con chequeo si existen
    e1_match = e1_pattern.search(parrafo)
    e2_match = e2_pattern.search(parrafo)
    rel_match = rel_pattern.search(parrafo)

    # Asegurarse de que las entidades y la relación existen antes de continuar
    if e1_match and e2_match and rel_match:
        e1 = e1_match.group(1)
        e2 = e2_match.group(1)
        rel = rel_match.group(1)
        
        # Extraer el tipo de relación y las entidades desde las líneas 'RelationSignature' y 'RelationType'
        relation_signature_match = re.search(r'RelationSignature: (.*?) \((e1), (e2)\)', parrafo)
        relation_type_match = re.search(r'RelationType: (.*?) \(rel\)', parrafo)

        # Asegurarse de que existen las firmas de relación y el tipo
        if relation_signature_match and relation_type_match:
            relation_signature = relation_signature_match.group(1)
            relation_type = relation_type_match.group(1)

            # Determinar el tipo de entidades en base a 'RelationSignature'
            e1_type, e2_type = relation_signature.split('-')

            # Añadir la información al DataFrame
            data.append([article, e1, e1_type, relation_type, e2, e2_type])

    return data

# Función para procesar cada archivo de texto por párrafos
def procesar_articulo_por_parrafos(texto, article):
    # Dividir el texto por párrafos (suponiendo que están separados por dobles saltos de línea)
    parrafos = texto.split('\n\n')
    
    # Listas para almacenar los datos de todos los párrafos
    datos = []
    
    for parrafo in parrafos:
        # Procesar cada párrafo y agregar los datos si hay entidades/relaciones
        datos_parrafo = procesar_parrafo(parrafo, article)
        if datos_parrafo:
            datos.extend(datos_parrafo)
    
    return datos

# Función para procesar todos los archivos en la carpeta
def procesar_carpeta(carpeta):
    datos = []
    for archivo in os.listdir(carpeta):
        if archivo.endswith('.txt'):
            with open(os.path.join(carpeta, archivo), 'r', encoding='utf-8') as f:
                texto = f.read()
                article = os.path.splitext(archivo)[0]  # Usar el nombre del archivo como 'article'
                datos.extend(procesar_articulo_por_parrafos(texto, article))
    
    # Crear un DataFrame con las columnas requeridas
    columnas = ['article', 'head', 'head_type', 'type', 'tail', 'tail_type']
    df = pd.DataFrame(datos, columns=columnas)
    
    return df

In [3]:
# Ruta a la carpeta que contiene los archivos .txt
carpeta_articulos = bas+'/Joel_Pardo/TeresIA/estatuto_goldstandard/data/gold_standard/rels'

# Procesar la carpeta y generar el DataFrame
data_df = procesar_carpeta(carpeta_articulos)

# Mostrar el DataFrame resultante
display(data_df)

# Opcionalmente guardar el DataFrame en un archivo CSV
#data_df.to_csv('relaciones.csv', index=False)

Unnamed: 0,article,head,head_type,type,tail,tail_type
0,articulo_52,empresario,LegalAgent,Duty,trabajador,LegalAgent
1,articulo_52,empresario,LegalAgent,Duty,trabajador,LegalAgent
2,articulo_89,representación de los trabajadores,LegalEntity,Duty,la otra parte,LegalEntity
3,articulo_42,empresario,LegalAgent,Duty,Seguridad Social,LegalEntity
4,articulo_42,empresario,LegalAgent,Duty,trabajadores,LegalAgent
5,articulo_42,contratista,LegalAgent,Duty,Tesorería General de la Seguridad Social,LegalEntity
6,articulo_42,empresa contratista,LegalEntity,Duty,representantes legales,LegalAgent
7,articulo_42,trabajadores,LegalAgent,Right,representantes de los trabajadores,LegalAgent
8,articulo_92,Gobierno,LegalAgent,Privilege,empresas,LegalEntity
9,articulo_92,Ministerio de Empleo y Seguridad Social,LegalEntity,Privilege,empresas y trabajadores,LegalAgent


In [4]:
# Función para reemplazar los espacios con '_' si hay más de dos palabras
def concatenar_palabras(texto):
    palabras = texto.split()
    if len(palabras) >= 2:
        return '_'.join(palabras)
    else:
        return texto

# Aplicar la función a la columna 'type'
data_df['type'] = data_df['type'].apply(concatenar_palabras)

In [5]:
display(data_df)

Unnamed: 0,article,head,head_type,type,tail,tail_type
0,articulo_52,empresario,LegalAgent,Duty,trabajador,LegalAgent
1,articulo_52,empresario,LegalAgent,Duty,trabajador,LegalAgent
2,articulo_89,representación de los trabajadores,LegalEntity,Duty,la otra parte,LegalEntity
3,articulo_42,empresario,LegalAgent,Duty,Seguridad Social,LegalEntity
4,articulo_42,empresario,LegalAgent,Duty,trabajadores,LegalAgent
5,articulo_42,contratista,LegalAgent,Duty,Tesorería General de la Seguridad Social,LegalEntity
6,articulo_42,empresa contratista,LegalEntity,Duty,representantes legales,LegalAgent
7,articulo_42,trabajadores,LegalAgent,Right,representantes de los trabajadores,LegalAgent
8,articulo_92,Gobierno,LegalAgent,Privilege,empresas,LegalEntity
9,articulo_92,Ministerio de Empleo y Seguridad Social,LegalEntity,Privilege,empresas y trabajadores,LegalAgent


In [6]:
# Seleccionar las columnas head_type, type, tail_type
rels = data_df[['head_type', 'type', 'tail_type']]
display(rels)

Unnamed: 0,head_type,type,tail_type
0,LegalAgent,Duty,LegalAgent
1,LegalAgent,Duty,LegalAgent
2,LegalEntity,Duty,LegalEntity
3,LegalAgent,Duty,LegalEntity
4,LegalAgent,Duty,LegalAgent
5,LegalAgent,Duty,LegalEntity
6,LegalEntity,Duty,LegalAgent
7,LegalAgent,Right,LegalAgent
8,LegalAgent,Privilege,LegalEntity
9,LegalEntity,Privilege,LegalAgent


In [7]:
rels = rels.drop_duplicates()
display(rels)

Unnamed: 0,head_type,type,tail_type
0,LegalAgent,Duty,LegalAgent
2,LegalEntity,Duty,LegalEntity
3,LegalAgent,Duty,LegalEntity
6,LegalEntity,Duty,LegalAgent
7,LegalAgent,Right,LegalAgent
8,LegalAgent,Privilege,LegalEntity
9,LegalEntity,Privilege,LegalAgent
10,LegalAgent,Right,LegalEntity
27,LegalAgent,NoRight,LegalEntity
28,LegalAgent,NoRight,LegalAgent


In [8]:
entities_head = rels['head_type'].drop_duplicates().tolist()
entities_tail = rels['tail_type'].drop_duplicates().tolist()

entities = entities_head + entities_tail

entities2 = []
[entities2.append(i) for i in entities if i not in entities2]


print('[entities]')
for i in entities2:
    print(i)

[entities]
LegalAgent
LegalEntity
LegalConcept


In [49]:
# Crear la lista para almacenar las relaciones en formato adecuado
relaciones_formato = ["[relations]"]

# Iterar a través del DataFrame y agregar las relaciones en el formato deseado
for index, row in rels.iterrows():
    relacion = f"{row['type']}\tArg1:{row['head_type']}, Arg2:{row['tail_type']}"
    relaciones_formato.append(relacion)

# Unir las relaciones en un string con saltos de línea
resultado = "\n".join(relaciones_formato)

# Mostrar el resultado
print(resultado)

[relations]
Duty	Arg1:LegalAgent, Arg2:LegalAgent
Duty	Arg1:LegalEntity, Arg2:LegalEntity
Duty	Arg1:LegalAgent, Arg2:LegalEntity
Duty	Arg1:LegalEntity, Arg2:LegalAgent
Right	Arg1:LegalAgent, Arg2:LegalAgent
Privilege	Arg1:LegalAgent, Arg2:LegalEntity
Privilege	Arg1:LegalEntity, Arg2:LegalAgent
Right	Arg1:LegalAgent, Arg2:LegalEntity
NoRight	Arg1:LegalAgent, Arg2:LegalEntity
NoRight	Arg1:LegalAgent, Arg2:LegalAgent
Duty	Arg1:LegalAgent, Arg2:LegalConcept


In [50]:
with open(f"{bas}/Joel_Pardo/TeresIA/estatuto_hohfeld/relaciones.txt", "w", encoding="utf-8") as file:
    file.write(resultado)

print("Archivo 'relaciones.txt' guardado con éxito.")

Archivo 'relaciones.txt' guardado con éxito.


In [51]:
# Separamos el conjunto de datos en subconjuntos por articulos
import pandas as pd

# Supongamos que ya tienes tu DataFrame cargado como 'df'
# Crear un diccionario donde la clave es el valor de 'article' y el valor es el subconjunto correspondiente
subconjuntos = {article: subset for article, subset in data_df.groupby('article')}

# Ahora puedes acceder a cada subconjunto de datos por su 'article'
# Por ejemplo, para ver el subconjunto correspondiente a un artículo específico
display(subconjuntos['articulo_51'])

Unnamed: 0,article,head,head_type,type,tail,tail_type
30,articulo_51,empresario,LegalAgent,Duty,representantes legales de los trabajadores,LegalAgent
31,articulo_51,autoridad laboral,LegalAgent,Duty,entidad gestora,LegalEntity
32,articulo_51,empresario,LegalAgent,Duty,autoridad laboral,LegalEntity
33,articulo_51,empresa,LegalEntity,Duty,representantes de los trabajadores,LegalAgent
34,articulo_51,empresa,LegalEntity,Duty,trabajadores,LegalAgent


In [56]:
import os
import re

# Función para limpiar el texto de las etiquetas y elementos no deseados
def limpiar_y_juntar_texto(texto):
    # Eliminar las etiquetas <e1>, <e2>, <rel>, <comp>
    texto_limpio = re.sub(r'</?e1>|</?e2>|</?rel>|</?comp>', '', texto)
    
    # Eliminar las líneas que contienen 'RelationSignature', 'RelationType', y 'MissingE2'
    texto_limpio = re.sub(r'RelationSignature: .*?\n', '', texto_limpio)
    texto_limpio = re.sub(r'RelationType: .*?\(rel\)', '', texto_limpio)
    texto_limpio = re.sub(r'MissingE2: .*?\n', '', texto_limpio)
    
    # Eliminar números que aparecen al inicio de los párrafos (como los "1", "2", "3")
    texto_limpio = re.sub(r'^\d+\s+', '', texto_limpio, flags=re.MULTILINE)
    
    
    
    # Unir todos los párrafos en un único texto (eliminamos los saltos de línea múltiples)
    texto_limpio = re.sub(r'\n+', ' ', texto_limpio).strip()
    
    return texto_limpio

# Función para procesar todos los archivos en la carpeta y juntar los textos por artículo
def procesar_carpeta_y_juntar(carpeta):
    articulos_limpios = {}
    
    for archivo in os.listdir(carpeta):
        if archivo.endswith('.txt'):
            with open(os.path.join(carpeta, archivo), 'r', encoding='utf-8') as f:
                texto = f.read()
                # Limpiar y juntar los párrafos del archivo
                texto_limpio = limpiar_y_juntar_texto(texto)
                # Usar el nombre del archivo (sin extensión) como clave para el artículo
                article = os.path.splitext(archivo)[0]
                articulos_limpios[article] = texto_limpio
    
    return articulos_limpios

In [58]:
# Procesar la carpeta y generar el diccionario de textos limpios
contenidos = procesar_carpeta_y_juntar(carpeta_articulos)

# Mostrar el resultado para cada artículo
for article, texto in contenidos.items():
    print(f"Articulo: {article}")
    print(f"Texto limpio: {texto}\n")
    

Articulo: articulo_52
Texto limpio: Previamente el empresario deberá ofrecer al trabajador un curso dirigido a facilitar la adaptación a las modificaciones operadas. El tiempo destinado a la formación se considerará en todo caso tiempo de trabajo efectivo y el empresario abonará al trabajador el salario medio que viniera percibiendo.

Articulo: articulo_13
Texto limpio: 

Articulo: articulo_89
Texto limpio: En el plazo máximo de un mes a partir de la recepción de la comunicación, se procederá a constituir la comisión negociadora; la parte receptora de la comunicación deberá responder a la propuesta de negociación y ambas partes establecerán un calendario o plan de negociación.  La representación de los trabajadores, o de los empresarios, que promueva la negociación, lo comunicará a la otra parte, expresando detalladamente en la comunicación, que deberá hacerse por escrito, la legitimación que ostenta de conformidad con los artículos anteriores, los ámbitos del convenio y las materias o

In [60]:
import pandas as pd

def convertir_a_brat(data_df, contenidos):
    brat_annotations = {}
    textos = {}
    # Procesar cada artículo en el DataFrame
    for article in data_df['article'].unique():
        texto = contenidos[article]  # Obtener el texto correspondiente al artículo
        df_article = data_df[data_df['article'] == article]  # Filtrar las filas del DataFrame por artículo
        
        entities = []  # Lista para almacenar entidades anotadas
        relations = []  # Lista para almacenar relaciones anotadas
        entity_counter = 1  # Contador de entidades para asignar T1, T2, etc.
        relation_counter = 1  # Contador de relaciones para asignar R1, R2, etc.

        # Crear anotaciones para entidades y relaciones
        for idx, row in df_article.iterrows():
            # Obtener las posiciones de 'head' y 'tail' en el texto
            head_pos = texto.find(row['head'])
            tail_pos = texto.find(row['tail'])

            if head_pos != -1 and tail_pos != -1:
                # Calcular los offsets para 'head'
                head_start = head_pos
                head_end = head_start + len(row['head'])

                # Calcular los offsets para 'tail'
                tail_start = tail_pos
                tail_end = tail_start + len(row['tail'])

                # Anotar la entidad 'head'
                entities.append(f"T{entity_counter}\t{row['head_type']} {head_start} {head_end}\t{row['head'].strip()}")
                head_entity = f"T{entity_counter}"
                entity_counter += 1

                # Anotar la entidad 'tail'
                entities.append(f"T{entity_counter}\t{row['tail_type']} {tail_start} {tail_end}\t{row['tail'].strip()}")
                tail_entity = f"T{entity_counter}"
                entity_counter += 1

                # Anotar la relación entre 'head' y 'tail'
                relations.append(f"R{relation_counter}\t{row['type']} Arg1:{head_entity} Arg2:{tail_entity}")
                relation_counter += 1

        # Guardar las anotaciones para este artículo
        brat_annotations[article] = '\n'.join(entities + relations)
        textos[article] = texto

    return textos, brat_annotations

# Ejemplo de uso
# Suponiendo que `data_df` es el DataFrame con las columnas ['article', 'head', 'head_type', 'type', 'tail', 'tail_type']
# Y que `contenidos` es un diccionario con los textos de cada artículo
textos, brat_annotations = convertir_a_brat(data_df, contenidos)

# Guardar los archivos en formato .ann
for article, annotation in brat_annotations.items():
    with open(f'{bas}/Joel_Pardo/TeresIA/estatuto_hohfeld/{article}.ann', 'w', encoding='utf-8') as f:
        f.write(annotation)

for article, texto in textos.items():
    with open(f'{bas}/Joel_Pardo/TeresIA/estatuto_hohfeld/{article}.txt', 'w', encoding='utf-8') as f:
        f.write(texto)