In [1]:
import os

base = os.getcwd()
base

'/home/jovyan/Joel_Pardo/TeresIA'

In [2]:
import os
import pandas as pd

# Ruta al directorio donde están los archivos `.ann`
paths = ["/teresia/server/estatuto/dpej_terms",
        "/teresia/server/estatuto/estatuto_hohfeld",
        "/teresia/server/estatuto/estatuto_rebel",
        "/teresia/server/estatuto/labourlaw_terms"
       ]


general = []
for i in paths:
    # Obtener la lista de archivos en el directorio
    archivos = os.listdir(base+"/"+i)
    general.append({
        "path": i,
        "archivos": archivos
    })
    


In [3]:
from pprint import pprint

pprint(general)

[{'archivos': ['articulo_52.ann',
               'articulo_59.ann',
               'articulo_52.txt',
               'articulo_13.txt',
               'articulo_15.ann',
               'articulo_89.txt',
               'articulo_42.txt',
               'articulo_32.ann',
               'articulo_85.txt',
               'articulo_38.txt',
               'articulo_5.txt',
               'articulo_81.ann',
               'articulo_54.ann',
               'articulo_63.ann',
               'annotation.conf',
               'articulo_16.txt',
               'articulo_92.txt',
               'articulo_45.txt',
               'articulo_9.txt',
               'articulo_56.txt',
               'articulo_14.txt',
               'articulo_16.ann',
               'articulo_26.ann',
               'articulo_11.ann',
               'articulo_82.ann',
               'articulo_31.txt',
               'articulo_57.txt',
               'articulo_28.txt',
               'articulo_61.txt',
               '

In [4]:
# Función para verificar si un archivo .ann tiene contenido
def check_ann_file_content(path, file):
    try:
        full_path = base+"/"+path+"/"+file
        return os.path.getsize(full_path) > 0
        
    except FileNotFoundError:
        return False

# Creación de una lista para construir el DataFrame
data_list = []

for item in general:
    path = item['path']
    ann_files = [file for file in item['archivos'] if file.endswith('.ann')]
    for ann_file in ann_files:
        has_content = check_ann_file_content(path, ann_file)
        data_list.append([path, ann_file, has_content])

# Creación del DataFrame
df = pd.DataFrame(data_list, columns=['path', 'ann_file', 'has_content'])
display(df)

Unnamed: 0,path,ann_file,has_content
0,/teresia/server/estatuto/dpej_terms,articulo_52.ann,True
1,/teresia/server/estatuto/dpej_terms,articulo_59.ann,False
2,/teresia/server/estatuto/dpej_terms,articulo_15.ann,True
3,/teresia/server/estatuto/dpej_terms,articulo_32.ann,True
4,/teresia/server/estatuto/dpej_terms,articulo_81.ann,False
...,...,...,...
275,/teresia/server/estatuto/labourlaw_terms,articulo_47.ann,True
276,/teresia/server/estatuto/labourlaw_terms,articulo_89.ann,True
277,/teresia/server/estatuto/labourlaw_terms,articulo_79.ann,True
278,/teresia/server/estatuto/labourlaw_terms,articulo_86.ann,True


In [5]:
# Comprobamos que funciona con REBEL
rebel = df[df['path']=='/teresia/server/estatuto/estatuto_rebel']
display(rebel)

Unnamed: 0,path,ann_file,has_content
94,/teresia/server/estatuto/estatuto_rebel,articulo_52.ann,True
95,/teresia/server/estatuto/estatuto_rebel,articulo_59.ann,True
96,/teresia/server/estatuto/estatuto_rebel,articulo_15.ann,True
97,/teresia/server/estatuto/estatuto_rebel,articulo_32.ann,True
98,/teresia/server/estatuto/estatuto_rebel,articulo_81.ann,True
...,...,...,...
182,/teresia/server/estatuto/estatuto_rebel,articulo_47.ann,True
183,/teresia/server/estatuto/estatuto_rebel,articulo_89.ann,True
184,/teresia/server/estatuto/estatuto_rebel,articulo_79.ann,True
185,/teresia/server/estatuto/estatuto_rebel,articulo_86.ann,True


In [6]:
import random

# Filtramos solo las filas donde has_content es True
df_with_content = df[df['has_content'] == True]

# Verificamos si hay archivos .ann comunes entre los distintos paths
common_files = df_with_content['ann_file'].value_counts()
common_files = common_files[common_files == df_with_content['path'].nunique()]
display(common_files)


# Si existen archivos comunes, seleccionamos uno al azar
if not common_files.empty:
    selected_file = random.choice(common_files.index.tolist())
else:
    selected_file = None  # No hay archivos comunes con contenido

print(selected_file)


ann_file
articulo_52.ann    3
articulo_21.ann    3
articulo_48.ann    3
articulo_37.ann    3
articulo_17.ann    3
articulo_67.ann    3
articulo_25.ann    3
articulo_27.ann    3
articulo_40.ann    3
articulo_41.ann    3
articulo_30.ann    3
articulo_4.ann     3
articulo_28.ann    3
intro.ann          3
articulo_46.ann    3
articulo_39.ann    3
articulo_29.ann    3
articulo_49.ann    3
articulo_15.ann    3
articulo_88.ann    3
articulo_73.ann    3
articulo_75.ann    3
articulo_35.ann    3
articulo_56.ann    3
articulo_55.ann    3
articulo_47.ann    3
articulo_44.ann    3
articulo_8.ann     3
articulo_51.ann    3
articulo_85.ann    3
articulo_12.ann    3
articulo_7.ann     3
articulo_32.ann    3
articulo_54.ann    3
articulo_16.ann    3
articulo_26.ann    3
articulo_82.ann    3
articulo_33.ann    3
articulo_13.ann    3
articulo_84.ann    3
articulo_76.ann    3
articulo_74.ann    3
articulo_34.ann    3
articulo_11.ann    3
articulo_23.ann    3
articulo_24.ann    3
articulo_50.ann    3
arti

articulo_52.ann


In [7]:
def carga_ann(ann_file):
    annotations = []
    try:
        with open(ann_file, 'r') as file:
            for line in file:
                annotations.append(line.strip())  # Agrega cada línea al array de annotations
    except FileNotFoundError:
        print(f"Archivo {ann_file} no encontrado.")
    return annotations


In [8]:
# Diccionario para los sufijos
suffixes = {
    "/teresia/server/estatuto/dpej_terms": "DPJ",
    "/teresia/server/estatuto/estatuto_hohfeld": "HFD",
    "/teresia/server/estatuto/estatuto_rebel": "RBL",
    "/teresia/server/estatuto/labourlaw_terms": "LLT"
}

# Archivo donde se guardarán todas las anotaciones combinadas
output_file = base+"/prueba_estatuto_comun/"+selected_file


terms = []       # Lista para almacenar términos (inicia con 'T')
relations = []   # Lista para almacenar relaciones (inicia con 'R')

# Contadores para numerar términos y relaciones de manera única
term_counter = 1
relation_counter = 1



# Crea el archivo de salida

# Recorre cada item en el diccionario 'general'
for item in general:
    path = item['path']
    ann_files = [file for file in item['archivos'] if file == selected_file]
    
    # Determina el sufijo para las anotaciones en función del path
    suffix = suffixes.get(path, "")

    for ann_file in ann_files:
        full_path = base+"/"+path+"/"+ann_file
        annotations = carga_ann(full_path)
        
         # Modifica y guarda cada línea de anotación según su tipo
        for annotation in annotations:
            parts = annotation.split()
            if annotation.startswith("T"):  # Si es un término
                label = parts[1] + f"-{suffix}"  # Añade el sufijo a la etiqueta
                modified_annotation = f"T{term_counter} {label} " + " ".join(parts[2:])
                terms.append(modified_annotation)
                term_counter += 1
            elif annotation.startswith("R"):  # Si es una relación
                label = parts[1] + f"-{suffix}"  # Añade el sufijo a la etiqueta
                modified_annotation = f"R{relation_counter} {label} " + " ".join(parts[2:])
                relations.append(modified_annotation)
                relation_counter += 1
            else:
                # Otras líneas que no comiencen con T o R (si existen) se guardan sin cambios
                terms.append(annotation)

# Escribe todos los términos y luego todas las relaciones en el archivo de salida
with open(output_file, 'w') as output:
    for term in terms:
        output.write(term + '\n')
    for relation in relations:
        output.write(relation + '\n')

print(f"Archivo combinado guardado en {output_file} con numeración correcta y organización de términos y relaciones.")

Archivo combinado guardado en /home/jovyan/Joel_Pardo/TeresIA/prueba_estatuto_comun/articulo_52.ann con numeración correcta y organización de términos y relaciones.


In [9]:
def leer_txt(txt_file):
    try:
        with open(txt_file, 'r') as file:
            return file.read()  # Lee todo el contenido del archivo .txt
    except FileNotFoundError:
        print(f"Archivo {txt_file} no encontrado.")
        return None

In [10]:
# Archivo .ann seleccionado y el nombre base asociado para el archivo .txt
selected_ann_file = selected_file
selected_txt_file = selected_ann_file.replace('.ann', '.txt')  # Cambia la extensión de .ann a .txt

# Lista para almacenar los contenidos de los archivos .txt
txt_contents = []
all_equal = True  # Asumimos que son iguales inicialmente

# Recorre cada item en el diccionario 'general'
for item in general:
    path = item['path']
    archivos = item['archivos']
    
    # Verifica si el archivo .txt asociado está en el path
    if selected_txt_file in archivos:
        full_path_txt = base+"/"+path+"/"+selected_txt_file
        txt_content = leer_txt(full_path_txt)
        
        # Si es el primer archivo, simplemente almacenamos su contenido como referencia
        if len(txt_contents) == 0:
            txt_contents.append(txt_content)
        else:
            # Comparamos el contenido actual con el primero
            if txt_content != txt_contents[0]:
                all_equal = False
                print(f"El archivo {full_path_txt} difiere de los otros.")
                break  # Salimos del bucle si encontramos una diferencia

if all_equal:
    print("Todos los archivos .txt asociados son iguales en contenido.")
else:
    print("Existen diferencias en los contenidos de los archivos .txt asociados.")


El archivo /home/jovyan/Joel_Pardo/TeresIA//teresia/server/estatuto/estatuto_rebel/articulo_52.txt difiere de los otros.
Existen diferencias en los contenidos de los archivos .txt asociados.
