In [None]:
## List of requirements (ONLY IN COLLAB)
# !pip install mmh3==4.0.1
# !pip install google-api-python-client==2.122.0
# !pip install SPARQLWrapper==2.0.0
# !pip install country-list==1.0.0
# !pip install -U bitsandbytes
# !pip install evaluate
# !pip install bert_score
#!pip install unidecode

### (ONLY IN COLLAB)
## Uncompress the zip with the code
# import zipfile
# import os

# os.chdir('/content')

# # Ruta al archivo ZIP
# zip_file_path = 'ProyectoDeGrado.zip'

# # Ruta donde descomprimir los archivos (en este caso, el mismo /content)
# extract_to_path = '/content'

# # Descomprimir el archivo
# with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
#     zip_ref.extractall(extract_to_path)

# print("Archivos descomprimidos en:", extract_to_path)


In [None]:
## Download required words
import nltk
import time

nltk.download("stopwords")
nltk.download("wordnet")
nltk.download("punkt")

# Autoload all modules
%load_ext autoreload
%autoreload 2

# Crear datasets folder
import os
if not os.path.exists("Datasets"):
    os.makedirs("Datasets")

## Downloader

In [None]:
from DatasetsUtils.Downloaders.full_data import FullDataDownloader
from DatasetsUtils.Parsers.process_metadata import MetadataProcessor
from DatasetsUtils.Parsers.process_tables import TableProcessor
from DatasetsUtils.Parsers.select_tables_and_metadata import DatasetSelector

interest_words = ["Ministerio de Turismo"]

download_folder = f"PipelineDatasets/DownloadedDatasets"

downloader = FullDataDownloader(interest_words)
downloader.download_resources()
metadata_processor = MetadataProcessor()
metadata_processor.process_all()
table_processor = TableProcessor()
table_processor.process_directory()
dataset_selector = DatasetSelector()
dataset_selector.process_all()


## Parte 1: Búsqueda de conjuntos de datos 

### D3L

##### Generación de indices LSH

In [None]:
from d3l.indexing.similarity_indexes import (
    NameIndex,
    FormatIndex,
    ValueIndex,
    EmbeddingIndex,
    DistributionIndex,
)
from d3l.input_output.dataloaders import CSVDataLoader
from d3l.querying.query_engine import QueryEngine
from d3l.utils.functions import pickle_python_object, unpickle_python_object
import os
import pandas as pd

data_path = "Datasets"
result_path = "Result/"
threshold = 0.5

dataloader = CSVDataLoader(root_path=data_path, encoding="utf-8")

# Metrics
dataloader.print_table_statistics()

##### Name Index
Utiliza el análisis de q-gramas en los nombres de atributos para calcular la distancia de Jaccard entre sus conjuntos de q-gramas.

In [None]:
name_lsh = os.path.join(result_path, "Name.lsh")
print(name_lsh)
if os.path.isfile(name_lsh):
    name_index = unpickle_python_object(name_lsh)
    print("Name LSH index: LOADED!")
else:
    name_index = NameIndex(dataloader=dataloader, index_similarity_threshold=threshold)
    pickle_python_object(name_index, name_lsh)
    print("Name LSH index: SAVED!")

##### Format Index
Identifica el formato de los datos a partir de expresiones regulares

In [None]:
format_lsh = os.path.join(result_path, "./format.lsh")
if os.path.isfile(format_lsh):
    format_index = unpickle_python_object(format_lsh)
    print("Format LSH index: LOADED!")
else:
    format_index = FormatIndex(
        dataloader=dataloader, index_similarity_threshold=threshold
    )
    pickle_python_object(format_index, format_lsh)
    print("Format LSH index: SAVED!")

##### Value Index
Emplea tokens TF-IDF para representar valores, utilizando la distancia de Jaccard entre los tokens para evaluar la similitud.

In [None]:
value_lsh = os.path.join(result_path, "./value.lsh")
if os.path.isfile(value_lsh):
    value_index = unpickle_python_object(value_lsh)
    print("Value LSH index: LOADED!")
else:
    value_index = ValueIndex(
        dataloader=dataloader, index_similarity_threshold=threshold
    )
    pickle_python_object(value_index, value_lsh)
    print("Value LSH index: SAVED!")

##### Distribution Index
Evalúa la relación entre valores de atributos numéricos mediante la estadística de Kolmogorov-Smirnov.

In [None]:
distribution_lsh = os.path.join(result_path, "./distribution.lsh")
if os.path.isfile(distribution_lsh):
    distribution_index = unpickle_python_object(distribution_lsh)
    print("Distribution LSH index: LOADED!")
else:
    distribution_index = DistributionIndex(
        dataloader=dataloader, index_similarity_threshold=threshold
    )
    pickle_python_object(distribution_index, distribution_lsh)
    print("Distribution LSH index: SAVED!")

##### Embedding Index
Determina la relación del contenido textual mediante la distancia coseno entre sus representaciones vectoriales.

In [None]:
embedding_lsh = os.path.join(result_path, "./embedding.lsh")
if os.path.isfile(embedding_lsh):
    embedding_index = unpickle_python_object(embedding_lsh)
    print("Embedding LSH index: LOADED!")
else:
    embedding_index = EmbeddingIndex(
        dataloader=dataloader, index_similarity_threshold=threshold
    )
    pickle_python_object(embedding_index, embedding_lsh)
    print("Embedding LSH index: SAVED!")

## Parte 2: Navegación de datos

##### Detección de la columna sujeto
Identifica el tipo de columna y los scores de las columnas "named entity".

In [None]:
import pickle
from TableMiner.SCDection.TableAnnotation import TableColumnAnnotation as TA


def subjectColDetection(DATA_PATH, RESULT_PATH):
    table_dict = {}
    if "dict.pkl" in os.listdir(RESULT_PATH):
        with open(os.path.join(RESULT_PATH, "dict.pkl"), "rb") as f:
            table_dict = pickle.load(f)
    else:
        table_names = [
            name for name in os.listdir(DATA_PATH) if ".ipynb_checkpoints" not in name
        ]
        for tableName in table_names:
            table_dict[tableName] = []
            table = pd.read_csv(f"Datasets/{tableName}")
            try:
                annotation_table = TA(table, SearchingWeb=False)
                annotation_table.subcol_Tjs()
                table_dict[tableName].append(annotation_table.annotation)
                table_dict[tableName].append(annotation_table.column_score)
            except Exception as e:
                print(f"Error in {tableName} : {e}")
                continue
        with open(os.path.join(RESULT_PATH, "dict.pkl"), "wb") as save_file:
            pickle.dump(table_dict, save_file)
    return table_dict


SubjectCol_dict = subjectColDetection(data_path, "Result")

Utilizando los scores para las columnas "named entity", encuentra la columna sujeto para cada tabla (la que representa a la tabla)

In [None]:
result_tables = [
    name for name in os.listdir(data_path) if ".ipynb_checkpoints" not in name
]
subject_columns = []
all_columns = []
tables_without_ne = []

for table in result_tables:
    df_table = dataloader.read_table(table[:-4])
    annotation, NE_column_score = SubjectCol_dict[table]
    if NE_column_score.values():
        max_score = max(NE_column_score.values())
    else:
        tables_without_ne.append(table)
        continue
    all_columns.extend(
        [f"{table[:-4]}.{df_table.columns[i]}" for i in NE_column_score.keys()]
    )
    subcol_index = [key for key, value in NE_column_score.items() if value == max_score]
    for index in subcol_index:
        subject_columns.append(f"{table[:-4]}.{df_table.columns[index]}")
print(subject_columns)
print("Amount of tables that don't have NE columns: ", len(tables_without_ne))
print("Tables without NE columns: ", tables_without_ne)

### Aurum

In [None]:
from Aurum.graph import buildGraph, draw_interactive_network

aurum_graph = buildGraph(
    dataloader,
    data_path,
    [name_index, value_index],
    target_path="Result",
    table_dict=SubjectCol_dict,
)
import networkx as nx


# Obtiene el subgrafo dado por los nodos "given_nodes" y sus relacionados
def subgraph(given_nodes, graph: nx.Graph()):
    subgraphs = list(nx.connected_components(graph))
    relevant_nodes = set()
    for node in given_nodes:
        for sg in subgraphs:
            if node in sg:
                relevant_nodes.update(sg)
    new_graph = aurum_graph.subgraph(relevant_nodes).copy()
    return new_graph

Subgrafo que contiene solo los nodos que corresponden a subject_columns

In [None]:
result_SC_graph = subgraph(subject_columns, aurum_graph)
draw_interactive_network(result_SC_graph)

Subgrafo que contiene todos los nodos (uno por cada columna)

In [None]:
result_graph = subgraph(all_columns, aurum_graph)
draw_interactive_network(result_graph)

## Carga del LLM

In [None]:
# Cargar LLM

from MetadataLLM.abstract import ModelManager
import torch
import os

os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

torch.device("cuda" if torch.cuda.is_available() else "cpu")
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
print("Using devide:", DEVICE)
print("Number of cuda:", torch.cuda.device_count())

# Inicialización del modelo y tokenizador
model_name = "meta-llama/Llama-3.2-3B-Instruct"
access_token = "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"

# Carga en el atributo de clase el modelo y el tokenizador
ModelManager.initialize_model(model_name, access_token, DEVICE)

## Parte 3: Anotación de datos

In [None]:
import pandas as pd
from TableMiner.LearningPhase.Update import TableLearning, updatePhase, fallBack
from TableMiner.SearchOntology import SearchDBPedia


# table_domains: nombre de las tablas
table_domains = [
    name for name in os.listdir(data_path) if ".ipynb_checkpoints" not in name
]
for table in table_domains:
    table_domains[table_domains.index(table)] = table[:-4]

### Table Miner +
Anota cada columna con una entidad de Wikidata, basándose en el contenido de cada celda de la columna

In [None]:
# Genera anotaciones dada una tabla
def table_annotation(tableName, subcol_dict):
    tableD = dataloader.read_table(tableName)
    print(tableD)
    annotation_table, NE_Score = subcol_dict[tableName + ".csv"]
    print(annotation_table)
    # Fase de aprendizaje
    tableLearning = TableLearning(tableName, tableD, NE_column=NE_Score)
    # Fase de actualización
    print("starting learning phase")
    tableLearning.table_learning()
    print("starting update phase")
    updatePhase(tableLearning)
    fallBack(tableLearning, simple_mode=False)
    return tableLearning

In [None]:
# Guarda las anotaciones en un archivo
def store_learning(table, learning, dict_path, dict_name):
    target_file = os.path.join(dict_path, dict_name)
    if os.path.isfile(target_file):
        with open(target_file, "rb") as file:
            dict_annotation = pickle.load(file)
    else:
        dict_annotation = {}
    dict_annotation[table] = learning[table]
    with open(target_file, "wb") as file:
        pickle.dump(dict_annotation, file)

In [None]:
import sys

# Guardar la salida estándar original
original_stdout = sys.stdout

# Abrir el archivo para escribir la salida
with open("output.log", "w") as f:
    sys.stdout = f  # Redirigir la salida a output.log

    learning = {}
    for table in table_domains:
        print(f"\n ---- \n Starting learning for {table} \n ---- \n")
        learning[table] = table_annotation(table, SubjectCol_dict)

    for table in table_domains:
        store_learning(table, learning, "Result", "annotationDict.pkl")

# Restaurar la salida estándar original
sys.stdout = original_stdout

print("Proceso finalizado. La salida ha sido guardada en output.log")

In [None]:
def generar_salida_anotaciones(lista_tablas, dict_of_annotation, SubjectCol_dict):
    estructura = {}

    for nombre_tabla in lista_tablas:
        estructura[nombre_tabla] = {}

        # Obtener datos de anotación para la tabla específica
        learningT = dict_of_annotation[nombre_tabla]
        annotation_class = learningT.get_annotation_class()

        # Obtener tipos y puntuaciones de columnas
        column_types = SubjectCol_dict[nombre_tabla + ".csv"][0]
        column_scores = SubjectCol_dict[nombre_tabla + ".csv"][1]

        tableDataframe = dataloader.read_table(nombre_tabla)
        for col_index, col_type in column_types.items():
            column = tableDataframe.iloc[:, col_index]
            if col_index in annotation_class:
                # Obtener conceptos y URIS
                ColumnSemantics = list(
                    annotation_class[col_index].get_winning_concepts()
                )
                mapping = annotation_class[col_index].get_mapping_id_label()
                entities = [
                    {"uri": item, "concept": concept}
                    for concept in ColumnSemantics
                    if concept in mapping
                    for item in mapping[concept]
                ]
            else:
                entities = []

            # Agregar datos al diccionario de salida para la columna
            estructura[nombre_tabla][column.name] = {
                "entities": entities,
                "type": col_type.name,
            }

    return estructura


with open("Result/annotationDict.pkl", "rb") as file:
    dict_annotation = pickle.load(file)

# genero las salidas
annotations = generar_salida_anotaciones(table_domains, learning, SubjectCol_dict)

# Imprimir salida en formato JSON
import json
with open("annotations_output.json", "w", encoding="utf-8") as f:
    json.dump(annotations, f, indent=4, ensure_ascii=False)

Guardo queries y resultados en cache

In [None]:
from TableMiner.Cache.cache_handler import OntologyRequestHandler

ontology_request_handler = OntologyRequestHandler("Result", "ontologyRequests.pkl")

# Cargar solicitudes
request_cache = ontology_request_handler.load_ontology_requests()
ontology_request_handler.pretty_print_json(request_cache.get("searches", {}))

# Mostrar estadísticas de llamadas a la red
ontology_request_handler.display_network_calls()

# Guardar solicitudes
ontology_request_handler.store_ontology_requests()

### Evaluación

##### Construyo el submission_annotations

In [None]:
"""
Guardo las anotaciones en un csv, como las recibe el evaluador
En formato: TABLE, COL_ID, ANNOTATION
"""
import pandas as pd

def findAnnotation(dict_of_annotation, tableList):
    data = []
    for tableN in tableList:
        learningT = learning[tableN]
        annotation_class = learningT.get_annotation_class()

        for columnIndex, learning_class in annotation_class.items():
            tableDataframe = dataloader.read_table(tableN)
            col_name = tableDataframe.columns[columnIndex]
            column = tableDataframe.iloc[:, columnIndex]
            ColumnSemantics = learning_class.get_winning_concepts()
            label_id_mapping = learning_class.get_mapping_id_label()
            # Guarda el identificador y anotaciones en el formato esperado
            annotations = " ".join(
                " ".join(map(str, label_id_mapping[concept])) 
                for concept in ColumnSemantics if concept in label_id_mapping
            )
            row = {
                "tab_id": tableN,
                "col_id": columnIndex,
                "annotations": annotations
            }
            data.append(row)

    # Crea un DataFrame y guárdalo en CSV
    df_annotations = pd.DataFrame(data)
    df_annotations.to_csv("submission_annotations.csv", index=False, header=False)
    print("Archivo de anotaciones generado como 'submission_annotations.csv'.")

# Ejecuta la función con el archivo de anotaciones
with open("Result/annotationDict.pkl", 'rb') as file:
    dict_annotation = pickle.load(file)
    
findAnnotation(dict_annotation, table_domains)

##### Evaluación SemTab

In [None]:
from evaluation.CTA_WD_Evaluator import CTA_Evaluator

# Inicializa el evaluador con el archivo de ground truth
answer_file_path = "evaluation/cta_gt.csv"
cta_evaluator = CTA_Evaluator(answer_file_path)

# Define el payload del cliente
client_payload = {
    "submission_file_path": "submission_annotations.csv",
    "aicrowd_submission_id": 1234,
    "aicrowd_participant_id": 5678
}

# Ejecuta la evaluación
result = cta_evaluator._evaluate(client_payload, _context={})

# Muestra los resultados
print("Resultados de la evaluación:", result)

##### Evaluación anotaciones Catálogo de Datos

In [None]:
from evaluation.CTA_Catalogo_Evaluator import CTA_Evaluator

# Inicializa el evaluador con el archivo de ground truth
answer_file_path = "evaluation/cta_catalogo_gt.csv"
cta_evaluator = CTA_Evaluator(answer_file_path)

# Define el payload del cliente
client_payload = {
    "submission_file_path": "submission_annotations.csv",
    "aicrowd_submission_id": 1234,
    "aicrowd_participant_id": 5678
}

# Ejecuta la evaluación
result = cta_evaluator._evaluate(client_payload, _context={})

# Muestra los resultados
print("Resultados de la evaluación:", result)

##### Evaluación tipos Catálogo de Datos

In [None]:
from evaluation.TYPE_Catalogo_Evaluator import TypeEvaluator

# Inicializa el evaluador con el archivo de ground truth
answer_file_path = "evaluation/type_catalogo_gt.csv"
evaluator = TypeEvaluator(answer_file_path)

# Ejecuta la evaluación
result = evaluator.evaluate("submission_type_annotations.csv")

# Muestra los resultados
print("Resultados de la evaluación:", result)

## Parte 4: LLM metadata generator  

In [None]:
from DatasetsUtils.Classificators.classificator import FileClassifier
from DatasetsUtils.helper import write_file, read_file, detect_encoding
import json

# Cargar el clasificador, con la palabra de interes usada
classifier = FileClassifier()

files_with_metadata, files_with_notes, files_with_both, files_with_nothing = (
    classifier.run()
)
print("Files with metadata: ", files_with_metadata)
print("Count: ", len(files_with_metadata), "\n")
print("Files with notes: ", files_with_notes)
print("Count: ", len(files_with_notes), "\n")
print("Files with both: ", files_with_both)
print("Count: ", len(files_with_both), "\n")
print("Files with nothing: ", files_with_nothing)
print("Count: ", len(files_with_nothing), "\n")

In [None]:
def load_additional_info(directory):
    """Loads the additional_info.json file from the directory."""
    filepath = os.path.join(directory, "additional_info.json")
    if not os.path.exists(filepath):
        raise FileNotFoundError(f"additional_info.json not found in {directory}")
    return read_file(filepath, "json")


datasets_directory = "PipelineDatasets/SelectedDatasets"
enriched_datasets_directory = "PipelineDatasets/EnrichedDatasets"

### Descripcion sin metadata

Para los que no tienen ni notes ni metadata

In [None]:
# Generar descripciones para los que no tienen nada. Primero se genera la descripcion de la tabla, para tomar contexto general,
# y luego metadata más especifica de cada columna.
from MetadataLLM.table_description import TableDescriptionGenerator

table_description_generator = TableDescriptionGenerator(DEVICE)

table_description_few_shots_prompt_data = [
    {
        "nombre_tabla": "medicinas",
        "nombre_recurso": "Recursos medicinales por codigo.",
        "tabla": """
          producto, codigo, via, dosis
          Paracetamol, N02BE01, Oral, 500mg
          Ibuprofeno, M01AE01, Oral, 200mg
          Amoxicilina, J01CA04, Oral, 500mg
          Metformina, A10BA02, Oral, 850mg
        """,
        "descripcion_salida": "Datos de productos medicinales, que incluyen información sobre el nombre del producto, el código ATC, la vía de administración y la dosis recomendada",
    },
    {
        "nombre_tabla": "ventas_gas_natural",
        "nombre_recurso": "Ventas Gas Natural - Volúmenes por zona geográfica",
        "tabla": """
          Mes,Año,Zona,TransporteFirme,TransporteInterrumpible,GasConsumido
          "1";"2019";"LITORAL";"1753825";"0";"267638"
          "1";"2019";"SUR";"9913738";"113289";"2341025"
          "2";"2019";"LITORAL";"1584100";"0";"177916"
          "2";"2019";"SUR";"8954344";"101339";"2408347"
          "3";"2019";"LITORAL";"1753825";"0";"311369"
          "5";"2019";"LITORAL";"1605800";"0";"355121"
        """,
        "descripcion_salida": "Datos de ventas de gas natural por mes, año, zona geográfica, transporte firme, transporte interrumpible y gas consumido",
    },
]

generated_table_descriptions = {}

for package_id in files_with_nothing:
    directory = os.path.join(datasets_directory, package_id)
    additional_info = load_additional_info(directory)
    table_resources = additional_info.get("table_resources", {})

    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue

    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))

    table_description = table_description_generator.generate_description(
        table, table_id, additional_info, table_description_few_shots_prompt_data
    )
    generated_table_descriptions[package_id] = table_description

In [None]:
# Guardar las descripciones generadas
output_directory = os.path.join(enriched_datasets_directory)
os.makedirs(output_directory, exist_ok=True)

for package_id in files_with_nothing:
    directory = os.path.join(datasets_directory, package_id)
    additional_info = load_additional_info(directory)
    additional_info["notes"] = generated_table_descriptions[package_id]

    output_directory_package = os.path.join(output_directory, package_id)
    os.makedirs(output_directory_package, exist_ok=True)

    write_file(
        os.path.join(output_directory_package, "additional_info.json"),
        additional_info,
        "json",
        "utf-8",
    )

### Metadata (Column description)

In [None]:
from MetadataLLM.column_description import ColumnDescriptionGenerator

column_description_generator = ColumnDescriptionGenerator(DEVICE)

column_description_few_shots_prompt_data = [
    {
        "nombre_tabla": "medicinas",
        "nombre_recurso": "Recursos medicinales por codigo.",
        "contexto": "Datos de productos medicinales, que incluyen información sobre el nombre del producto, el código ATC, la vía de administración y la dosis recomendada",
        "tabla": """
          producto, codigo, via, dosis
          Paracetamol, N02BE01, Oral, 500mg
          Ibuprofeno, M01AE01, Oral, 200mg
          Amoxicilina, J01CA04, Oral, 500mg
          Metformina, A10BA02, Oral, 850mg
        """,
        "columna_de_interes": "via",
        "descripcion_salida": "Esta columna contiene información sobre la vía de administración de los productos medicinales",
    },
    {
        "nombre_tabla": "Distribución porcentual del Gasto Publico Social (GPS)",
        "nombre_recurso": "GPS en Asistencia y Seguridad Social según principales incisos",
        "contexto": "Datos de la distribución porcentual del Gasto Público Social (GPS) en asistencia y seguridad social según los principales incisos",
        "tabla": """
            Incisos principales GPS,año,valor
            BPS,2018,78.7
            Ministerio de Desarrollo Social,2010,1.8
            Ministerio de Desarrollo Social,2018,3.4
            Otros,2015,13.8
            Transferencias a la seguridad social,2010,1.1
            BPS,2017,79.2
            Otros,2014,13.5
            Ministerio de Desarrollo Social,2012,2.1
            Inau,2014,2.9
            Ministerio de Desarrollo Social,2011,1.9
        """,
        "columna_de_interes": "Incisos principales GPS",
        "descripcion_salida": "Incisos principales del Gasto Público Social (GPS) en asistencia y seguridad social",
    },
    {
        "nombre_tabla": "Distribución porcentual del Gasto Publico Social (GPS)",
        "nombre_recurso": "GPS en Asistencia y Seguridad Social según principales incisos",
        "contexto": "Datos de la distribución porcentual del Gasto Público Social (GPS) en asistencia y seguridad social según los principales incisos",
        "tabla": """
            Incisos principales GPS,año,valor
            BPS,2018,78.7
            Ministerio de Desarrollo Social,2010,1.8
            Ministerio de Desarrollo Social,2018,3.4
            Otros,2015,13.8
            Transferencias a la seguridad social,2010,1.1
            BPS,2017,79.2
            Otros,2014,13.5
            Ministerio de Desarrollo Social,2012,2.1
            Inau,2014,2.9
            Ministerio de Desarrollo Social,2011,1.9
        """,
        "columna_de_interes": "año",
        "descripcion_salida": "Año en el cual se realizó la medida",
    },
    {
        "nombre_tabla": "Distribución porcentual del Gasto Publico Social (GPS)",
        "nombre_recurso": "GPS en Asistencia y Seguridad Social según principales incisos",
        "contexto": "Datos de la distribución porcentual del Gasto Público Social (GPS) en asistencia y seguridad social según los principales incisos",
        "tabla": """
            Incisos principales GPS,año,valor
            BPS,2018,78.7
            Ministerio de Desarrollo Social,2010,1.8
            Ministerio de Desarrollo Social,2018,3.4
            Otros,2015,13.8
            Transferencias a la seguridad social,2010,1.1
            BPS,2017,79.2
            Otros,2014,13.5
            Ministerio de Desarrollo Social,2012,2.1
            Inau,2014,2.9
            Ministerio de Desarrollo Social,2011,1.9
        """,
        "columna_de_interes": "valor",
        "descripcion_salida": "Valor porcentual de la distribución del Gasto Público Social (GPS) en ese inciso",
    },
]


column_descriptions = {}

for package_id in files_with_notes:
    directory = os.path.join(datasets_directory, package_id)
    additional_info = load_additional_info(directory)
    table_resources = additional_info.get("table_resources", {})

    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue

    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))

    columnas = table.columns
    column_descriptions[package_id] = {}
    for col in columnas:
        column_description = column_description_generator.generate_column_description(
            table,
            table_id,
            col,
            additional_info,
            column_description_few_shots_prompt_data,
        )
        column_descriptions[package_id][col] = column_description

# Files with nothing con notes ya generadas
for package_id in files_with_nothing:
    directory = os.path.join(datasets_directory, package_id)
    enriched_directory = os.path.join(enriched_datasets_directory, package_id)
    additional_info = load_additional_info(enriched_directory)
    table_resources = additional_info.get("table_resources", {})

    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue

    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))

    columnas = table.columns
    column_descriptions[package_id] = {}
    for col in columnas:
        column_description = column_description_generator.generate_column_description(
            table,
            table_id,
            col,
            additional_info,
            column_description_few_shots_prompt_data,
        )
        column_descriptions[package_id][col] = column_description

In [None]:
# Crear archivo de metadata con las descripciones de las columnas, tipos y entidades anotadas
# El archivo de metadata es un JSON
output_directory = os.path.join(enriched_datasets_directory)
os.makedirs(output_directory, exist_ok=True)

concatenated_lists = files_with_notes + files_with_nothing

for package_id in concatenated_lists:
    directory = os.path.join(datasets_directory, package_id)
    metadata_file_path = os.path.join(directory, "metadata_generated.json")
    additional_info = load_additional_info(directory)
    table_resources = additional_info.get("table_resources", {})

    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue

    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))

    columnas = table.columns
    # Cargar el JSON de metadata file con los datos
    metadata_file = {}
    metadata_file["atributos"] = []

    for col in columnas:
        column_description = column_descriptions[package_id][col]
        if (
            annotations.get(f"table_{table_id}", {}).get(col, {}).get("entities", [{}])
            == []
        ):
            recursoRelacionado = ""
        else:
            recursoRelacionado = (
                annotations.get(f"table_{table_id}", {})
                .get(col, {})
                .get("entities", [{}])[0]
                .get("uri", "")
            )
        tipoDeDato = (
            annotations.get(f"table_{table_id}", {}).get(col, {}).get("type", "")
        )
        atributo = {
            "descripcion": column_description,
            "tipoDeDato": tipoDeDato,
            "nombreDeAtributo": col,
            "informacionAdicional": "",
            "recursoRelacionado": recursoRelacionado,
        }
        metadata_file["atributos"].append(atributo)

    write_file(
        os.path.join(output_directory, package_id, "metadata_generated.json"),
        metadata_file,
        "json",
        "utf-8",
    )

### Descripción usando metadata

Para los que tienen metadata pero no notes

In [None]:
# Generar descripciones para los que no tienen nada. Primero se genera la descripcion de la tabla, para tomar contexto general,
# y luego metadata más especifica de cada columna.
from MetadataLLM.table_description_with_metadata import (
    TableDescriptionWithMetadataGenerator,
)

table_description_generator = TableDescriptionWithMetadataGenerator(DEVICE)

metadata_description_few_shots_prompt_data = [
    {
        "nombre_tabla": "Distribución porcentual del Gasto Publico Social (GPS)",
        "nombre_recurso": "GPS en Asistencia y Seguridad Social según principales incisos",
        "tabla": """
            Incisos principales GPS,año,valor
            BPS,2018,78.7
            Ministerio de Desarrollo Social,2010,1.8
            Ministerio de Desarrollo Social,2018,3.4
            Otros,2015,13.8
            Transferencias a la seguridad social,2010,1.1
            BPS,2017,79.2
            Otros,2014,13.5
            Ministerio de Desarrollo Social,2012,2.1
            Inau,2014,2.9
            Ministerio de Desarrollo Social,2011,1.9
            Transferencias a la seguridad social,2005,0.2
            Otros,2012,13.4
            Inau,2015,2.9
            BPS,2012,80.3
            Inau,2013,2.9
            Transferencias a la seguridad social,2016,1.1
            Transferencias a la seguridad social,2017,1.0
            Transferencias a la seguridad social,2015,1.2
            BPS,2016,79.4
            Transferencias a la seguridad social,2014,1.2
            Ministerio de Desarrollo Social,2015,2.5
        """,
        "metadata_files": [
            """
            {
            "atributos": [
                {
                "descripcion": "Incisos principales GPS",
                "informacionAdicional": "",
                "tipoDeDato": "String",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Incisos principales GPS"
                },
                {
                "descripcion": "año",
                "informacionAdicional": "",
                "tipoDeDato": "Number",
                "recursoRelacionado": "",
                "nombreDeAtributo": "año"
                },
                {
                "descripcion": "valor",
                "informacionAdicional": "",
                "tipoDeDato": "Number",
                "recursoRelacionado": "",
                "nombreDeAtributo": "valor"
                }
            ],
            "titulo": "Metadatos de Distribución porcentual del GPS en Asistencia y Seguridad Social según principales incisos",
            "descripcion": "Distribución porcentual del GPS en Asistencia y Seguridad Social según los principales incisos que lo ejecutan",
            "calculo": "(GPS en cada inciso/Total de GPS en Asistencia y Seguridad Social)*100",
            "unidad": "Porcentaje",
            "fuente": "MIDES Dirección Nacional de Evaluación y Monitoreo",
            "direccion": "Dirección Nal. de Evaluación y Monitoreo",
            }
            """
        ],
        "descripcion_salida": """Distribución porcentual del Gasto Publico Social (GPS) en Asistencia y Seguridad Social según los principales incisos que lo ejecutan""",
    },
]

generated_table_descriptions = {}

for package_id in files_with_metadata:
    directory = os.path.join(datasets_directory, package_id)
    additional_info = load_additional_info(directory)
    table_resources = additional_info.get("table_resources", {})
    metadata_resources = additional_info.get("metadata_resources", {})

    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue

    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))

    # Tomamos la primera key de metadata_resources
    metadata_id = list(metadata_resources.keys())[0]
    metadata = read_file(
        os.path.join(directory, f"metadata_{metadata_id}.json"), "json"
    )

    table_description = table_description_generator.generate_description_with_metadata(
        table,
        table_id,
        metadata,
        additional_info,
        metadata_description_few_shots_prompt_data,
    )
    generated_table_descriptions[package_id] = table_description

In [None]:
# Guardar las descripciones generadas
output_directory = os.path.join(enriched_datasets_directory)
os.makedirs(output_directory, exist_ok=True)

for package_id in files_with_metadata:
    directory = os.path.join(datasets_directory, package_id)
    additional_info = load_additional_info(directory)
    additional_info["notes"] = generated_table_descriptions[package_id]

    output_directory_package = os.path.join(output_directory, package_id)
    os.makedirs(output_directory_package, exist_ok=True)

    write_file(
        os.path.join(output_directory_package, "additional_info.json"),
        additional_info,
        "json",
        "utf-8",
    )

# Unificar resultados en FinalMetadata

Mergear lo generado en EnrichedDatasets con lo que se mantuvo de SelectedDatasets
y crear FinalDatasets

In [None]:
import os
import shutil
import json


def copy_directory(src, dest):
    """Copy a directory and its contents to another directory.
    If the destination directory already exists, it will be replaced.
    """
    if os.path.exists(dest):
        shutil.rmtree(dest)
    shutil.copytree(src, dest)


final_datasets_directory = "PipelineDatasets/FinalDatasets"

os.makedirs(final_datasets_directory, exist_ok=True)

# Copiar los archivos de SelectedDatasets a FinalDatasets
selected_src = os.path.join(datasets_directory)
final_dest = os.path.join(final_datasets_directory)
copy_directory(selected_src, final_dest)

# Buscar los directorios en EnrichedDatasets y sobreescribir los archivos en FinalDatasets
enriched_src = os.path.join(enriched_datasets_directory)
if os.path.exists(enriched_src):
    for package_id in os.listdir(enriched_src):
        print(f"Processing package {package_id}")
        package_src = os.path.join(enriched_src, package_id)
        package_dest = os.path.join(final_dest, package_id)

        # Asegurar que el directorio de destino exista
        os.makedirs(package_dest, exist_ok=True)

        if os.path.exists(os.path.join(package_src, "additional_info.json")):
            print("Copying additional_info.json")
            shutil.copy(os.path.join(package_src, "additional_info.json"), package_dest)

        if os.path.exists(os.path.join(package_src, "metadata_generated.json")):
            print("Updating metadata_generated.json")
            metadata_generated = read_file(
                os.path.join(package_src, "metadata_generated.json"), "json"
            )

            additional_info_path = os.path.join(package_dest, "additional_info.json")
            if os.path.exists(additional_info_path):
                additional_info = read_file(additional_info_path, "json")

                additional_info["metadata_resources"]["metadata_generated"] = {}
                additional_info["metadata_resources"]["metadata_generated"]["name"] = (
                    "metadata_generated"
                )
                additional_info["metadata_resources"]["metadata_generated"][
                    "description"
                ] = "Descripción de los datos / Diccionario de datos"
                additional_info["metadata_resources"]["metadata_generated"][
                    "format"
                ] = "json"

                write_file(additional_info_path, additional_info, "json", "utf-8")
                write_file(
                    os.path.join(package_dest, "metadata_generated.json"),
                    metadata_generated,
                    "json",
                    "utf-8",
                )

# Celda de Prueba para generación de Concepto de una columna

In [None]:
from DatasetsUtils.helper import read_file
def load_additional_info(directory):
    """Loads the additional_info.json file from the directory."""
    filepath = os.path.join(directory, "additional_info.json")
    if not os.path.exists(filepath):
        raise FileNotFoundError(f"additional_info.json not found in {directory}")
    return read_file(filepath, "json")
    
datasets_directory = "PipelineDatasets/SelectedDatasets"
enriched_datasets_directory = "PipelineDatasets/EnrichedDatasets"
interest_word="transparencia"

In [None]:
from MetadataLLM.column_concept import ColumnConceptGenerator

column_concepts_generator = ColumnConceptGenerator(DEVICE)

# Few shots. TODO: Agregar más, y mejores.
few_shots_column_concept = """
#### Ejemplo 1:
Nombre de la Tabla: Proporción de jóvenes que tuvieron acceso a sustancias por tipo de sustancia.
Contexto: Proporción de jóvenes que tuvieron acceso a sustancias por tipo de sustancia. Las sustancias consideradas son: Marihuana, cocaína, pastillas, pegamento, pasta base y otras
Nombre Columna: Sustancia
Valores:
- Sustancia
- Pegamento
- Pastillas
- Cocaína
- Pasta base
- Marihuana

### Concepto sugerido:
psychoactive drug

#### Ejemplo 2:
Nombre de la Tabla: Porcentaje de jóvenes que tienen cuenta de e-mail, Facebook y Twitter.
Contexto: Proporción de jóvenes que tienen cuenta de e-mail, Facebook y Twitter según quintiles de ingreso.
Nombre Columna: Redes Sociales
Valores:
- Twitter
- e-mail
- Facebook

### Concepto sugerido:
social media
'''

# Tomamos un directorio random de datasets_directory
directory = os.path.join(datasets_directory, "1f46180c-5e9a-41eb-a730-40fef51e63c0")
column_name = "Descripcion"

additional_info = load_additional_info(directory)
table_resources = additional_info.get("table_resources", {})

if len(table_resources) == 0:
    print(f"No resources found for package {package_id}")
    exit()

# Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
table_id = list(table_resources.keys())[0]
table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))

# Metadata
metadata_resources = additional_info.get("metadata_resources", {})

if len(metadata_resources) == 0:
    print(f"No metadata resources found for package {package_id}")
else:
    metadata_id = list(metadata_resources.keys())[0]
    metadata = read_file(
        os.path.join(directory, f"metadata_{metadata_id}.json"), "json"
    )

column_concept = column_concepts_generator.generate_concept(
    table, table_id, metadata, additional_info, column_name, few_shots_column_concept
)

print(column_concept)

# RAG

In [None]:
import os
import json
from sentence_transformers import SentenceTransformer
from sklearn.neighbors import NearestNeighbors
import numpy as np

# Cargar modelo de Sentence Transformers
# embedding_model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embedding_model = SentenceTransformer(
    "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
)

In [None]:
# Prueba con varias formas de escribir descripción
def get_description(attr):
    if attr.get("descripcion", None) != None:
        return attr["descripcion"]
    elif attr.get("Descripcion", None) != None:
        return attr["Descripcion"]
    elif attr.get("descripción", None) != None:
        return attr["descripción"]
    elif attr.get("Descripción", None) != None:
        return attr["Descripción"]
    return ""


def stringify(metadata, table, additional_info, metadata_info, metadata_texts):
    stringified_metadata = ""
    count = 0
    for attr in metadata["atributos"]:
        atributo = attr["nombreDeAtributo"]
        descripcion = get_description(attr)
        stringified_metadata += f"{atributo}: {descripcion}\n"
        valores_columna = table.iloc[:, count].unique()
        stringified_metadata += (
            f"Valores de la columna: {', '.join(map(str, valores_columna))} \n \n"
        )
        count += 1

    metadata_texts.append(stringified_metadata)
    metadata_info.append(additional_info)

    return metadata_texts, metadata_info


# Función para cargar metadatos desde subdirectorios y preparar textos para el embedding
def load_and_prepare_data(base_directory):
    metadata_texts = []
    metadata_info = []

    # Iterar a través de cada subdirectorio en el directorio base
    for id_package in os.listdir(base_directory):
        package_path = os.path.join(base_directory, id_package)
        if os.path.isdir(package_path):  # Asegurarse de que es un directorio
            for filename in os.listdir(package_path):
                if filename.startswith("additional_info"):
                    filepath = os.path.join(package_path, filename)
                    with open(filepath, "r", encoding="utf-8") as file:
                        data = json.load(file)
                        data["id"] = id_package
                        title = data.get("title", "")
                        notes = data.get("notes", "")
                        organization = data.get("organization", "")
                        table_description = " ".join(
                            res["description"]
                            for res in data["table_resources"].values()
                        )

                        full_text = f"Titulo: {title} - Descripcion: {notes} - Organizacion: {organization} - Tabla: {table_description}"
                        metadata_texts.append(full_text)
                        metadata_info.append(data)

                        # Agarrar la key del primer metadata resources
                        metadata_path = (
                            f"{list(data['metadata_resources'].keys())[0]}.json"
                        )
                        if "metadata" in metadata_path:
                            metadata = json.load(
                                open(
                                    os.path.join(package_path, metadata_path),
                                    "r",
                                    encoding="utf-8",
                                )
                            )
                        else:
                            metadata = json.load(
                                open(
                                    os.path.join(
                                        package_path, f"metadata_{metadata_path}"
                                    ),
                                    "r",
                                    encoding="utf-8",
                                )
                            )

                        table = pd.read_csv(
                            os.path.join(
                                package_path,
                                f"table_{list(data['table_resources'].keys())[0]}.csv",
                            )
                        )
                        # Concatenar información relevante
                        metadata_texts, metadata_info = stringify(
                            metadata, table, data, metadata_info, metadata_texts
                        )

    return metadata_texts, metadata_info


# Cargar los datos
base_directory = f"PipelineDatasets/FinalDatasets"
metadata_texts, metadata_info = load_and_prepare_data(base_directory)

print(metadata_texts)
print(metadata_info)

In [None]:
# Appendear "passage" al inicio de cada texto
metadata_texts = ["passage: " + text for text in metadata_texts]

metadata_embeddings = embedding_model.encode(metadata_texts)

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity


def find_closest_resource(query, k=2):
    """
    Encuentra los recursos más similares a una consulta según embeddings.

    Parámetros:
        query (str): Texto de la consulta.
        metadata_embeddings (np.array): Matriz de embeddings de los metadatos.
        metadata_info (list): Lista de información asociada a los metadatos.
        embedding_model: Modelo de embeddings usado para codificar el texto.
        k (int): Número máximo de resultados a devolver.
        threshold (float): Similitud mínima para considerar un resultado.

    Retorna:
        list: Lista de tuplas con (metadato, similitud), ordenadas por relevancia.
    """
    # Obtener el embedding de la consulta
    query_embedding = embedding_model.encode([query])

    # Calcular similitud coseno
    similarities = cosine_similarity(query_embedding, metadata_embeddings)[0]

    # Obtener los índices ordenados por similitud descendente
    sorted_indices = np.argsort(similarities)[::-1]  # De mayor a menor

    max_similarity = similarities[sorted_indices[0]]

    results = []
    for i in sorted_indices:
        if max_similarity - similarities[i] < 0.002:
            results.append((metadata_info[i], similarities[i]))
            print("---------------------------")
            print("Text")
            print(metadata_texts[i])
            print("Info")
            print(metadata_info[i])
            print("Similarities")
            print(similarities[i])
            print("---------------------------")

    # Retornar los k mejores resultados que cumplan el umbral
    return results[:k]

In [None]:
# !pip install -U bitsandbytes
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig


# Configuración de cuantización a 4 bits (para mejorar eficiencia)
# bnb_config = BitsAndBytesConfig(
#  load_in_4bit=True,
#  bnb_4bit_quant_type="nf4",
#  bnb_4bit_compute_dtype=torch.bfloat16
# )

# Inicializar el tokenizer
tokenizer = ModelManager.tokenizer

# Inicializar el modelo
model = ModelManager.model

In [None]:
import torch


# Busca con los indices generados por D3L
def syntactic_query(resource):
    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(resource["table_resources"].keys())[0]
    table_name = f"table_{table_id}"

    # Searched results, K = 2
    qe = QueryEngine(
        name_index, value_index, embedding_index, format_index, distribution_index
    )
    results, extended_results = qe.table_query(
        table=dataloader.read_table(table_name=table_name),
        aggregator=None,
        k=10,
        verbose=True,
    )

    # Remove the same table from the results
    results = [result for result in results if result[0] != table_name]

    filtered_average_scores = []
    # Filter the tables with an average of the 5 scores which is smaller than 0.5
    for result in results:
        scores = result[1]
        average_score = np.mean(scores)
        if average_score > 0.5:
            filtered_average_scores.append((result[0], scores))

    if filtered_average_scores != []:
        print("Syntactic query found:", results)

    # Read the additional info from the resources that remain on filtered_average_scores
    # Is necessary to do a greedy search on the folders of base_directory to look for the directory with the
    # same name as the table, and get the additional info from there
    # TODO: Do it more efficiently
    for table_name, _ in filtered_average_scores:
        for id_package in os.listdir(base_directory):
            package_path = os.path.join(base_directory, id_package)
            if os.path.isdir(package_path):
                if f"{table_name}.csv" in os.listdir(package_path):
                    data = load_additional_info(package_path)
                    # Acceder al único recurso en 'table_resources'
                    single_resource = next(iter(data["table_resources"].values()))
                    full_text = f"""
        #### Recurso extra:
            - Título: {data["title"]}
            - Organización: {data["organization"]}
            - Detalles: {data["notes"]}
            - URL del CSV con los datos: {single_resource["url"]}\n\n"
        """

                    return full_text
    return ""


def prompt_tuning(query, closest_resources):
    # Preparar la cabecera del prompt con la query del usuario
    tuning = f'''
    Eres un asistente especializado en la búsqueda de datos en el **Catálogo de Datos Abiertos de Uruguay**.

    ### Instrucciones:
      - Responde la consulta del usuario: **"{query}"** utilizando exclusivamente la información disponible en los recursos proporcionados.
      - No inventes datos. Si no puedes responder con la información dada, menciona que no se encontró información específica.
      - La respuesta debe ser clara, breve y útil para el usuario.
      - Sugiere los recursos disponibles con su **URL** para que el usuario pueda explorarlos.
      - **No** incluyas URLs que no estén dentro de la sección **"Información disponible"**.
      - Asegurate de solo hacer uso de los links que se proveen en la sección **"Información disponible"**.
      - **No** devuelvas explícitamente la tabla de datos en la respuesta.
      - La respuesta no debe exceder **200 palabras**.

    ### Información para usar en la respuesta:
    '''
    i = 1
    for resource, _ in closest_resources:
        # Acceder al único recurso en 'table_resources'
        single_resource = next(iter(resource["table_resources"].values()))
        tuning += f"""
        #### Recurso {i}:
            - Título: {resource["title"]}
            - Organización: {resource["organization"]}
            - Detalles: {resource["notes"]}
            - URL del CSV con los datos: {single_resource["url"]}\n\n
            - Tabla:
            {pd.read_csv(os.path.join(base_directory, f"{resource['id']}", f"table_{list(resource['table_resources'].keys())[0]}.csv"))}
        """
        i += 1

    tuning += f"""{syntactic_query(closest_resources[0][0])}"""

    tuning += f""" Ahora genera la respuesta para la query del usuario, usando la informacion dada arriba: {query} \n"""
    tuning += "### Respuesta \n"
    return tuning


# Función para generar texto con el modelo cuantizado
def generate_text_with_model(prompt):
    # Codificar el prompt en tokens
    inputs = tokenizer(prompt, return_tensors="pt")

    # Mover los tensores al dispositivo adecuado
    inputs = {key: val.to(model.device) for key, val in inputs.items()}

    # Configurar parámetros de generación
    generation_parameters = {
        "max_new_tokens": 350,
        "temperature": 0.05,  # Mantiene el output más predecible
        "top_p": 0.5,  # Reduce la probabilidad de que el modelo explore opciones raras
        "top_k": 10,  # Limita las opciones a los 10 tokens más probables
        "repetition_penalty": 1.1,
        "do_sample": True,
        "pad_token_id": tokenizer.eos_token_id,
    }

    # Generar respuesta con el modelo
    with torch.no_grad():
        generated_ids = model.generate(**inputs, **generation_parameters)

    # Decodificar los tokens generados en texto
    generated_text = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
    return generated_text


# Consulta de ejemplo y uso del modelo para generar texto
prefix = "Sugiereme conjuntos de datos que contengan información de:"
query = "acodike supergas"
closest_resources = find_closest_resource(query)

if closest_resources:
    print(f"Los recursos más cercanos a la consulta '{query}' son:")
    for resource, distance in closest_resources:
        print(f"Título: {resource['title']}")
        print(f"Organización: {resource['organization']}")
        print(f"Detalles: {resource['notes']}")
    prompt = prompt_tuning(prefix + " " + query, closest_resources)
    response_text = generate_text_with_model(prompt)
    print(prompt)

    response = response_text.split("### Respuesta")[-1]
    print(response)
else:
    print("No se encontraron recursos relevantes.")

# Descargar resultados

In [None]:
# !zip -r EnrichedDatasets.zip /content/PipelineDatasets/EnrichedDatasets
# !zip -r SelectedDatasets.zip /content/PipelineDatasets/SelectedDatasets
# !zip -r FinalDatasets.zip /content/PipelineDatasets/FinalDatasets

# from google.colab import files
# files.download('EnrichedDatasets.zip')
# files.download('SelectedDatasets.zip')
# files.download('FinalDatasets.zip')

# Evaluar resultados

In [None]:
from DatasetsUtils.dataset_evaluator import DatasetEvaluator
import os

# Crear dataset de evaluación
dataset_evaluator = DatasetEvaluator("PipelineDatasets/SelectedDatasets")

dataset_evaluator.prepare()

In [None]:
# BertScore con descripciones de los datasets
import evaluate

bertscore = evaluate.load("bertscore")


def evaluate_generated_descriptions(generated, references):
    scores = bertscore.compute(predictions=generated, references=references, lang="es")
    return scores


generated = [
    'Esta tabla recopila datos relacionados con patrocinios públicos realizados durante varios años. La tabla incluye columnas para año, patrocinio público, valor en dólares e ingreso correspondientes en pesos, aunque estos últimos están marcados como sin valores asociados ("N/C"). El'
]
references = [
    "Información sobre inversiones en publicidad por año realizadas por ANCAP"
]

evaluate_generated_descriptions(generated, references)

In [None]:
# Evaluar las "notes" del additional info de todos los archivos del groundTruth contra las de final_datasets_directory
def evaluate_notes(ground_truth_directory, final_datasets_directory, package_ids):
    evaluation = {}
    for package in package_ids:
        ground_truth_path = os.path.join(
            ground_truth_directory, package, "additional_info.json"
        )
        enriched_path = os.path.join(
            final_datasets_directory, package, "additional_info.json"
        )

        with open(ground_truth_path, "r", encoding="utf-8") as file:
            ground_truth = json.load(file)

        with open(enriched_path, "r", encoding="utf-8") as file:
            enriched = json.load(file)

        ground_truth_notes = ground_truth.get("notes", "")
        if ground_truth_notes == "":
            print("Empty notes on ", package)
            continue

        enriched_notes = enriched.get("notes", "")

        scores = evaluate_generated_descriptions([enriched_notes], [ground_truth_notes])
        evaluation[package] = scores
    return evaluation


ground_truth_directory = "PipelineDatasets/groundTruth"
package_ids = files_with_nothing + files_with_metadata
notes_evaluation = evaluate_notes(
    ground_truth_directory, os.path.join(final_datasets_directory), package_ids
)

# Imprimir rendimiento individual
# print(notes_evaluation)

# for package, scores in notes_evaluation.items():
#     print(f"Package: {package}")
#     print(f"Precision: {scores['precision']}")
#     print(f"Recall: {scores['recall']}")
#     print(f"F1: {scores['f1']}")
#     print("\n")

# Average
precision_sum = 0
recall_sum = 0
f1_sum = 0

for scores in notes_evaluation.values():
    precision_sum += scores["precision"][0]
    recall_sum += scores["recall"][0]
    f1_sum += scores["f1"][0]

print(f"For a total of {len(notes_evaluation.values())} descriptions:")
print("\n")

print(f"Average precision: {precision_sum / len(notes_evaluation)}")
print(f"Average recall: {recall_sum / len(notes_evaluation)}")
print(f"Average f1: {f1_sum / len(notes_evaluation)}")

In [None]:
from DatasetsUtils.helper import detect_encoding


# Prueba con varias formas de escribir descripción
def get_description(attr):
    if attr.get("descripcion", None) != None:
        return attr["descripcion"]
    elif attr.get("Descripcion", None) != None:
        return attr["Descripcion"]
    elif attr.get("descripción", None) != None:
        return attr["descripción"]
    elif attr.get("Descripción", None) != None:
        return attr["Descripción"]
    return ""


# Evalua las descripciones de cada columna de los datasets, comparando con las descripciones generadas en el ground truth y dadas.
def evaluate_metadata(ground_truth_directory, final_datasets_directory, package_ids):
    evaluation = {}
    for package in package_ids:
        ground_truth_path = os.path.join(ground_truth_directory, package)
        loaded_additional_info = load_additional_info(ground_truth_path)

        if len(loaded_additional_info.get("metadata_resources", {})) == 0:
            continue
        ground_truth_metadata = list(
            loaded_additional_info["metadata_resources"].keys()
        )[0]

        enriched_metadata = os.path.join(
            final_datasets_directory, package, "metadata_generated.json"
        )

        try:
            ground_truth = read_file(
                os.path.join(
                    ground_truth_path, f"metadata_{ground_truth_metadata}.json"
                ),
                "json",
            )
        except:
            continue

        enriched = read_file(enriched_metadata, "json")

        ground_truth_attributes = ground_truth.get("atributos", [])
        enriched_attributes = enriched.get("atributos", [])

        ground_truth_descriptions = [
            get_description(attr) for attr in ground_truth_attributes
        ]
        enriched_descriptions = [attr["descripcion"] for attr in enriched_attributes]

        # Truncate enriched_descriptions to the len of ground_truth
        enriched_descriptions = enriched_descriptions[: len(ground_truth_descriptions)]

        # Borrar todos los "" de ground_truth_descriptions, y borrar el mismo indice en enriched_descriptions
        for i in range(len(ground_truth_descriptions) - 1, -1, -1):
            if ground_truth_descriptions[i] == "":
                ground_truth_descriptions.pop(i)
                enriched_descriptions.pop(i)

        print("Visualizar descripciones")
        for i in range(len(enriched_descriptions) - 1, -1, -1):
            # Imprimir ambas descripciones para visualizarlo
            print("\n")
            print(f"Ground truth: {ground_truth_descriptions[i]}")
            print(f"Enriched: {enriched_descriptions[i]}")
            print("\n")

        scores = evaluate_generated_descriptions(
            enriched_descriptions, ground_truth_descriptions
        )
        evaluation[package] = scores

    return evaluation


package_ids = files_with_nothing + files_with_notes
metadata_evaluation = evaluate_metadata(
    ground_truth_directory, os.path.join(final_datasets_directory), package_ids
)
print(metadata_evaluation)

precision_global = []
recall_global = []
f1_global = []
descriptions_count = 0

for package, scores in metadata_evaluation.items():
    print(f"Package: {package}")
    precision_average = sum(scores["precision"]) / len(scores["precision"])
    print(f"Precision average: {precision_average}")
    recall_average = sum(scores["recall"]) / len(scores["recall"])
    print(f"Recall average: {recall_average}")
    f1_average = sum(scores["f1"]) / len(scores["f1"])
    print(f"F1 average: {f1_average}")
    print("\n")
    precision_global.append(precision_average)
    recall_global.append(recall_average)
    f1_global.append(f1_average)
    descriptions_count += len(scores["precision"])

print(f"For a total of {descriptions_count} descriptions:")
print("\n")
print(f"Average global precision: {sum(precision_global) / len(precision_global)}")
print(f"Average global recall: {sum(recall_global) / len(recall_global)}")
print(f"Average global f1: {sum(f1_global) / len(f1_global)}")