In [1]:
# List of requirements (ONLY IN COLLAB)
# !pip install mmh3==4.0.1
# !pip install google-api-python-client==2.122.0
# !pip install SPARQLWrapper==2.0.0
# !pip install country-list==1.0.0

### (ONLY IN COLLAB)
## Uncompress the zip with the code
# import zipfile
# import os

# # Asegurarte de estar en el directorio /content
# os.chdir('/content')

# # Ruta al archivo ZIP
# zip_file_path = 'ProyectoDeGrado.zip'

# # Ruta donde descomprimir los archivos (en este caso, el mismo /content)
# extract_to_path = '/content'

# # Descomprimir el archivo
# with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
#     zip_ref.extractall(extract_to_path)

# print("Archivos descomprimidos en:", extract_to_path)


In [None]:
## Download required words
import nltk
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt')

# Autoload all modules
%load_ext autoreload
%autoreload 2

## Downloader

In [None]:
from DatasetsUtils.Downloaders.full_data import FullDataDownloader
from DatasetsUtils.Parsers.process_metadata import MetadataProcessor
from DatasetsUtils.Parsers.process_tables import TableProcessor
from DatasetsUtils.Parsers.select_tables_and_metadata import DatasetSelector

interest_word = 'transparencia'
download_folder = f"PipelineDatasets/DownloadedDatasets/{interest_word}"

downloader = FullDataDownloader(interest_word)
downloader.download_resources()
metadata_processor = MetadataProcessor(interest_word)
metadata_processor.process_all()
table_processor = TableProcessor(interest_word)
table_processor.process_directory()
dataset_selector = DatasetSelector(interest_word)
dataset_selector.process_all()

## Parte 1: Búsqueda de conjuntos de datos 

### D3L

##### Generación de indices LSH

In [None]:
from d3l.indexing.similarity_indexes import NameIndex, FormatIndex, ValueIndex, EmbeddingIndex, DistributionIndex
from d3l.input_output.dataloaders import CSVDataLoader
from d3l.querying.query_engine import QueryEngine
from d3l.utils.functions import pickle_python_object, unpickle_python_object
import os
import pandas as pd

data_path = "Datasets"
result_path = "Result/"
threshold = 0.5

dataloader = CSVDataLoader(
        root_path=data_path,
        encoding='utf-8'
)

# Metrics
dataloader.print_table_statistics()


##### Name Index
Utiliza el análisis de q-gramas en los nombres de atributos para calcular la distancia de Jaccard entre sus conjuntos de q-gramas.

In [None]:
name_lsh = os.path.join(result_path, 'Name.lsh')
print(name_lsh)
if os.path.isfile(name_lsh):
    name_index = unpickle_python_object(name_lsh)
    print("Name LSH index: LOADED!")
else:
    name_index = NameIndex(dataloader=dataloader, index_similarity_threshold=threshold)
    pickle_python_object(name_index, name_lsh)
    print("Name LSH index: SAVED!")

##### Format Index
Identifica el formato de los datos a partir de expresiones regulares

In [None]:
format_lsh = os.path.join(result_path, './format.lsh')
if os.path.isfile(format_lsh):
    format_index = unpickle_python_object(format_lsh)
    print("Format LSH index: LOADED!")
else:
    format_index = FormatIndex(dataloader=dataloader, index_similarity_threshold=threshold)
    pickle_python_object(format_index, format_lsh)
    print("Format LSH index: SAVED!")

##### Value Index
Emplea tokens TF-IDF para representar valores, utilizando la distancia de Jaccard entre los tokens para evaluar la similitud.

In [None]:
value_lsh = os.path.join(result_path, './value.lsh')
if os.path.isfile(value_lsh):
    value_index = unpickle_python_object(value_lsh)
    print("Value LSH index: LOADED!")
else:
    value_index = ValueIndex(dataloader=dataloader, index_similarity_threshold=threshold)
    pickle_python_object(value_index, value_lsh)
    print("Value LSH index: SAVED!")

##### Distribution Index
Evalúa la relación entre valores de atributos numéricos mediante la estadística de Kolmogorov-Smirnov.

In [None]:
distribution_lsh = os.path.join(result_path, './distribution.lsh')
if os.path.isfile(distribution_lsh):
    distribution_index = unpickle_python_object(distribution_lsh)
    print("Distribution LSH index: LOADED!")
else:
    distribution_index = DistributionIndex(dataloader=dataloader, index_similarity_threshold=threshold)
    pickle_python_object(distribution_index, distribution_lsh)
    print("Distribution LSH index: SAVED!")

##### Embedding Index
Determina la relación del contenido textual mediante la distancia coseno entre sus representaciones vectoriales.

In [None]:
embedding_lsh = os.path.join(result_path, './embedding.lsh')
if os.path.isfile(embedding_lsh):
    embedding_index = unpickle_python_object(embedding_lsh)
    print("Embedding LSH index: LOADED!")
else:
    embedding_index = EmbeddingIndex(dataloader=dataloader,
                                     index_similarity_threshold=threshold)
    pickle_python_object(embedding_index, embedding_lsh)
    print("Embedding LSH index: SAVED!")


## Parte 2: Navegación de datos

##### Detección de la columna sujeto
Identifica el tipo de columna y los scores de las columnas "named entity".

In [3]:
import pickle
from TableMiner.SCDection.TableAnnotation import TableColumnAnnotation as TA

def subjectColDetection(DATA_PATH, RESULT_PATH):
    table_dict = {}
    if "dict.pkl" in os.listdir(RESULT_PATH):
        with open(os.path.join(RESULT_PATH,"dict.pkl"), "rb") as f:
            table_dict = pickle.load(f)
    else:
        table_names = os.listdir(DATA_PATH)
        for tableName in table_names:
            table_dict[tableName] = []
            table = pd.read_csv(f"Datasets/{tableName}")
            try:
                annotation_table = TA(table, SearchingWeb = False)
                annotation_table.subcol_Tjs()
                table_dict[tableName].append(annotation_table.annotation)
                table_dict[tableName].append(annotation_table.column_score)
            except Exception as e:
                print(f"Error in {tableName} : {e}")
                continue
        with open(os.path.join(RESULT_PATH, "dict.pkl"), "wb") as save_file:
            pickle.dump(table_dict, save_file)
    return table_dict

SubjectCol_dict = subjectColDetection(data_path, "Result")

Utilizando los scores para las columnas "named entity", encuentra la columna sujeto para cada tabla (la que representa a la tabla)

In [None]:
result_tables = os.listdir(data_path)
subject_columns=[]
all_columns = []
tables_without_ne = []

for table in result_tables:
    df_table = dataloader.read_table(table[:-4])
    annotation, NE_column_score = SubjectCol_dict[table]
    if NE_column_score.values():
        max_score = max(NE_column_score.values()) 
    else:
        tables_without_ne.append(table)
        continue
    all_columns.extend([f"{table[:-4]}.{df_table.columns[i]}" for i in NE_column_score.keys()])
    subcol_index = [key for key, value in NE_column_score.items() if value == max_score]
    for index in subcol_index:
        subject_columns.append(f"{table[:-4]}.{df_table.columns[index]}")
print(subject_columns)
print("Amount of tables that don't have NE columns: ", len(tables_without_ne))
print("Tables without NE columns: ", tables_without_ne)

### Aurum

In [None]:
from Aurum.graph import buildGraph,draw_interactive_network

aurum_graph = buildGraph(dataloader, data_path, [name_index, value_index], target_path="Result", table_dict=SubjectCol_dict)
import networkx as nx

# Obtiene el subgrafo dado por los nodos "given_nodes" y sus relacionados
def subgraph(given_nodes, graph: nx.Graph()):
    subgraphs = list(nx.connected_components(graph))
    relevant_nodes = set()
    for node in given_nodes:
        for sg in subgraphs:
            if node in sg:
                relevant_nodes.update(sg)
    new_graph = aurum_graph.subgraph(relevant_nodes).copy()
    return new_graph

Subgrafo que contiene solo los nodos que corresponden a subject_columns

In [None]:
result_SC_graph = subgraph(subject_columns, aurum_graph)
draw_interactive_network(result_SC_graph)

Subgrafo que contiene todos los nodos (uno por cada columna)

In [None]:
result_graph = subgraph(all_columns, aurum_graph)
draw_interactive_network(result_graph)

## Carga del LLM

In [None]:
# Cargar LLM

from MetadataLLM.abstract import ModelManager
import torch
import os

os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'expandable_segments:True'

torch.device('cuda' if torch.cuda.is_available() else 'cpu')
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
print("Using devide:", DEVICE)
print("Number of cuda:", torch.cuda.device_count())

# Inicialización del modelo y tokenizador
model_name = "meta-llama/Llama-3.2-3B-Instruct"
access_token = "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"

# Carga en el atributo de clase el modelo y el tokenizador
ModelManager.initialize_model(model_name, access_token, DEVICE)

## Parte 3: Anotación de datos

In [None]:
import pandas as pd
from TableMiner.LearningPhase.Update import TableLearning,  updatePhase, fallBack
from TableMiner.SearchOntology import SearchDBPedia


# table_domains: nombre de las tablas
table_domains = os.listdir(data_path)
for table in table_domains:
    table_domains[table_domains.index(table)] = table[:-4]

### Table Miner +
Anota cada columna con una entidad de Wikidata, basándose en el contenido de cada celda de la columna

In [7]:
# Genera anotaciones dada una tabla
def table_annotation(tableName, subcol_dict):
    tableD = dataloader.read_table(tableName)
    print(tableD)
    annotation_table, NE_Score = subcol_dict[tableName + ".csv"]
    print(annotation_table)
    # Fase de aprendizaje
    tableLearning = TableLearning(tableName, tableD, NE_column=NE_Score)
    # Fase de actualización
    print("starting learning phase")
    tableLearning.table_learning()
    print("starting update phase")
    updatePhase(tableLearning)
    fallBack(tableLearning)
    return tableLearning

In [8]:
# Guarda las anotaciones en un archivo
def store_learning(table, learning, dict_path, dict_name):
    target_file = os.path.join(dict_path, dict_name)
    if os.path.isfile(target_file):
        with open(target_file, 'rb') as file:
            dict_annotation = pickle.load(file)
    else:
        dict_annotation = {}
    dict_annotation[table] = learning[table]
    with open(target_file, 'wb') as file:
        pickle.dump(dict_annotation, file)

In [None]:
learning = {}
for table in table_domains:
    print(f"\n ---- \n Starting learning for {table} \n ---- \n")
    learning[table] = table_annotation(table, SubjectCol_dict)

for table in table_domains:
    store_learning(table, learning, "Result", "annotationDict.pkl")

In [None]:
def generar_salida_anotaciones(lista_tablas, dict_of_annotation, SubjectCol_dict):
    estructura = {}

    for nombre_tabla in lista_tablas:
        estructura[nombre_tabla] = {}
        
        # Obtener datos de anotación para la tabla específica
        learningT = dict_of_annotation[nombre_tabla]
        annotation_class = learningT.get_annotation_class()

        # Obtener tipos y puntuaciones de columnas
        column_types = SubjectCol_dict[nombre_tabla + ".csv"][0]
        column_scores = SubjectCol_dict[nombre_tabla + ".csv"][1]

        tableDataframe = dataloader.read_table(nombre_tabla)
        for col_index, col_type in column_types.items():
            column = tableDataframe.iloc[:, col_index]
            if col_index in annotation_class:
                # Obtener conceptos y URIS
                ColumnSemantics = list(annotation_class[col_index].get_winning_concepts())
                mapping = annotation_class[col_index].get_mapping_id_label()
                entities = [
                    {"uri": item, "concept": concept}
                    for concept in ColumnSemantics if concept in mapping
                    for item in mapping[concept]
                ]
            else:
                entities = []

            # Agregar datos al diccionario de salida para la columna
            estructura[nombre_tabla][column.name] = {
                "entities": entities,
                "type": col_type.name
            }

    return estructura

with open("Result/annotationDict.pkl", 'rb') as file:
    dict_annotation = pickle.load(file)
    
#genero las salidas
annotations = generar_salida_anotaciones(table_domains, learning, SubjectCol_dict)

# Imprimir salida en formato JSON
import json
print(json.dumps(annotations, indent=4))

Guardo queries y resultados en cache

In [None]:
from TableMiner.Cache.cache_handler import OntologyRequestHandler
ontology_request_handler = OntologyRequestHandler("Result", "ontologyRequests.pkl")

# Cargar solicitudes
request_cache = ontology_request_handler.load_ontology_requests()    
ontology_request_handler.pretty_print_json(request_cache.get('searches', {}))

# Mostrar estadísticas de llamadas a la red
ontology_request_handler.display_network_calls()

# Guardar solicitudes
ontology_request_handler.store_ontology_requests()

## Parte 4: LLM metadata generator  

In [None]:
from DatasetsUtils.Classificators.classificator import FileClassifier
from DatasetsUtils.helper import write_file, read_file
import json

interest_word = "transparencia"

# Cargar el clasificador, con la palabra de interes usada
classifier = FileClassifier(interest_word)

files_with_metadata, files_with_notes, files_with_both, files_with_nothing = classifier.run()
print("Files with metadata: ", files_with_metadata)
print("Count: ", len(files_with_metadata), "\n")
print("Files with notes: ", files_with_notes)
print("Count: ", len(files_with_notes), "\n")
print("Files with both: ", files_with_both)
print("Count: ", len(files_with_both), "\n")
print("Files with nothing: ", files_with_nothing)
print("Count: ", len(files_with_nothing), "\n")

In [37]:
def load_additional_info(directory):
    """Loads the additional_info.json file from the directory."""
    filepath = os.path.join(directory, "additional_info.json")
    if not os.path.exists(filepath):
        raise FileNotFoundError(f"additional_info.json not found in {directory}")
    return read_file(filepath, "json")
    
datasets_directory = "PipelineDatasets/SelectedDatasets"
enriched_datasets_directory = "PipelineDatasets/EnrichedDatasets"

### Descripcion sin metadata

Para los que no tienen ni notes ni metadata

In [4]:
# Generar descripciones para los que no tienen nada. Primero se genera la descripcion de la tabla, para tomar contexto general,
# y luego metadata más especifica de cada columna.
from MetadataLLM.table_description import TableDescriptionGenerator

table_description_generator = TableDescriptionGenerator(DEVICE)

# Few shots. TODO: Cambiar por más shots, y automaticamente en base a datos que hayan en SelectedDatasets en vez de hardcodear
table_description_few_shots_prompt_data = [
    {
        "nombre_tabla": "medicinas",
        "nombre_recurso": "Recursos medicinales por codigo.",
        "tabla": '''
          producto, codigo, via, dosis
          Paracetamol, N02BE01, Oral, 500mg
          Ibuprofeno, M01AE01, Oral, 200mg
          Amoxicilina, J01CA04, Oral, 500mg
          Metformina, A10BA02, Oral, 850mg
        ''',
        "descripcion_salida": "Esta tabla está formada por datos de productos medicinales, que incluyen información sobre el nombre del producto, el código ATC, la vía de administración y la dosis recomendada"
    },
    {
        "nombre_tabla": "ventas_gas_natural",
        "nombre_recurso": "Ventas Gas Natural - Volúmenes por zona geográfica",
        "tabla": '''
          Mes,Año,Zona,TransporteFirme,TransporteInterrumpible,GasConsumido
          "1";"2019";"LITORAL";"1753825";"0";"267638"
          "1";"2019";"SUR";"9913738";"113289";"2341025"
          "2";"2019";"LITORAL";"1584100";"0";"177916"
          "2";"2019";"SUR";"8954344";"101339";"2408347"
          "3";"2019";"LITORAL";"1753825";"0";"311369"
          "5";"2019";"LITORAL";"1605800";"0";"355121"
        ''',
        "descripcion_salida": "Esta tabla contiene datos de ventas de gas natural por mes, año, zona geográfica, transporte firme, transporte interrumpible y gas consumido"
    },
]

generated_table_descriptions = {}

for package_id in files_with_nothing:
    directory = os.path.join(datasets_directory, interest_word, package_id)
    additional_info = load_additional_info(directory)
    table_resources = additional_info.get("table_resources", {})
    
    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue
      
    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))
    
    table_description = table_description_generator.generate_description(table, table_id, additional_info, table_description_few_shots_prompt_data)
    generated_table_descriptions[package_id] = table_description
            

In [5]:
# Guardar las descripciones generadas
output_directory = os.path.join(enriched_datasets_directory, interest_word)
os.makedirs(output_directory, exist_ok=True)

for package_id in files_with_nothing:
    directory = os.path.join(datasets_directory, interest_word, package_id)
    additional_info = load_additional_info(directory)
    additional_info["notes"] = generated_table_descriptions[package_id]
    
    output_directory_package = os.path.join(output_directory, package_id)
    os.makedirs(output_directory_package, exist_ok=True)
    
    write_file(os.path.join(output_directory_package, "additional_info.json"), additional_info, "json", "utf-8")

### Metadata (Column description)

In [None]:
from MetadataLLM.column_description import ColumnDescriptionGenerator

column_description_generator = ColumnDescriptionGenerator(DEVICE)

# Few shots. TODO: Cambiar por más shots, y en base a datos que hayan en vez de hardcodear
column_description_few_shots_prompt_data = [
    {
        "nombre_tabla": "medicinas",
        "nombre_recurso": "Recursos medicinales por codigo.",
        "contexto": "Esta tabla está formada por datos de productos medicinales, que incluyen información sobre el nombre del producto, el código ATC, la vía de administración y la dosis recomendada",
        "tabla": '''
          producto, codigo, via, dosis
          Paracetamol, N02BE01, Oral, 500mg
          Ibuprofeno, M01AE01, Oral, 200mg
          Amoxicilina, J01CA04, Oral, 500mg
          Metformina, A10BA02, Oral, 850mg
        ''',
        "columna_de_interes": "via",
        "descripcion_salida": "Esta columna contiene información sobre la vía de administración de los productos medicinales"
    },
    {
        "nombre_tabla": "ventas_gas_natural",
        "nombre_recurso": "Ventas Gas Natural - Volúmenes por zona geográfica",
        "contexto": "Esta tabla contiene datos de ventas de gas natural por mes, año, zona geográfica, transporte firme, transporte interrumpible y gas consumido",
        "tabla": '''
          Mes,Año,Zona,TransporteFirme,TransporteInterrumpible,GasConsumido
          "1";"2019";"LITORAL";"1753825";"0";"267638"
          "1";"2019";"SUR";"9913738";"113289";"2341025"
          "2";"2019";"LITORAL";"1584100";"0";"177916"
          "2";"2019";"SUR";"8954344";"101339";"2408347"
          "3";"2019";"LITORAL";"1753825";"0";"311369"
          "5";"2019";"LITORAL";"1605800";"0";"355121"
        ''',
        "columna_de_interes": "Zona",
        "descripcion_salida": "Esta columna contiene información sobre la zona geográfica de las ventas de gas natural"
    },
]
    

column_descriptions = {}

for package_id in files_with_notes:
    directory = os.path.join(datasets_directory, interest_word, package_id)
    additional_info = load_additional_info(directory)
    table_resources = additional_info.get("table_resources", {})
    
    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue
      
    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))
    
    columnas = table.columns
    column_descriptions[package_id] = {}
    for col in columnas:
        column_description = column_description_generator.generate_column_description(table, table_id, col, additional_info, column_description_few_shots_prompt_data)
        column_descriptions[package_id][col] = column_description
        
# Files with nothing con notes ya generadas
for package_id in files_with_nothing:
    directory = os.path.join(datasets_directory, interest_word, package_id)
    enriched_directory = os.path.join(enriched_datasets_directory, interest_word, package_id)
    additional_info = load_additional_info(enriched_directory)
    table_resources = additional_info.get("table_resources", {})
    
    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue
      
    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))
    
    columnas = table.columns
    column_descriptions[package_id] = {}
    for col in columnas:
        column_description = column_description_generator.generate_column_description(table, table_id, col, additional_info, column_description_few_shots_prompt_data)
        column_descriptions[package_id][col] = column_description           

In [None]:
# Crear archivo de metadata con las descripciones de las columnas, tipos y entidades anotadas
# El archivo de metadata es un JSON
output_directory = os.path.join(enriched_datasets_directory, interest_word)
os.makedirs(output_directory, exist_ok=True)

concatenated_lists = files_with_notes + files_with_nothing

for package_id in concatenated_lists:
    directory = os.path.join(datasets_directory, interest_word, package_id)
    metadata_file_path = os.path.join(directory, "metadata_generated.json")
    additional_info = load_additional_info(directory)
    table_resources = additional_info.get("table_resources", {})
    
    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue
      
    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))
    
    columnas = table.columns
    # Cargar el JSON de metadata file con los datos
    metadata_file = {}
    metadata_file['atributos'] = []
    
    for col in columnas:
        column_description = column_descriptions[package_id][col]
        if annotations.get(f"table_{table_id}", {}).get(col, {}).get('entities', [{}]) == []:
            recursoRelacionado = ""
        else:
            recursoRelacionado = annotations.get(f"table_{table_id}", {}).get(col, {}).get('entities', [{}])[0].get('uri', "")
        tipoDeDato = annotations.get(f"table_{table_id}", {}).get(col, {}).get('type', "")
        atributo = {
            "descripcion": column_description,
            "tipoDeDato": tipoDeDato,
            "nombreDeAtributo": col,
            "informacionAdicional": "",
            "recursoRelacionado": recursoRelacionado
        }
        metadata_file['atributos'].append(atributo)
    
    write_file(os.path.join(output_directory, package_id, "metadata_generated.json"), metadata_file, "json", "utf-8")
        

### Descripción usando metadata

Para los que tienen metadata pero no notes

In [None]:
# Generar descripciones para los que no tienen nada. Primero se genera la descripcion de la tabla, para tomar contexto general,
# y luego metadata más especifica de cada columna.
from MetadataLLM.table_description_with_metadata import TableDescriptionWithMetadataGenerator

table_description_generator = TableDescriptionWithMetadataGenerator(DEVICE)

# Few shots. TODO: Cambiar por más shots, y en base a datos que hayan en vez de hardcodear
metadata_description_few_shots_prompt_data = [
    {
        "nombre_tabla": "Auditoria 2019",
        "nombre_recurso": "Auditorias sobre cumplimiento de Transparencia Activa",
        "tabla": '''
            Poder,Inciso,UE,Descripcion,Motivo No evaluación,Sitio Evaluado,Estructura Orgánica,Facultades,Remuneraciones,Presupuesto,Adquisiciones,Información Estadística,Participación,Banner Transparencia,Listado de Funcionarios,Convocatorias a concurso,Política de PD y SI,Puntaje Total  ,Resultado Nueva Escala
            PE,5.0,7.0,Dirección Nacional de Aduanas,,https://www.aduanas.gub.uy/,2,2,2,2,1,2,2,Si,2,2,0,17,Alto grado de cumplimiento
            PE,4.0,33.0,Dirección Nacional Guardia Republicana,,https://republicana.minterior.gub.uy/,1,1,2,0,0,1,1,No,2,2,0,10,Mediano grado de cumplimiento
            SD,66.0,1.0,Administración de las Obras Sanitarias del Estado (OSE),,http://www.ose.com.uy/,2,1,2,2,2,2,2,Si,2,2,2,19,Alto grado de cumplimiento
            PPNE,,,Cooperativa Nacional de Productores de Leche (CONAPROLE),,https://m.conaprole.com.uy/inicio,0,0,0,0,0,0,1,No,0,2,2,5,Bajo grado de cumplimiento
        ''',
        "metadata_files": [
            '''
               {
                "atributos": [
                    {
                    "descripcion": "Tipo de poder",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Poder"
                    },
                    {
                    "descripcion": "Inciso ",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Inciso"
                    },
                    {
                    "descripcion": "Unidad Ejecutora",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "UE"
                    },
                    {
                    "descripcion": "Nombre del organismo",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Descripcion"
                    },
                    {
                    "descripcion": "Evaluación del sitio web del organismo",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Evaluado"
                    },
                    {
                    "descripcion": "Motivo de no evaluación",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Motivo No evaluación"
                    },
                    {
                    "descripcion": "Sitio web del organismo evaluado",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Sitio Evaluado"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA1: Estructura Orgánica",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Estructura Orgánica"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA2: Facultades",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Facultades"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA3: Remuneraciones",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Remuneraciones"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA4: Presupuesto",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Presupuesto"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA5: Adquisiciones",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Adquisiciones"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA6: Información Estadística",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Información Estadística"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA7: Mecanismos de Participación",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Participación"
                    },
                    {
                    "descripcion": "Existencia de un banner o pestaña de Transparencia en el sitio web del organismo",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Banner Transparencia"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA8: Listado de Funcionarios",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Listado de Funcionarios"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA9: Convocatorias a Concurso",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Convocatorias a concurso"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA10: Política de Protección de Datos y Términos de Uso",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Política de PD y TU"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA11:Datos Abiertos de Transparencia Activa (Indicador exploratorio)",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "TA 11"
                    },
                    {
                    "descripcion": "Puntaje total obtenido por el organismos en el estudio",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Puntaje Total"
                    },
                    {
                    "descripcion": "Grado de Cumplimiento del organismo",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Resultado"
                    }
                ],
                "titulo": "Metadatos",
                "descripcion": "Descripción de los datos / Diccionario de datos"
                }
            '''],
        "descripcion_salida": '''Esta tabla contiene datos de auditorias sobre cumplimiento de Transparencia Activa (TA) realizadas a los organismos estatales. Los datos incluyen información sobre el poder, inciso, unidad ejecutora, descripción, motivo de no evaluación, sitio evaluado, estructura orgánica, facultades, remuneraciones, presupuesto, adquisiciones, información estadística, participación, banner de transparencia, listado de funcionarios, convocatorias a concurso, política de protección de datos y términos de uso, puntaje total y resultado de la nueva escala.'''
    },
]

generated_table_descriptions = {}

for package_id in files_with_metadata:
    directory = os.path.join(datasets_directory, interest_word, package_id)
    additional_info = load_additional_info(directory)
    table_resources = additional_info.get("table_resources", {})
    metadata_resources = additional_info.get("metadata_resources", {})
    
    if len(table_resources) == 0:
        print(f"No resources found for package {package_id}")
        continue
      
    # Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
    table_id = list(table_resources.keys())[0]
    table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))
    
    # Tomamos la primera key de metadata_resources
    metadata_id = list(metadata_resources.keys())[0]
    with open(os.path.join(directory, f"metadata_{metadata_id}.json"), "r", encoding="utf-8") as file:
        metadata = json.load(file)
    
    table_description = table_description_generator.generate_description_with_metadata(table, table_id, metadata, additional_info, metadata_description_few_shots_prompt_data)
    generated_table_descriptions[package_id] = table_description
            

In [23]:
# Guardar las descripciones generadas
output_directory = os.path.join(enriched_datasets_directory, interest_word)
os.makedirs(output_directory, exist_ok=True)

for package_id in files_with_metadata:
    directory = os.path.join(datasets_directory, interest_word, package_id)
    additional_info = load_additional_info(directory)
    additional_info["notes"] = generated_table_descriptions[package_id]
    
    output_directory_package = os.path.join(output_directory, package_id)
    os.makedirs(output_directory_package, exist_ok=True)
    
    write_file(os.path.join(output_directory_package, "additional_info.json"), additional_info, "json", "utf-8")

# Unificar resultados en FinalMetadata

Mergear lo generado en EnrichedDatasets con lo que se mantuvo de SelectedDatasets
y crear FinalDatasets

In [None]:
import os
import shutil
import json

def copy_directory(src, dest):
    """Copy a directory and its contents to another directory.
       If the destination directory already exists, it will be replaced.
    """
    if os.path.exists(dest):
        shutil.rmtree(dest)
    shutil.copytree(src, dest)
    
final_datasets_directory = "PipelineDatasets/FinalDatasets"

os.makedirs(final_datasets_directory, exist_ok=True)

# Copiar los archivos de SelectedDatasets a FinalDatasets
selected_src = os.path.join(datasets_directory, interest_word)
final_dest = os.path.join(final_datasets_directory, interest_word)
copy_directory(selected_src, final_dest)

# Buscar los directorios en EnrichedDatasets y sobreescribir los archivos en FinalDatasets
enriched_src = os.path.join(enriched_datasets_directory, interest_word)
if os.path.exists(enriched_src):
    for package_id in os.listdir(enriched_src):
        print(f"Processing package {package_id}")
        package_src = os.path.join(enriched_src, package_id)
        package_dest = os.path.join(final_dest, package_id)

        # Asegurar que el directorio de destino exista
        os.makedirs(package_dest, exist_ok=True)

        if os.path.exists(os.path.join(package_src, "additional_info.json")):
            print("Copying additional_info.json")
            shutil.copy(os.path.join(package_src, "additional_info.json"), package_dest)
            
        if os.path.exists(os.path.join(package_src, "metadata_generated.json")):
            print("Updating metadata_generated.json")
            with open(os.path.join(package_src, "metadata_generated.json"), "r", encoding="utf-8") as file:
                metadata_generated = json.load(file)
            
            additional_info_path = os.path.join(package_dest, "additional_info.json")
            if os.path.exists(additional_info_path):
                with open(additional_info_path, "r", encoding="utf-8") as file:
                    additional_info = json.load(file)
                
                additional_info["metadata_resources"]["metadata_generated"] = {}
                additional_info["metadata_resources"]["metadata_generated"]["name"] = "metadata_generated"
                additional_info["metadata_resources"]["metadata_generated"]["description"] = "Descripción de los datos / Diccionario de datos"
                additional_info["metadata_resources"]["metadata_generated"]["format"] = "json"
                
                write_file(additional_info_path, additional_info, "json", "utf-8")
                write_file(os.path.join(package_dest, "metadata_generated.json"), metadata_generated, "json", "utf-8")


## Celda de Prueba para generación de Concepto de una columna

In [None]:
from MetadataLLM.column_concept import ColumnConceptGenerator

column_concepts_generator = ColumnConceptGenerator(DEVICE)

# Few shots. TODO: Agregar más, y mejores.
few_shots_column_concept = '''
#### Ejemplo 1:
Nombre Columna: Zona
Ejemplos de valores: LITORAL, SUR, ESTE, OESTE

Nombre Tabla: ventas_gas_natural
Nombre Recursos: Ventas Gas Natural - Volúmenes por zona geográfica
Contexto: Esta tabla contiene datos de ventas de gas natural por mes, año, zona geográfica, transporte firme, transporte interrumpible y gas consumido
Metadata de la Tabla: {
    "atributos": [
        {
            "descripcion": "Mes",
            "informacionAdicional": "",
            "tipoDeDato": "Integer",
            "recursoRelacionado": "",
            "nombreDeAtributo": "Mes"
        },
        {
            "descripcion": "Año",
            "informacionAdicional": "",
            "tipoDeDato": "Integer",
            "recursoRelacionado": "",
            "nombreDeAtributo": "Año"
        },
        {
            "descripcion": "Zona",
            "informacionAdicional": "",
            "tipoDeDato": "String",
            "recursoRelacionado": "",
            "nombreDeAtributo": "Zona"
        },
        {
            "descripcion": "TransporteFirme",
            "informacionAdicional": "",
            "tipoDeDato": "Integer",
            "recursoRelacionado": "",
            "nombreDeAtributo": "TransporteFirme"
        },
        {
            "descripcion": "TransporteInterrumpible",
            "informacionAdicional": "",
            "tipoDeDato": "Integer",
            "recursoRelacionado": "",
            "nombreDeAtributo": "TransporteInterrumpible"
        },
        {
            "descripcion": "GasConsumido",
            "informacionAdicional": "",
            "tipoDeDato": "Integer",
            "recursoRelacionado": "",
            "nombreDeAtributo": "GasConsumido"
        }
}
Algunas filas de la tabla:
Mes,Año,Zona,TransporteFirme,TransporteInterrumpible,GasConsumido
"1";"2019";"LITORAL";"1753825";"0";"267638"
"1";"2019";"SUR";"9913738";"113289";"2341025"
"2";"2019";"LITORAL";"1584100";"0";"177916"
"2";"2019";"SUR";"8954344";"101339";"2408347"
"3";"2019";"LITORAL";"1753825";"0";"311369"

### Concepto sugerido:
Zona Geográfica
'''

# Tomamos un directorio random de datasets_directory
directory = os.path.join(datasets_directory, interest_word, "1f46180c-5e9a-41eb-a730-40fef51e63c0")
column_name = "Descripcion"

additional_info = load_additional_info(directory)
table_resources = additional_info.get("table_resources", {})

if len(table_resources) == 0:
    print(f"No resources found for package {package_id}")
    exit()
    
# Tomar la primera key de table_resources (es la única porque elegimos solo una tabla)
table_id = list(table_resources.keys())[0]
table = pd.read_csv(os.path.join(directory, f"table_{table_id}.csv"))

# Metadata
metadata_resources = additional_info.get("metadata_resources", {})

if len(metadata_resources) == 0:
    print(f"No metadata resources found for package {package_id}")
else:
    metadata_id = list(metadata_resources.keys())[0]
    with open(os.path.join(directory, f"metadata_{metadata_id}.json"), "r", encoding="utf-8") as file:
        metadata = json.load(file)

column_concept = column_concepts_generator.generate_concept(table, table_id, metadata, additional_info, column_name, few_shots_column_concept)

print(column_concept)

# RAG

In [None]:
import os
import json
from sentence_transformers import SentenceTransformer
from sklearn.neighbors import NearestNeighbors
import numpy as np

# Cargar modelo de Sentence Transformers
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

In [None]:
# Función para cargar metadatos desde subdirectorios y preparar textos para el embedding
def load_and_prepare_data(base_directory):
    metadata_texts = []
    metadata_info = []

    # Iterar a través de cada subdirectorio en el directorio base
    for id_package in os.listdir(base_directory):
        package_path = os.path.join(base_directory, id_package)
        if os.path.isdir(package_path):  # Asegurarse de que es un directorio
            for filename in os.listdir(package_path):
                if filename.startswith('additional_info'):
                    filepath = os.path.join(package_path, filename)
                    with open(filepath, 'r', encoding='utf-8') as file:
                        data = json.load(file)
                        title = data.get('title', '')
                        notes = data.get('notes', '')
                        organization = data.get('organization', '')
                        table_description = ' '.join(res['description'] for res in data['table_resources'].values())

                        # Concatenar información relevante
                        full_text = f"Titulo: {title} - Descripcion: {notes} - Organizacion: {organization} - Tabla: {table_description}"
                        metadata_texts.append(full_text)
                        metadata_info.append(data)

    return metadata_texts, metadata_info

# Cargar los datos
base_directory = 'PipelineDatasets/FinalDatasets/transparencia'
metadata_texts, metadata_info = load_and_prepare_data(base_directory)

print(metadata_texts)
print(metadata_info)

In [58]:
# Appendear "passage" al inicio de cada texto
metadata_texts = ['passage: ' + text for text in metadata_texts]

metadata_embeddings = model.encode(metadata_texts)

In [None]:
from sklearn.neighbors import NearestNeighbors

def find_closest_resource(query, k=1):
    query_embedding = model.encode([query])
    nbrs = NearestNeighbors(n_neighbors=k, algorithm='auto', metric='cosine').fit(metadata_embeddings)
    distances, indices = nbrs.kneighbors(query_embedding)

    return [(metadata_info[i], distances[0][j]) for j, i in enumerate(indices[0])]

query = "Poder Judicial"
results = find_closest_resource(query, k=1)

print(results)

In [None]:
# !pip install -U bitsandbytes
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

# Tokenizer ya está cargado más arriba

# Configuración de cuantización a 4 bits (para mejorar eficiencia)
bnb_config = BitsAndBytesConfig(
 load_in_4bit=True,
 bnb_4bit_quant_type="nf4",
 bnb_4bit_compute_dtype=torch.bfloat16
)

# Inicializar el modelo
model = AutoModelForCausalLM.from_pretrained(
 "meta-llama/Meta-Llama-3.2-3B-Instruct",
 quantization_config=bnb_config,
 device_map="auto",
)

In [None]:
import torch

# Cargamos el tokenizador de la clase ModelManager
tokenizer = ModelManager.model

# Función para generar texto con el modelo cuantizado
def generate_text_with_model(prompt):
    # Codificar el prompt en tokens
    inputs = tokenizer(prompt, return_tensors="pt")
    
    # Mover los tensores al dispositivo adecuado
    inputs = {key: val.to(model.device) for key, val in inputs.items()}
    
    # Generar respuesta con el modelo
    with torch.no_grad():
        generated_ids = model.generate(**inputs, max_length=150)
    
    # Decodificar los tokens generados en texto
    generated_text = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
    return generated_text

# Consulta de ejemplo y uso del modelo para generar texto
query = "indicadores de atención ciudadana"
closest_resources = find_closest_resource(query)

if closest_resources:
    resource, _ = closest_resources[0]
    prompt = f"La información que buscas puede estar relacionada con: {resource['title']} organizado por {resource['organization']}. Detalles: {resource['notes']}"
    response_text = generate_text_with_model(prompt)
    print(response_text)
else:
    print("No se encontraron recursos relevantes.")


# Descargar resultados

In [None]:
# !zip -r EnrichedDatasets.zip /content/EnrichedDatasets

# from google.colab import files
# files.download('EnrichedDatasets.zip')