In [None]:
# Cargar LLM

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import os

os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Using devide:", DEVICE)
print("Number of cuda:", torch.cuda.device_count())


model_name = "meta-llama/Llama-3.2-3B-Instruct"

access_token = "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"

tokenizer = AutoTokenizer.from_pretrained(model_name, token=access_token)
model = AutoModelForCausalLM.from_pretrained(model_name, token=access_token).to(DEVICE)

# Description LLM

In [None]:
table_description_few_shots_prompt_data = [
    {
        "nombre_tabla": "medicinas",
        "nombre_recurso": "Recursos medicinales por codigo.",
        "contexto": "Información sobre productos medicinales.",
        "tabla": """
          producto, codigo, via, dosis
          Paracetamol, N02BE01, Oral, 500mg
          Ibuprofeno, M01AE01, Oral, 200mg
          Amoxicilina, J01CA04, Oral, 500mg
          Metformina, A10BA02, Oral, 850mg
        """,
        "descripcion_salida": "Esta tabla está formada por datos de productos medicinales, que incluyen información sobre el nombre del producto, el código ATC, la vía de administración y la dosis recomendada",
    },
    {
        "nombre_tabla": "ventas_gas_natural",
        "nombre_recurso": "Ventas Gas Natural - Volúmenes por zona geográfica",
        "contexto": "Información sobre ventas de gas natural por zona geográfica.",
        "tabla": """
          Mes,Año,Zona,TransporteFirme,TransporteInterrumpible,GasConsumido
          "1";"2019";"LITORAL";"1753825";"0";"267638"
          "1";"2019";"SUR";"9913738";"113289";"2341025"
          "2";"2019";"LITORAL";"1584100";"0";"177916"
          "2";"2019";"SUR";"8954344";"101339";"2408347"
          "3";"2019";"LITORAL";"1753825";"0";"311369"
          "5";"2019";"LITORAL";"1605800";"0";"355121"
        """,
        "descripcion_salida": "Esta tabla contiene datos de ventas de gas natural por mes, año, zona geográfica, transporte firme, transporte interrumpible y gas consumido",
    },
]


def table_description_few_shots_to_prompt(few_shots_data):
    few_shots = ""
    for i, few_shot in enumerate(few_shots_data):
        few_shots += f"""### Ejemplo {i + 1}:
Nombre Tabla: {few_shot["nombre_tabla"]}
Nombre Recurso: {few_shot["nombre_recurso"]}
Contexto: {few_shot["contexto"]}
Tabla:
{few_shot["tabla"]}
Descripcion de salida:
{few_shot["descripcion_salida"].strip()}

"""
    return few_shots.strip()


# Ver el resultado
print(table_description_few_shots_to_prompt(table_description_few_shots_prompt_data))

In [4]:
tabla_1 = """
  Nombre Tabla: Resultados de elecciones
  Nombre Recurso: Totales generales por Comisión Receptora de Votos
  Contexto: Sin información.
  Tabla:
            Departamento,CRV,Serie,TotalHabilitados,TotalVotosEmitidos,TotalVotosNOObservados,TotalVotosObservados,TotalAnulados,TotalEnBlanco,TotalSoloSi
            MO,1,AAA,385,294,290,4,3,3,2
            MO,2,AAA,387,344,340,4,4,1,5
            MO,3,AAA,390,345,342,3,6,4,1
            MO,4,AAA,387,327,324,3,9,2,1
            MO,5,AAA,390,321,319,2,12,4,0
            MO,6,AAA,386,328,325,3,4,0,1
"""

tabla_2 = """
  Nombre Tabla: tasa_de_subempleo
  Nombre Recurso: Tasa de subempleo. País urbano
  Contexto: El subempleo es la situación de los ocupados residente en áreas con menos de 5000 habitantes que, trabajando menos de 40 horas por semana, manifiestan el deseo de trabajar más horas y están disponibles para hacerlo, pero no encuentran horas disponibles en el mercado.
  Tabla:
          _id,Clave,año,valor
          1,1,2001,15.2
          2,1,2002,18.4
          3,1,2003,19.3
          4,1,2004,15.8
          8,1,2008,10.8
"""

In [None]:
# Crear el prompt con ejemplos few-shot
def description_prompt(tabla, few_shots_prompt_data):
    prompt = f"""Eres un asistente que ayuda en la desambiguación de tablas. Toda la información pertenece al catalogo de datos abierto de Uruguay.
  
  ### Instrucciones
  - Solo se debe generar como output descripciones detalladas y específicas.
  - No uses frases genéricas como "No hay datos relevantes". Omitir en la respuesta todo lo que no sea una descripción.
  - Solo responder con la descripción, ser lo mas objetivo posible.

  {table_description_few_shots_to_prompt(few_shots_prompt_data)}

  ### Ahora genera una descripción para la siguiente tabla:
  {tabla}
  """
    prompt += """
Descripcion de salida:
  """
    return prompt


print(description_prompt(tabla_1, table_description_few_shots_prompt_data))

In [8]:
from torch.amp import autocast


def describe_table(table, few_shots_prompt_data):
    # Tokenizar el prompt
    inputs = tokenizer(
        description_prompt(table, few_shots_prompt_data), return_tensors="pt"
    ).to(DEVICE)

    with torch.no_grad():  # Desactiva el tracking de gradientes
        with autocast("cuda"):  # Activar precisión mixta
            outputs = model.generate(
                **inputs,
                max_new_tokens=65,
                temperature=0.65,
                top_p=0.8,
                repetition_penalty=1.2,
                eos_token_id=tokenizer.eos_token_id,
            )

    # Decodificar y mostrar la respuesta
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    result = answer.split("Descripcion de salida:")[-1].strip()
    print(result)

In [None]:
for table in [tabla_1, tabla_2]:
    print(table)
    describe_table(table, table_description_few_shots_prompt_data)
    print("-" * 100)

# JSON Metadata

## Descripcion de tabla

In [None]:
metadata_description_few_shots_prompt_data = [
    {
        "nombre_tabla": "Auditoria 2019",
        "nombre_recurso": "Auditorias sobre cumplimiento de Transparencia Activa",
        "contexto": "Resultados de las auditorias sobre cumplimiento de Transparencia Activa (TA) realizadas a los organismos estatales.",
        "tabla": """
            Poder,Inciso,UE,Descripcion,Motivo No evaluación,Sitio Evaluado,Estructura Orgánica,Facultades,Remuneraciones,Presupuesto,Adquisiciones,Información Estadística,Participación,Banner Transparencia,Listado de Funcionarios,Convocatorias a concurso,Política de PD y SI,Puntaje Total  ,Resultado Nueva Escala
            PE,5.0,7.0,Dirección Nacional de Aduanas,,https://www.aduanas.gub.uy/,2,2,2,2,1,2,2,Si,2,2,0,17,Alto grado de cumplimiento
            PE,4.0,33.0,Dirección Nacional Guardia Republicana,,https://republicana.minterior.gub.uy/,1,1,2,0,0,1,1,No,2,2,0,10,Mediano grado de cumplimiento
            SD,66.0,1.0,Administración de las Obras Sanitarias del Estado (OSE),,http://www.ose.com.uy/,2,1,2,2,2,2,2,Si,2,2,2,19,Alto grado de cumplimiento
            PPNE,,,Cooperativa Nacional de Productores de Leche (CONAPROLE),,https://m.conaprole.com.uy/inicio,0,0,0,0,0,0,1,No,0,2,2,5,Bajo grado de cumplimiento
        """,
        "metadata_files": [
            """
               {
                "atributos": [
                    {
                    "descripcion": "Tipo de poder",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Poder"
                    },
                    {
                    "descripcion": "Inciso ",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Inciso"
                    },
                    {
                    "descripcion": "Unidad Ejecutora",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "UE"
                    },
                    {
                    "descripcion": "Nombre del organismo",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Descripcion"
                    },
                    {
                    "descripcion": "Evaluación del sitio web del organismo",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Evaluado"
                    },
                    {
                    "descripcion": "Motivo de no evaluación",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Motivo No evaluación"
                    },
                    {
                    "descripcion": "Sitio web del organismo evaluado",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Sitio Evaluado"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA1: Estructura Orgánica",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Estructura Orgánica"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA2: Facultades",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Facultades"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA3: Remuneraciones",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Remuneraciones"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA4: Presupuesto",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Presupuesto"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA5: Adquisiciones",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Adquisiciones"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA6: Información Estadística",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Información Estadística"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA7: Mecanismos de Participación",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Participación"
                    },
                    {
                    "descripcion": "Existencia de un banner o pestaña de Transparencia en el sitio web del organismo",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Banner Transparencia"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA8: Listado de Funcionarios",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Listado de Funcionarios"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA9: Convocatorias a Concurso",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Convocatorias a concurso"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA10: Política de Protección de Datos y Términos de Uso",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Política de PD y TU"
                    },
                    {
                    "descripcion": "Puntaje obtenido en el Indicador TA11:Datos Abiertos de Transparencia Activa (Indicador exploratorio)",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "TA 11"
                    },
                    {
                    "descripcion": "Puntaje total obtenido por el organismos en el estudio",
                    "informacionAdicional": "",
                    "tipoDeDato": "Integer",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Puntaje Total"
                    },
                    {
                    "descripcion": "Grado de Cumplimiento del organismo",
                    "informacionAdicional": "",
                    "tipoDeDato": "String",
                    "recursoRelacionado": "",
                    "nombreDeAtributo": "Resultado"
                    }
                ],
                "titulo": "Metadatos",
                "descripcion": "Descripción de los datos / Diccionario de datos"
                }
            """
        ],
        "descripcion_salida": """Esta tabla contiene datos de auditorias sobre cumplimiento de Transparencia Activa (TA) realizadas a los organismos estatales. Los datos incluyen información sobre el poder, inciso, unidad ejecutora, descripción, motivo de no evaluación, sitio evaluado, estructura orgánica, facultades, remuneraciones, presupuesto, adquisiciones, información estadística, participación, banner de transparencia, listado de funcionarios, convocatorias a concurso, política de protección de datos y términos de uso, puntaje total y resultado de la nueva escala.
                                 FIN.
                              """,
    },
]


def table_description_with_metadata_few_shots_to_prompt(few_shots_data):
    few_shots = ""
    for i, few_shot in enumerate(few_shots_data):
        few_shots += f"""### Ejemplo {i + 1}:
Nombre Tabla: {few_shot["nombre_tabla"]}
Nombre Recurso: {few_shot["nombre_recurso"]}
Contexto: {few_shot["contexto"]}
Tabla:
{few_shot["tabla"]}
Archivos de metadatos:
{few_shot["metadata_files"][0]}
Descripcion de salida:
{few_shot["descripcion_salida"].strip()}

"""
    return few_shots.strip()


# Ver el resultado
print(
    table_description_with_metadata_few_shots_to_prompt(
        metadata_description_few_shots_prompt_data
    )
)

In [12]:
tabla_3 = """
  Nombre Tabla: Información del Nuevo Código de Proceso Penal
  Nombre Recurso: Imputados ingresados en expedientes de materia Penal, tramitados por el Nuevo CPP 
  Contexto: Datos de Expedientes tramitados por el Nuevo Código Penal (NCPP 2017).\r\nSe incluyen Expedientes y los Imputados, Delitos y Solicitudes de fiscalia, ingresados en estos expedientes.
  Tabla:
          Expediente,Imputado,Sexo,Raza,Departamento,Antecedentes,Formalización,Edad,Medidas Cautelares,Medidas Sustitutivas
          10666905,16440810,M,A definir,Montevideo,N,2020-01-09,60,Prisión Preventiva,S/D
          12013365,18792030,M,A definir,Soriano,N,2020-09-28,37,Presentación ante la autoridad,S/D
          14911350,23354535,M,A definir,Canelones,N,1900-01-01,0,Cualquier otra medida alternativa a la prisión preventiva,S/D
          8192880,12396525,M,A definir,Rocha,N,2018-12-21,62,Prisión Preventiva,S/D
          11600955,18054105,M,A definir,Montevideo,N,2020-07-12,37,Cualquier otra medida alternativa a la prisión preventiva,S/D
          9808815,15012315,M,A definir,Rio Negro,N,2019-08-30,36,Cualquier otra medida alternativa a la prisión preventiva,S/D
  Archivos de metadatos:
          {
            "atributos": [
              {
                "descripcion": "identificación de expediente",
                "informacionAdicional": "",
                "tipoDeDato": "Integer",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Expediente"
              },
              {
                "descripcion": "Imputado",
                "informacionAdicional": "",
                "tipoDeDato": "Integer",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Imputado"
              },
              {
                "descripcion": "Sexo del imputado",
                "informacionAdicional": "",
                "tipoDeDato": "String",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Sexo"
              },
              {
                "descripcion": "Raza del imputado",
                "informacionAdicional": "",
                "tipoDeDato": "String",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Raza"
              },
              {
                "descripcion": "Departamento",
                "informacionAdicional": "",
                "tipoDeDato": "String",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Departamento"
              },
              {
                "descripcion": "Antecedentes",
                "informacionAdicional": "",
                "tipoDeDato": "String",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Antecedentes"
              },
              {
                "descripcion": "Fecha de Formalización (si la fecha es \"1/1/1900\" es null)",
                "informacionAdicional": "",
                "tipoDeDato": "Date",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Formalización"
              },
              {
                "descripcion": "Edad (Si la edad es \"0\" la edad es null)",
                "informacionAdicional": "",
                "tipoDeDato": "Integer",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Edad"
              },
              {
                "descripcion": "Medidas Cautelares (si el campo indica \"S/D\" es un campo null)",
                "informacionAdicional": "",
                "tipoDeDato": "String",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Medidas Cautelares"
              },
              {
                "descripcion": "Medidas Sustitutivas (si el campo indica \"S/D\" es un campo null)",
                "informacionAdicional": "",
                "tipoDeDato": "String",
                "recursoRelacionado": "",
                "nombreDeAtributo": "Medidas Sustitutivas"
              }
            ],
            "titulo": "Recursos de Metadatos",
            "descripcion": "Descripcion Metadatos"
          }
"""

In [None]:
# Crear el prompt con ejemplos few-shot
def description_with_metadata_prompt(tabla, few_shots_prompt_data):
    prompt = f"""Eres un asistente que ayuda en la desambiguación de tablas. Toda la información pertenece al catalogo de datos abierto de Uruguay.
  
  ### Instrucciones
  - Solo se debe generar como output descripciones detalladas y específicas. Imprimir "FIN." en cuanto finalize la generacion de la descripción.
  - No uses frases genéricas como "No hay datos relevantes". Omitir en la respuesta todo lo que no sea una descripción.
  - Solo responder con la descripción, ser lo mas objetivo posible.
  
  {table_description_with_metadata_few_shots_to_prompt(few_shots_prompt_data)}

  ### Ahora genera una descripción para la siguiente tabla:
  {tabla}
  """
    prompt += """
Descripcion de salida:
  """
    return prompt


print(
    description_with_metadata_prompt(
        tabla_3, metadata_description_few_shots_prompt_data
    )
)

In [14]:
def describe_table_with_metadata(prompt):
    # Tokenizar el prompt
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

    # Generar la . TODO: Indagar en combinaciones de hyperparametros
    outputs = model.generate(
        **inputs,
        max_new_tokens=110,
        temperature=0.65,
        top_p=0.8,
        repetition_penalty=1.1,
        eos_token_id=tokenizer.eos_token_id,
    )

    # Decodificar y mostrar la respuesta
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    result = answer.split("Descripcion de salida:")[-1].strip().split("FIN.")[0].strip()
    print(result)

In [None]:
for table in [tabla_3]:
    describe_table_with_metadata(
        description_with_metadata_prompt(
            tabla_3, metadata_description_few_shots_prompt_data
        )
    )
    print("-" * 100)

## Metadata por columna

In [None]:
def column_description_with_metadata_prompt(metadata_files, few_shots_prompt_data):
    """Genera un prompt para obtener descripciones detalladas por columna."""
    few_shots = table_description_with_metadata_few_shots_to_prompt(
        few_shots_prompt_data
    )
    prompts = []

    for atributo in metadata_files["atributos"]:
        column_prompt = f"""
### Ejemplo Few-Shot:
{few_shots}

### Ahora genera una descripción detallada para el siguiente atributo:
- Nombre de Atributo: {atributo["nombreDeAtributo"]}
- Descripción Proporcionada: {atributo["descripcion"]}
- Información Adicional: {atributo.get("informacionAdicional", "N/A")}
- Tipo de Dato: {atributo["tipoDeDato"]}
- Recurso Relacionado: {atributo.get("recursoRelacionado", "N/A")}

Descripcion de salida:
"""
        prompts.append(column_prompt)

    return prompts


def describe_columns_with_metadata(prompts):
    """Procesa los prompts generados y obtiene descripciones detalladas."""
    descriptions = []

    for prompt in prompts:
        inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
        outputs = model.generate(
            **inputs,
            max_new_tokens=110,
            temperature=0.65,
            top_p=0.8,
            repetition_penalty=1.1,
            eos_token_id=tokenizer.eos_token_id,
        )
        # Decodificar y limpiar la respuesta
        answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
        result = (
            answer.split("Descripcion de salida:")[-1].strip().split("FIN.")[0].strip()
        )
        descriptions.append(result)

    return descriptions


# Ejemplo de uso
metadata_files = {
    "atributos": [
        {
            "descripcion": "identificación de expediente",
            "informacionAdicional": "",
            "tipoDeDato": "Integer",
            "recursoRelacionado": "",
            "nombreDeAtributo": "Expediente",
        },
        {
            "descripcion": "Imputado",
            "informacionAdicional": "",
            "tipoDeDato": "Integer",
            "recursoRelacionado": "",
            "nombreDeAtributo": "Imputado",
        },
        # Agregar más atributos aquí
    ],
    "titulo": "Recursos de Metadatos",
    "descripcion": "Descripcion Metadatos",
}

# Generar prompts para cada columna
prompts = column_description_with_metadata_prompt(
    metadata_files, metadata_description_few_shots_prompt_data
)

# Obtener las descripciones generadas por el LLM
column_descriptions = describe_columns_with_metadata(prompts)

# Mostrar las descripciones generadas
for column, description in zip(metadata_files["atributos"], column_descriptions):
    print(
        f"Atributo: {column['nombreDeAtributo']}\nDescripción Generada: {description}\n{'-' * 50}"
    )

#  Sugerencia de concepto para una columna

In [21]:
# Ejemplo de tabla
table = [
    [
        "FechaDesde",
        "FechaHasta",
        "Tipo recurso",
        "Tipo_Imposicion",
        "Recursos",
        "Estimado",
        "Recaudado",
        "En Mas",
        "En Menos",
        "Moneda",
    ],
    [
        "1/1/2016",
        "31/12/2016",
        "TASAS DE ORIGEN DEPARTAMENTAL",
        "TASAS ADMINISTRATIVAS",
        "De Tramite",
        "5400000,00",
        "6114849,30",
        "714849,30",
        "0,00",
        "$",
    ],
    [
        "1/1/2016",
        "31/12/2016",
        "INGRESOS EXTRAORDINARIOS DE ORIGEN DEPARTAMENTAL",
        "EVENTUALES",
        "Eventuales",
        "0,00",
        "0,00",
        "0,00",
        "0,00",
        "$",
    ],
    [
        "1/1/2016",
        "31/12/2016",
        "IMPUESTOS DE ORIGEN DEPARTAMENTAL",
        "IMPUESTOS SOBRE VEHICULOS",
        "Patente de Rodados",
        "0,00",
        "0,00",
        "0,00",
        "0,00",
        "$",
    ],
    [
        "1/1/2016",
        "31/12/2016",
        "RECURSOS DE ORIGEN NACIONAL",
        "RECURSOS CON DESTINO ESPECIFICO",
        "MTSS - INDA",
        "8200000,00",
        "7940566,00",
        "0,00",
        "259434,00",
        "$",
    ],
    [
        "1/1/2016",
        "31/12/2016",
        "INGRESOS EXTRAORDINARIOS DE ORIGEN DEPARTAMENTAL",
        "CARRETERAS Y CAMINOS VECINALES",
        "Carreteras y caminos vecinales",
        "0,00",
        "0,00",
        "0,00",
        "0,00",
        "$",
    ],
]

# Ejemplo de metadata
metadata = [
    {
        "nombreDeAtributo": "FechaDesde",
        "descripcion": "Fecha inicial del período de los recursos percibidos (Ingresos)",
        "tipoDeDato": "Fecha",
    },
    {
        "nombreDeAtributo": "FechaHasta",
        "descripcion": "Fecha final del período de los recursos percibidos (Ingresos)",
        "tipoDeDato": "Fecha",
    },
    {
        "nombreDeAtributo": "Tipo recurso",
        "descripcion": "Clasificación de los recursos por Tipo y Origen",
        "tipoDeDato": "Carácter(55)",
    },
    {
        "nombreDeAtributo": "Tipo_Imposicion",
        "descripcion": "Clasificación por tipo de imposición y recurso",
        "tipoDeDato": "Carácter(55)",
    },
    {
        "nombreDeAtributo": "Recursos",
        "descripcion": "Nombre del Recurso",
        "tipoDeDato": "Carácter(45)",
    },
    {
        "nombreDeAtributo": "Estimado",
        "descripcion": "Monto presupuestado de Ingresos en el Período Especificado",
        "tipoDeDato": "Numérico con decimales",
    },
    {
        "nombreDeAtributo": "Recaudado",
        "descripcion": "Monto recaudado de Ingresos en el Período Especificado",
        "tipoDeDato": "Numérico con decimales",
    },
    {
        "nombreDeAtributo": "En Mas",
        "descripcion": "Monto recaudado a favor en el período especificado",
        "tipoDeDato": "Numérico con decimales",
    },
    {
        "nombreDeAtributo": "En Menos",
        "descripcion": "Monto recaudado en contra en el período especificado",
        "tipoDeDato": "Numérico con decimales",
    },
    {
        "nombreDeAtributo": "Moneda",
        "descripcion": "Tipo de Moneda de los montos manejados",
        "tipoDeDato": "Carácter(3)",
    },
]

context = (
    "Rendición de Cuentas de la Intendencia de Durazno correspondiente a los años 2016 y 2017.\r\n"
    "Modificaciones en los archivos Estado de ejecución resumida a nivel de grupo 2016.csv y "
    "Metadatos Estado de ejecución resumida a nivel de grupo 2016.txt, se agrega la columna Número objeto."
)

# Generar el prompt para una columna específica
column_metadata = {
    "nombreDeAtributo": "Tipo_Imposicion",
    "descripcion": "",
    "tipoDeDato": "String",
    "informacionAdicional": "N/A",
}


def few_shots_column_concept():
    return """
#### Ejemplo 1:
### Contexto:
Este conjunto cuenta con la información referente a la clasificación de información reservada realizada por los organismos desde el año 2012 al presente. Dicha información se presenta a la Unidad de Acceso a la Información Pública (UAIP) a través de informes semestrales.\r\n\r\nPermite acceder a los datos del organismo que reservó, al contenido temático de dicha reserva, la fecha e identificador de la resolución realizada y otros comentarios realizados en el informe presentado.\r\n\r\nNotas:\r\n\r\nLos datos del período desde el año 2012 al año 2018 son una sistematización resultante de una investigación externa a la UAIP realizada por la Universidad Católica del Uruguay. Los datos desde el año 2019 en adelante son sistematizados por la UAIP.

### Información sobre la columna:
- Nombre de la columna: Nombre Inciso
- Descripción: Nombre del Inciso al que pertenece le organismo que present� el informe.
- Información adicional: 
- Ejemplos de valores: Administración Nacional de Telecomunicaciones, Banco Central del Uruguay, Ministerio del Interior.

### Columnas de la tabla:
Año Informe,Mes informe,Inciso,Nombre Inciso,Unidad Ejecutora,Nombre Unidad Ejecutora o dependencia u organismo,Nombre corto,Grupo de organismos,1 informe por todas las UE,Comentarios,Reserva,Contenido tematico,Indican N resolucion,Resolucion,Fecha Resolucion,Aclaraciones
2018,8,65,Administración Nacional de Telecomunicaciones,001,Administración Nacional de Telecomunicaciones,ANTEL,Servicios descentralizados,S/D,S/D,SI,S/D,NO,N/C,S/D,N/C
2018,2,50,Banco Central del Uruguay,001,Banco Central del Uruguay,BCU,Entes Autónomos,S/D,S/D,SI,Riesgos de mercado y liquidez,NO,N/C,S/D,N/C

### Concepto sugerido:
Organismo Público
"""

In [None]:
def generate_column_concept_prompt(table, metadata, context, column_metadata):
    """
    Genera un prompt para consultar el concepto asociado a una columna específica.

    Args:
        table (list of lists): Datos de la tabla como lista de filas (incluye encabezado).
        metadata (list of dicts): Metadata de la tabla.
        context (str): Contexto general de los datos.
        column_metadata (dict): Metadata específica de la columna.
           * nombreDeAtributo (str): Nombre de la columna a describir.
           * descripcion (str): Descripción de la columna.
           * tipoDeDato (str): Tipo de dato de la columna.
           * informacionAdicional (str): Información adicional de la columna.

    Returns:
        str: Prompt generado.
    """

    # Extraer encabezado y filas representativas
    header = table[0]
    column_index = header.index(column_metadata["nombreDeAtributo"])
    # Valores de 5 filas random
    random_indexes = (
        np.random.choice(len(table) - 1, len(table) // 2, replace=False) + 1
    )
    column_sample_rows = [table[i][column_index] for i in random_indexes]

    # Agarrar dos filas cualquiera
    first_row = np.random.choice(len(table) - 1) + 1
    second_row = np.random.choice(len(table) - 1) + 1
    sample_rows = [table[first_row], table[second_row]]

    # Generar el prompt
    prompt = f"""Eres un asistente experto en datos que ayuda a identificar conceptos que puedan describir una columna específica de una tabla.
                 Este concepto debe ser abstracto y general, no específico de la tabla en cuestión. Además, debe pertenecer a la base de conocimientos de Wikidata. 
    
### Instrucciones:
- Proporciona un concepto o término abstracto que describa la columna de la tabla.
- Se abstracto en cuanto al concepto, no proporciones información específica de la tabla.
- No incluyas el razonamiento o justificaciones, solo el concepto solicitado.

### Descripción de los datos:
- Se trata de datos provenientes del catálogo abierto de datos de Uruguay.

### Ejemplos
{few_shots_column_concept()}

### Ahora genera un concepto para la siguiente columna de la tabla:

### Contexto:
{context}

### Información sobre la columna:
- Nombre de la columna: {column_metadata["nombreDeAtributo"]}
- Descripción: {column_metadata["descripcion"]}
- Información adicional: {column_metadata.get("informacionAdicional", "N/A")}
- Ejemplos de valores: {", ".join(map(str, column_sample_rows))}

### Columnas de la tabla:
{", ".join(header)}

### Concepto sugerido:
"""
    return prompt


def column_concept(table, metadata, context, column_name):
    prompt = generate_column_concept_prompt(table, metadata, context, column_name)

    # Tokenizar el prompt
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

    outputs = model.generate(
        **inputs,
        max_new_tokens=20,
        temperature=0.7,
        top_p=0.8,
        repetition_penalty=1.1,
        eos_token_id=tokenizer.eos_token_id,
    )

    # Decodificar y mostrar la respuesta
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    result = answer.split("Concepto sugerido:")[-1].strip().split("\n")[0].strip()
    return result


print(column_concept(table, metadata, context, column_metadata))