# 6 - Respuesta a Preguntas de Tablas (Table Question Answering)

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/tqa.webp" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelos-de-respuesta-a-preguntas-de-tablas-(TQA)" data-toc-modified-id="1---Modelos-de-respuesta-a-preguntas-de-tablas-(TQA)-1">1 - Modelos de respuesta a preguntas de tablas (TQA)</a></span></li><li><span><a href="#2---Carga-de-datos" data-toc-modified-id="2---Carga-de-datos-2">2 - Carga de datos</a></span></li><li><span><a href="#3---Pipeline-de-Transformers-para-TQA" data-toc-modified-id="3---Pipeline-de-Transformers-para-TQA-3">3 - Pipeline de Transformers para TQA</a></span></li><li><span><a href="#4---Usando-el-modelo-TQA" data-toc-modified-id="4---Usando-el-modelo-TQA-4">4 - Usando el modelo TQA</a></span><ul class="toc-item"><li><span><a href="#4.1---Tokenizador" data-toc-modified-id="4.1---Tokenizador-4.1">4.1 - Tokenizador</a></span></li><li><span><a href="#4.2---Modelo-TQA" data-toc-modified-id="4.2---Modelo-TQA-4.2">4.2 - Modelo TQA</a></span></li><li><span><a href="#4.3---Resumen-de-código" data-toc-modified-id="4.3---Resumen-de-código-4.3">4.3 - Resumen de código</a></span></li></ul></li><li><span><a href="#5---Otro-modelo-TQA" data-toc-modified-id="5---Otro-modelo-TQA-5">5 - Otro modelo TQA</a></span></li></ul></div>

## 1 - Modelos de respuesta a preguntas de tablas (TQA)

Los modelos de respuesta a preguntas de tablas (Table Question Answering, TQA) son una especialización dentro del campo de respuesta a preguntas (Question Answering, QA) que se centra en interpretar y responder preguntas basadas en datos presentados en formatos tabulares. Estos modelos están diseñados para entender y manipular la información contenida en tablas, lo que implica habilidades tanto de comprensión del lenguaje natural como de manejo de datos estructurados. Hay que decir que este tipo de modelos se están generalizando con la estructura del RAG y están dejando de ser desarrollados.

Las características de los modelos TQA son:

1. **Comprensión de Datos Estructurados**:

A diferencia de los modelos de QA tradicionales que se enfocan en textos continuos, los modelos TQA deben entender la organización y la relación entre datos en un formato tabular, como filas, columnas y celdas que pueden contener números, texto o fechas.

2. **Interpretación Contextual**:

Estos modelos necesitan interpretar las preguntas en el contexto de la información tabular presentada. Esto incluye entender términos relacionados con operaciones tabulares, como "máximo", "mínimo", "promedio", "total", y cómo se aplican estos términos a los datos específicos de una tabla.

3. **Manipulación de Datos**: 

Además de interpretar la tabla, estos modelos a menudo realizan operaciones sobre los datos, como sumas, promedios, o comparaciones, para extraer o calcular la respuesta correcta.


Tecnologías que utilizan los modelos TQA:

Los modelos TQA a menudo combinan técnicas de procesamiento del lenguaje natural con métodos de procesamiento de datos. Algunos enfoques incluyen:

+ Modelos basados en Transformers: Utilizan modelos de lenguaje preentrenados que han sido adaptados para trabajar con datos tabulares.
+ Parsing de Consultas: Convertir preguntas del lenguaje natural en comandos que pueden ejecutarse sobre los datos, similar a cómo se formulan consultas en lenguajes de bases de datos como SQL.
+ Redes Neuronales que Modelan Relaciones entre Entidades: Redes que pueden captar y modelar las relaciones complejas entre diferentes entidades en las tablas.

Algunas aplicaciones son:
+ Análisis de Negocios y Finanzas: Automatización de la generación de informes y respuestas a preguntas sobre datos financieros almacenados en tablas.
+ Asistencia en Salud: Responder a preguntas sobre datos de pacientes almacenados en registros médicos electrónicos.
+ Investigación Científica y Académica: Automatización de la búsqueda y extracción de datos de tablas en publicaciones científicas y académicas.

## 2 - Carga de datos

Vamos a usar un archivo csv proporcionado por Renfe. Los datos son de [volumen de viajeros por estación en cercanías de Asturias en el año 2018](https://data.renfe.com/dataset/volumen-de-viajeros-por-franja-horaria-asturias). Cargaremos en primer lugar estos en forma tabular usando la librería `pandas` de python:

In [1]:
import pandas as pd

In [4]:
tabla = pd.read_csv('../../../files/asturias_viajeros_por_franja_horaria.csv', sep=';')

tabla.head()

Unnamed: 0,CODIGO_ESTACION,NOMBRE_ESTACION,NUCLEO_CERCANIAS,TRAMO_HORARIO,VIAJEROS_SUBIDOS,VIAJEROS_BAJADOS
0,15118,PUENTE DE LOS FIERROS,ASTURIAS,07:00 - 07:30,0,2
1,15118,PUENTE DE LOS FIERROS,ASTURIAS,07:30 - 08:00,1,0
2,15118,PUENTE DE LOS FIERROS,ASTURIAS,08:00 - 08:30,1,0
3,15118,PUENTE DE LOS FIERROS,ASTURIAS,11:00 - 11:30,1,1
4,15118,PUENTE DE LOS FIERROS,ASTURIAS,11:30 - 12:00,0,0


In [6]:
tabla.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1381 entries, 0 to 1380
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   CODIGO_ESTACION   1381 non-null   int64 
 1   NOMBRE_ESTACION   1381 non-null   object
 2   NUCLEO_CERCANIAS  1381 non-null   object
 3   TRAMO_HORARIO     1381 non-null   object
 4   VIAJEROS_SUBIDOS  1381 non-null   int64 
 5   VIAJEROS_BAJADOS  1381 non-null   int64 
dtypes: int64(3), object(3)
memory usage: 310.1 KB


In [8]:
tabla.NOMBRE_ESTACION.unique()

array(['PUENTE DE LOS FIERROS', 'LA FRECHA', 'CAMPOMANES',
       'LA COBERTORIA', 'POLA DE LENA', 'VILLALLANA', 'UJO', 'SANTULLANO',
       'MIERES-PUENTE', 'ABLAÑA', 'LA PEREDA-RIOSA', 'OLLONIEGO',
       'SOTO DE REY', 'LAS SEGADAS', 'EL CALEYO', 'OVIEDO', 'LUGONES',
       'LA CORREDORIA', 'LLAMAQUIQUE', 'LUGO DE LLANERA',
       'VILLABONA DE ASTURIAS', 'SERIN', 'MONTEANA',
       'VILLABONA TABLADIELLO', 'VERIÑA', 'CALZADA DE ASTURIAS',
       'GIJON-SANZ CRESPO', 'SANTA EULALIA DE MANZANEDA', 'TUDELA-VEGUIN',
       'PEÑA RUBIA', 'BARROS', 'LA FELGUERA', 'SAMA', 'CIAÑO',
       'EL ENTREGO', 'FERROÑES', 'CANCIENES', 'NUBLEDO', 'VILLALEGRE',
       'LA ROCICA', 'AVILES', 'SAN JUAN DE NIEVA', 'LOS CAMPOS'],
      dtype=object)

In [9]:
tabla.TRAMO_HORARIO.unique()

array(['07:00 - 07:30', '07:30 - 08:00', '08:00 - 08:30', '11:00 - 11:30',
       '11:30 - 12:00', '13:30 - 14:00', '16:00 - 16:30', '16:30 - 17:00',
       '17:30 - 18:00', '19:00 - 19:30', '21:00 - 21:30', '21:30 - 22:00',
       '22:30 - 23:00', '19:30 - 20:00', '22:00 - 22:30', '08:30 - 09:00',
       '12:00 - 12:30', '14:00 - 14:30', '17:00 - 17:30', '10:30 - 11:00',
       '15:30 - 16:00', '06:30 - 07:00', '09:00 - 09:30', '09:30 - 10:00',
       '10:00 - 10:30', '12:30 - 13:00', '13:00 - 13:30', '14:30 - 15:00',
       '15:00 - 15:30', '18:00 - 18:30', '18:30 - 19:00', '20:00 - 20:30',
       '20:30 - 21:00', '23:00 - 23:30', '23:30 - 00:00', '06:00 - 06:30',
       '00:00 - 00:30', '05:30 - 06:00', '05:00 - 05:30'], dtype=object)

In [10]:
tabla_estacion = tabla.groupby('NOMBRE_ESTACION').agg({'VIAJEROS_SUBIDOS': 'sum',
                                                       'VIAJEROS_BAJADOS': 'sum'}).reset_index()

tabla_estacion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43 entries, 0 to 42
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   NOMBRE_ESTACION   43 non-null     object
 1   VIAJEROS_SUBIDOS  43 non-null     int64 
 2   VIAJEROS_BAJADOS  43 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ KB


In [11]:
tabla_hora = tabla.groupby('TRAMO_HORARIO').agg({'VIAJEROS_SUBIDOS': 'sum',
                                                       'VIAJEROS_BAJADOS': 'sum'}).reset_index()

tabla_hora.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39 entries, 0 to 38
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   TRAMO_HORARIO     39 non-null     object
 1   VIAJEROS_SUBIDOS  39 non-null     int64 
 2   VIAJEROS_BAJADOS  39 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 1.0+ KB


In [13]:
tabla_hora.head().to_dict(orient='list')

{'TRAMO_HORARIO': ['00:00 - 00:30',
  '05:00 - 05:30',
  '05:30 - 06:00',
  '06:00 - 06:30',
  '06:30 - 07:00'],
 'VIAJEROS_SUBIDOS': [1, 10, 33, 119, 380],
 'VIAJEROS_BAJADOS': [11, 3, 13, 33, 91]}

## 3 - Pipeline de Transformers para TQA

El modelo que vamos a usar es [TAPEX](https://huggingface.co/microsoft/tapex-large-finetuned-wtq
) (Table Pre-training via Execution) de Microsoft, un modelo que pesa 1.7Gb. Su enfoque de pre-entrenamiento es conceptualmente simple y empíricamente potente usado para potenciar modelos existentes con habilidades de razonamiento de tablas. TAPEX realiza el pre-entrenamiento de tablas aprendiendo un ejecutor neural SQL sobre un corpus sintético, el cual se obtiene mediante la síntesis automática de consultas SQL ejecutables.

TAPEX se basa en la arquitectura BART, el modelo codificador-decodificador (seq2seq) transformer con un codificador bidireccional (similar a BERT) y un decodificador autoregresivo (similar a GPT).

Este modelo es el modelo tapex-base ajustado finamente en el conjunto de datos [WikiTableQuestions](https://huggingface.co/datasets/wikitablequestions).



In [14]:
from transformers import pipeline

In [15]:
tarea = 'table-question-answering'

modelo = 'microsoft/tapex-large-finetuned-wtq'

In [16]:
tqa_pipe = pipeline(task=tarea, model=modelo)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [23]:
pregunta = 'quitando Oviedo, en que estacion se suben más viajeros'

In [24]:
tqa_pipe(query=pregunta, table=tabla_estacion.to_dict(orient='list'))

{'answer': ' llamaquique'}

In [26]:
prompt = {'query': pregunta, 'table': tabla_estacion.to_dict(orient='list')}

tqa_pipe(prompt)

{'answer': ' llamaquique'}

In [28]:
tabla_estacion.sort_values(by='VIAJEROS_SUBIDOS', ascending=False).head()

Unnamed: 0,NOMBRE_ESTACION,VIAJEROS_SUBIDOS,VIAJEROS_BAJADOS
26,OVIEDO,4261,4128
18,LLAMAQUIQUE,2662,2893
21,LUGONES,1674,1662
10,GIJON-SANZ CRESPO,1450,1334
12,LA CORREDORIA,1332,1205


## 4 - Usando el modelo TQA

Vamos a ver como se usa el modelo TQA fuera del pipeline y describimos tanto el tokenizador con el propio modelo.

In [29]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

### 4.1 - Tokenizador

Vectorizamos tanto la tabla como la pregunta.

In [30]:
tokenizador = AutoTokenizer.from_pretrained(modelo)



In [31]:
tokenizador

TapexTokenizer(name_or_path='microsoft/tapex-large-finetuned-wtq', vocab_size=50265, model_max_length=1024, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	1: AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	3: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	50264: AddedToken("<mask>", rstrip=False, lstrip=True, single_word=False, normalized=True, special=True),
}

La descripción del tokenizador es la siguiente:

1. Nombre o ruta: microsoft/tapex-large-finetuned-wtq indica que el tokenizador es una parte del modelo TAPEX, específicamente una versión grande ("large") que ha sido afinada para trabajar bien con la tarea "WikiTableQuestions".

2. Tamaño del vocabulario: vocab_size=50265 significa que el modelo utiliza un vocabulario de 50,265 tokens diferentes.

3. Longitud máxima del modelo: model_max_length=1024 señala que el tokenizador puede manejar secuencias de hasta 1024 tokens.

4. Rapidez: is_fast=False indica que este tokenizador no utiliza la implementación rápida de tokenizadores como la que ofrece Hugging Face con Rust, sino una versión más tradicional en Python.

5. Configuración de padding y truncamiento: Ambos se realizan hacia la 'derecha' (right), lo que significa que si una secuencia es demasiado corta o larga, los ajustes se aplicarán al final de la secuencia.

6. Tokens especiales: Estos incluyen varios tokens útiles para diferentes propósitos en el modelado, como:

    + `<s>` y `</s>`: Inicio y fin de secuencia.
    
    + `<unk>`: Token para palabras desconocidas.
    
    + `<pad>`: Padding.
    
    + `<mask>`: Máscara, usado en tareas como el entrenamiento de modelos de lenguaje enmascarado.
    
    + `<cls>`: Usado comúnmente para representar el comienzo de una secuencia en ciertos modelos como BERT.
    

7. Limpieza de espacios en la tokenización: clean_up_tokenization_spaces=True implica que se eliminarán espacios extra que puedan haber sido introducidos durante el proceso de tokenización.

8. Diccionario de tokens añadidos: Este diccionario muestra la configuración de algunos tokens especiales, destacando si estos tokens deben tener espacio antes o después cuando se insertan en un texto, si deben considerarse como una palabra completa, y si son "especiales".



In [32]:
vector = tokenizador(table=tabla_estacion, query=pregunta, return_tensors='pt')

In [33]:
vector

{'input_ids': tensor([[    0,  6602,  5502, 19414,  2550,   139,     6,  1177,  1192,  3304,
          8647,   842,  2849,   225,   475,  6417,  1241,   267, 22070, 11311,
          4832,   295,  5223,   241,  1215,   990,  8647,  1721,  1241,   267,
         22070,  1215, 10936,   808,   366,  1721,  1241,   267, 22070,  1215,
           428,  1176,  6510,  3236,   112,  4832,  4091,  2560, 14379,  1721,
          5595,  1721,  5169,  3236,   132,  4832,  6402,  4755,  1721,   231,
          1922,  1721,   231,  3414,  3236,   155,  4832,  2003,  3985,  1721,
           316,  1721,   316,  3236,   204,  4832, 13011,   329,  2095,   263,
         12976,   710,  5003,  1721,   262,  2831,  1721,   290,  5352,  3236,
           195,  4832,  2205, 16187,   293,  1721,   753,  1721,   564,  3236,
           231,  4832,    64,  2520, 39268,  1721,  7994,  1721,  7994,  3236,
           262,  4832,   740,   493, 14182,  1721,  6657,  1721,  5549,  3236,
           290,  4832,  1615,   740,  

In [35]:
vector['input_ids'].shape

torch.Size([1, 551])

### 4.2 - Modelo TQA
Usamos el modelo TQA con el vector que acabamos de sacar del tokenizador:

In [36]:
modelo_tqa = AutoModelForSeq2SeqLM.from_pretrained(modelo)

In [37]:
modelo_tqa

BartForConditionalGeneration(
  (model): BartModel(
    (shared): BartScaledWordEmbedding(50265, 1024, padding_idx=1)
    (encoder): BartEncoder(
      (embed_tokens): BartScaledWordEmbedding(50265, 1024, padding_idx=1)
      (embed_positions): BartLearnedPositionalEmbedding(1026, 1024)
      (layers): ModuleList(
        (0-11): 12 x BartEncoderLayer(
          (self_attn): BartAttention(
            (k_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (v_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (q_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (out_proj): Linear(in_features=1024, out_features=1024, bias=True)
          )
          (self_attn_layer_norm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
          (activation_fn): GELUActivation()
          (fc1): Linear(in_features=1024, out_features=4096, bias=True)
          (fc2): Linear(in_features=4096, out_features=1024, bias=True)
        

BartForConditionalGeneration es una variante de la arquitectura BART (Bidirectional and Auto-Regressive Transformers) diseñada para tareas de generación de texto condicional, como la traducción automática o resumen de texto. A continuación, explicamos cada parte relevante de la estructura del modelo:

1. BartModel:

    + shared: Un embedding compartido que se utiliza tanto en el encoder como en el decoder para representar las palabras. Tiene un tamaño de vocabulario de 50265 y cada palabra se representa con un vector de 1024 dimensiones. padding_idx=1 indica que el índice 1 en el vocabulario se utiliza para el token de padding.
    + encoder: Es la parte del modelo que procesa la entrada de texto.
        + embed_tokens: Usa el mismo embedding compartido para convertir tokens de entrada en vectores.
        + embed_positions: Embeddings posicionales que ayudan al modelo a entender el orden de las palabras en la entrada.
        + layers: Una lista de 12 capas de tipo BartEncoderLayer, cada una conteniendo:
            + self_attn: Una capa de atención (Scaled Dot-Product Attention) que ayuda al modelo a enfocarse en diferentes partes de la entrada para cada palabra.
            + activation_fn: Función de activación GELU utilizada en transformaciones lineales.
            + fc1 y fc2: Capas lineales que transforman los datos entre diferentes espacios dimensionales.
            + final_layer_norm y self_attn_layer_norm: Normalización de capa para estabilizar el aprendizaje.
    + decoder: Similar al encoder pero con capacidades adicionales para la generación de texto.
        + embed_tokens y embed_positions: Análogos a los del encoder.
        + layers: Lista de 12 capas BartDecoderLayer, cada una con:
            + self_attn y encoder_attn: Atención propia para entender la salida generada hasta ahora y atención del encoder para integrar la información de la entrada.
            + activation_fn, fc1, fc2: Similares a las del encoder.
            + final_layer_norm, self_attn_layer_norm, encoder_attn_layer_norm: Normalización para estabilizar el aprendizaje.


2. lm_head: Una capa lineal que mapea la salida del decoder de nuevo al espacio del vocabulario para generar el texto final.

In [38]:
resultado = modelo_tqa.generate(**vector)

resultado

tensor([[    2,     0, 19385,  2583,  2253,  5150,     2]])

Le pedimos al modelo directamente que genere una respuesta. Su respuesta es un tensor que luego pasaremos por tokenizador para que nos devuelva un resultado en formato string.

In [41]:
tokenizador.batch_decode(resultado, skip_special_tokens=True)[0]

' llamaquique'

### 4.3 - Resumen de código

Vamos a poner todo el código junto en una sola celda:

In [43]:
import pandas as pd

tabla = pd.read_csv('../../../files/asturias_viajeros_por_franja_horaria.csv', sep=';')


tabla_estacion = tabla.groupby('NOMBRE_ESTACION').agg({'VIAJEROS_SUBIDOS': 'sum',
                                                       'VIAJEROS_BAJADOS': 'sum'}).reset_index()


pregunta = 'quitando Oviedo, en que estacion se suben más viajeros'


tokenizador = AutoTokenizer.from_pretrained(modelo)


modelo_tqa = AutoModelForSeq2SeqLM.from_pretrained(modelo)


vector = tokenizador(table=tabla_estacion, query=pregunta, return_tensors='pt')


resultado = modelo_tqa.generate(**vector)

tokenizador.batch_decode(resultado, skip_special_tokens=True)[0]



' llamaquique'

In [44]:
def consulta(pregunta):
    
    
    tabla = pd.read_csv('../../../files/asturias_viajeros_por_franja_horaria.csv', sep=';')


    tabla_estacion = tabla.groupby('NOMBRE_ESTACION').agg({'VIAJEROS_SUBIDOS': 'sum',
                                                           'VIAJEROS_BAJADOS': 'sum'}).reset_index()



    tokenizador = AutoTokenizer.from_pretrained(modelo)


    modelo_tqa = AutoModelForSeq2SeqLM.from_pretrained(modelo)


    vector = tokenizador(table=tabla_estacion, query=pregunta, return_tensors='pt')


    resultado = modelo_tqa.generate(**vector)

    return tokenizador.batch_decode(resultado, skip_special_tokens=True)[0]
    
     

In [45]:
consulta('quitando Oviedo, en que estacion se suben más viajeros')



' llamaquique'

## 5 - Otro modelo TQA

[TAPAS](https://huggingface.co/google/tapas-large-finetuned-wtq) es un modelo de Google entranado también con el conjunto de datos WikiTableQuestions. Pesa unos 1.35Gb. Usaremos directamente el pipeline para probarlo.

In [64]:
pipe = pipeline(task=tarea, model=modelo)     

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [65]:
# usaremos una tabla pequeña para probarlo

data = {'year': [1896, 1900, 1904, 2004, 2008, 2012],
        'city': ['athens', 'paris', 'st. louis', 'athens', 'beijing', 'london']}



tabla = pd.DataFrame.from_dict(data)


tabla

Unnamed: 0,year,city
0,1896,athens
1,1900,paris
2,1904,st. louis
3,2004,athens
4,2008,beijing
5,2012,london


In [66]:
pregunta = 'In which year did beijing host the Olympic Games'

In [70]:
res = pipe(query=pregunta, table=tabla)['answer'].strip()

int(res)

2008