# Fine-tune Spanish RoBERTa (BSC) for QA on SQAC / by mrm8488

Based on Sylvain Gugger Colab

imagen

In [8]:
#!nvidia-smi

In [196]:
import torch
print(torch.__version__)

In [197]:
! pip3 install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0 -f https://download.pytorch.org/whl/torch_stable.html

In [198]:
%%capture
! pip install datasets transformers

Si está abriendo este cuaderno localmente, asegúrese de que su entorno tenga una instalación de la última versión de esas bibliotecas.

Para poder compartir su modelo con la comunidad y generar resultados como el que se muestra en la imagen a continuación a través de la API de inferencia, hay algunos pasos más a seguir.

Primero debe almacenar su token de autenticación del sitio web Hugging Face (regístrese aquí si aún no lo ha hecho). Luego ejecute la siguiente celda e ingrese su nombre de usuario y contraseña:

In [199]:
pip install huggingface_hub

In [200]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [63]:
access_token = "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"

Necesitamos instalar Git-LFS. Descomenta y ejecuta la siguiente celda

In [241]:
! apt install git-lfs

"apt" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


Asegúrese de que su versión de Transformers sea al menos 4.11.0 ya que la funcionalidad se introdujo en esa versión:

In [202]:
import transformers

print(transformers.__version__)

You can find a script version of this notebook to fine-tune your model in a distributed fashion using multiple GPUs or TPUs here.

# Fine-tuning de un modelo para la tarea de QA

En este cuaderno, veremos cómo hacer "fine-tuning" a uno de los modelos de 🤗 Transformers para la tarea de respuesta a una pregunta (QA), que es la tarea de extraer la respuesta a una pregunta de un contexto dado. Veremos cómo cargar fácilmente un conjunto de datos para este tipo de tareas y usar la API Trainer para ajustar un modelo en él.

** Nota: ** Este cuaderno afina los modelos que responden preguntas tomando una subcadena de un contexto, no generando texto nuevo.

In [203]:
squad_v2 = False
model_checkpoint = "BSC-TeMU/roberta-base-bne"
batch_size = 16

### Cargando el dataset
Usaremos la biblioteca 🤗 Datasets para descargar los datos y obtener la métrica que necesitamos usar para la evaluación (para comparar nuestro modelo con el benchmark). Esto se puede hacer fácilmente con las funciones load_dataset yload_metric.

In [204]:
from datasets import load_dataset, load_metric

Para nuestro ejemplo usaremos el Dataset SQAC. El cuaderno debe funcionar con cualquier conjunto de datos de respuesta a preguntas proporcionado por la biblioteca 🤗 Datasets. Si está utilizando su propio conjunto de datos definido a partir de un archivo JSON o csv (consulte la documentación de Datasets[texto del enlace](https://) sobre cómo cargarlos ), es posible que necesite algunos ajustes en los nombres de las columnas utilizadas.

In [205]:
datasets = load_dataset("BSC-TeMU/SQAC")

Found cached dataset sqac (C:/Users/sifigueroa/.cache/huggingface/datasets/BSC-TeMU___sqac/SQAC/0.0.0/039a4db4240c2eeaeb62497c826a49721ea57dffae7eeff93a8179fcdc5fd9fe)


  0%|          | 0/3 [00:00<?, ?it/s]

The datasets object itself is DatasetDict, which contains one key for the training, validation and test set.

In [206]:
datasets

DatasetDict({
    train: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 15036
    })
    validation: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 1864
    })
    test: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 1910
    })
})

In [207]:
datasets["train"][0]

{'id': '6cf3dcd6-b5a3-4516-8f9e-c5c1c6b66628',
 'title': 'Historia de Japón',
 'context': 'La historia de Japón (日本の歴史 o 日本史, Nihon no rekishi / Nihonshi?) es la sucesión de hechos acontecidos dentro del archipiélago japonés. Algunos de estos hechos aparecen aislados e influenciados por la naturaleza geográfica de Japón como nación insular, en tanto que otra serie de hechos, obedece a influencias foráneas como en el caso del Imperio chino, el cual definió su idioma, su escritura y, también, su cultura política. Asimismo, otra de las influencias foráneas fue la de origen occidental, lo que convirtió al país en una nación industrial, ejerciendo con ello una esfera de influencia y una expansión territorial sobre el área del Pacífico. No obstante, dicho expansionismo se detuvo tras la Segunda Guerra Mundial y el país se posicionó en un esquema de nación industrial con vínculos a su tradición cultural.',
 'question': '¿Qué influencia convirtió Japón en una nación industrial?',
 'answers': {

Podemos ver que las respuestas están indicadas por su posición inicial en el texto (aquí en el carácter 473) y su texto completo, que es una subcadena del contexto como mencionamos anteriormente.

In [208]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "No puedes seleccionar más elementos que los que contiene el dataset"
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [209]:
show_random_elements(datasets["train"])

Unnamed: 0,id,title,context,question,answers
0,0b292f4c-822f-4868-8f9d-50c883946c73,CESS-CAST-P_122_19990701_rec.txt,"El montaje de Joglars sobre el pintor se estrenará el 6 de septiembre en Figueres. El último delirio de Dalí ocurrió justo antes de morir. En un segundo, toda la vida del artista pasó ante sus ojos como en una película. Así es como la compañía teatral Joglars recrea la agonía de Dalí, tema central de Dalí, el próximo espectáculo del grupo que dirige Albert Boadella. El director teatral clausuró ayer el taller El actor como creador en la Universidad Internacional Menéndez Pelayo de Santander con una tertulia sobre el montaje de la obra. Para el dramaturgo, tras la imagen frívola de Dalí, que el mismo artista contribuyó a fomentar, se encuentra ""no sólo un pintor excepcional, sino también un escritor remarcable y un auténtico provocador"". Dalí, afirmó Boadella, fue ""un niño que nunca llegó a hacerse adulto"", lo que explica, a su juicio, su ""egocentrismo y su sexualidad"". La obra se estrenará el 6 de septiembre, en Figueres, la ciudad preferida del genio.",¿Qué representa la obra?,"{'text': ['la agonía de Dalí'], 'answer_start': [267]}"
1,5cbae1ee-987e-412b-ab21-ae7623026b56,Chacas,"Medios de comunicación \nEl servicio de telefonía móvil tiene presencia significativa. Son tres las operadoras móviles que tienen cobertura en la ciudad, siendo Bitel y Claro las que cuentan con la red 4G,. Así mismo, el pueblo cuenta con el tendido de fibra óptica perteneciente a la red dorsal que se instaló durante el gobierno de Ollanta Humala. Sin embargo aún no está operativa, se estima que para 2025 Chacas se integrará finalmente a la red dorsal de fibra óptica. Por otro lado, se pueden sintonizar seis estaciones de radio, y tres canales de televisión analógica y televisión por satélite. El distrito cuenta con una radio municipal, que ofrece información y noticias relevantes sobre la provincia.",¿Qué compañías móviles dan cobertura 4G a Chacas?,"{'text': ['Bitel y Claro'], 'answer_start': [160]}"
2,968d27c8-8a4e-4906-988b-de43ab166b81,Irán sigue reprimiendo las protestas y eleva la tensión con el Reino Unido,"24 de junio de 2009 24 de junio de 2009Teherán, Irán — El gobierno iraní ha impedido a entre doscientos y un millar de manifestantes, convocados por el ex-primer ministro Mir Husein Musavi contra la reelección del actual presidente Mahmud Ahmadineyad, que pudieran manifestarse frente a la sede del Parlamento en Teherán. Cientos de policías apoyados por milicianos basiyís, armados éstos de porras y barras de hierro, han dispersado a la multitud con gases lacrimógenos, según testimonios de testigos. Respecto a estas protestas, el Líder Supremo iraní, Alí Jamenei, ha indicado que ""Insisto y volveré a insistir en aplicar la ley en este asunto. Ni el gobierno ni la nación se rendirán a la presión a ningún precio"", cerrando de esta manera la posibilidad de cualquier entendimiento con los reformistas. Éstos siguen presionando al régimen iraní. Uno de los más representativos reformistas, el clérigo Husein Alí Montazerí, en arresto domiciliario desde hace diez años en la ciudad santa chií de Qom, ha convocado tres días de luto por las víctimas de la represión gubernamental y ha indicado que ""desoír las demandas del pueblo está prohibido por la religión"". El candidato en las pasadas elecciones del 12 de junio, Mehdi Karrubí, ha rechazado los resultados electorales y ha manifestado que el gobierno resultante de los mismos será ilegítimo y ha pedido la anulación de los mismos. Por su parte, la esposa de Musavi, Zahra Rahnavard, ha pedido al gobierno la liberación de los políticos y personas detenidas durante las manifestaciones indicando que no se puede tratar a sus seguidores como ""si la ley marcial se hubiese impuesto en las calles"". Entretanto, el Consejo de Guardianes, ha denegado la posibilidad de la anulación de las votaciones, y aunque ha reconocido que en algunas circunscripciones han votado más personas que las registradas para hacerlo, ha comentado que no hay graves irregularidades, por lo que Ahmadineyad podría ser jurado en su cargo a mediados de agosto. Por otro lado, el gobierno de Irán ha incrementado el nivel de las acusaciones a gobiernos extranjeros, fundamentalmente los del Reino Unido y Estados Unidos, de fomentar un complot con el fin de derrocar el régimen iraní. En este contexto, el ministro iraní de Asuntos Exteriores, Manoucher Mottaki, ha confirmado la expulsión de dos diplomáticos británicos y ha insinuado que Irán va a replantearse el nivel de sus relaciones con el Reino Unido. En respuesta a esta decisión iraní, el gobierno británico de Gordon Brown ha ordenado asimismo la expulsión de su territorio de dos diplomáticos iraníes. El portavoz del gobierno británico se ha defendido de las acusaciones iraníes y ha comentado que la intención de Irán de pretender extender a otros un conflicto interno es ""rechazable y sin fundamento"". Asimismo, el ministro iraní de Inteligencia, Gholam Husein Mohseni Ejei, ha anunciado que varios ciudadanos británicos han sido detenidos bajo la acusación de fomentar disturbios en la capital.",¿Por qué motivo ha organizado Musavi estas protestas?,"{'text': ['la reelección del actual presidente Mahmud Ahmadineyad'], 'answer_start': [197]}"
3,61913f0b-f561-4669-858a-9d3c4b131992,Ignacio de Antioquía,"Ignacio de Antioquía (en griego: Ἰγνάτιος Ἀντιοχείας) (Siria, Imperio romano, 35 - Roma, entre 108 y 110) es uno de los padres de la Iglesia y, más concretamente, uno de los padres apostólicos por su cercanía cronológica con el tiempo de los apóstoles.​ Fue el primero en llamar Católica a la Iglesia.​ Es autor de siete cartas que redactó en el transcurso de unas pocas semanas, mientras era conducido desde Siria a Roma para ser ejecutado o, como él mismo escribió:",¿Cuál fue el papel de Ignacio de Antioquía en los inicios del catolicismo?,"{'text': ['es uno de los padres de la Iglesia y, más concretamente, uno de los padres apostólicos por su cercanía cronológica con el tiempo de los apóstoles'], 'answer_start': [107]}"
4,bd29bc9b-8c3e-4c48-abe1-45ccee0e7263,AA_4723_20001006_&_A_14423_20000317_&_P_106_20000201_&_P_111_20010102_&_,"El corredor italiano Fabrizio Guidi (Francaise de Jeux) se ha impuesto al esprint en la cuarta, y última, etapa del Giro de la Provincia de Lucca (Toscana), que se ha disputado entre las localidades de Marina di Carrara y Lucca, sobre 152 kilómetros. El también italiano Alessandro Petacchi (Fassa Bortolo), que entró en la segunda posición en la etapa, se ha alzado con el triunfo final en la prueba, mientras que el español Oscar Freire, vigente campeón del mundo y que inició la jornada en la segunda plaza de la general, abandonó a poco de iniciada la etapa. Una sinuosa etapa, con seis vueltas a un duro circuito, en el que la gran dificultad representaba la subida a San Martino in Vignola en Vignola (4,1 kilómetros al 4 por ciento desnivel), que resultó muy movida, con continuos intentos de escapada y donde se dejó ver en varias ocasiones el español Manuel Beltrán, del Mapei. Al final, en el último paso por el San Martino in Vignola in Vignola, a unos catorce kilómetros de la meta, se definió ya definitivamente el grupo que se iba a disputar el triunfo en el esprint final. Un desenlace final en el que Fabrizio Guidi fue el más rápido, logrando su cuarta victoria de temporada, y precediendo a un Alessandro Petacchi que entró en la segunda posición con la tranquilidad de saber que el triunfo en la general ya nadie se lo podía quitar tras la retirada de Freire, al que tan sólo sacaba tres segundos.",¿Qué le ocurrió a Oscar Freire?,"{'text': ['abandonó a poco de iniciada la etapa'], 'answer_start': [525]}"
5,f67411c8-8b96-431c-8e64-c8a9133381eb,Castor,"Utilidad comercial \nLas pieles de castor eran intercambiadas en trueques por los nativos americanos en el siglo XVII para conseguir bienes europeos. Después eran enviadas a Gran Bretaña y Francia, donde eran convertidas en prendas. La extensa cacería y captura de castores puso en peligro su supervivencia. No obstante, llegó un momento en el que el comercio de pieles decayó debido a su demanda decreciente en Europa y a la utilización de los terrenos de caza para apoyar al sector agrícola en auge. Posteriormente se daría un pequeño resurgimiento en la cacería de castores en algunas áreas donde había sobrepoblación de estos animales; aunque por lo general la captura solo se realiza cuando la piel es valiosa, normalmente el resto del animal también se utiliza como alimento para otros animales. La única piel en América del Norte que superaba a la del castor en valor comercial era la del zorro rojo, la cual se decía que era cuarenta veces más valiosa.",¿Cuál es el uso que se le da a los castores despellejados?,"{'text': ['alimento para otros animales'], 'answer_start': [771]}"
6,e36e6095-1d67-4866-b008-9872af1e1d36,CESS-CAST-P_136_20010501_rec.txt,"El infierno del Atlético en Segunda División es especialmente duro para Kiko, precisamente el jugador que prestó su imagen a la campaña publicitaria con la que el club madrileño buscó el respaldo de su afición. El más carismático jugador rojiblanco hasta hace unos meses fue objeto el sábado por la noche de un intento de agresión a la salida del estadio, después de la humillante derrota ante el Murcia. Un grupo de los más radicales miembros del Frente Atlético le acusó de ser el principal responsable del descenso y le reprochó con suma dureza no colaborar económicamente con la peña para sufragar sus desplazamientos. AMENAZAS E INSULTOS. El delantero jerezano está en el punto de mira de los ultras más exaltados por no haber puesto las 150.000 pesetas que exigieron a cada futbolista para financiar el coste de un vuelo charter a Tenerife el pasado 8 de abril. En presencia de su padre, su mujer y su hija de nueve meses, que le esperaban dentro de un coche en la puerta cero del estadio, Kiko fue amenazado e insultado.",¿Cuándo intentaron agredir a Kiko?,"{'text': ['a la salida del estadio'], 'answer_start': [331]}"
7,82b8a699-18e9-41b0-af93-bd2e6cdeb3a4,Dos pedidos de impedimento contra Lula llegan a la Cámara de Diputados en Brasil,"5 de agosto de 2005 Según la Agencia Cámara, dos pedidos de impedimento (impeachment) contra el Presidente de la República Luiz Inácio Lula da Silva llegaron a la Cámara de Diputados de Brasil, este miércoles (3) en la noche. Los pedidos presentados fueron suscritos por dos abogados: Gildson Gomes de los Santos, de Ribera del Palomar, de Bahía, y de Aylton Ferraz Monjas, de Guarujá, de São Paulo. Según la legislación brasileña, el Presidente de la Cámara de Diputados, Severino Cavalcanti, debe analizar los pedidos de impeachment y puede aceptarlos o rechazarlos, si considera que no son aplicables. Cavalcanti dijo: ""La asesoría está estudiando y creo que en pocos días tendré una posición firmada sobre el asunto. Pero no haré nada precipitado"". Por la Constitución Brasileña (artículo 51) la Cámara de los Diputados puede autorizar, con el apoyo de las dos terceras partes de sus integrantes, la instauración de proceso de impedimento contra el Presidente de la República, el Vicepresidente y los Ministros de Estado. Una vez autorizado, el proceso de impeachment y juicio del Presidente es llevado por el Senado Federal. El Senado, con el apoyo de dos tercios de los senadores y bajo el comando del Presidente del Supremo Tribunal Federal, puede condenar al Presidente con la pérdida del cargo e inhabilitación por ocho años para el ejercicio de cualquier función pública, además de las otras puniciones judiciales que se aplicaran al caso. Por el artículo 218 del Reglamento Interno de la Cámara de los Diputados, cualquier ciudadano brasileño puede denunciar el Presidente de la República, el Vicepresidente o Ministros por crimen de responsabilidad. Documentos deben acompañar la denuncia o debe ser informado donde ellos pueden ser encontrados. Cuando el Presidente de la Cámara recibe una denuncia, debe leerla en la sesión siguiente de la plenaria y despacharla a una comisión especial electa con representantes de todos los partidos, observada la respectiva proporción. La comisión especial tiene 48 horas para elegir su presidente y relator, y debe emitir su concepto en el plazo de cinco sesiones de la plenaria. Después de 48 horas de la publicación del parecer de la comisión especial, debe ser sometido para votación nominal en la pauta de votaciones de la plenaria, en la sesión siguiente. Si dos tercios de los congresistas aprueban la continuación del proceso, la decisión es entonces avisada para el Presidente del Senado Federal, dentro del plazo de dos sesiones. Mientras que la atribución no es legalmente obligatoria, sería agradecida.",¿Quién resuelve acerca de las propuestas de moción de censura de acuerdo con las leyes de Brasil?,"{'text': ['el Presidente de la Cámara de Diputados'], 'answer_start': [432]}"
8,b6ec1785-3662-44c8-afa5-139f4b3f8bae,Esteban I de Hungría,"Reinado \nGéza murió en 997 y Esteban convocó una asamblea en Esztergom donde sus participantes lo declararon gran príncipe. Inicialmente, solo controlaba las regiones noroccidentales de la cuenca cárpata; el resto del territorio todavía seguía bajo el control de otros líderes tribales. El ascenso de Esteban al trono se basó en el principio de primogenitura, que establece que un líder tribal solo podía ser sucedido por su primer hijo varón. Por otra parte, esto contradecía la tradición de estos pueblos húngaros, según la cual Géza debió haber sido sucedido por el miembro de mayor edad de la dinastía Árpad, que en ese momento era Cupan (nombre latino de Koppány). Cupan, quien ostentaba el título de duque de Somogy, había administrado durante muchos años las regiones de Transdanubia al sur del lago Balatón.",¿Cuándo fue proclamado gran príncipe Esteban I?,"{'text': ['en 997'], 'answer_start': [20]}"
9,cd844a33-6ece-405f-a940-eba05342a108,Las Leonas le ganaron a España en el Mundial 2010 de hockey,"4 de septiembre de 2010 La selección argentina de hockey, ""Las Leonas"", le ganaron a España por 4 tantos contra 0 en una fría jornada en la ciudad de Rosario, Argentina. Jugaron vestidas con polleras y musculosas a 2 grados de temperatura ambiente. El primer tiempo el equipo argentino fue muy ofensivo llegando al arco en varias oportunidades. A los 12' García ganó un corto que convirtió Barrionuevo. Dos minutos después convirtió la máxima goleadora del equipo una jugada empezada por Barrionuevo por el lateral izquierdo, continuada en el fondo de la cancha por Merino que tiro el centro. España no podía ofrecer resistencia a este juego excepto algunas acciones de su capitana Camon que logró ganar metros en el campo y algunas subidas leves de Silvia Muñóz. La jugada más peligrosa la tuvo la jugadora española de nacionalidad argentina Montserrat Cruz que quedó cara a cara con Succi y no pudo convertir. En la segunda parte la selección argentina fue netamente superior, tuvo 7 de los 8 cortos que produjo en el partido, uno solo se convirtió en tanto. Fue a los 12' tras un rebote en la defensora Ybarra después de un rechazo de la arquera. Ybarra genero una jugada de peligro para su equipo en un corner a los 8', ese corner fue el único que tuvo España. Cuando la diferencia era de cuatro goles, el equipo argentino le dio descanso a sus titulares permitiendo jugar a las suplentes.",¿Por cuánto han vencido las Leonas a España en el partido de hockey?,"{'text': ['por 4 tantos contra 0'], 'answer_start': [92]}"


## Preprocessing the training data

In [210]:
from transformers import AutoTokenizer
    
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

loading configuration file config.json from cache at C:\Users\sifigueroa/.cache\huggingface\hub\models--BSC-TeMU--roberta-base-bne\snapshots\052845e3a3abcabb150e4724d2c85f0ab59dd67e\config.json
Model config RobertaConfig {
  "_name_or_path": "BSC-TeMU/roberta-base-bne",
  "architectures": [
    "RobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.0,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.0,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 514,
  "model_type": "roberta",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "transformers_version": "4.24.0",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 50262
}

loading file vocab.json from cache at C:\Users\sifigueroa/.cache\huggingface\hub\model

In [211]:
import transformers
assert isinstance(tokenizer, transformers.PreTrainedTokenizerFast)

In [212]:
tokenizer("What is your name?", "My name is Sylvain.")

{'input_ids': [0, 109, 8366, 4100, 49076, 356, 4680, 85, 2, 2, 23803, 356, 4680, 4100, 415, 12031, 1315, 340, 68, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

Dependiendo del modelo que seleccionó, verá diferentes claves en el diccionario devueltas por la celda de arriba. No importan mucho para lo que estamos haciendo aquí (solo sepa que son requeridos por el modelo que crearemos más adelante), puede obtener más información sobre ellos en este tutorial si está interesado.

Ahora bien, una cosa específica para el preprocesamiento en cuestión es cómo tratar documentos muy largos. Por lo general, los truncamos en otras tareas, cuando son más largos que la longitud máxima de oración del modelo, pero aquí, eliminar parte del contexto puede resultar en la pérdida de la respuesta que estamos buscando. Para lidiar con esto, permitiremos que un ejemplo (largo) en nuestro conjunto de datos proporcione varias características de entrada, cada una de una longitud más corta que la longitud máxima del modelo (o la que establecemos como un hiperparámetro). Además, en caso de que la respuesta esté en el punto en que dividimos un contexto largo, permitimos cierta superposición entre las características que generamos controladas por el hiperparámetro doc_stride:

In [213]:
max_length = 384 # The maximum length of a feature (question and context)
doc_stride = 128 # The authorized overlap between two part of the context when splitting it is needed.   

Encontremos el ejemplo más largo en nuestro dataset:

In [214]:
for i, example in enumerate(datasets["train"]):
    if len(tokenizer(example["question"], example["context"])["input_ids"]) > 384:
        break
example = datasets["train"][i]

Sin truncar obtenemos la siguiente longitud de los input IDs:

In [215]:
len(tokenizer(example["question"], example["context"])["input_ids"])

484

Ahora, truncamos (y perdemos información):

In [217]:
len(tokenizer(example["question"], example["context"], max_length=max_length, truncation="only_second")["input_ids"])
     

384

Tenga en cuenta que nunca queremos truncar la pregunta, solo el contexto, por eso usamos el truncamiento only_second. Ahora, nuestro tokenizador puede devolvernos automáticamente una lista de características con un límite de cierta longitud máxima, con la superposición que hablamos

In [218]:
tokenized_example = tokenizer(
    example["question"],
    example["context"],
    max_length=max_length,
    truncation="only_second",
    return_overflowing_tokens=True,
    stride=doc_stride
)

Ahora no tenemos una lista de input_ids, sino varias:

In [219]:
[len(x) for x in tokenized_example["input_ids"]]

[384, 240]

Y si los decodificamos, podemos ver la superposición:

In [220]:
for x in tokenized_example["input_ids"][:2]:
    print(tokenizer.decode(x))

Ahora, esto nos dará algo de trabajo para tratar adecuadamente las respuestas: necesitamos encontrar en cuál de esas características se encuentra realmente la respuesta y dónde exactamente en esa característica. Los modelos que usaremos requieren las posiciones inicial y final de estas respuestas en los tokens, por lo que también necesitaremos mapear partes del contexto original a algunos tokens. Afortunadamente, el tokenizador que estamos usando puede ayudarnos con eso devolviendo un offset_mapping:

In [222]:
tokenized_example = tokenizer(
    example["question"],
    example["context"],
    max_length=max_length,
    truncation="only_second",
    return_overflowing_tokens=True,
    return_offsets_mapping=True,
    stride=doc_stride
)
print(tokenized_example["offset_mapping"][0][:100])

Esto da, para cada índice de nuestro IDS de entrada, el carácter inicial y final correspondiente en el texto original que dio nuestro token. El primer token ([CLS]) tiene (0, 0) porque no corresponde a ninguna parte de la pregunta / respuesta, entonces el segundo token es el mismo que los caracteres 0 a 3 de la pregunta:

In [224]:
first_token_id = tokenized_example["input_ids"][0][1]
offsets = tokenized_example["offset_mapping"][0][1]
print(tokenizer.convert_ids_to_tokens([first_token_id])[0], example["question"][offsets[0]:offsets[1]])

Entonces, podemos usar este mapeo para encontrar la posición de los tokens de inicio y finalización de nuestra respuesta en una característica determinada. Solo tenemos que distinguir qué partes de las compensaciones corresponden a la pregunta y qué parte corresponden al contexto, aquí es donde el método sequence_ids de nuestrotokenized_example puede ser útil:

In [225]:
sequence_ids = tokenized_example.sequence_ids()
print(sequence_ids)

Devuelve None para los tokens especiales, luego 0 o 1 dependiendo de si el token correspondiente proviene de la primera oración pasada (la pregunta) o de la segunda (el contexto). Ahora, con todo esto, podemos encontrar el primer y último token de la respuesta en una de nuestras funciones de entrada (o si la respuesta no está en esta función):

In [226]:
answers = example["answers"]
start_char = answers["answer_start"][0]
end_char = start_char + len(answers["text"][0])

# Start token index of the current span in the text.
token_start_index = 0
while sequence_ids[token_start_index] != 1:
    token_start_index += 1

# End token index of the current span in the text.
token_end_index = len(tokenized_example["input_ids"][0]) - 1
while sequence_ids[token_end_index] != 1:
    token_end_index -= 1

# Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
offsets = tokenized_example["offset_mapping"][0]
if (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
    # Move the token_start_index and token_end_index to the two ends of the answer.
    # Note: we could go after the last offset if the answer is the last word (edge case).
    while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
        token_start_index += 1
    start_position = token_start_index - 1
    while offsets[token_end_index][1] >= end_char:
        token_end_index -= 1
    end_position = token_end_index + 1
    print(start_position, end_position)
else:
    print("The answer is not in this feature.")

Y podemos comprobar que es la respuesta correcta:

In [227]:
print(tokenizer.decode(tokenized_example["input_ids"][0][start_position: end_position+1]))
print(answers["text"][0])

Para que este cuaderno funcione con cualquier tipo de modelo, debemos tener en cuenta el caso especial en el que el modelo espera relleno a la izquierda (en cuyo caso cambiamos el orden de la pregunta y el contexto):

In [228]:
pad_on_right = tokenizer.padding_side == "right"

Ahora juntemos todo en una función que aplicaremos a nuestro conjunto de entrenamiento. En el caso de respuestas imposibles (la respuesta está en otra característica dada por un ejemplo con un contexto largo), establecemos el índice cls tanto para la posición inicial como para la final. También podríamos simplemente descartar esos ejemplos del conjunto de entrenamiento si la marca allow_impossible_answers esFalse. Dado que el preprocesamiento ya es lo suficientemente complejo como es, hemos mantenido que es simple para esta parte.

In [229]:
def prepare_train_features(examples):
    # Some of the questions have lots of whitespace on the left, which is not useful and will make the
    # truncation of the context fail (the tokenized question will take a lots of space). So we remove that
    # left whitespace
    examples["question"] = [q.lstrip() for q in examples["question"]]

    # Tokenize our examples with truncation and padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")
    # The offset mappings will give us a map from token to character position in the original context. This will
    # help us compute the start_positions and end_positions.
    offset_mapping = tokenized_examples.pop("offset_mapping")

       # Let's label those examples!
    tokenized_examples["start_positions"] = []
    tokenized_examples["end_positions"] = []

    for i, offsets in enumerate(offset_mapping):
        # We will label impossible answers with the index of the CLS token.
        input_ids = tokenized_examples["input_ids"][i]
        cls_index = input_ids.index(tokenizer.cls_token_id)

        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        answers = examples["answers"][sample_index]
        # If no answers are given, set the cls_index as answer.
        if len(answers["answer_start"]) == 0:
            tokenized_examples["start_positions"].append(cls_index)
            tokenized_examples["end_positions"].append(cls_index)
        else:
            # Start/end character index of the answer in the text.
            start_char = answers["answer_start"][0]
            end_char = start_char + len(answers["text"][0])
            
            # Start token index of the current span in the text.
            token_start_index = 0
            while sequence_ids[token_start_index] != (1 if pad_on_right else 0):
                token_start_index += 1

            # End token index of the current span in the text.
            token_end_index = len(input_ids) - 1
            while sequence_ids[token_end_index] != (1 if pad_on_right else 0):
                token_end_index -= 1

            # Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
            if not (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
                tokenized_examples["start_positions"].append(cls_index)
                tokenized_examples["end_positions"].append(cls_index)
            else:
                # Otherwise move the token_start_index and token_end_index to the two ends of the answer.
                # Note: we could go after the last offset if the answer is the last word (edge case).
                while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
                    token_start_index += 1
                tokenized_examples["start_positions"].append(token_start_index - 1)
                while offsets[token_end_index][1] >= end_char:
                    token_end_index -= 1
                tokenized_examples["end_positions"].append(token_end_index + 1)

    return tokenized_examples            
            

In [230]:
features = prepare_train_features(datasets['train'][:5])

In [231]:
tokenized_datasets = datasets.map(prepare_train_features, batched=True, remove_columns=datasets["train"].column_names)

Loading cached processed dataset at C:\Users\sifigueroa\.cache\huggingface\datasets\BSC-TeMU___sqac\SQAC\0.0.0\039a4db4240c2eeaeb62497c826a49721ea57dffae7eeff93a8179fcdc5fd9fe\cache-4f5c79361036e002.arrow
Loading cached processed dataset at C:\Users\sifigueroa\.cache\huggingface\datasets\BSC-TeMU___sqac\SQAC\0.0.0\039a4db4240c2eeaeb62497c826a49721ea57dffae7eeff93a8179fcdc5fd9fe\cache-4f7c6f13b11f6db8.arrow
Loading cached processed dataset at C:\Users\sifigueroa\.cache\huggingface\datasets\BSC-TeMU___sqac\SQAC\0.0.0\039a4db4240c2eeaeb62497c826a49721ea57dffae7eeff93a8179fcdc5fd9fe\cache-d192a3c385fd19f2.arrow


## Fine-tuning del modelo

In [232]:
from transformers import AutoModelForQuestionAnswering, TrainingArguments, Trainer

model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)

loading configuration file config.json from cache at C:\Users\sifigueroa/.cache\huggingface\hub\models--BSC-TeMU--roberta-base-bne\snapshots\052845e3a3abcabb150e4724d2c85f0ab59dd67e\config.json
Model config RobertaConfig {
  "_name_or_path": "BSC-TeMU/roberta-base-bne",
  "architectures": [
    "RobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.0,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.0,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 514,
  "model_type": "roberta",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "transformers_version": "4.24.0",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 50262
}

loading weights file pytorch_model.bin from cache at C:\Users\sifigueroa/.cache\huggin

In [234]:
model_name = model_checkpoint.split("/")[-1]
args = TrainingArguments(
    f"{model_name}-finetuned-sqac",
    evaluation_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=3,
    weight_decay=0.01,
    push_to_hub=True,
)

PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).


Luego, necesitaremos un data_collator que agrupe nuestros ejemplos procesados, aquí el predeterminado funcionará:

In [235]:
from transformers import default_data_collator

data_collator = default_data_collator

In [236]:
trainer = Trainer(
    model,
    args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

TypeError: Repository.__init__() got an unexpected keyword argument 'private'

In [45]:
trainer.train()

NameError: name 'trainer' is not defined

Como el entrenamiento es largo, guardemos el modelo por si necesitamos reiniciar el entrenamiento

In [46]:
trainer.save_model("test-squad-trained")

NameError: name 'trainer' is not defined

## Evaluación

In [47]:
def prepare_validation_features(examples):
    # Some of the questions have lots of whitespace on the left, which is not useful and will make the
    # truncation of the context fail (the tokenized question will take a lots of space). So we remove that
    # left whitespace
    examples["question"] = [q.lstrip() for q in examples["question"]]

    # Tokenize our examples with truncation and maybe padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")

    # We keep the example_id that gave us this feature and we will store the offset mappings.
    tokenized_examples["example_id"] = []
    
    for i in range(len(tokenized_examples["input_ids"])):
        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)
        context_index = 1 if pad_on_right else 0

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        tokenized_examples["example_id"].append(examples["id"][sample_index])

        # Set to None the offset_mapping that are not part of the context so it's easy to determine if a token
        # position is part of the context or not.
        tokenized_examples["offset_mapping"][i] = [
            (o if sequence_ids[k] == context_index else None)
            for k, o in enumerate(tokenized_examples["offset_mapping"][i])
        ]

    return tokenized_examples
                  

And like before, we can apply that function to our validation set easily:

In [50]:
validation_features = datasets["test"].map(
    prepare_validation_features,
    batched=True,
    remove_columns=datasets["test"].column_names

SyntaxError: incomplete input (2310698800.py, line 4)

Now we can grab the predictions for all features by using the Trainer.predict method:

In [51]:
raw_predictions = trainer.predict(validation_features)

NameError: name 'trainer' is not defined

In [52]:
validation_features.set_format(type=validation_features.format["type"], columns=list(validation_features.features.keys()))

NameError: name 'validation_features' is not defined

In [53]:
max_answer_length = 30

In [54]:
start_logits = output.start_logits[0].cpu().numpy()
end_logits = output.end_logits[0].cpu().numpy()
offset_mapping = validation_features[0]["offset_mapping"]
# The first feature comes from the first example. For the more general case, we will need to be match the example_id to
# an example index
context = datasets["validation"][0]["context"]

# Gather the indices the best start/end logits:
start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
valid_answers = []
for start_index in start_indexes:
    for end_index in end_indexes:
        # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
        # to part of the input_ids that are not in the context.
        if (
            start_index >= len(offset_mapping)
            or end_index >= len(offset_mapping)
            or offset_mapping[start_index] is None
            or offset_mapping[end_index] is None
        ):
            continue
        # Don't consider answers with a length that is either < 0 or > max_answer_length.
        if end_index < start_index or end_index - start_index + 1 > max_answer_length:
            continue
        if start_index <= end_index: # We need to refine that test to check the answer is inside the context
            start_char = offset_mapping[start_index][0]
            end_char = offset_mapping[end_index][1]
            valid_answers.append(
                {
                    "score": start_logits[start_index] + end_logits[end_index],
                    "text": context[start_char: end_char]
                }
            )

valid_answers = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[:n_best_size]
valid_answers            

NameError: name 'output' is not defined

In [None]:
datasets["test"][0]["answers"]

In [None]:
import collections

examples = datasets["test"]
features = validation_features

example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
features_per_example = collections.defaultdict(list)
for i, feature in enumerate(features):
    features_per_example[example_id_to_index[feature["example_id"]]].append(i)

In [None]:
from tqdm.auto import tqdm

def postprocess_qa_predictions(examples, features, raw_predictions, n_best_size = 20, max_answer_length = 30):
    all_start_logits, all_end_logits = raw_predictions
    # Build a map example to its corresponding features.
    example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
    features_per_example = collections.defaultdict(list)
    for i, feature in enumerate(features):
        features_per_example[example_id_to_index[feature["example_id"]]].append(i)

    # The dictionaries we have to fill.
    predictions = collections.OrderedDict()

    # Logging.
    print(f"Post-processing {len(examples)} example predictions split into {len(features)} features.")

    # Let's loop over all the examples!
    for example_index, example in enumerate(tqdm(examples)):
        # Those are the indices of the features associated to the current example.
        feature_indices = features_per_example[example_index]

        min_null_score = None # Only used if squad_v2 is True.
        valid_answers = []

        context = example["context"]
        # Looping through all the features associated to the current example.
        for feature_index in feature_indices:
            # We grab the predictions of the model for this feature.
            start_logits = all_start_logits[feature_index]
            end_logits = all_end_logits[feature_index]
            # This is what will allow us to map some the positions in our logits to span of texts in the original
            # context.
            offset_mapping = features[feature_index]["offset_mapping"]

            # Update minimum null prediction.
            cls_index = features[feature_index]["input_ids"].index(tokenizer.cls_token_id)
            feature_null_score = start_logits[cls_index] + end_logits[cls_index]
            if min_null_score is None or min_null_score < feature_null_score:
                min_null_score = feature_null_score

            # Go through all possibilities for the `n_best_size` greater start and end logits.
            start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
            end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
            for start_index in start_indexes:
                for end_index in end_indexes:
                    # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
                    # to part of the input_ids that are not in the context.
                    if (
                        start_index >= len(offset_mapping)
                        or end_index >= len(offset_mapping)
                        or offset_mapping[start_index] is None
                        or offset_mapping[end_index] is None
                    ):
                        continue
                    # Don't consider answers with a length that is either < 0 or > max_answer_length.
                    if end_index < start_index or end_index - start_index + 1 > max_answer_length:
                        continue

                    start_char = offset_mapping[start_index][0]
                    end_char = offset_mapping[end_index][1]
                    valid_answers.append(
                        {
                            "score": start_logits[start_index] + end_logits[end_index],
                            "text": context[start_char: end_char]
                        }
                    )
        
        if len(valid_answers) > 0:
            best_answer = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[0]
        else:
            # In the very rare edge case we have not a single non-null prediction, we create a fake prediction to avoid
            # failure.
            best_answer = {"text": "", "score": 0.0}
        
        # Let's pick our final answer: the best one or the null answer (only for squad_v2)
        if not squad_v2:
            predictions[example["id"]] = best_answer["text"]
        else:
            answer = best_answer["text"] if best_answer["score"] > min_null_score else ""
            predictions[example["id"]] = answer

    return predictions

And we can apply our post-processing function to our raw predictions:

In [None]:
final_predictions = postprocess_qa_predictions(datasets["test"], validation_features, raw_predictions.predictions)

In [None]:
metric = load_metric("squad")

In [None]:
formatted_predictions = [{"id": k, "prediction_text": v} for k, v in final_predictions.items()]
references = [{"id": ex["id"], "answers": ex["answers"]} for ex in datasets["test"]]
metric.compute(predictions=formatted_predictions, references=references)

In [None]:
Ahora puede cargar el resultado del entrenamiento en el Hub, simplemente ejecute esta instrucción:

In [None]:
trainer.push_to_hub()  