In [56]:
from datasets import get_dataset_config_names
from datasets import load_dataset
from collections import defaultdict
from datasets import DatasetDict
import pandas as pd
from collections import Counter
from transformers import AutoTokenizer
import torch.nn as nn
from transformers import XLMRobertaConfig
from transformers.modeling_outputs import TokenClassifierOutput
from transformers.models.roberta.modeling_roberta import RobertaModel
from transformers.models.roberta.modeling_roberta import RobertaPreTrainedModel
from transformers import AutoConfig
import torch
from seqeval.metrics import classification_report
import numpy as np
from transformers import TrainingArguments
from huggingface_hub import notebook_login
from seqeval.metrics import f1_score
from transformers import DataCollatorForTokenClassification
from transformers import Trainer

# Multilingual NER
Los multilingual transformers han sido entrenados con corpus con múltiples lenguajes (más de 100), lo que permite que puedan realizar *zero-shot-cross-lingual transfer*.

En este capítulo usaremos XLM-RoBERTa (XLM-R), entrenado con un dataset de 2.5 TBs de texto, y aplicaremos fine-tuning para aplicar NER en varios idiomas.

NER puede usarse para:
- Obtener información de los documentos de una compañía.
- Aumentar la calidad de los motores de búsqueda.
- Construir una base de datos estructurada a partir de un corpus.

# Dataset
El dataset a utilizar contiene artículos de Wikipedia en alemán, francés e inglés. Cada artículo está anotado como LOC, PER y ORG.

In [2]:
# Queremos cargar la configuración PAN-X del dataset XTREME, cargamos dicho dataset y comprobamos todas sus configuraciones
xtreme_subsets = get_dataset_config_names("xtreme")
print(f"XTREME has {len(xtreme_subsets)} configurations")

XTREME has 183 configurations


In [3]:
# Cargamos aquellas configuraciones que empiezan por "PAN"
panx_subsets = [s for s in xtreme_subsets if s.startswith("PAN")]
panx_subsets[:3]

['PAN-X.af', 'PAN-X.ar', 'PAN-X.bg']

In [4]:
# Cargamos la configuración que nos interesa
load_dataset("xtreme", name="PAN-X.de")

Found cached dataset xtreme (C:/Users/jcav/.cache/huggingface/datasets/xtreme/PAN-X.de/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4)


  0%|          | 0/3 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['tokens', 'ner_tags', 'langs'],
        num_rows: 20000
    })
    validation: Dataset({
        features: ['tokens', 'ner_tags', 'langs'],
        num_rows: 10000
    })
    test: Dataset({
        features: ['tokens', 'ner_tags', 'langs'],
        num_rows: 10000
    })
})

In [5]:
# Vamos a cargar los datasets en alemán, francés, italiano e inglés en una proporción similar a su porcentaje de uso en Suiza
langs = ["de", "fr", "it", "en"]
fracs = [0.629, 0.229, 0.084, 0.059]

# Return a DatasetDict if a key does not exist
panx_ch = defaultdict(DatasetDict)

for lang, frac in zip(langs, fracs):
    # Load monolingual corpus
    ds = load_dataset("xtreme", name=f"PAN-X.{lang}")
    # Shuffle and downsample each split according to the proportions
    for split in ds:
        panx_ch[lang][split] = (
            ds[split]
            .shuffle(seed=0)
            .select(range(int(frac * ds[split].num_rows)))
        )

Found cached dataset xtreme (C:/Users/jcav/.cache/huggingface/datasets/xtreme/PAN-X.de/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4)


  0%|          | 0/3 [00:00<?, ?it/s]

Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.de\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-e5ddf09f1ae095ec.arrow
Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.de\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-25e7e2dd003d0fa6.arrow
Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.de\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-73a95bc0accfea8b.arrow
Found cached dataset xtreme (C:/Users/jcav/.cache/huggingface/datasets/xtreme/PAN-X.fr/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4)


  0%|          | 0/3 [00:00<?, ?it/s]

Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.fr\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-6ff29513007ec78b.arrow
Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.fr\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-c5c9a4fc19dfd7d6.arrow
Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.fr\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-9711ab25936b81b7.arrow
Found cached dataset xtreme (C:/Users/jcav/.cache/huggingface/datasets/xtreme/PAN-X.it/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4)


  0%|          | 0/3 [00:00<?, ?it/s]

Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.it\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-daa9a1770078307c.arrow
Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.it\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-5e244c05031bab3c.arrow
Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.it\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-497ee15c12bff58d.arrow
Found cached dataset xtreme (C:/Users/jcav/.cache/huggingface/datasets/xtreme/PAN-X.en/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4)


  0%|          | 0/3 [00:00<?, ?it/s]

Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.en\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-757845faa9fa6949.arrow
Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.en\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-305cefc7ffa49fd9.arrow
Loading cached shuffled indices for dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.en\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-e5ec5e6ba7c1237d.arrow


In [6]:
pd.DataFrame({lang: [panx_ch[lang]["train"].num_rows] for lang in langs}, 
             index=["Number of training examples"])

Unnamed: 0,de,fr,it,en
Number of training examples,12580,4580,1680,1180


Al tener más ejemplos en alemán que en los otros idiomas combinados, lo usaremos como punto de partida para aplicar *zero-shot-cross-lingual* transfer a francés, italiano e inglés. Mostramos algunos ejemplos en el corpus alemán:

In [7]:
element = panx_ch["de"]["train"][0]
for key, value in element.items():
    print(f"{key}: {value}")

tokens: ['2.000', 'Einwohnern', 'an', 'der', 'Danziger', 'Bucht', 'in', 'der', 'polnischen', 'Woiwodschaft', 'Pommern', '.']
ner_tags: [0, 0, 0, 0, 5, 6, 0, 0, 5, 5, 6, 0]
langs: ['de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de']


In [8]:
# Modificamos las ner_tags para que sean más legibles
for key, value in panx_ch['de']['train'].features.items():
    print(f"{key}: {value}")

tokens: Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)
ner_tags: Sequence(feature=ClassLabel(names=['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC'], id=None), length=-1, id=None)
langs: Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)


In [9]:
# Extraemos las ner tags
tags = panx_ch["de"]["train"].features["ner_tags"].feature
print(tags)

ClassLabel(names=['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC'], id=None)


Utilizamos el método `ClassLabel.int2str()` para crear una nueva columna con los nombres de cada clase. 

In [10]:
def create_tag_names(batch):
    return {"ner_tags_str": [tags.int2str(idx) for idx in batch["ner_tags"]]}

In [11]:
panx_de = panx_ch["de"].map(create_tag_names)

Loading cached processed dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.de\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-a77e7b15c2f1c6c8.arrow
Loading cached processed dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.de\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-f26832db06c5fef4.arrow
Loading cached processed dataset at C:\Users\jcav\.cache\huggingface\datasets\xtreme\PAN-X.de\1.0.0\29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4\cache-f55aa492ed441fc3.arrow


Vemos como se alinean las tags del primer ejemplo del training set de manera más gráfica:

In [12]:
de_example = panx_de["train"][0]
pd.DataFrame([de_example["tokens"], de_example["ner_tags_str"]],
             ["Tokens", "Tags"])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
Tokens,2.000,Einwohnern,an,der,Danziger,Bucht,in,der,polnischen,Woiwodschaft,Pommern,.
Tags,O,O,O,O,B-LOC,I-LOC,O,O,B-LOC,B-LOC,I-LOC,O


Comprobamos que las tags no están desbalanceadas:

In [13]:
split2freqs = defaultdict(Counter)
for split, dataset in panx_de.items():
    for row in dataset["ner_tags_str"]:
        for tag in row:
            if tag.startswith("B"):
                tag_type = tag.split("-")[1]
                split2freqs[split][tag_type] += 1

pd.DataFrame.from_dict(split2freqs, orient="index")

Unnamed: 0,LOC,ORG,PER
train,6186,5366,5810
validation,3172,2683,2893
test,3180,2573,3071


# Multilingual Transformers
La principal diferencia con los transformers entrenados en un solo idioma reside en que se ha empleado un corpus formado por documentos escritos en varios idiomas. A pesar de no recibir explícitamente información para diferenciar entre los idiomas, las representaciones linguísticas resultantes pueden generalizar entre los distintos idiomas.

Los multilingual transformer models suelen evaluarse de tres formas:
- *en*: Fine-tune con datos de entrenamiento en inglés y evaluar en el test set de cada idioma.
- *each*: Fine-tune y evaluar en datos de test monolinguísticos para medir el rendimiento por idioma.
- *all*: Fine-tune en todos los datos de entrenamiento y evaluar en cada lenguaje del conjunto de test.

# A closer look at Tokenization
En lugar de usar un tokenizer de tipo **WordPiece**, XLM-R utiliza un tokenizer de tipo **SentencePiece**, que es entrenado en texto plano en cien idiomas.

Comparemos el WordPiece de BERT con el SentencePiece de XLM-R

In [14]:
bert_model_name = "bert-base-cased"
xlmr_model_name = "xlm-roberta-base"
bert_tokenizer = AutoTokenizer.from_pretrained(bert_model_name)
xlmr_tokenizer = AutoTokenizer.from_pretrained(xlmr_model_name)

In [15]:
text = "Jack Sparrow loves New York!"
bert_tokens = bert_tokenizer(text).tokens()
xlmr_tokens = xlmr_tokenizer(text).tokens()

## Tokenizer pipeline
Cuatro pasos:
1. **Normalization:** Incluye operaciones como eliminar espacios en blanco, tildes, lowercasing y convertir a unicode.

1. **Pretokenization:** Divide el texto en unidades más pequeñas (generalmente palabras) que establecen un upper bound para los tokens que obtendremos en pasos subsecuentes.

1. **Tokenizer model:** El tokenizer aplica subdivisiones de las palabras obtenidas en el paso anterior. Esta es la parte del tokenizer que se entrena en el corpus. El rol del modelo consiste en dividir las palabras en subpalabras para dividir el tamaño del vocabulario y reducir el número de tokens out-of-scope. En este punto, tenemos una lista de IDs en lugar de strings.

1. **Postprocessing:** Este es el último paso de la tokenization pipeline, en la que se añaden algunas transformaciones adicionales a la lista de tokens, como añadir los tokens especiales [CLS] y [SEP]. Esta secuencia puede usarse como entrada para el modelo.

## SentencePiece Tokenizer
SentencePiece tokenizer está basado en un tipo de subword segmentation llamado Unigram que codifica (encode) cada texto del input como una secuencia de caracteres unicode. Esto resulta especialmente útil si el corpus está escrito en múltiples idiomas por dos motivos:

- Permite que el modelo sea agnóstico a tildes, puntuaciones o falta de espacios en blanco en ciertos idiomas (e.g., japonés).
- Los espacios en blancos son asignados al símbolo Unicode U+2581, o el caracter _, lo que permite detokenizar una secuencia sin ambigüedades y sin tener que depender de tokenizers específicos del dominio.

In [16]:
"".join(xlmr_tokens).replace(u"\u2581", " ")

'<s> Jack Sparrow loves New York!</s>'

Vamos a crear nuestro propio ejemplo de como codificar (encode) un simple ejemplo de forma que sea procesable por NER. Podríamos cargar una head preentrenada. Pero **en esta demo crearemos nuestra propia cabeza desde cero (en un ejemplo real, utilizar una cabeza ya entrenada).**

# Transformers para NER
La representación de cada input token individual se pasa por una fully connected layer para devolver la entidad del token (figura 4-3).

Para gestionar subwords en esta tarea de clasificación (e.g., el nombre Christa se divide en los tokens Chr e ##ista) se asigna la label a la primera subword y se ignora la siguiente.

## Creamos un modelo personalizado para clasificación de tokens
**Ya existe un modelo XLMRobertaForTokenClassification que puede realizar esto.**

In [17]:
class XLMRobertaForTokenClassification(RobertaPreTrainedModel):
    config_class = XLMRobertaConfig
    
    def __init__(self, config):
        super().__init__(config)
        self.num_labels = config.num_labels
        # Load model body
        self.roberta = RobertaModel(config, add_pooling_layer=False)
        # Set up token classification head
        self.dropout = nn.Dropout(config.hidden_dropout_prob)
        self.classifier = nn.Linear(config.hidden_size, config.num_labels)
        # Load and initialize weights
        self.init_weights()
        
    def forward(self, input_ids=None, attention_mask=None, token_type_ids=None, labels=None, **kwargs):
        # Use model body to get encoder representation
        outputs = self.roberta(input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, **kwargs)
        # Apply classifier to encoder representation
        sequence_output = self.dropout(outputs[0])
        logits = self.classifier(sequence_output)
        # Calculate losses
        loss = None
        if labels is not None:
            loss_fct = nn.CrossEntropyLoss()
            loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))
        # Return model output object
        return TokenClassifierOutput(loss=loss, logits=logits, 
                                     hidden_states=outputs.hidden_states, 
                                     attentions=outputs.attentions)

Los datos pasan primero por el body, y el hidden state pasa por las capas de dropout y clasificación.

Cargamos un modelo personalizado. Debemos proveer información adicional, como los tags a usar para etiquetar a cada entidad y el mapping de cada tag a un ID.

In [18]:
index2tag = { idx: tag for idx, tag in enumerate(tags.names) }
tag2index = { tag: idx for idx, tag in enumerate(tags.names) }

In [19]:
xlmr_config = AutoConfig.from_pretrained(xlmr_model_name, 
                                         num_labels=tags.num_classes,
                                         id2label=index2tag,
                                         label2id=tag2index
                                        )

Cargamos los pesos del modelo con la función `from_pretrained()`. No implementamos la carga de pesos preentrenados en nuestra clase del modelo personalizado, porque eso ya lo incluye `RobertaPreTrainedModel`.

In [20]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

xlmr_model = (XLMRobertaForTokenClassification.from_pretrained(xlmr_model_name, config=xlmr_config)
              .to(device)
             )

Some weights of the model checkpoint at xlm-roberta-base were not used when initializing XLMRobertaForTokenClassification: ['lm_head.decoder.weight', 'lm_head.dense.bias', 'roberta.pooler.dense.bias', 'roberta.pooler.dense.weight', 'lm_head.layer_norm.bias', 'lm_head.bias', 'lm_head.dense.weight', 'lm_head.layer_norm.weight']
- This IS expected if you are initializing XLMRobertaForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of XLMRobertaForTokenClassification were not initialized from the model checkpoint at xlm-roberta-base and are newly initialized: ['classifier.bias', 'roberta.e

Comprobamos que las predicciones funcionan en una secuencia simple.

In [21]:
input_ids = xlmr_tokenizer.encode(text, return_tensors="pt")
pd.DataFrame([xlmr_tokens, input_ids[0].numpy()], index=['Tokens', 'Input IDs'])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
Tokens,<s>,▁Jack,▁Spar,row,▁love,s,▁New,▁York,!,</s>
Input IDs,0,21763,37456,15555,5161,7,2356,5753,38,2


Los tokens \<s> y \</s> tienen los IDs correctos (0 y 2).

Pasamos los inputs al modelo y extraemos las predicciones usando argmax para conseguir la clase más posible por token:

In [22]:
outputs = xlmr_model(input_ids.to(device)).logits
predictions = torch.argmax(outputs, dim=-1)
print(f"Number of tokens in sequence: {len(xlmr_tokens)}")
print(f"Shape of outputs: {outputs.shape}")

Number of tokens in sequence: 10
Shape of outputs: torch.Size([1, 10, 7])


In [24]:
preds = [tags.names[p] for p in predictions[0].cpu().numpy()]
pd.DataFrame([xlmr_tokens, preds], index=["Tokens", "Tags"])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
Tokens,<s>,▁Jack,▁Spar,row,▁love,s,▁New,▁York,!,</s>
Tags,O,O,B-ORG,B-ORG,O,O,O,O,B-ORG,O


Al tratarse de una capa de clasificación con pesos aleatorios, los resultados dejan mucho que desear. Aplicamos fine-tuning, pero antes, agrupamos todos los pasos anteriores en una sola función.

In [25]:
def tag_text(text, tags, model, tokenizer):
    # Get tokens with special characters
    tokens = tokenizer(text).tokens()
    # Encode the sequence into IDs
    input_ids = xlmr_tokenizer(text, return_tensors="pt").input_ids.to(device)
    # Get predictions as distribution over 7 possible classes
    outputs = model(input_ids)[0]
    # Take argmax to get most likely class per token
    predictions = torch.argmax(outputs, dim=2)
    # Convert to dataframe
    preds = [tags.names[p] for p in predictions[0].cpu().numpy()]
    return pd.DataFrame([tokens, preds], index=["Tokens", "Tags"])

# Tokenizing texts for NER
Tokenizamos todo el dataset para que pueda usarse como entrada para XLM-R y aplicar fine-tuning.

In [27]:
# Function with minimal signature
# function(examples: Dict[str, List]) -> Dict[str, List]

In [28]:
words, labels = de_example["tokens"], de_example["ner_tags"]

In [31]:
print(words)
print(labels)

['2.000', 'Einwohnern', 'an', 'der', 'Danziger', 'Bucht', 'in', 'der', 'polnischen', 'Woiwodschaft', 'Pommern', '.']
[0, 0, 0, 0, 5, 6, 0, 0, 5, 5, 6, 0]


In [32]:
# Tokenizamos cada palabra, utilizando is_split_into_words para indicar que 
# nuestra secuencia de input ya ha sido dividida en palabras
tokenized_input = xlmr_tokenizer(de_example["tokens"], is_split_into_words=True)
tokens = xlmr_tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])
pd.DataFrame([tokens], index=["Tokens"])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
Tokens,<s>,▁2.000,▁Einwohner,n,▁an,▁der,▁Dan,zi,ger,▁Buch,...,▁Wo,i,wod,schaft,▁Po,mmer,n,▁,.,</s>


In [33]:
word_ids = tokenized_input.word_ids()
pd.DataFrame([tokens, word_ids], index=["Tokens", "Word IDs"])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
Tokens,<s>,▁2.000,▁Einwohner,n,▁an,▁der,▁Dan,zi,ger,▁Buch,...,▁Wo,i,wod,schaft,▁Po,mmer,n,▁,.,</s>
Word IDs,,0,1,1,2,3,4,4,4,5,...,9,9,9,9,10,10,10,11,11,


Vamos a establecer -100 como la label para estos tokens especiales y las subpalabras que queremos enmascarar durante el entrenamiento.

In [34]:
previous_word_idx = None
label_ids = []

for word_idx in word_ids:
    if word_idx is None or word_idx == previous_word_idx:
        label_ids.append(-100)
    elif word_idx != previous_word_idx:
        label_ids.append(labels[word_idx])
    previous_word_idx = word_idx

labels = [index2tag[l] if l != -100 else "IGN" for l in label_ids]
index = ["Tokens", "Word IDs", "Label IDs", "Labels"]

pd.DataFrame([tokens, word_ids, label_ids, labels], index=index)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
Tokens,<s>,▁2.000,▁Einwohner,n,▁an,▁der,▁Dan,zi,ger,▁Buch,...,▁Wo,i,wod,schaft,▁Po,mmer,n,▁,.,</s>
Word IDs,,0,1,1,2,3,4,4,4,5,...,9,9,9,9,10,10,10,11,11,
Label IDs,-100,0,0,-100,0,0,5,-100,-100,6,...,5,-100,-100,-100,6,-100,-100,0,-100,-100
Labels,IGN,O,O,IGN,O,O,B-LOC,IGN,IGN,I-LOC,...,B-LOC,IGN,IGN,IGN,I-LOC,IGN,IGN,O,IGN,IGN


Definimos una sola función que agrupa toda la lógica:

In [35]:
def tokenize_and_align_labels(examples):
    tokenized_inputs = xlmr_tokenizer(examples["tokens"], truncation=True, is_split_into_words=True)
    labels = []
    for idx, label in enumerate(examples["ner_tags"]):
        word_ids = tokenized_inputs.word_ids(batch_index=idx)
        previous_word_idx = None
        label_ids = []
        for word_idx in word_ids:
            if word_idx is None or word_idx == previous_word_idx:
                label_ids.append(-100)
            else:
                label_ids.append(label[word_idx])
            previous_word_idx = word_idx
        labels.append(label_ids)
    tokenized_inputs["labels"] = labels
    return tokenized_inputs

Escribimos una función sobre la que iterar:

In [36]:
def encode_panx_dataset(corpus):
    return corpus.map(tokenize_and_align_labels, 
                      batched=True, 
                      remove_columns=["langs", "ner_tags", "tokens"]
                     )

In [37]:
panx_de_encoded = encode_panx_dataset(panx_ch["de"])

Map:   0%|          | 0/12580 [00:00<?, ? examples/s]

Map:   0%|          | 0/6290 [00:00<?, ? examples/s]

Map:   0%|          | 0/6290 [00:00<?, ? examples/s]

## Performance measures
Todas las palabras de una entidad deben ser predichas correctamente para considerar una predicción como correcta. Utilizamos la librería `seqeval`.

In [41]:
y_true = [["O", "O", "O", "B-MISC", "I-MISC", "I-MISC", "O"],
          ["B-PER", "I-PER", "O"]]

y_pred = [["O", "O", "B-MISC", "I-MISC", "I-MISC", "I-MISC", "O"],
          ["B-PER", "I-PER", "O"]]

print(classification_report(y_true, y_pred))

              precision    recall  f1-score   support

        MISC       0.00      0.00      0.00         1
         PER       1.00      1.00      1.00         1

   micro avg       0.50      0.50      0.50         2
   macro avg       0.50      0.50      0.50         2
weighted avg       0.50      0.50      0.50         2



Convertimos las predicciones en un formato legible por `seqeval` (listas de listas).

In [43]:
def align_predictions(predictions, label_ids):
    preds = np.argmax(predictions, axis=2)
    batch_size, seq_len = preds.shape
    label_list, preds_list = [], []
    
    for batch_idx in range(batch_size):
        example_labels, example_preds = [], []
        for seq_idx in range(seq_len):
            # Ignore label IDs = -100
            if label_ids[batch_idx, seq_idx] != -100:
                example_labels.append(index2tag[label_ids[batch_idx][seq_idx]])
                example_preds.append(index2tag[preds[batch_idx][seq_idx]])
        
        label_list.append(example_labels)
        preds_list.append(example_preds)
        
    return preds_list, labels_list

# Aplicando fine-tuning a XLM-RoBERTa
Comenzaremos aplicando fine-tuning al modelo utilizando el subset en alemán de PAN-X para después evaluar su zero-shot-cross-lingual performance en francés, italiano e inglés.

In [46]:
num_epochs = 3
batch_size = 24
logging_steps = len(panx_de_encoded["train"]) # batch size
model_name = f"{xlmr_model_name}-finetuned-panx-de"
training_args = TrainingArguments(
    output_dir = model_name, log_level="error", num_train_epochs=num_epochs,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size, evaluation_strategy="epoch",
    save_steps=1e6, weight_decay=0.01, disable_tqdm=False,
    logging_steps=logging_steps, push_to_hub=True
)

In [48]:
notebook_login()

Token is valid.
Your token has been saved in your configured git credential helpers (manager-core).
Your token has been saved to C:\Users\jcav\.cache\huggingface\token
Login successful


In [50]:
# Usamos F1-Score como métrica
def compute_metrics(eval_pred):
    y_pred, y_true = align_predictions(
        eval_pred.predictions, 
        eval_pred.label_ids
    )
    
    return {"f1" : f1_score(y_true, y_pred)}

Definimos un *data collactor* para poder paddear cada secuencia hasta la máxima longitud de secuencia del batch.

In [53]:
data_collator = DataCollatorForTokenClassification(xlmr_tokenizer)

In [55]:
# Este método carga el modelo sin entrenar y es llamado al final de la función train()
def model_init():
    return (XLMRobertaForTokenClassification
            .from_pretrained(xlmr_model_name, config=xlmr_config)
            .to(device)
           )

In [59]:
# Definimos el trainer
trainer = Trainer(
    model_init=model_init, 
    args=training_args, 
    data_collator=data_collator, 
    compute_metrics=compute_metrics,
    train_dataset=panx_de_encoded["train"],
    eval_dataset=panx_de_encoded["validation"],
    tokenizer=xlmr_tokenizer
)

C:\Users\jcav\Documents\GitHub\nlp-transformers\chapter_04_multilingualNER\xlm-roberta-base-finetuned-panx-de is already a clone of https://huggingface.co/Carsick/xlm-roberta-base-finetuned-panx-de. Make sure you pull the latest changes with `repo.git_pull()`.


In [60]:
# Ejecutar training loop y pushear modelo
trainer.train()
trainer.push_to_hub(commit_message="Training completed!")



Epoch,Training Loss,Validation Loss


NameError: name 'labels_list' is not defined

In [None]:
# Probamos con un solo ejemplo en alemán
text_de = "Jeff Dean ist ein Informatiker bei Google in Kalifornien"
tag_text(text_de, tags, trainer.model, xlmr_tokenizer)

# Error analysis
