<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png"/>

<img src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center>   

# Wordpiece tokenization

Cuando un transformer es pre-entrenado, una de las tareas que se realiza es construir un vocabulario formado por todas las palabras distintas que ocurren en el corpus (colección de textos) utilizado para entrenar el modelo. En ese vocabulario cada palabra está asociada con un índice que permite representar de forma única a cada palabra. 

Posteriormente, el transformer puede ser ajustado (fine-tuned) con un dataset específico para una tarea concreta de PLN (por ejemplo, la clasificación de textos). Los textos de dicho dataset serán tokenizador utilizando el tokenizador que fue pre-entrenado junto con el transformer. ¿Qué ocurre si en dichos textos ocurren palabras que no están en el vocabulario del tokenizador?

El tokenizador de BERT, y otros modelos transformers, divide las palabras que no están en el vocabulario en sus morfemas. El tokenizador de BERT incluye en su vocabulario una lista los morfemas y sub-palabras más frecuentes en el corpus de entrenamiento. 
<img src='https://blogger.googleusercontent.com/img/a/AVvXsEjEYQ4kSwmyg8a-TvQC6gCQyQkbBXrxb04EXec3dsfBlms4GJ0xq-l7eKCW7A-MeuNtoq0ScF_um5W76w4yJtRZ2mhy54tYY6dIR69m_iJT93b2PTqGT9QHeo_XYDe0UrScX2moab-O52BrhAATSQQYz7ZnIN7Z-mKLsRJbofXVVigZXFSz1db2mwIfcQ=s1999' width=70%>

Fuentes de la imagen: https://towardsdatascience.com/wordpiece-subword-based-tokenization-algorithm-1fbd14394ed7


Si estás interesado en el método utilizado para entrenar este tokenizador, conocido como **wordpiece**, consulta encontrar más información en este [link](#https://huggingface.co/course/chapter6/6?fw=pt). 

En este notebook, vamos a ver simplemente como el tokenizador de BERT tokeniza algunas oraciones donde ocurren palabras que no están presentes en el vocabulario del modelo. 






In [1]:
!pip install transformers


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.26.1-py3-none-any.whl (6.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m41.0 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.11.0
  Downloading huggingface_hub-0.12.1-py3-none-any.whl (190 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m190.3/190.3 KB[0m [31m14.3 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m51.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.12.1 tokenizers-0.13.2 transformers-4.26.1


In [2]:
from transformers import BertTokenizer
bert_tokenizer = BertTokenizer.from_pretrained("bert-base-cased")



Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

['Multi',
 '-',
 'label',
 'classification',
 'is',
 'a',
 'general',
 '##ization',
 'of',
 'multi',
 '##c',
 '##lass',
 'classification',
 '.']

In [10]:
text = "Pharmaceutical means connected with the industrial production of medicines"
bert_tokenizer.tokenize(text)

['Ph',
 '##arma',
 '##ce',
 '##utical',
 'means',
 'connected',
 'with',
 'the',
 'industrial',
 'production',
 'of',
 'medicines']

In [13]:
text = 'The pharmaceutical industry spends $160 billion per year on research and development'
bert_tokenizer.tokenize(text)

['The',
 'Ph',
 '##arma',
 '##ce',
 '##utical',
 'industry',
 'spends',
 '$',
 '160',
 'billion',
 'per',
 'year',
 'on',
 'research',
 'and',
 'development']

In [14]:
text = 'The Pharmaceutical industry spends $160 billion per year on research and development'
bert_tokenizer.tokenize(text)

['The',
 'Ph',
 '##arma',
 '##ce',
 '##utical',
 'industry',
 'spends',
 '$',
 '160',
 'billion',
 'per',
 'year',
 'on',
 'research',
 'and',
 'development']

In [15]:
text='An anachronism is something (or someone) that is out of place in terms of time or chronology'
bert_tokenizer.tokenize(text)

['An',
 'an',
 '##ach',
 '##ron',
 '##ism',
 'is',
 'something',
 '(',
 'or',
 'someone',
 ')',
 'that',
 'is',
 'out',
 'of',
 'place',
 'in',
 'terms',
 'of',
 'time',
 'or',
 'ch',
 '##ronology']

In [16]:
text='Accismus is a form of irony in which someone feigns indifference to something he or she desires'
bert_tokenizer.tokenize(text)

['A',
 '##cci',
 '##smus',
 'is',
 'a',
 'form',
 'of',
 'irony',
 'in',
 'which',
 'someone',
 'f',
 '##ei',
 '##gn',
 '##s',
 'in',
 '##di',
 '##fference',
 'to',
 'something',
 'he',
 'or',
 'she',
 'desires']

In [17]:
text='A cacophony is a harsh mixture of sounds'
bert_tokenizer.tokenize(text)

['A', 'ca', '##co', '##phony', 'is', 'a', 'harsh', 'mixture', 'of', 'sounds']

In [18]:
text = 'Many filmmakers try for some kind of verisimilitude in their stories'
bert_tokenizer.tokenize(text)

['Many',
 'filmmakers',
 'try',
 'for',
 'some',
 'kind',
 'of',
 've',
 '##ris',
 '##im',
 '##ili',
 '##tude',
 'in',
 'their',
 'stories']