# **TOKENIZACIÓN (TOKENIZATION)**
[Fuente](https://huggingface.co/course/chapter2/4?fw=pt)\
Es el proceso de representación de palabras, con vistas a que al entrenar una red neuronal, ésta pueda entender su significado. \
Su propósito es traducir el texto en datos que el modelo luego pueda procesar.Dado que dichos modelos solo pueden procesar números, los tokenizadores deben convertir nuestras entradas de texto en datos numéricos. \
El objetivo es encontrar la representación más significativa, es decir, la que tiene más sentido para el modelo y, si es posible, la representación más pequeña.

##**Word-Based**


In [1]:
tokenized_text = "La película es bastante mala".split()
print(tokenized_text)

['La', 'película', 'es', 'bastante', 'mala']


word_based_tokenization.svg

En este caso a cada palabra se le asigna un número o ID. \
La información contenida en un solo número es alta ya que una palabra contiene mucha información contextual y semántica.\
Sin embargo, consideremos las siguientes palabras

$\text{Perro}$  $→$  4\
$
\text{Perros}$  $→$ 5 \
A cada una se les está asignando un identificador diferente, sin tener en cuenta que existe una relación entre ellas y por lo tanto el modelo tampoco verá dicha relación.\
Si queremos que el modelo entienda todas las posibles frases de un idioma, se necesitará un número para cada palabra y la cantidad de tokens será muy grande.
Podemos pedirle a nuestro modelo que ignore ciertas palabras y aquellas palabras que no se tokenicen serán desconocidas y se les dará el token de ”[UNK]”, el modelo tendrá la misma representación para todas las palabras que no conoce, por lo que habrá una perdida muy alta de información.

## **Character-Based**




character_based_tokenization.svg

Se dividirá el texto en sus carácteres, y a cada uno de ellos se les asignará un número o un ID. \
El vocabulario es mucho más pequeño, porque se tienen menos carácteres que palabras en un idioma. \
Además, esto nos permite tokenizar palabras que no usamos para el entrenamiento, y de esa forma el número de palabras que se clasifican como desconocidas es menor.
Sin embargo,un carácter no contiene tanta información individualmente como una palabra. Además, las secuencias son traducidas a un número muy largo de tokens que deben ser procesadas por el modelo lo que puede reducir el tamaño de los textos que entran al modelo.

##**Subword-Based**


bpe_subword.svg

Parte del principio de que palabras que son usadas frecuentenmente no deberían dividirse, mientras que aquellas que son inusuales deberían descomponerse en sub-palabras significativas.\
$\text{Perro}$ $→$ $\text{["Perro"]}$\
$\text{Perros}$ $→$ $\text{["Perro","s"]}$


*   Permite traducir diferentes palabras derivadas de la misma base, agregando afijos.
*   Entiende que las palabras con cierto afijo posiblemente son usadas en situaciones con sintaxis parecida. 

Estos tokenizadores usualmente pueden identificar cuáles tokens son inicios de palabras y cuáles son continuaciones de la misma.\
Se reduce el tamaño del vocabulario, ya que se comparte información a través de diferentes palabras.

##**Encoding y Decoding**
Encoding es la traducción de texto a números. Se divide en dos pasos la tokenización y la asignación de identificadores a cada token. \
Decoding, sería ir en la otra dirección, se tienen los ID's y queremos saber el texto.

In [None]:
!pip install transformers

In [7]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Asignación de identificadores"
tokens = tokenizer.tokenize(sequence)

print(tokens)

['As', '##ign', '##ac', '##ión', 'de', 'id', '##ent', '##ific', '##adores']


In [8]:
ids = tokenizer.convert_tokens_to_ids(tokens)

print(ids)

[1249, 11368, 7409, 11376, 1260, 25021, 3452, 19814, 27217]


In [9]:
decoded_string = tokenizer.decode(ids)
print(decoded_string)

Asignación de identificadores
