# Word Normalization

### José Pablo Kiesling Lange

In [1]:
import re
from collections import Counter

from tokenizers import Tokenizer, models, trainers, pre_tokenizers

from nltk.stem import SnowballStemmer

In [2]:
corpus_path = "data/escher_comments.txt"

In [3]:
with open(corpus_path, "r", encoding="utf-8") as file:
    corpus = file.readlines()

In [4]:
corpus = [line.strip() for line in corpus if line.strip()]

## Estandarización

Para ver la efectivdad de la estandarización, se mostrará las 10 palabras más frecuentes del corpus antes y después de la estandarización. El objetivo es ver si hay modificación en la cantidad de dichas palabras o si una nueva palabra aparece con frecuencia.

In [5]:
def get_most_common_words(corpus, n=10):
    words = [word for line in corpus for word in line.split()]
    most_common = Counter(words).most_common(n)
    return most_common

In [6]:
most_common_words = get_most_common_words(corpus, n=10)
most_common_words

[('que', 45),
 ('de', 39),
 ('la', 32),
 ('un', 27),
 ('una', 26),
 ('el', 17),
 ('en', 16),
 ('esfera', 15),
 ('reflejo', 15),
 ('y', 14)]

#### Case Folding

Se hace una función que dado un corpus revisa si posee la misma palabra en mayúscula y minúscula.

In [7]:
def get_upper_lower_words(corpus):
    words = set(word for line in corpus for word in line.split())
    upper_lower_words = set()
    for word in words:
        if word.lower() in words and word.upper() in words:
            upper_lower_words.add(word)
    return upper_lower_words

In [8]:
upper_lower_words = get_upper_lower_words(corpus)
upper_lower_words

{'A', 'a'}

Dado que sí hay por lo menos una palabra que aparece en ambas formas, se procede a hacer un case folding (pasar todas las palabras a minúscula).

In [9]:
def case_folding(corpus):
    return [line.lower() for line in corpus]

#### Remove Punctuation

Dado que en las instrucciones para generar el corpus se pidió mínimo 2 oraciones, se asume que mínimo una de las oraciones tiene puntuación. Por lo tanto, se procede a eliminar la puntuación del corpus.

Esto se hace para evitar que palabras como `la,` o `la.` se cuenten como palabras diferentes a `la`.

In [10]:
def remove_punctuation(corpus):
    return [re.sub(r'[^\w\s]', '', line) for line in corpus]

In [11]:
def standarizate(corpus):
    corpus = case_folding(corpus)
    corpus = remove_punctuation(corpus)
    return corpus

In [12]:
corpus = standarizate(corpus)

### Corpus ya estandarizado

In [13]:
most_common_words = get_most_common_words(corpus, n=10)
most_common_words

[('que', 45),
 ('de', 39),
 ('la', 34),
 ('un', 30),
 ('una', 28),
 ('esfera', 18),
 ('en', 18),
 ('el', 17),
 ('reflejo', 16),
 ('se', 15)]

Como se puede apreciar:
- la palabra `la` se incrementó en `2`ocurrencias
- la palabra `un` se incrementó en `3` ocurrencias
- la palabra `una` se incrementó en `3`ocurrencias
- la palabra `esfera` se incrementó en `3` ocurrencias y subió al `6to` lugar
- la palabra `en` se incrementó en `2` ocurrencias y subió al `7mo` lugar
- la palabra `reflejo` se incrementó en `1` ocurrencia
- la palabra `se` **ingresó** al top 10

Por lo tanto, la estandarización ha tenido un efecto positivo en la, ya que ha incrementado la cantidad de ocurrencias de palabras comunes y ha eliminado las variaciones causadas por puntuación.

Algo a recalcar es la ausencia de la estandarización de palabras con o sin tilde. Esto es porque se entrenará el modelo `BPE` en español.

## BPE

La implementación se hará en base a la implementación de `LangformersBlog`

https://blog.langformers.com/bpe-tokenizer-explained/

En la instanciación del `BpeTrainer` se especifica el tamaño del vocabulario y los tokens especiales. Para definir el tamaño del vocabulario, se debe considerar el tamaño del corpus y la cantidad de palabras que se espera que aparezcan en el corpus. Por lo tanto, se hacen métodos para calcular el tamaño del vocabulario y la cantidad de palabras que se espera que aparezcan en el corpus.

In [14]:
def get_vocab_size(corpus):
    return len(set(word for line in corpus for word in line.split()))

In [15]:
vocab_size = get_vocab_size(corpus)
print(f"Vocabulario estimado por tokens únicos: {vocab_size}")

Vocabulario estimado por tokens únicos: 229


Dado que el corpus es pequeño, se define un tamaño de vocabulario de `300` y los tokens especiales son `[PAD]` y `[UNK]`.

In [16]:
tokenizer = Tokenizer(models.BPE())

In [17]:
trainer = trainers.BpeTrainer(
    vocab_size=300,
    special_tokens=["[PAD]", "[UNK]"]
)

El token `[PAD]` se utiliza para rellenar secuencias de longitud variable, mientras que el token `[UNK]` se utiliza para representar palabras desconocidas o fuera del vocabulario.

Ejemplo:
Si el corpus contiene las palabras `hola`, `mundo`, y `adiós`, el vocabulario podría ser:

```
{
    "[PAD]": 0,
    "[UNK]": 1,
    "hola": 2,
    "mundo": 3,
    "adiós": 4
}
```

Entonces si viniera el texto `hello mundo adiós` y otro texto `hola mundo`, el tokenizador lo convertiría a
1. [1, 3, 4] (donde `1` es el token `[UNK]` para `hello`)
2. [2, 3, 0] (donde `0` es el token `[PAD]` para la secuencia de longitud variable)

Es por ello que el uso de ambos tokens es importante para manejar secuencias de longitud variable y palabras desconocidas. En el caso de `PAD` es útil para rellenar secuencias más cortas, mientras que `UNK` es esencial para manejar palabras que no están en el vocabulario.

Sin embargo, en el caso de `PAD`, normalmente no aparece en el vocabulario final porque se añade a las secuencias al momento de batching no durante el entrenamiento del tokenizador.


In [18]:
tokenizer.train_from_iterator(corpus, trainer)

In [19]:
print("Vocabulary:", tokenizer.get_vocab())
tokenizer.save("tiny_tokenizer.json")

Vocabulary: {'ebles ': 217, 'o de ': 72, 'en se ve ': 244, 'lo que ': 133, 'co': 106, 'una esfera reflectante ': 210, 'del ': 114, 'estra ': 266, 'perspec': 252, 'se ': 74, 'ando ': 161, 'á': 27, 'man': 138, 'alrede': 198, 'una esfera ': 86, 'va ': 96, 'entorno ': 271, 'ó': 31, 're': 40, 'ación de ': 258, 'or': 62, 'ver': 130, 'ación ': 137, 'un hombre ': 92, 'cen': 280, 'sostiene una esfera ': 256, 'esent': 159, 'reflejo ': 103, 'sí mismo ': 173, 'ce': 277, 'n': 15, 'pec': 148, 'el': 287, 'observ': 168, 'pción ': 294, 'es': 37, 'bita': 134, 'un ': 52, 'arec': 175, 'bros ': 197, 'ilu': 288, 'u': 22, 'veo ': 120, 'c': 5, 'or ': 132, 'li': 155, 'ient': 178, 'parece ': 208, 'les ': 180, 'sación de ': 298, 'y ': 71, 'observar ': 262, 'qu': 41, 'estr': 188, 'au': 123, 'iz': 219, 'endo ': 117, 'espe': 236, 'lo ': 84, 'so': 140, 'ob': 88, 'a': 3, 'perso': 251, 'im': 107, 'propi': 261, 'dos': 283, 'mente ': 207, 'más ': 139, 'tal ': 246, 'dis': 284, 'él ': 233, 'p': 17, 'present': 166, 'á ': 1

## Comparación con WordPiece y SentencePiece

### WordPiece

In [20]:
wordPiece_tokenizer = Tokenizer(models.WordPiece(unk_token="[UNK]"))
wordPiece_tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
wordPiece_trainer = trainers.WordPieceTrainer(vocab_size=300, special_tokens=["[PAD]", "[UNK]"])
wordPiece_tokenizer.train_from_iterator(corpus, wordPiece_trainer)

### SentencePiece

In [21]:
sentencePiece_tokenizer = Tokenizer(models.BPE())
sentencePiece_tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
sentencePiece_trainer = trainers.BpeTrainer(vocab_size=300, special_tokens=["[PAD]", "[UNK]"])
sentencePiece_tokenizer.train_from_iterator(corpus, sentencePiece_trainer)

In [22]:
sample = corpus[0][:60]

In [23]:
print("Sample text:", sample)
print("BPE Tokenization:", tokenizer.encode(sample).tokens)
print("WordPiece Tokenization:", wordPiece_tokenizer.encode(sample).tokens)
print("SentencePiece Tokenization:", sentencePiece_tokenizer.encode(sample).tokens)

Sample text: veo a un hombre explorando su propia percepción al sostener 
BPE Tokenization: ['veo a ', 'un hombre ', 'e', 'x', 'pl', 'or', 'ando ', 'su ', 'propi', 'a ', 'per', 'ce', 'pción ', 'al ', 'sosten', 'er', ' ']
WordPiece Tokenization: ['veo', 'a', 'un', 'hombre', 'e', '##x', '##p', '##lo', '##ra', '##n', '##do', 'su', 'propi', '##a', 'per', '##ce', '##pción', 'al', 'sosten', '##er']
SentencePiece Tokenization: ['veo', 'a', 'un', 'hombre', 'e', 'x', 'p', 'lo', 'r', 'ando', 'su', 'propia', 'percepción', 'al', 'sosten', 'er']


Como se puede apreciar, en `BPE` aprende tokens frecuentes como secuencias `('veo a ', 'un hombre ')`. A veces no separa en palabras individuales, sino en fragmentos largos o combinaciones si son frecuentes. Puede incluir espacios dentro de los tokens.

Por otro lado, `WordPiece` tiene una peculiaridad y es el uso de `##`para indicar que la subpalabra es parte de una palabra más larga. Además, fragmenta más las palabras conservando la semántica.

Finalmente, `SentencePiece` es similar a `BPE` (lo cual hace sentido ya que este modelo usa este algoritmo), pero no utiliza espacios como separadores. Tampoco usa `##`pero puede segmentar de forma más limpias las palabras, ya que no depende de espacios.

Por lo que en conclusión, `BPE` y `SentencePiece` son más flexibles en la segmentación de palabras, mientras que `WordPiece` es más estricto y conservador, lo que puede ser útil para modelos que requieren una segmentación más precisa de las palabras.


## Snowball Streamer

In [24]:
stemmer = SnowballStemmer("spanish")

In [25]:
sample_stemmed = ""

In [26]:
for token in tokenizer.encode(sample).tokens:
    sample_stemmed += stemmer.stem(token) + " "
    print(f"Original: {token}, Stemmed: {stemmer.stem(token)}")
    
print("\nSample stemmed:", sample_stemmed.strip())

Original: veo a , Stemmed: veo a 
Original: un hombre , Stemmed: un hombre 
Original: e, Stemmed: e
Original: x, Stemmed: x
Original: pl, Stemmed: pl
Original: or, Stemmed: or
Original: ando , Stemmed: ando 
Original: su , Stemmed: su 
Original: propi, Stemmed: propi
Original: a , Stemmed: a 
Original: per, Stemmed: per
Original: ce, Stemmed: ce
Original: pción , Stemmed: pcion 
Original: al , Stemmed: al 
Original: sosten, Stemmed: sost
Original: er, Stemmed: er
Original:  , Stemmed:  

Sample stemmed: veo a  un hombre  e x pl or ando  su  propi a  per ce pcion  al  sost er


Al hacer el stemming, se puede apreciar que por ejemplo la subpalabra `sosten` se convierte en `sost`. Además, la subpalabra `pción`se le remueve la tilde y se convierte en `pcion`.

Sin embargo, en los otros casos, dado el algoritmo de tokenización usado, muchos tokens son dos palabras o fragmentos de palabras. Por lo que al hacer el stemming en dichos tokens, se tratan aisladamente, perdiendo la relación semántica original. Asismismo, muchas subpalabras tienen "raíces" que no son comunes en español, como `sosten` que se convierte en `sost`, lo cual no es una raíz válida en español.

Por lo que respecto a la pérdida de información, se puede decir que el stemming no es efectivo en este caso, ya que no se logra una normalización adecuada de las palabras. Esto se debe a que el algoritmo de tokenización utilizado fragmenta las palabras de tal manera que al hacer el stemming se pierde la relación semántica original.