# Tokenization

La tokenización es el proceso de dividir una entrada no estructurada (texto) en elementos mas simples (tokens) que prodran ser procesados. 


In [15]:
corpus = """En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua, rocín flaco y galgo corredor. Una olla de algo más vaca que carnero, salpicón las más noches, duelos y quebrantos los sábados, lentejas los viernes, algún palomino de añadidura los domingos, consumían las tres partes de su hacienda. El resto della concluían sayo de velarte, calzas de velludo para las fiestas con sus pantuflos de lo mismo, los días de entre semana se honraba con su vellori de lo más fino. Tenía en su casa una ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte, y un mozo de campo y plaza, que así ensillaba el rocín como tomaba la podadera; Frisaba la edad de nuestro hidalgo con los cincuenta años, era de complexión recia, seco de carnes, enjuto de rostro; gran madrugador y amigo de la caza. Quieren decir que tenía el sobrenombre de Quijada o Quesada (que en esto hay alguna diferencia en los autores que deste caso escriben), aunque por conjeturas verosímiles se deja entender que se llama Quijana; pero esto importa poco a nuestro cuento; basta que en la narración dél no se salga un punto de la verdad.

Es, pues, de saber, que este sobredicho hidalgo, los ratos que estaba ocioso (que eran los más del año) se daba a leer libros de caballerías con tanta afición y gusto, que olvidó casi de todo punto el ejercicio de la caza, y aun la administración de su hacienda; y llegó a tanto su curiosidad y desatino en esto, que vendió muchas hanegas de tierra de sembradura, para comprar libros de caballerías en que leer; y así llevó a su casa todos cuantos pudo haber dellos; y de todos ningunos le parecían tan bien como los que compuso el famoso Feliciano de Silva: porque la claridad de su prosa, y aquellas intrincadas razones suyas, le parecían de perlas; y más cuando llegaba a leer aquellos requiebros y cartas de desafío, donde en muchas partes hallaba escrito: la razón de la sinrazón que a mi razón se hace, de tal manera mi razón enflaquece, que con razón me quejo de la vuestra fermosura, y también cuando leía: los altos cielos que de vuestra divinidad divinamente con las estrellas se fortifican, y os hacen merecedora del merecimiento que merece la vuestra grandeza. Con estas y semejantes razones perdía el pobre caballero el juicio, y desvelábase por entenderlas, y desentrañarles el sentido, que no se lo sacara, ni las entendiera el mismo Aristóteles, si resucitara para sólo ello. No estaba muy bien con las heridas que don Belianis daba y recibía, porque se imaginaba que por grandes maestros que le hubiesen curado, no dejaría de tener el rostro y todo el cuerpo lleno de cicatrices y señales; pero con todo alababa en su autor aquel acabar su libro con la promesa de aquella inacabable aventura, y muchas veces le vino deseo de tomar la pluma, y darle fin al pie de la letra como allí se promete; y sin duda alguna lo hiciera, y aun saliera con ello, si otros mayores y continuos pensamientos no se lo estorbaran."""


Hay distintos tipos

## Tokenización de espacio en blanco

La mas simple, dividir cada vez que se encuentra un carácter en blanco. Funcionara solo para idiomas que usen el carácter en blanco para separa palabras.


In [None]:
# import WhitespaceTokenizer() method from nltk
from nltk.tokenize import WhitespaceTokenizer
     
# Create instancia del objeto
tokenizador = WhitespaceTokenizer()
     
# Use tokenize method
palabras = tokenizador.tokenize(corpus)
     
print(palabras)

['En', 'un', 'lugar', 'de', 'la', 'Mancha,', 'de', 'cuyo', 'nombre', 'no', 'quiero', 'acordarme,', 'no', 'ha', 'mucho', 'tiempo', 'que', 'vivía', 'un', 'hidalgo', 'de', 'los', 'de', 'lanza', 'en', 'astillero,', 'adarga', 'antigua,', 'rocín', 'flaco', 'y', 'galgo', 'corredor.', 'Una', 'olla', 'de', 'algo', 'más', 'vaca', 'que', 'carnero,', 'salpicón', 'las', 'más', 'noches,', 'duelos', 'y', 'quebrantos', 'los', 'sábados,', 'lentejas', 'los', 'viernes,', 'algún', 'palomino', 'de', 'añadidura', 'los', 'domingos,', 'consumían', 'las', 'tres', 'partes', 'de', 'su', 'hacienda.', 'El', 'resto', 'della', 'concluían', 'sayo', 'de', 'velarte,', 'calzas', 'de', 'velludo', 'para', 'las', 'fiestas', 'con', 'sus', 'pantuflos', 'de', 'lo', 'mismo,', 'los', 'días', 'de', 'entre', 'semana', 'se', 'honraba', 'con', 'su', 'vellori', 'de', 'lo', 'más', 'fino.', 'Tenía', 'en', 'su', 'casa', 'una', 'ama', 'que', 'pasaba', 'de', 'los', 'cuarenta,', 'y', 'una', 'sobrina', 'que', 'no', 'llegaba', 'a', 'los', '

Como se peude apreciar, parece que funciona relativamente bien, pero si nos fijamos en las palabras que terminan en punto final, no parece hacerlo tan bien p.e.: **'estorbaran.'**

## Tokenización basada diccionario

Se basa en la existencia de un diccionario previo, para identificar los tokens. Si no existe la palabra en el diccionario se usan reglas especiales para convertir la palabra en token

In [4]:
# En el ejemplo se usa un diccionario para identificar frutas
from nltk.tokenize import regexp_tokenize

sent = "Me gusta mucho las frutas como las manzanas , las peras y naranjas pero me gusta mas el zumo de uva"
dict_fruits_list = ["manzanas", "peras","naranjas","uva"]
newdict = {}
for item in dict_fruits_list: # Recorremos la lista de palabras que hemos definido
    dk = item + '_' + 'fruta' # Le añadimos el sufijo, fruta 
    newdict[item] = dk # Y lo añadimos al diccionario
print('Diccionario: ', newdict)
for key, val in newdict.items(): # Recorremos el diccionario
    if key in sent: # Si la palabra esta en el diccionario
        sent = sent.replace(key, val) # La sustituimos por la que hemos formado on el sufijo
res = regexp_tokenize(sent, pattern='\S+') # Tokenizamos por expresión regular (cuando encontremos uno  o mas espacios )
print('Tokenización: ',res)

Diccionario:  {'manzanas': 'manzanas_fruta', 'peras': 'peras_fruta', 'naranjas': 'naranjas_fruta', 'uva': 'uva_fruta'}
Tokenización:  ['Me', 'gusta', 'mucho', 'las', 'frutas', 'como', 'las', 'manzanas_fruta', ',', 'las', 'peras_fruta', 'y', 'naranjas_fruta', 'pero', 'me', 'gusta', 'mas', 'el', 'zumo', 'de', 'uva_fruta']


## Tokenización basada en reglas

Se basa en la creación de reglas ad-hoc según el idioma o el tipo de texto, para extraer los tokens del texto. Por ejemplo puede ser muy útil en la identificación de caracteres usados en redes sociales que aportan significado

In [5]:
!pip install somajo # Usaremos somajo, que es una librería muy usada para tokenizar el texto
from somajo import SoMaJo # La importamos
# SoMaJo es un tokenizador y separador de oraciones de última generación para textos web y de redes sociales en alemán e inglés.
# Además de tokenizar el texto de entrada, SoMaJo también puede generar información de clase de token para cada token, es decir, si es un número, un emoticón, una abreviatura, etc.
paragraphs = ["That aint bad!:D"] # SoMajo necesita el texto como un vector de frases.
tokenizer = SoMaJo(language="en_PTB") # Inicializamos el objeto Somajo, indicando el idioma
sentences = tokenizer.tokenize_text(paragraphs) # Obetenemos todas las frases
for sentence in sentences: # Iteramos por las frases
  for token in sentence: # Iteramos por las palabras
    print(token.text) # Pintamos las palabras


Collecting somajo
  Downloading SoMaJo-2.2.1-py3-none-any.whl (90 kB)
[?25l[K     |███▋                            | 10 kB 19.3 MB/s eta 0:00:01[K     |███████▎                        | 20 kB 24.0 MB/s eta 0:00:01[K     |██████████▉                     | 30 kB 29.1 MB/s eta 0:00:01[K     |██████████████▌                 | 40 kB 23.1 MB/s eta 0:00:01[K     |██████████████████              | 51 kB 21.6 MB/s eta 0:00:01[K     |█████████████████████▊          | 61 kB 24.4 MB/s eta 0:00:01[K     |█████████████████████████▍      | 71 kB 23.7 MB/s eta 0:00:01[K     |█████████████████████████████   | 81 kB 24.9 MB/s eta 0:00:01[K     |████████████████████████████████| 90 kB 7.5 MB/s 
Installing collected packages: somajo
Successfully installed somajo-2.2.1
That
ai
nt
bad
!
:D


# Tokenizador por expresión regular

En este caso se usa una expresión regular para encontrar palabras o frases en el texto

In [7]:
import re
from pprint import pprint

In [8]:
my_string = "Let's write RegEx!  Won't that be fun?  I sure think so.  Can you find 4 sentences?  Or perhaps, all 19 words?"

In [9]:
regex_fin_frase = r"[.?!]" # Expresión regular para encontrar fin de frase, al encontrar el caracter punto, interrogación o exclamación
regex_mayusculas = r"[A-Z]\w+" # Expresión regular para encontrar todas las palabras que comienzan por mayusculas
regex_espacios = r"\s+" # Expresión regular para separar por espacios
regex_digitos = r"\d+"

In [10]:
# Dividir my_string por fin de frase and pintar el resultado
print(re.split(regex_fin_frase, my_string))

["Let's write RegEx", "  Won't that be fun", '  I sure think so', '  Can you find 4 sentences', '  Or perhaps, all 19 words', '']


In [11]:
# Encontrar en  my_string las palabras que empiezan por mayusculas and pintar el resultado
print(re.findall(regex_mayusculas, my_string))

['Let', 'RegEx', 'Won', 'Can', 'Or']


In [12]:
# Dividir my_string por espacios
print(re.split(regex_espacios, my_string))

["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?']


In [13]:
# Encontrar en  my_string todos los digitos pintar el resultado
print(re.findall(regex_digitos, my_string))

['4', '19']


# Tokenización Treebank

Penn Treebank es un árbol con anotaciones semánticas y semánticas del lenguaje, y puede ser usado para tokenizar textos

In [16]:
import nltk

from nltk.tokenize import treebank

tokenizer = treebank.TreebankWordTokenizer()
tokens = [word.lower() for word in tokenizer.tokenize(corpus)]
print(tokens)

['en', 'un', 'lugar', 'de', 'la', 'mancha', ',', 'de', 'cuyo', 'nombre', 'no', 'quiero', 'acordarme', ',', 'no', 'ha', 'mucho', 'tiempo', 'que', 'vivía', 'un', 'hidalgo', 'de', 'los', 'de', 'lanza', 'en', 'astillero', ',', 'adarga', 'antigua', ',', 'rocín', 'flaco', 'y', 'galgo', 'corredor.', 'una', 'olla', 'de', 'algo', 'más', 'vaca', 'que', 'carnero', ',', 'salpicón', 'las', 'más', 'noches', ',', 'duelos', 'y', 'quebrantos', 'los', 'sábados', ',', 'lentejas', 'los', 'viernes', ',', 'algún', 'palomino', 'de', 'añadidura', 'los', 'domingos', ',', 'consumían', 'las', 'tres', 'partes', 'de', 'su', 'hacienda.', 'el', 'resto', 'della', 'concluían', 'sayo', 'de', 'velarte', ',', 'calzas', 'de', 'velludo', 'para', 'las', 'fiestas', 'con', 'sus', 'pantuflos', 'de', 'lo', 'mismo', ',', 'los', 'días', 'de', 'entre', 'semana', 'se', 'honraba', 'con', 'su', 'vellori', 'de', 'lo', 'más', 'fino.', 'tenía', 'en', 'su', 'casa', 'una', 'ama', 'que', 'pasaba', 'de', 'los', 'cuarenta', ',', 'y', 'una', 

# Moses Tokenizer

Es un tokenizador avanzado que consiste en una colección de lógicas complejas, de segmentación y normalización que funciona muy bien para lenguajes estructurados como el ingles o español.


In [17]:
!pip install sacremoses
from sacremoses import MosesTokenizer, MosesDetokenizer

tokenizer = MosesTokenizer(lang='es')

tokens = tokenizer.tokenize(corpus)
print(tokens)

Collecting sacremoses
  Downloading sacremoses-0.0.49-py3-none-any.whl (895 kB)
[?25l[K     |▍                               | 10 kB 15.3 MB/s eta 0:00:01[K     |▊                               | 20 kB 21.6 MB/s eta 0:00:01[K     |█                               | 30 kB 26.5 MB/s eta 0:00:01[K     |█▌                              | 40 kB 28.7 MB/s eta 0:00:01[K     |█▉                              | 51 kB 19.1 MB/s eta 0:00:01[K     |██▏                             | 61 kB 21.2 MB/s eta 0:00:01[K     |██▋                             | 71 kB 23.2 MB/s eta 0:00:01[K     |███                             | 81 kB 23.9 MB/s eta 0:00:01[K     |███▎                            | 92 kB 25.8 MB/s eta 0:00:01[K     |███▋                            | 102 kB 26.1 MB/s eta 0:00:01[K     |████                            | 112 kB 26.1 MB/s eta 0:00:01[K     |████▍                           | 122 kB 26.1 MB/s eta 0:00:01[K     |████▊                           | 133 kB 26.1 MB/