# Tokenizar

Para construir un vocabulario, lo primero que hay que hacer es dividir los documentos o las frases en fragmentos llamados tokens . Cada token lleva asociado un significado semántico. La tokenización es una de las cosas fundamentales que se deben hacer en cualquier actividad de procesamiento de texto. La tokenización puede considerarse como una técnica de segmentación en la que se intenta dividir fragmentos de texto más grandes en fragmentos más pequeños y significativos. 

In [4]:
sentence = "La capital de Colombia es Bogotá"
sentence.split()

['La', 'capital', 'de', 'Colombia', 'es', 'Bogotá']

## Tokenizador de expresiones regulares

El paquete nltk de Python proporciona tokenizadores basados en expresiones regulares. Por ejemplo RegexpTokenizer Se puede utilizar para tokenizar o dividir una oración en función de una expresión regular proporcionada. 

In [9]:
from nltk.tokenize import RegexpTokenizer
s = "Un computador cuesta entr $2.000.000 - $10.000.000 En Colombia."
tokenizer = RegexpTokenizer(r'\w+|\$[\d\.]+|\S+')
tokenizer.tokenize(s)

['Un',
 'computador',
 'cuesta',
 'entr',
 '$2.000.000',
 '-',
 '$10.000.000',
 'En',
 'Colombia',
 '.']

## Tokenizador TreeBank

El tokenizador de Treebank también utiliza expresiones regulares para tokenizar texto según Penn Treebank ( https://catalog.ldc.upenn.edu/docs/LDC95T7/cl93.html ). Aquí, las palabras se dividen principalmente en función de la puntuación.

El tokenizador de Treebank hace un gran trabajo al separar contracciones. Además, identifica los puntos al final de las líneas y los elimina. La puntuación, como las comas, se separa si va seguida de espacios en blanco.

In [13]:
 from nltk.tokenize import TreebankWordTokenizer
 s = "I'm going to buy a computer that doesn't cost more than $3.000.000"
 tokenizer = TreebankWordTokenizer()
 tokenizer.tokenize(s)

['I',
 "'m",
 'going',
 'to',
 'buy',
 'a',
 'computer',
 'that',
 'does',
 "n't",
 'cost',
 'more',
 'than',
 '$',
 '3.000.000']

## Tokenizador de tweets

Usado para analizar emoticones, hashtags y texto abreviado de por ejemplo redes sociales

In [15]:
from nltk.tokenize import TweetTokenizer
s = "@cmpineda I'm going to buy a Computer!!! :-D #happiness #pcs"
tokenizer = TweetTokenizer()
tokenizer.tokenize(s)

['@cmpineda',
 "I'm",
 'going',
 'to',
 'buy',
 'a',
 'Computer',
 '!',
 '!',
 '!',
 ':-D',
 '#happiness',
 '#pcs']

In [17]:
# intenta reducir los caracteres excesivos en un token
from nltk.tokenize import TweetTokenizer
s = "@cmpineda I'm going to buy a Computer!!! :-D #happiness #pcs"
tokenizer = TweetTokenizer(strip_handles=True, reduce_len=True)
tokenizer.tokenize(s)

["I'm",
 'going',
 'to',
 'buy',
 'a',
 'Computer',
 '!',
 '!',
 '!',
 ':-D',
 '#happiness',
 '#pcs']

## Stemming y Lematización

Hace un intento rudimentario de eliminar las formas flexivas de una palabra y llevarlas a una forma base llamada stem.

Los dos algoritmos o métodos más comunes que se emplean para la lematización son el lematizador Porter y el lematizador Snowball . El lematizador Porter admite el idioma inglés, mientras que el lematizador Snowball, que es una mejora del lematizador Porter, admite varios idiomas

In [19]:
from nltk.stem.snowball import SnowballStemmer
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [20]:
plurals = ['caresses', 'flies', 'dies', 'mules', 'died', 'agreed', 'owned', 'humbled', 'sized', 'meeting', 'stating',
 'siezing', 'itemization', 'traditional', 'reference', 'colonizer', 'plotted', 'having', 'generously'] 

from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
singles = [stemmer.stem(plural) for plural in plurals]
print(' '.join(singles))

caress fli die mule die agre own humbl size meet state siez item tradit refer colon plot have gener


In [23]:
plurales = ['calles', 'arboles', 'niños', 'mujeres', 'personas'] 

stemmer2 = SnowballStemmer(language='spanish')
singles = [stemmer2.stem(plural) for plural in plurales]
print(' '.join(singles))

call arbol niñ mujer person


### Lematizador de WordNet

WordNet es una base de datos léxica del inglés que está disponible de forma gratuita y pública. Como parte de WordNet, los sustantivos, verbos, adjetivos y adverbios se agrupan en conjuntos de sinónimos cognitivos (synsets), cada uno de los cuales expresa conceptos distintos. 

In [28]:
import nltk
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer 
lematizador = WordNetLemmatizer()
s = "We are studying NLP techniques"
lista_tokens = s.split()
print("Los tokens son: ", lista_tokens)
salida_lematizada = ' '.join([lematizador.lemmatize(token) for token in lista_tokens])
print("La salida de la lematización es: ", salida_lematizada)

Los tokens son:  ['We', 'are', 'studying', 'NLP', 'techniques']
La salida de la lematización es:  We are studying NLP technique


[nltk_data] Downloading package wordnet to C:\Users\Carlos
[nltk_data]     Pineda\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


El lematizador de WordNet funciona mejor si las etiquetas POS también se proporcionan como entradas.

In [29]:
nltk.download('averaged_perceptron_tagger')
pos_tags = nltk.pos_tag(lista_tokens)
pos_tags

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Carlos Pineda\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


[('We', 'PRP'),
 ('are', 'VBP'),
 ('studying', 'VBG'),
 ('NLP', 'NNP'),
 ('techniques', 'NNS')]

In [31]:
from nltk.corpus import wordnet

def get_pos_tag(token):
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    tag = nltk.pos_tag([token])[0][1][0].upper()
    return tag_dict.get(tag, wordnet.NOUN)

In [32]:
salida = [lemmatizer.lemmatize(token, get_pos_tag(token)) for token in lista_tokens]
print(' '.join(salida))

We be study NLP technique


## Eliminando palabras vacías

Las palabras vacías son palabras como un, la , en, etc, que aparecen con frecuencia en los corpus de texto y no aportan mucha información en la mayoría de los contextos. Estas palabras, en general, son necesarias para completar oraciones y hacer que sean gramaticalmente correctas. Suelen ser las palabras más comunes de un idioma y se pueden filtrar en la mayoría de las tareas de PNL

In [40]:
nltk.download('stopwords')
from nltk.corpus import stopwords
stop = set(stopwords.words('english'))
", ".join(stop) 

[nltk_data] Downloading package stopwords to C:\Users\Carlos
[nltk_data]     Pineda\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


"we, wasn, t, itself, himself, such, below, few, once, haven, isn't, being, to, then, hasn't, is, are, more, been, where, down, it, weren't, of, because, theirs, that, mustn, as, my, mustn't, their, am, ourselves, after, no, isn, didn't, weren, having, s, now, ain, he, themselves, ve, each, y, yours, from, wouldn't, which, again, haven't, them, be, ma, with, you'll, in, she, doesn't, at, why, all, his, about, aren, during, only, herself, before, o, ll, him, myself, have, mightn't, that'll, than, needn't, should've, was, does, whom, against, will, nor, most, has, wasn't, any, yourselves, couldn, its, or, hers, when, until, doing, this, didn, above, off, very, these, other, our, by, needn, own, through, it's, further, don, for, couldn't, did, hadn, can, ours, aren't, not, you're, your, hasn, should, won't, shan, into, don't, some, a, up, had, shouldn, me, shan't, you'd, won, between, same, but, d, re, here, doesn, she's, just, hadn't, both, her, and, an, who, too, i, yourself, while, wou

Sin embargo, estas palabras son muy significativas en casos de uso como la respuesta a preguntas y la clasificación de preguntas. Se deben tomar medidas para garantizar que estas palabras no se filtren cuando el corpus de texto se someta a la eliminación de palabras vacías.

In [42]:
palabras_pregunta = ['who', 'what', 'when', 'why', 'how', 'which', 'where', 'whom']
stop = set(stopwords.words('english'))
oracion = "how are we putting in efforts to enhance our understanding of NLP"
for palabra in palabras_pregunta:
    stop.remove(palabra)
salida = [token for token in oracion.split() if token not in stop]
" ".join(salida)

'how putting efforts enhance understanding NLP'

## N-gramas

Las oraciones generalmente contienen nombres de personas y lugares y otros términos compuestos como:
sala de estar y taza de café. Se agrupan bajo el término general de n -gramas. Cuando n es igual a 1, se denominan unigramas. Los bigramas , o 2-gramas, se refieren a pares de palabras, como mesa del comedor. Las frases como Emiratos Árabes Unidos que comprenden tres palabras se denominan trigramas o 3-gramas. 

In [44]:
from nltk.util import ngrams
s = "Natural Language Processing a very interesting"
tokens = s.split()
bigrams = list(ngrams(tokens, 2))
[" ".join(token) for token in bigrams]

['Natural Language',
 'Language Processing',
 'Processing a',
 'a very',
 'very interesting']