# Tokenización de palabras

De forma similar a la tokenización de oraciones, nltk implementa distintas interfaces de tokenización de palabras, algunas de las interfaces principales son:

* word_tokenize
* TreebankWordTokenizer
* RegexTokenizer
* Tokenizadores inherentes de RegexTokenizer

In [3]:
import nltk

In [4]:
sentence = "The brown fox wasn't that quick and he couldn't win the race"

Tokenización mendiate `word_tokenizer`

In [5]:
default_wt = nltk.word_tokenize
words = default_wt(sentence)
print(words)

['The', 'brown', 'fox', 'was', "n't", 'that', 'quick', 'and', 'he', 'could', "n't", 'win', 'the', 'race']


# Tokenización con Spacy

1. Instalar `spacy` v3.0
2. Instalar el modelo de lenguaje `en_core_web_sm`: 

    ```` 
    python -m spacy download en_core_web_sm
    ````

3. En la versión 3.0 se nece

    ````
    nlp = spacy.load("en_core_web_sm")
    ````

4. Si en <v3.0 

    ````
    python -m spacy link en_core_web_sm en
    ````

In [6]:
import spacy
nlp = spacy.load('en_core_web_sm')

text_spacy = nlp(sentence)

In [7]:
[obj.text for obj in text_spacy.sents]

["The brown fox wasn't that quick and he couldn't win the race"]

In [8]:
print([obj.text for obj in text_spacy])

['The', 'brown', 'fox', 'was', "n't", 'that', 'quick', 'and', 'he', 'could', "n't", 'win', 'the', 'race']


Tokenización mediante `TreebankWordTokenizer` esta basada en Penn Treebank y utiliza varias expresiones regulares para tokenizar el texto. Es necesario considerar que ya se realizó previmante una tokenización por oraciones. 

In [4]:
treebank_wt = nltk.TreebankWordTokenizer()
words = treebank_wt.tokenize(sentence)
print(words)

['The', 'brown', 'fox', 'was', "n't", 'that', 'quick', 'and', 'he', 'could', "n't", 'win', 'the', 'race']


Tokenización mediante la clase `RegexpTokenizer`

In [5]:
# pattern to identify tokens themselves
TOKEN_PATTERN = r'\w+'

regex_wt = nltk.RegexpTokenizer(pattern=TOKEN_PATTERN, gaps=False)
words = regex_wt.tokenize(sentence)
print(words)

['The', 'brown', 'fox', 'wasn', 't', 'that', 'quick', 'and', 'he', 'couldn', 't', 'win', 'the', 'race']


In [7]:

# pattern to identify gaps in tokens
GAP_PATTERN = r'\s+'
regex_wt = nltk.RegexpTokenizer(pattern=GAP_PATTERN, gaps=True)
words = regex_wt.tokenize(sentence)
print(words)

['The', 'brown', 'fox', "wasn't", 'that', 'quick', 'and', 'he', "couldn't", 'win', 'the', 'race']


In [8]:
# get start and end indices of each token and then print them
word_indices = list(regex_wt.span_tokenize(sentence))
print(word_indices)
print([sentence[start:end] for start, end in word_indices])

[(0, 3), (4, 9), (10, 13), (14, 20), (21, 25), (26, 31), (32, 35), (36, 38), (39, 47), (48, 51), (52, 55), (56, 60)]
['The', 'brown', 'fox', "wasn't", 'that', 'quick', 'and', 'he', "couldn't", 'win', 'the', 'race']


Existen otras clases que realizan diferentes formas de tokenización: 

* La clase `WordPunktTokenizer` utiliza el patrón `r'\w+|[^\w\s]+` para tokenizar sentencias en tokens independientes tanto alfabéticos como no alfabéticos.
* La clase `WhitespaceTokenizer` tokeniza las sentencia en palabras basado en los espacios en blanco como tabulaciones, nuevas lineas y espacios.

In [5]:
wordpunkt_wt = nltk.WordPunctTokenizer()
words = wordpunkt_wt.tokenize(sentence)
print(words)

['The', 'brown', 'fox', 'wasn', "'", 't', 'that', 'quick', 'and', 'he', 'couldn', "'", 't', 'win', 'the', 'race']


In [6]:
whitespace_wt = nltk.WhitespaceTokenizer()
words = whitespace_wt.tokenize(sentence)
print(words)

['The', 'brown', 'fox', "wasn't", 'that', 'quick', 'and', 'he', "couldn't", 'win', 'the', 'race']


### Ejercicio 1. Tokenización

Elige una canción en inglés y realiza primer la tokenización por oraciones. En seguida, al resultado aplica la tokenización por palabras.

In [None]:
my_lyric = ""

1. Realizar la tokenización por oraciones, imprimir el número de oraciones y las primeras 5 oraciones

In [None]:
lyrics_sentences =

2. Realizar la tokenización por palabras, imprimir el número de palabras de la primera oración y las palabras de dicha oración. 

In [None]:
lyrics_words =