El [Natural Language Toolkit](https://www.nltk.org/) (NLTK) es una plataforma usada para construir programas para análisis de texto.

La plataforma dispone de un libro que introduce Python y el procesamiento de textos, [Natural Language Processing with Python](http://www.nltk.org/book/). 

In [32]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
 
text = 'En este tutorial, vamos a aprender NLTK.'

[nltk_data] Downloading package punkt to /home/gustavo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/gustavo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/gustavo/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /home/gustavo/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /home/gustavo/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


### Tokenización

Tokenización: romper una frase en elementos individuales llamados tokens
La función word_tokenize tokeniza una frase y obtenemos como resultado una lista de tokens que corresponde a la frase original

In [33]:
words = word_tokenize(text)
 
print(words)

['En', 'este', 'tutorial', ',', 'vamos', 'a', 'aprender', 'NLTK', '.']


### Búsquedas en texto

Vamos a realizar una búsqueda en un texto.

In [34]:
file = open('quijote.txt', 'r')
textQuijote = file.read()
concordanceQuijote = nltk.Text(nltk.word_tokenize(textQuijote))
 
match = concordanceQuijote.concordance('dulcinea')

Displaying 1 of 1 matches:
sa y gran señora , vino a llamarla DULCINEA DEL TOBOSO , porque era natural de


In [35]:
match = concordanceQuijote.concordance('dulcinea del toboso') # No funciona con varias palabras

no matches


### Stopwords

Stopwords son palabras que no aportan significado al texto y podemos obviarlas. Existen listas que se pueden personalizar.

In [36]:
stop_words = set(stopwords.words('spanish'))
words = word_tokenize(textQuijote)
 
new_text = []
 
for word in words:
    if word not in stop_words:
        new_text.append(word)
 
print(new_text)

['En', 'lugar', 'Mancha', ',', 'cuyo', 'nombre', 'quiero', 'acordarme', ',', 'tiempo', 'vivía', 'hidalgo', 'lanza', 'astillero', ',', 'adarga', 'antigua', ',', 'rocín', 'flaco', 'galgo', 'corredor', '.', 'Una', 'olla', 'vaca', 'carnero', ',', 'salpicón', 'noches', ',', 'duelos', 'quebrantos', 'sábados', ',', 'lentejas', 'viernes', ',', 'algún', 'palomino', 'añadidura', 'domingos', ',', 'consumían', 'tres', 'partes', 'hacienda', '.', 'El', 'resto', 'della', 'concluían', 'sayo', 'velarte', ',', 'calzas', 'velludo', 'fiestas', 'pantuflos', 'mismo', ',', 'días', 'semana', 'honraba', 'vellori', 'fino', '.', 'Tenía', 'casa', 'ama', 'pasaba', 'cuarenta', ',', 'sobrina', 'llegaba', 'veinte', ',', 'mozo', 'campo', 'plaza', ',', 'así', 'ensillaba', 'rocín', 'tomaba', 'podadera', '.', 'Frisaba', 'edad', 'hidalgo', 'cincuenta', 'años', ',', 'complexión', 'recia', ',', 'seco', 'carnes', ',', 'enjuto', 'rostro', ';', 'gran', 'madrugador', 'amigo', 'caza', '.', 'Quieren', 'decir', 'sobrenombre', 'Qui

## Cáculo de frecuencias

La función FreqDist calcula la frecuencia de las palabras.

In [37]:
fdist1 = FreqDist(new_text)

In [38]:
fdist1

FreqDist({',': 203, '.': 28, ';': 19, 'nombre': 13, 'caballero': 13, ':': 10, 'así': 9, 'tan': 7, 'bien': 7, 'mismo': 6, ...})

In [39]:
fdist1.keys()

dict_keys(['En', 'lugar', 'Mancha', ',', 'cuyo', 'nombre', 'quiero', 'acordarme', 'tiempo', 'vivía', 'hidalgo', 'lanza', 'astillero', 'adarga', 'antigua', 'rocín', 'flaco', 'galgo', 'corredor', '.', 'Una', 'olla', 'vaca', 'carnero', 'salpicón', 'noches', 'duelos', 'quebrantos', 'sábados', 'lentejas', 'viernes', 'algún', 'palomino', 'añadidura', 'domingos', 'consumían', 'tres', 'partes', 'hacienda', 'El', 'resto', 'della', 'concluían', 'sayo', 'velarte', 'calzas', 'velludo', 'fiestas', 'pantuflos', 'mismo', 'días', 'semana', 'honraba', 'vellori', 'fino', 'Tenía', 'casa', 'ama', 'pasaba', 'cuarenta', 'sobrina', 'llegaba', 'veinte', 'mozo', 'campo', 'plaza', 'así', 'ensillaba', 'tomaba', 'podadera', 'Frisaba', 'edad', 'cincuenta', 'años', 'complexión', 'recia', 'seco', 'carnes', 'enjuto', 'rostro', ';', 'gran', 'madrugador', 'amigo', 'caza', 'Quieren', 'decir', 'sobrenombre', 'Quijada', 'Quesada', '(', 'alguna', 'diferencia', 'autores', 'deste', 'caso', 'escriben', ')', 'aunque', 'conjetu

### Expresiones regulares

Las expresiones regulares nos permiten modificar las cadenas de texto de forma sencilla.

In [40]:
import re

input_str = "El coche tenía 3 ventanas, 1 volante y 4 ruedas."
result = re.sub(r'\d+', '', input_str)
print(result)

El coche tenía  ventanas,  volante y  ruedas.


### Lowercase

En ocasiones, es interesante convertir las palabras a minúsculas para realizar comparaciones

In [41]:
input_str = "España es uno de los lugares más bonitos del mundo junto a Francia e Inglaterra."
input_str = input_str.lower()
print(input_str)

españa es uno de los lugares más bonitos del mundo junto a francia e inglaterra.


### Part of speech

NLTK permite realizar el análisis sintáctico de cada palabra.

In [42]:
# english
postext = word_tokenize("Now we will start playing football")

nltk.pos_tag(postext)

[('Now', 'RB'),
 ('we', 'PRP'),
 ('will', 'MD'),
 ('start', 'VB'),
 ('playing', 'VBG'),
 ('football', 'NN')]

### N-grama

Por N-grama se entiende la combinación de n palabras a partir de un texto. N puede tener valor desde 1 hasta el valor que deseemos. 2-grama o bigrama corresponde a la combinación de dos palabras que aparecen en el texto de forma consecutiva. 3-grama o trigrama corresponde a combinaciones de tres palabras.

In [43]:
tokens = nltk.word_tokenize("NLTK es una librería para procesamiento de lenguaje natural")

#Crear bigrams
bgs = nltk.bigrams(tokens)
list(bgs)

[('NLTK', 'es'),
 ('es', 'una'),
 ('una', 'librería'),
 ('librería', 'para'),
 ('para', 'procesamiento'),
 ('procesamiento', 'de'),
 ('de', 'lenguaje'),
 ('lenguaje', 'natural')]

In [None]:
tokens = nltk.word_tokenize("California es muy bonito y en Washington vive Pepe")
tagged = nltk.pos_tag(tokens)
namedEnt = nltk.ne_chunk(tagged, binary=False)
namedEnt.draw()