# El módulo de Natural Language Toolkit (NLTK)

## 1. Cómo instalarlo
Desde el Anaconda Navigator, busquen e instalen el paquete `nltk`

O desde el terminal:

```
conda install nltk
```

Luego en Jupyter ejecuten lo siguiente:

In [None]:
import nltk
nltk.download()

Eso abrirá la aplicación de instalación:
    
![nltk01](https://raw.githubusercontent.com/nivaca/HD201920/master/intro-a-python/nltk01.png)


<br><br>

Ahora seleccionan "all" y pulsan "Download":

![nltk02](https://raw.githubusercontent.com/nivaca/HD201920/master/intro-a-python/nltk02.png)

Eso se demorará un buen rato, mientras baja todos los "corpora" necesarios para el procesamiento de lenguaje natural.

## 2. Uso básico

### Primero bajaremos *Niebla* de Miguel de Unamuno y lo guardaremos en el disco duro

In [7]:
import requests
url = "https://www.gutenberg.org/files/49836/49836-0.txt"
r = requests.get(url)
with open('niebla.txt', 'wb') as f:
    f.write(r.content)

### Ahora analizaremos procesaremos el texto y analizaremos las frecuencias relativas de todas sus palabras

In [1]:
import nltk

with open("niebla.txt", "r") as f:
    text = f.read()
    
tokens = [t for t in text.split()]

"""
La anterior instrucción es una
forma abreviada de hacer esto mismo:

tokens = []
for t in text.split():
    tokens.append(t)
"""

freq = nltk.FreqDist(tokens)

#print(freq.items())

for key,val in freq.items():
    print(str(key) + ': ' + str(val))
    
freq.plot(20, cumulative=False)




NIEBLA: 3
MIGUEL: 1
DE: 4
UNAMUNO: 1
::: 2
(NIVOLA): 1
PRÓLOGO: 3
VÍCTOR: 2
GOTI: 1
[Ilustración]: 1
RENACIMIENTO: 1
MADRID: 1
BUENOS: 1
AIRES: 1
SAN: 1
MARCOS,: 2
42: 1
LIBERTAD,: 1
172: 1
1914: 1
ES: 1
PROPIEDAD: 1
IMPRENTA: 1
RENACIMIENTO.—SAN: 1
42.: 1
Se: 25
empeña: 4
don: 180
Miguel: 17
de: 2428
Unamuno: 3
en: 890
que: 2408
ponga: 6
yo: 198
un: 527
prólogo: 5
a: 1388
este: 65
su: 434
libro: 9
se: 780
relata: 1
la: 1448
tan: 63
lamentable: 2
historia: 15
mi: 286
buen: 9
amigo: 37
Augusto: 160
Pérez: 7
y: 1436
misteriosa: 10
muerte,: 5
no: 1064
puedo: 25
menos: 55
sino: 117
escribirlo,: 1
porque: 69
los: 391
deseos: 2
del: 243
señor: 26
son: 53
para: 244
mí: 58
mandatos,: 1
más: 350
genuina: 1
acepción: 1
vocablo.: 1
Sin: 4
haber: 30
llegado: 6
al: 299
extremo: 2
escepticismo: 1
hamletiano: 1
pobre: 70
Pérez,: 14
llegó: 9
hasta: 61
dudar: 6
propia: 10
existencia,: 5
estoy: 40
por: 365
lo: 637
firmemente: 1
persuadido: 1
carezco: 1
eso: 111
psicólogos: 1
llaman: 9
libre: 4
albedrío,

hablar: 11
criadas: 1
racionales.: 1
asturiana: 2
reñía: 1
bable.: 1
—Ahora,: 1
teoría—añadió—,: 1
lengua.: 1
marido,: 10
enemigo: 1
matrimonio...: 1
—Señores—dijo: 1
levantándose—,: 1
molestando...: 1
nunca,: 5
caballero—le: 1
respondió: 1
salir: 20
acercó: 3
Fermín: 6
«¡No: 2
eso!»: 1
no?»—le: 1
«Hay: 2
presentimientos,: 1
presentimientos...»: 1
últimas: 2
fueron:: 2
«Ya: 5
sabe,: 3
candidato».: 1
primeras: 1
verla: 2
—¿Sabes,: 1
aquí?: 3
Pérez.: 2
—Augusto: 2
Pérez...: 2
sí!: 6
traído?: 1
—Pichín,: 1
¿a: 15
venido?: 1
—¡Vaya: 5
pregunta!: 3
Tras: 1
—¿Tras: 1
traído: 2
canario?: 1
entiendo.: 5
Valiera: 1
hablases: 1
esperanto,: 1
—Él: 1
mozo: 2
joven,: 3
apuesto,: 1
fino,: 2
rico,: 2
chica,: 3
rico.: 1
quede: 5
riqueza,: 1
venderme.: 1
hablado: 2
venderte,: 1
polvorilla?: 1
bueno,: 8
dejémonos: 2
bromas.: 2
—Tú: 4
chiquilla,: 10
irás: 1
cambiando: 1
ideas.: 2
—Lo: 12
eso...: 4
—Nadie: 1
beberé.: 1
—¡Son: 2
misteriosos: 4
Providencia!—exclamó: 1
Fermín—.: 3
Dios...: 2
arguyó: 1
mujer—

regalo.: 2
—¡Basta!: 2
mirarle,: 1
desaparecieron.: 1
existía,: 1
envolviera: 1
sombrero: 1
errar: 1
iglesia,: 2
Martín,: 2
mortecino: 1
lamparilla: 1
altar: 1
ardía.: 1
Parecíale: 1
oscuridad,: 2
olor: 2
vejez,: 1
tradición: 1
sahumada: 1
incienso,: 1
siglos,: 3
andando: 1
tientas: 1
banco.: 2
Dejóse: 1
caer: 3
cansado,: 1
mortalmente: 1
cansado: 2
vejez: 1
pesasen: 1
lejos,: 6
emergía: 1
tos: 1
contenida: 1
cuando.: 1
Acordóse: 1
soñar: 4
tibia,: 1
yendo: 1
viniendo: 2
repasó: 1
formaba: 1
amparo,: 3
indolorosa: 1
peregrina: 2
emprende: 1
vuelo.: 1
recordó: 2
resoñó: 1
encuentro: 2
encontróse: 3
sumido: 1
pasaban: 1
cinematógrafo,: 1
extrañas: 1
visiones.: 1
Junto: 1
susurraba: 1
rezos.: 1
siguió.: 1
salida: 2
iglesia: 3
mojó: 1
aguabenditera: 1
ofreció: 2
bendita: 1
santiguándose: 1
Encontráronse: 1
cancela.: 1
Avito!—exclamó: 1
mismo!: 3
enseña: 1
muerte;: 1
enseñan: 2
ciencia.: 1
candidato: 1
genio?: 1
Avito: 4
Carrascal: 2
hijo[1].: 1
concluyó: 1
esto...»: 1
[1]: 1
Historia: 1
co

mesetas,: 1
trasunto: 1
vastas: 1
soleadas: 1
llanuras: 1
castellanas: 2
ondea: 1
mies: 2
dorada: 1
sustanciosa.: 1
¡Así: 1
diera: 1
Antolines: 1
Sánchez: 1
Paparrigópulos!: 1
haciéndonos: 1
dueños: 1
tradicional: 1
peculio,: 1
podríamos: 1
sacarle: 1
pingües: 1
rendimientos.: 1
aspiraba—y: 1
aspira,: 1
sigue: 2
trabajos—a: 1
introducir: 1
reja: 1
crítico,: 1
centímetro: 1
aradores: 1
crezca,: 1
nuevos: 1
jugos,: 1
lozana: 1
granen: 1
espigas: 1
harina: 1
comamos: 1
españoles: 1
barato.: 1
Hemos: 1
trabajando: 1
darlos: 1
luz.: 1
comunes: 1
publicado: 2
todavía.: 1
faltan: 1
eruditos: 2
característica: 1
especie,: 1
vislumbrado: 1
envidiosos: 1
antemano: 2
preven: 1
tratan: 1
empequeñecerle.: 1
zorro,: 1
borra: 1
jopo: 1
huellas,: 1
derroteros: 1
despistar: 1
cazador: 1
gallina,: 1
peca: 1
andamios,: 1
acabada: 1
torre,: 1
impidiendo: 1
admire: 1
Otro: 2
desdeñosamente: 1
concinador,: 1
concinar: 1
supremo.: 1
acusa,: 1
traducir,: 1
arreglar: 1
tomadas: 1
extranjero,: 1
olvidando: 1
re

Allí,: 1
platónico,: 1
encarnadas,: 1
cínico.: 1
»Siento: 1
purifica: 1
purificación: 1
aspira: 1
revertió.: 1
tenebrosa...: 1
agitando: 1
rabo.: 1
¡Amo: 2
hombre!»: 1
recojieron: 1
depurado: 1
envuelto: 1
tenebrosa.: 1
enterneció: 1
creíble: 1
ejemplo: 1
fidelidad.: 1
penas!: 1
ÍNDICE: 1
6: 1
19: 1
21: 1
29: 1
37: 1
41: 1
49: 1
61: 1
69: 1
73: 1
83: 1
87: 1
97: 1
107: 1
115: 1
123: 1
135: 1
143: 1
149: 1
161: 1
169: 1
181: 1
193: 1
203: 1
209: 1
225: 1
235: 1
241: 1
247: 1
253: 1
259: 1
267: 1
277: 1
291: 1
303: 1
307: 1


<Figure size 640x480 with 1 Axes>

In [None]:
import requests
import nltk
from nltk.corpus import stopwords

stopwords.words('spanish')
stopsp = stopwords.words('spanish')

# print(stopsp)

with open("niebla.txt", "r") as f:
    text = f.read()

tokens = [t for t in text.split()]
 
freq = nltk.FreqDist(tokens)
 
for key,val in freq.items():
 
    print (str(key) + ':' + str(val))