# Recursos léxicos en NLTK

NLTK nos proporciona otro tipo de corpora que son en realidad "lexicon resources" o recursos léxicos o más simplemente *lexicons*. En su forma más simple, estos lexicons no son otra cosa que listas de palabras, algunos ordenados, otros etiquetados.

![LexiconEntry.png](attachment:LexiconEntry.png)

Vamos a ver algunos ejemplos interesantes de los lexicons que nos ofrece NLTK

## Listas de palabras

En su forma más simple, NLTK nos ofrece algunas listas de palabras en formato plano. En el corpus "words" tenemos una lista de palabras en inglés.

Podemos usarlas para encontrar algunas palabras mal escritas o simplemente palabras inusuales que estén presentes en un texto.

In [None]:
import nltk

In [None]:
def unusual_words(text):
    text_vocab = set(w.lower() for w in text if w.isalpha())
    english_vocab = set(w.lower() for w in nltk.corpus.words.words('en'))
    unusual = text_vocab - english_vocab
    return sorted(unusual)

In [None]:
#veamos un ejemplo
# qué palabras poco usuales hay en MobyDick
import nltk
unusual_words(nltk.corpus.gutenberg.words('melville-moby_dick.txt'))
print(len(unusual_words(nltk.corpus.gutenberg.words('melville-moby_dick.txt'))))

Un lexicon muy interesante son los diccionarios de **stop-words**


In [None]:
#qué encontramos en el lexicon stop-words
for file in nltk.corpus.stopwords.fileids():
    print(file)

In [None]:
#qué stop-words en español encontramos??
spanish_stop = nltk.corpus.stopwords.words('spanish')

In [None]:
len(spanish_stop)

In [None]:
for w in spanish_stop:
    print(w)

Otro lexicon interesante es "**swadesh**" que contiene listas comparativas de palabras comunes en diferentes idiomas

Más de cerca:

In [None]:
for file in nltk.corpus.swadesh.fileids():
    print(file)

In [None]:
#Comparamos francés (fr) y español (es)
es_fr = nltk.corpus.swadesh.entries(['es','fr'])
es_fr

In [None]:
#creamos un diccionario para traducir entre uno y otro
translator = dict(es_fr)
translator['yo']
translator['sangre']


In [None]:
#comparamos la misma palabra en diferentes lenguajes
languages = ['en', 'de', 'nl', 'es', 'fr', 'pt', 'it']
for i in [139, 140, 141, 142]:
    print(nltk.corpus.swadesh.entries(languages)[i])