# Recursos léxicos (lexicons)

*   Son colecciones de palabras o frases que tienen asociadas etiquetas o meta-informacion de algún tipo (POS tags, significados gramaticales, etc ...)

**comentario:** POS (Part of Speech), también llamado etiquetado gramatical o etiquetado de palabras por categorias, consiste en etiquetar la categoria gramatical a la que pertence cada palabra en un volumen de texto, siendo las categorias: 

1.   Sustantivos
2.   Adjetivos
3.   Articulos
4.   Pronombres
5.   Verbos
6.   Adverbios
7.   Interjecciones
8.   Preposiciones
9.   Conjunciones

In [1]:
import nltk
nltk.download('book')
from nltk.book import *
from nltk.corpus import stopwords

[nltk_data] Downloading collection 'book'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package brown to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/brown.zip.
[nltk_data]    | Downloading package chat80 to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/chat80.zip.
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cmudict.zip.
[nltk_data]    | Downloading package conll2000 to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/conll2000.zip.
[nltk_data]    | Downloading package conll2002 to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/conll2002.zip.
[nltk_data]    | Downloading package dependency_treebank to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping corpora/dependency_treebank.zip.
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    

In [4]:
# Vocabulario: Palabras únicas en un corpus
vocab = sorted(set(text1))
print(vocab[:20])

['!', '!"', '!"--', "!'", '!\'"', '!)', '!)"', '!*', '!--', '!--"', "!--'", '"', '"\'', '"--', '"...', '";', '$', '&', "'", "',"]


In [6]:
# Distribuciones: frecuencia de aparición
word_freq = FreqDist(text1)
# En cierto sentido, la distribución de frecuencia es un lexicón, porque la llave es la palabra y el valor es la información que se tiene de esa palabra.
# Y es un lexicón enriquecido, porque contiene información de la palabra, no solo es la colección de la palabra.
print(word_freq)

<FreqDist with 19317 samples and 260819 outcomes>


In [9]:
# Stopwords: Palabras muy usadas en el lenguaje que usualmente son filtradas en un pipeline de NLP (useless words)
stopwords.words('spanish')[:20]

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo']

## Fracción de Stopwords en un corpus

In [21]:
def stopwords_percentage(text, lang):
    stopwd = stopwords.words(lang)
    content = [w for w in text if w.lower() not in stopwd]
    return f'{round(len(content)/len(text)*100, 2)}%'

In [22]:
stopwords_percentage(text1, 'english')

'58.63%'

# Lexicons enriquecidos (listas comparativas de palabras)
Construyendo diccionarios para traduccion de palabras en diferentes idiomas.

In [23]:
from nltk.corpus import swadesh

print(swadesh.fileids()) # lista de abreviaciones de lenguajes disponibles

['be', 'bg', 'bs', 'ca', 'cs', 'cu', 'de', 'en', 'es', 'fr', 'hr', 'it', 'la', 'mk', 'nl', 'pl', 'pt', 'ro', 'ru', 'sk', 'sl', 'sr', 'sw', 'uk']


In [25]:
print(swadesh.words('en')[:20])

['I', 'you (singular), thou', 'he', 'we', 'you (plural)', 'they', 'this', 'that', 'here', 'there', 'who', 'what', 'where', 'when', 'how', 'not', 'all', 'many', 'some', 'few']


In [27]:
fr2es = swadesh.entries(['fr','es'])
print(fr2es[:10])

[('je', 'yo'), ('tu, vous', 'tú, usted'), ('il', 'él'), ('nous', 'nosotros'), ('vous', 'vosotros, ustedes'), ('ils, elles', 'ellos, ellas'), ('ceci', 'este'), ('cela', 'ese, aquel'), ('ici', 'aquí, acá'), ('là', 'ahí, allí, allá')]


In [28]:
translate = dict(fr2es)
translate['chien']

'perro'

In [29]:
translate['jeter']

'tirar'

In [31]:
en2es = swadesh.entries(['en','es'])
translate = dict(en2es)
translate['dog']

'perro'