# **PROCESAMIENTO DE LENGUAJE NATURAL**

## **NLTK**

NLTK (Natural Language Toolkit) es una biblioteca de procesamiento de lenguaje natural (PLN) de código abierto y uno de los recursos más utilizados en Python para tareas de PLN. Proporciona una amplia gama de herramientas y recursos para trabajar con texto en lenguaje natural, incluyendo tokenización, análisis sintáctico, etiquetado de partes del discurso, análisis de sentimientos, y mucho más. NLTK también ofrece acceso a una variedad de corpus y recursos lingüísticos, lo que lo convierte en una opción popular para la investigación académica y el desarrollo de aplicaciones en PLN. Su diseño modular y su amplia comunidad de usuarios y desarrolladores lo hacen adecuado tanto para principiantes como para usuarios avanzados que desean realizar tareas sofisticadas de procesamiento de lenguaje natural en Python.

Sitio oficial: https://www.nltk.org/



## **Conceptos sobre Procesmiento de Lenguaje Natural**

### **1. Corpus:**

En el procesamiento del lenguaje natural (NLP), un corpus, que deriva del término latino "cuerpo", se refiere a una recopilación o colección de textos que pueden abarcar una amplia variedad de fuentes, como artículos periodísticos, libros, críticas, mensajes en redes sociales como tweets, entre otros. Es esencialmente un conjunto de datos textuales que se utiliza para entrenar modelos de NLP, realizar investigaciones lingüísticas o realizar análisis de texto en diversos campos

### **2. Bag of Words (BoW):**

***BoW*** (Bolsa de palabras) es un modelo que se utiliza para simplificar el contenido de un documento (o conjunto de documentos) omitiendo la gramática y el orden de las palabras, centrándose solo en el número de ocurrencias de palabras dentro del texto.

**Tipos de representaciones de "bag of words"**

Hay varios tipos de representaciones de "bag of words" que se utilizan en el procesamiento de lenguaje natural. Aquí hay algunos ejemplos:

- **Binary Bag of Words (BBOW):** Esta representación simplemente indica si una palabra está presente o no en el texto, ignorando la frecuencia de ocurrencia.

- **Term Frequency (TF):** Aquí, se registra la frecuencia de cada palabra en el texto. Es decir, cuántas veces aparece cada palabra.

- **Term Frequency-Inverse Document Frequency (TF-IDF):** Esta técnica ajusta las frecuencias de términos (TF) al considerar la frecuencia de cada palabra en el contexto de todos los documentos disponibles (el corpus). Esto reduce la importancia de las palabras comunes y resalta las palabras más relevantes para un documento específico.

- **N-gram Bag of Words:** En lugar de considerar palabras individuales, se consideran secuencias contiguas de palabras de longitud n (n-gramas). Por ejemplo, para n=2, se consideran pares de palabras consecutivas.

- **Character-based Bag of Words:** En este enfoque, las unidades básicas no son palabras sino caracteres. Cada caracter se trata como una "palabra" individual.

- **Skip-gram Bag of Words:** Similar a los n-gramas, pero permite saltar cierto número de palabras entre cada palabra incluida en la representación. Esto puede ayudar a capturar relaciones semánticas más complejas.


### **3. Normalización:**

La ***normalización*** es una tarea que tiene como objetivo poner todo el texto en igualdad de condiciones, mediante las siguientes acciones:

* Convertir todo el texto en mayúscula o minúsculas
* Eliminar, puntos, comas, comillas, etc.
* Convertir los números a su equivalente a palabras
* Quitar palabras que no aportan significado al texto (Stop-words)
* Etc.

### **4. Tokenización:**

Es una tarea que divide las cadenas de texto del documento en piezas más pequeñas o tokens. En la fase de tokenización los documentos se dividen en oraciones y estas se "tokenizan" en palabras. Aunque la tokenización es el proceso de dividir grandes cadenas de texto en cadenas más pequeñas, se suele diferenciar la:

* ***Segmentación***: Tarea de dividir grandes cadenas de texto en piezas más pequeñas como oraciones o párrafos.

* **Tokenización***: Tarea de dividir grandes cadenas de texto solo y exclusivamente en palabras.

### **5. Stemming:**

***Stemming*** es el proceso de eliminar los afijos (sufijos, prefijos, infijos, circunfijos) de una palabra para obtener la raiz de las palabras.

*Ejemplo*: Conduciendo -> conducir

### **6. Lematización:**


* La ***lematización*** es el proceso lingüístico que sustituye una palabra con forma flexionada (plurales, femeninos, verbos conjugados, etc.) por su lema; es decir, por una palabra válida en el idioma.


* Si lo queremos definir de otra manera es sustituir una palabra con forma flexionada por la palabra que encontraríamos en el diccionario.

    + *Ejemplo*: Coches -> Coche; Guapas -> Guapo

### **7. Stop Words:**

Son palabras que no aportan nada al significado de las frases como las preposiciones, determinantes, etc.

### **8. Parts-of-speech (POS) Tagging:**

* Consiste en asignar una etiqueta de categoría a las partes tokenizadas de una oración. El etiquetado POS más popular sería identificar palabras como sustantivos, verbos, adjetivos, etc.

* En la lengua castellana podemos encontrar 9 categorías de palabras:

    - Artículo o determinante
    - Sustantivo o nombre
    - Pronombre
    - Verbo
    - Adjetivo
    - Adverbio
    - Preposición
    - Conjunción
    - Interjección

### **9. n-gramas:**

* Los ***n-gramas*** son otro modelo de representación para simplificar los contenidos de selección de texto.

* A diferencia de la representación sin orden de una bolsa de palabras (bag of words), el modelado de n-gramas está interesado en preservar secuencias contiguas de N elementos de la selección de texto.
* Por ejemplo, la oración "Me gusta el pastel de manzana" se puede modelar como:

> - Unigramas (1-gramas): "Me", "gusta", "el", "pastel", "de", "manzana". Cada palabra se considera individualmente.
> - Bigramas (2-gramas): "Me gusta", "gusta el", "el pastel", "pastel de", "de manzana". Cada par de palabras adyacentes se considera como una unidad.
> - Trigramas (3-gramas): "Me gusta el", "gusta el pastel", "el pastel de", "pastel de manzana". Cada trio de palabras adyacentes se considera como una unidad.
> - 4-gramas: "Me gusta el pastel", "gusta el pastel de", "el pastel de  manzana". Cada secuencia de cuatro palabras adyacentes se considera como una unidad.

<hr>

## **Ejemplos con NLTK**

### **Tokenización**

* Divide las cadenas de texto del documento en piezas más pequeñas o tokens.

In [1]:
import nltk
nltk.download('punkt')
# Punkt is a tokenizer that divides text into a list of sentences using an unsupervised algorithm.
# https://www.nltk.org/_modules/nltk/tokenize/punkt.html
nltk.download('punkt_tab') # Download punkt_tab resource

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [4]:
# ejemplo de tokenizacion
from nltk import word_tokenize
doc = "Los libros constituyen una fuente de conocimiento inagotable"

# Tokenizar el texto. word_tokenize utiliza el tokenizador punkt
words = nltk.word_tokenize(doc)
print (words)

['Los', 'libros', 'constituyen', 'una', 'fuente', 'de', 'conocimiento', 'inagotable']


### **Stemming con NLTK**

* Para realizar el Stemming con NLTK tenemos que seleccionar el "Stemmer" adecuado dependiendo del idioma.


* En NLTK existen dos "Stemmers" que son los siguientes:
    * PorterStemmer
    * SnowballStemmer


* Para más información sobre estos ver el siguiente enlace: http://www.nltk.org/howto/stem.html
<span></span><br>
* *Ejemplo en Inglés* con el *PorterStemmer*

In [2]:
# importamos el stemmer PorterStemmer
from nltk.stem import PorterStemmer
stm = PorterStemmer()

print (stm.stem('running'))
print(stm.stem('readed'))
print(stm.stem('reading'))
print (stm.stem('minimum'))

run
read
read
minimum


In [5]:
# Texto de ejemplo en español
texto = "Correrá corriendo corrió."

# Tokenizar el texto en palabras
palabras = word_tokenize(texto)

# Aplicar stemming a cada palabra en el texto
stemmed_words = [stm.stem(palabra) for palabra in palabras]

# Imprimir las palabras originales y sus formas stem
for palabra, stemmed_word in zip(palabras, stemmed_words):
  print(f"Palabra original: {palabra}, Forma stem: {stemmed_word}")

Palabra original: Correrá, Forma stem: correrá
Palabra original: corriendo, Forma stem: corriendo
Palabra original: corrió, Forma stem: corrió
Palabra original: ., Forma stem: .


Los Stemmers de NLTK para idiomas distintos al inglés son relativamente malos ya que NLTK esta pensado para la lengua inglesa.
* **Ejemplo en Español** con el *SnowballStemmer*

In [6]:
# importamos el stemmer SnowballStemmer
from nltk.stem import SnowballStemmer

# creamos un nuevo objeto SnowballStemmer para el idioma español
stm = SnowballStemmer('spanish')

# Ejemplo de palabras a derivar
palabras = ["corriendo", "correría", "corrió", "corriendo", "correr", "corre", "corres"]

# Derivación de palabras
for palabra in palabras:
  print(f"Palabra original: {palabra}, Palabra derivada: {stm.stem(palabra)}")

Palabra original: corriendo, Palabra derivada: corr
Palabra original: correría, Palabra derivada: corr
Palabra original: corrió, Palabra derivada: corr
Palabra original: corriendo, Palabra derivada: corr
Palabra original: correr, Palabra derivada: corr
Palabra original: corre, Palabra derivada: corr
Palabra original: corres, Palabra derivada: corr


In [7]:
# Ejemplo de palabras a derivar
palabras = ["gato", "gatos", "gata", "gatas", "gatito", "gatitos", "gatita", "gatitas"]

# Derivación de palabras
for palabra in palabras:
  print(f"Palabra original: {palabra}, Palabra derivada: {stm.stem(palabra)}")

Palabra original: gato, Palabra derivada: gat
Palabra original: gatos, Palabra derivada: gat
Palabra original: gata, Palabra derivada: gat
Palabra original: gatas, Palabra derivada: gat
Palabra original: gatito, Palabra derivada: gatit
Palabra original: gatitos, Palabra derivada: gatit
Palabra original: gatita, Palabra derivada: gatit
Palabra original: gatitas, Palabra derivada: gatit


### **Lematización**

NLTK ofrece funcionalidades de lematización para varios idiomas, aunque su desempeño puede ser mejor en inglés debido a la disponibilidad de recursos lingüísticos y modelos específicos para ese idioma. La lematización en NLTK se basa en reglas y recursos léxicos, lo que puede limitar su precisión en idiomas con estructuras lingüísticas más complejas o menos recursos disponibles.


In [8]:
# Descarga de WordNet para la lematización en inglés
nltk.download('wordnet')  # WordNet es una base de datos léxica de inglés que se utiliza para la lematización en NLTK.

# Descarga de Open Multilingual WordNet (OMW) para la lematización en varios idiomas
nltk.download('omw-1.4')  # Open Multilingual WordNet (OMW) es una extensión de WordNet que proporciona recursos léxicos en varios idiomas para la lematización en NLTK.


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [9]:
from nltk.stem import WordNetLemmatizer

# Inicializar el lematizador WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

# Definir una lista de palabras en inglés para lematizar
palabras_ingles = ["dogs", "running", "rocks", "geese", "churches"]

# Lematizar las palabras en inglés
for palabra in palabras_ingles:
  lema = lemmatizer.lemmatize(palabra)
  print(f"Palabra original: {palabra}, Lema: {lema}")

Palabra original: dogs, Lema: dog
Palabra original: running, Lema: running
Palabra original: rocks, Lema: rock
Palabra original: geese, Lema: goose
Palabra original: churches, Lema: church


In [None]:
# Definir una lista de palabras en español para lematizar
palabras_espanol = ["corriendo", "correría", "corrió", "corredor", "corredores"]

# Lematizar las palabras en español
for palabra in palabras_espanol:
  lema = lemmatizer.lemmatize(palabra, pos='v')
  print(f"Palabra original: {palabra}, Lema: {lema}")

Palabra original: corriendo, Lema: corriendo
Palabra original: correría, Lema: correría
Palabra original: corrió, Lema: corrió
Palabra original: corredor, Lema: corredor
Palabra original: corredores, Lema: corredores


### **Stop words**

* NLTK proporciona una lista de 'Stop Words' para varios idiomas.


* Para el Español dispone de un listado de stop words:

In [10]:
# descargar las stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [11]:
# importamos el módulo stopwords del paquete nltk.corpus
from nltk.corpus import stopwords

# mostramos las stopwords en español
print(set(stopwords.words('spanish')))


{'habías', 'estuviésemos', 'sentidas', 'estuviéramos', 'sobre', 'para', 'muchos', 'tendrán', 'hayáis', 'estés', 'seríamos', 'algunas', 'estará', 'teníais', 'estar', 'tenido', 'estarán', 'por', 'seremos', 'estuvierais', 'estaría', 'habrían', 'otra', 'has', 'les', 'tanto', 'seréis', 'tendrás', 'su', 'vosotros', 'estás', 'eso', 'haya', 'otros', 'nosotras', 'e', 'tengáis', 'estuvieseis', 'mucho', 'hayan', 'estaremos', 'seríais', 'había', 'ante', 'antes', 'fueron', 'el', 'hubieran', 'estaré', 'tenían', 'seré', 'en', 'todo', 'estuviesen', 'habíais', 'estuvieras', 'soy', 'tuyas', 'con', 'habré', 'vuestros', 'esto', 'algunos', 'tendremos', 'será', 'mí', 'pero', 'erais', 'habréis', 'habidas', 'habremos', 'fuésemos', 'hube', 'estemos', 'tiene', 'tenidas', 'contra', 'hubieron', 'esa', 'sois', 'durante', 'estuvieses', 'donde', 'estuvisteis', 'al', 'fuisteis', 'no', 'tuvieseis', 'habría', 'tuviesen', 'estuviste', 'mis', 'tuviésemos', 'fuerais', 'está', 'ni', 'hay', 'que', 'poco', 'estáis', 'estaban

* Este listado de palabras se utiliza para eliminarlas de los textos.


* Veamos a continuación como obtener las stop words de una frase tras su tokenización.

In [12]:
# Texto de ejemplo
doc = "Los libros constituyen una fuente de conocimiento inagotable"

# Tokenizar el texto en palabras
words = nltk.word_tokenize(doc)

# Iterar sobre cada palabra en el texto
for word in words:
  if word in stopwords.words('spanish'):
    print(word)


una
de


In [13]:
# Texto de ejemplo
doc2 = "El viaje es una aventura que nos permite descubrir nuevas culturas y paisajes increíbles."

# Tokenizar el texto en palabras
words = nltk.word_tokenize(doc2)

# Iterar sobre cada palabra en el texto
for word in words:
  if word in stopwords.words('spanish'):
    print(word)


es
una
que
nos
y


### **Part-of-Speech Tagging - Etiquetado gramatical**

* El PoS Tagging de NLTK sólo está disponible para el inglés. Algunas de sus categorías gramaticales son:

<CENTER>

|Tag|Meaning|
|---|---|
|ADJ|adjective|
|ADP|adposition|
|ADV|adverb|
|CONJ|conjunction|
|DET|determiner|
|NOUN|noun|
|NUM|numeral|
|PRT|particle|
|PRON|pronoun|
|VERB|verb|
|.|punctuation|
|X|other|

</CENTER>


* Nota: La tabla anterior no significa que solo asigne esas categorias, si no que tiene esas categorias y luego las va desgranando; por ejemplo, los verbos o adjetivos pueden ser de diferentes tipos y les pondrá una etiqueta en función de ese tipo. [Tag Words](https://www.nltk.org/book/ch05.html)

* Sitio recomendado: https://cheatography.com/deacondesperado/cheat-sheets/nltk-part-of-speech-tags/

* Veamos a continuación un ejemplo:

In [17]:
# Descargar recursos necesarios para el etiquetado de partes del discurso (POS)
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')


# Texto de ejemplo
doc = nltk.word_tokenize('Is marathon running bad for you?')

# Etiquetado de partes del discurso (POS)
pos_tags = nltk.pos_tag(doc)

# Imprimir los POS tags de cada palabra en el texto
print(pos_tags)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


[('Is', 'VBZ'), ('marathon', 'JJ'), ('running', 'VBG'), ('bad', 'JJ'), ('for', 'IN'), ('you', 'PRP'), ('?', '.')]


In [18]:
# Texto de ejemplo
doc2 = "The quick brown fox jumps over the lazy dog."

# Tokenizar el texto en palabras
words = nltk.word_tokenize(doc2)

# Etiquetado de partes del discurso (POS)
pos_tags = nltk.pos_tag(words)

# Imprimir los POS tags de cada palabra en el texto
print(pos_tags)

[('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN'), ('.', '.')]


### **PoS Tagging en Español:**


* Para poder etiquetar correctamente las palabras en español, tenemos que descargar un diccionario específico para esta lengua.


* El grupo de Procesamiento de Lenguaje Natural de la Universidad de Stanford ha desarrollado un diccionario en castellano que nos permite etiquetar las palabras. En el siguiente enlace se puede ver su descripción: https://nlp.stanford.edu/software/spanish-faq.shtml


* Se debe descargar el software especifico proporcionado por la universidad de Standford a través del siguiente enlace: https://nlp.stanford.edu/software/tagger.shtml

* Una vez descargada la librería tenemos que:
    1. Descomprimir el fichero
    2. Obtener el jar: stanford-postagger-4.2.0.jar
    3. Obtener el tagger spanish-ud.tagger que se encuentra dentro de la carpeta models
    4. Subir estos archivos a tu espacio de trabajo en Colab.


* También puedes encontrar estos 2 archivos en la carpeta 'libs' del archivo comprimido del presente laboratorio en el Classroom.


* Ejemplo:

In [21]:
# Importamos la función 'find_jars_within_path' del módulo 'nltk.internals'.
# Esta función es usada internamente por NLTK para encontrar archivos JAR.
from nltk.internals import find_jars_within_path

# Importamos la clase 'StanfordPOSTagger' del módulo 'nltk.tag'
from nltk.tag import StanfordPOSTagger

# Definimos la ubicación del archivo JAR que contiene el etiquetador POS Tagging de Stanford.
jar = "stanford-postagger-4.2.0.jar"

# Definimos la ubicación del archivo de modelo que el etiquetador utilizará.
tagger_file = "spanish-ud.tagger"

# Creamos una nueva instancia de 'StanfordPOSTagger' con la ubicación del archivo de modelo y el archivo JAR.
tagger = StanfordPOSTagger(tagger_file, jar)

# Definimos una cadena que queremos etiquetar.
doc = "El cine es una forma de arte que nos permite experimentar emociones y explorar nuevas realidades."

# Utilizamos la función 'word_tokenize' de NLTK para dividir la cadena en palabras individuales.
words = nltk.word_tokenize(doc)

# Utilizamos el etiquetador POS de Stanford que creamos para etiquetar las palabras de la cadena.
tags = tagger.tag(words)

# Imprimimos las palabras etiquetadas.
print(tags)


[('El', 'DET'), ('cine', 'NOUN'), ('es', 'AUX'), ('una', 'DET'), ('forma', 'NOUN'), ('de', 'ADP'), ('arte', 'NOUN'), ('que', 'PRON'), ('nos', 'PRON'), ('permite', 'VERB'), ('experimentar', 'VERB'), ('emociones', 'NOUN'), ('y', 'CCONJ'), ('explorar', 'VERB'), ('nuevas', 'ADJ'), ('realidades', 'NOUN'), ('.', 'PUNCT')]


* **Nota**: Algunas de las etiquetas son diferentes a las de NLTK.
* Mas informacion: [PoS Tagging - Spanish FAQ for Stanford CoreNLP](https://nlp.stanford.edu/software/spanish-faq.shtml)

### **n-gramas**

* Modelo de representación que selecciona secuencias contiguas de N elementos de la selección de texto.

In [20]:
# Importamos la función 'ngrams' del módulo nltk.
from nltk import ngrams

# Definimos una cadena de texto.
doc = "Los libros constituyen una fuente de conocimiento inagotable"

# Utilizamos la función 'word_tokenize' para dividir la cadena en palabras individuales.
words = nltk.word_tokenize(doc)

# Definimos el número de elementos que queremos en cada n-grama.
num_elementos = 3

# Utilizamos la función 'ngrams' para generar n-gramas de la lista de palabras.
n_grams = list(ngrams(words, num_elementos))

# Iteramos a través de los n-gramas generados e imprimimos cada uno.
for gram in n_grams:
  print(gram)

('Los', 'libros', 'constituyen')
('libros', 'constituyen', 'una')
('constituyen', 'una', 'fuente')
('una', 'fuente', 'de')
('fuente', 'de', 'conocimiento')
('de', 'conocimiento', 'inagotable')
