# Procesamiento de Lenguaje Natural (PNL)

## ¿Qué es la PNL?
NLP son las siglas de Natural Language Processing (Procesamiento del Lenguaje Natural). Es la rama de la Inteligencia Artificial que da la capacidad de entender y procesar lenguajes humanos de forma automática. Los lenguajes humanos pueden ser en forma de texto o de audio.

## Historia de la PNL
El procesamiento del lenguaje natural comenzó en 1950 cuando Alan Mathison Turing publicó un artículo con el nombre de Computing Machinery and Intelligence. Se basa en la inteligencia artificial. Habla de interpretación automática y generación de lenguaje natural. A medida que la tecnología ha evolucionado, diferentes enfoques han llegado a tratar las tareas de PNL.

* **PNL basado en heurísticas:** Este es el enfoque inicial de la PNL. Se basa en reglas definidas. Lo cual proviene del conocimiento y la experiencia en el dominio. Ejemplo: regex

* **NLP estadístico basado en el aprendizaje automático:** Se basa en reglas estadísticas y algoritmos de aprendizaje automático. En este enfoque, los algoritmos se aplican a los datos y se aprenden de los datos, y se aplican a diversas tareas. Ejemplos: Naive Bayes, máquina de vectores de soporte (SVM), modelo oculto de Markov (HMM), etc.

* **NLP basado en redes neuronales:** Este es el último enfoque que viene con la evaluación del aprendizaje basado en redes neuronales, conocido como aprendizaje profundo. Proporciona una buena precisión, pero es un enfoque que consume mucho tiempo y muchos datos. Se requiere una gran potencia computacional para entrenar el modelo. Además, se basa en la arquitectura de redes neuronales. Ejemplos: Redes neuronales recurrentes (RNN), Redes de memoria a corto plazo (LSTM), Redes neuronales convolucionales (CNN), Transformadores, etc.

### Ventajas de la PNL

* El NLP nos ayuda a analizar datos de fuentes estructuradas y no estructuradas.
* La PNL es muy rápida y eficiente en el tiempo.
* La PNL ofrece respuestas exactas de extremo a extremo a la pregunta. Por lo tanto, ahorra tiempo que va a consumir información innecesaria y no deseada.
* NLP ofrece a los usuarios hacer preguntas sobre cualquier tema y dar una respuesta directa en milisegundos.

### Desventajas de la PNL
* Para el entrenamiento del modelo NLP, se requieren muchos datos y computación.
* Surgen muchos problemas para la PNL cuando se trata de expresiones informales, modismos y jerga cultural.
* Los resultados de la PNL a veces no son precisos, y la precisión es directamente proporcional a la precisión de los datos.
* El NLP está diseñado para un trabajo único y limitado, ya que no puede adaptarse a nuevos dominios y tiene una función limitada.

### Componentes de la PNL
Hay dos componentes del procesamiento del lenguaje natural:

* Comprensión del lenguaje natural
* Generación de lenguaje natural

### Aplicaciones de la PNL
Las aplicaciones del Procesamiento del Lenguaje Natural son las siguientes:

* Procesamiento de texto y voz como asistentes de voz: Alexa, Siri, etc.
* Clasificación de texto como Grammarly, Microsoft Word y Google Docs
* Extracción de información como motores de búsqueda como DuckDuckGo, Google
* Chatbot y respuesta a preguntas como:- bots de sitios web
* Traducción de idiomas como:- Google Translate
* Resumen de texto

Acceso a recursos adicionales:
Para incorporar el uso de recursos adicionales, como recursos de idiomas distintos del inglés, puede ejecutar lo siguiente en un script de Python. Tiene que hacerse solo una vez cuando lo ejecuta por primera vez en su sistema.

In [None]:
!pip install nltk

Acceso a recursos adicionales:
Para incorporar el uso de recursos adicionales, como recursos de idiomas distintos del inglés, puede ejecutar lo siguiente en un script de Python. Tiene que hacerse solo una vez cuando lo ejecuta por primera vez en su sistema.

In [1]:
import nltk
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     /home/dancastarod/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     /home/dancastarod/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /home/dancastarod/nltk_data...
[nltk_data]    |   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /home/dancastarod/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     /home/dancastarod/nltk_data...
[nltk_data]    |   Unzipping grammars/basque_grammars.zip.
[nltk_data]    | Downloading package bcp47 to
[nltk_data]    |     /home/dancas

True

Ahora, habiendo instalado NLTK con éxito en nuestro sistema, vamos a realizar algunas operaciones básicas en datos de texto usando NLTK.

### Tokenización
La tokenización se refiere a dividir el texto en unidades más pequeñas. Consiste en dividir los párrafos en oraciones y las oraciones en palabras. Es uno de los pasos iniciales de cualquier canalización de NLP. Echemos un vistazo a los dos tipos principales de tokenización que proporciona NLTK:


**Tokenización de palabras:**

Consiste en descomponer el texto en palabras.

```
 "I study Machine Learning."
  ['I', 'study', 'Machine', 'Learning', '.']. 

```
**Tokenización de oraciones:**

Consiste en descomponer el texto en frases individuales.


```
"I study Machine Learning. Currently, I'm studying NLP"
 will be sentence-tokenized as 
 ['I study Machine Learning.', 'Currently, I'm studying NLP.']

```

En Python, ambas tokenizaciones se pueden implementar en NLTK de la siguiente manera:

In [3]:
# Tokenization using NLTK
from nltk import word_tokenize, sent_tokenize
sent = "Data Science is the greatest. \
It is one of the best for Computer Science students."
print(word_tokenize(sent))
print(sent_tokenize(sent))

['Data', 'Science', 'is', 'the', 'greatest', '.', 'It', 'is', 'one', 'of', 'the', 'best', 'for', 'Computer', 'Science', 'students', '.']
['Data Science is the greatest.', 'It is one of the best for Computer Science students.']


### Stemming y lematización

Cuando trabajamos con el lenguaje natural, no nos interesa mucho la forma de las palabras, sino el significado que las palabras pretenden transmitir. Por lo tanto, tratamos de asignar cada palabra del idioma a su forma raíz/base. Este proceso se denomina canonicalización.

Por ejemplo, las palabras ‘play’, ‘plays’, ‘played’, and ‘playing’ transmiten la misma acción, por lo tanto, podemos asignarlas a todas a su forma base, es decir, 'play'.

Ahora bien, existen dos técnicas de canonicalización ampliamente utilizadas: Stemming y Lemmatization.

**Stemming**

La lematización genera la palabra base a partir de la palabra flexionada eliminando los afijos de la palabra. Tiene un conjunto de reglas predefinidas que rigen la eliminación de estos afijos. Hay que tener en cuenta que las lematizaciones no siempre dan lugar a palabras base semánticamente significativas. Los stemers son más rápidos y computacionalmente menos costosos que los lematizadores.

En el siguiente código, vamos a derivar palabras usando Porter Stemmer, uno de los stemmers más utilizados:



In [4]:
from nltk.stem import PorterStemmer
 
# create an object of class PorterStemmer
porter = PorterStemmer()
print(porter.stem("play"))
print(porter.stem("playing"))
print(porter.stem("plays"))
print(porter.stem("played"))

play
play
play
play


Podemos ver que todas las variaciones de la palabra "jugar" se han reducido a la misma palabra: "jugar". En este caso, el resultado es una palabra significativa, 'jugar'. Sin embargo, no siempre es así. Pongamos un ejemplo.

Tenga en cuenta que estos grupos se almacenan en el lematizador; No hay eliminación de afijos como en el caso de un stemmer.



In [6]:
from nltk.stem import PorterStemmer
# create an object of class PorterStemmer
porter = PorterStemmer()
print(porter.stem("Communication"))

commun


El stemmer reduce la palabra 'comunicación' a una palabra base 'commun' que no tiene sentido en sí misma.

**Lematización**

La lematización consiste en agrupar las formas flexionadas de una misma palabra. De esta manera, podemos llegar a la forma base de cualquier palabra que sea significativa por naturaleza. La base de aquí se llama Lema.

Los lematizadores son más lentos y computacionalmente más caros que los stemmers.

```
'play', 'plays', 'played', and 'playing' have 'play' as the lemma. 

```


In [7]:

from nltk.stem import WordNetLemmatizer
# create an object of class WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("plays", 'v'))
print(lemmatizer.lemmatize("played", 'v'))
print(lemmatizer.lemmatize("play", 'v'))
print(lemmatizer.lemmatize("playing", 'v'))

play
play
play
play


Tenga en cuenta que en los lematizadores, necesitamos pasar la parte de la oración de la palabra junto con la palabra como argumento de función.

Además, las lematizaciones siempre dan como resultado palabras base significativas. Tomemos el mismo ejemplo que tomamos en el caso de los stemmers.



In [8]:

from nltk.stem import WordNetLemmatizer
 
# create an object of class WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("Communication", 'v'))

Communication


**Etiquetado de parte de la oración**

El etiquetado de parte de la oración (POS) se refiere a la asignación de cada palabra de una oración a su parte de la oración. Es importante ya que ayuda a dar una mejor visión sintáctica de una oración.

En Python, ambas tokenizaciones se pueden implementar en NLTK de la siguiente manera:

In [11]:

from nltk import pos_tag
from nltk import word_tokenize
 
text = "Python is a Language."
tokenized_text = word_tokenize(text)
tags = tokens_tag = pos_tag(tokenized_text)
tags

[('Python', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('Language', 'NN'), ('.', '.')]

Se puede consultar la [documentación](https://www.nltk.org/book/ch05.html) oficial para conocer el significado de las etiquetas asignadas por la función pos_tag.

In [12]:
pip install stanza

Defaulting to user installation because normal site-packages is not writeable
Collecting stanza
  Downloading stanza-1.6.1-py3-none-any.whl.metadata (13 kB)
Collecting emoji (from stanza)
  Downloading emoji-2.8.0-py2.py3-none-any.whl.metadata (5.3 kB)
Collecting torch>=1.3.0 (from stanza)
  Downloading torch-2.1.1-cp38-cp38-manylinux1_x86_64.whl.metadata (25 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch>=1.3.0->stanza)
  Downloading nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.7/23.7 MB[0m [31m51.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting nvidia-cuda-runtime-cu12==12.1.105 (from torch>=1.3.0->stanza)
  Downloading nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m823.6/823.6 kB[0m [31m33.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting nvidia-cuda-cupti-cu12==12.1.1

In [13]:
import stanza
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')

# Descarga e inicializa el modelo de Stanza para español
stanza.download('es')
nlp = stanza.Pipeline(lang='es', processors='tokenize,mwt,pos,lemma')

# Texto de ejemplo en español
texto = "Los árboles son altos y las casas son grandes."

# Procesa el texto
doc = nlp(texto)

# Lematización
lemmas = []
for sentence in doc.sentences:
    for word in sentence.words:
        lemmas.append(word.lemma)

print(lemmas)

# Filtrar stopwords
stop_words = set(stopwords.words('spanish'))
filtered_sentence = [w for w in lemmas if not w in stop_words]

print(filtered_sentence)

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/dancastarod/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

2023-11-15 18:31:06 INFO: Downloading default packages for language: es (Spanish) ...


Downloading https://huggingface.co/stanfordnlp/stanza-es/resolve/v1.6.0/models/default.zip:   0%|          | 0…

2023-11-15 18:31:39 INFO: Finished downloading models and saved to /home/dancastarod/stanza_resources.
2023-11-15 18:31:39 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

2023-11-15 18:31:40 INFO: Loading these models for language: es (Spanish):
| Processor | Package         |
-------------------------------
| tokenize  | ancora          |
| mwt       | ancora          |
| pos       | ancora_charlm   |
| lemma     | ancora_nocharlm |

2023-11-15 18:31:40 INFO: Using device: cpu
2023-11-15 18:31:40 INFO: Loading: tokenize
2023-11-15 18:31:40 INFO: Loading: mwt
2023-11-15 18:31:40 INFO: Loading: pos
2023-11-15 18:31:41 INFO: Loading: lemma
2023-11-15 18:31:41 INFO: Done loading processors!


['el', 'árbol', 'ser', 'alto', 'y', 'el', 'casa', 'ser', 'grande', '.']
['árbol', 'ser', 'alto', 'casa', 'ser', 'grande', '.']


Este código realiza lo siguiente:

* Inicializa Stanza con el modelo en español.
* Procesa un texto de ejemplo para tokenizarlo y lematizarlo.
* Imprime los lemas de cada palabra en el texto.
* Filtra las palabras vacías (stopwords) del resultado lematizado.