<a href="https://colab.research.google.com/github/juacardonahe/Curso_NLP/blob/main/1_FundamentosNLP/1.1_Introducci%C3%B3nNLP/1_1_5_PreProcesing_Techniques.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/juacardonahe/Curso_NLP/refs/heads/main/data/UNAL_Field_w.png" width="40%">

# **Procesamiento de Lenguaje Natural (NLP)**
### Departamento de Ingeniería Eléctrica, Electrónica y Computación
#### Universidad Nacional de Colombia - Sede Manizales

#### Elaboró: Juan José Cardona H.
#### Revisó: Diego A. Perez

# **1.1.5 - Data Pre-Procesing**

Los modelos de NLP funcionan al identificar relaciones entre las partes que componen el lenguaje, por ejemplo, las letras, palabras y oraciones presentes en un conjunto de datos de texto. Las arquitecturas de NLP utilizan diversos métodos para el preprocesamiento de datos, la extracción de características y el modelado.

En este notebook vamos a simplificar y desglosar las tecnicas de pre-procesamiento de datos para una mejor comprensión.

## **Instalación e importación de librerías**

In [13]:
#Instalación
!pip install nltk

#Importación
import nltk
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

import re



[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## **Tokenization**

El proceso de tokenización consiste en dividir un texto en unidades más pequeñas llamadas tokens, que pueden ser palabras, subpalabras o caracteres.

Tipos:

1. **Tokenización de palabras (Word Tokenization)**: Consiste en dividir el texto en palabras individuales.
   Ejemplo:
   “The quick brown fox jumps over the lazy dog.” se tokeniza como:
   `[‘The’, ‘quick’, ‘brown’, ‘fox’, ‘jumps’, ‘over’, ‘the’, ‘lazy’, ‘dog’, ‘.’]`

2. **Tokenización de oraciones (Sentence Tokenization)**: Consiste en dividir el texto en oraciones individuales.
   Ejemplo:
   “I love programming. It’s an amazing skill to have.” se tokeniza como:
   `[‘I love programming.’, ‘It’s an amazing skill to have.’]`

3. **Tokenización de subpalabras**: Se divide las palabras en unidades más pequeñas como prefijos, sufijos o caracteres individuales.


In [16]:
from nltk.tokenize import word_tokenize, sent_tokenize

text = "I love programming. It’s an amazing skill to have. Tokenization is an essential step in NLP."

# word tokenization
word_tokens = word_tokenize(text)
print("Tokenización de palabras:")
print(word_tokens)

# sentence tokenization
sentence_tokens = sent_tokenize(text)
print("\nTokenización de oraciones:")
print(sentence_tokens)

Tokenización de palabras:
['I', 'love', 'programming', '.', 'It', '’', 's', 'an', 'amazing', 'skill', 'to', 'have', '.', 'Tokenization', 'is', 'an', 'essential', 'step', 'in', 'NLP', '.']

Tokenización de oraciones:
['I love programming.', 'It’s an amazing skill to have.', 'Tokenization is an essential step in NLP.']



La tokenización es el primer paso en muchos flujos de trabajo de NLP y tiene un impacto directo en las etapas de procesamiento posteriores.

## **Stemming**

El stemming es el proceso de reducir las palabras a su forma raíz, eliminando sufijos y prefijos.

*Ejemplo: Las palabras “running” y “runner” se reducen a “run”.*

In [18]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

words = ["running", "runner", "easily", "flies", "better", "happily"]

#Stemming
stemmed_words = [stemmer.stem(word) for word in words]

print("Palabras originales:", words)
print("Palabras con stemming:", stemmed_words)

Palabras originales: ['running', 'runner', 'easily', 'flies', 'better', 'happily']
Palabras con stemming: ['run', 'runner', 'easili', 'fli', 'better', 'happili']


El stemming es una técnica más rudimentaria en comparación con la lematización, y no siempre produce palabras válidas del idioma, ya que no tiene en cuenta el contexto gramatical de la palabra.

## **Lemmatization**

La lematización es el proceso de reducir una palabra a su forma base o de diccionario, conocida como lema.

*Ejemplo: Las palabras "running" y "ran" se lematizan a "run".*

Su importancia recae en que nos permite agrupar distintas formas de una palabra bajo un mismo concepto, facilitando la comprensión del significado subyacente en los textos.

**Nota**

Los algoritmos de stemming son más rápidos y requieren menos recursos computacionales que los procesos de lematización, aunque suelen ser menos precisos.


In [15]:
from nltk.stem import WordNetLemmatizer
# create an object of class WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize("eats", 'v'))
print(lemmatizer.lemmatize("ate", 'v'))
print(lemmatizer.lemmatize("eat", 'v'))
print(lemmatizer.lemmatize("eating", 'v'))

eat
eat
eat
eat


La lematización consiste en agrupar las diferentes formas flexionadas de una misma palabra. De este modo, se puede acceder a la forma base de cada término, la cual conserva un significado claro y coherente. Esta forma base se denomina **lema**.


Los procesos de lematización suelen ser más lentos y computacionalmente más costosos que los algoritmos de stemming. Esto se debe a que la lematización implica un análisis más profundo del significado y la categoría gramatical de cada palabra, buscando su forma base correcta en un diccionario, mientras que el stemming aplica reglas más simples sin considerar el contexto.


## **Normalization**

La normalización en el Procesamiento de Lenguaje Natural (NLP) se refiere al conjunto de procedimientos destinados a transformar el texto en una forma estandarizada. El objetivo principal de esta etapa es garantizar la coherencia en el tratamiento de los datos textuales, facilitando así una mejor comprensión e interpretación por parte de los modelos de NLP. Entre las técnicas de normalización más comunes se encuentran la conversión de todo el texto a minúsculas, la eliminación de signos de puntuación y palabras vacías (stopwords), así como la aplicación de procesos de reducción como el stemming y la lematización.


### **Técnicas de normalización**

###**Conversión a minúsculas**

Este proceso transforma todos los caracteres del texto en minúsculas, con el fin de tratar palabras que solo difieren en el uso de mayúsculas como equivalentes, optimizando así el análisis de los datos textuales.

*Ejemplo: "House" → "house"*

### **Eliminación de signos de puntuación**

La eliminación de signos de puntuación es una práctica común en PLN, ya que estos símbolos suelen no aportar un significado relevante para el análisis semántico del texto.

*Ejemplo: "Welcome, friend!" → "Welcome friend"*

### **Eliminación de palabras vacías**

Las palabras vacías (stop words) son términos muy frecuentes en el lenguaje natural (como "and", "the", "in") que suelen ser descartados porque su contribución semántica al contenido principal es limitada.

*Ejemplo: "She is reading a book" → "reading book"*


In [14]:
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer

text = "Learning new languages opens many opportunities around the world."

#Convierte el texto a minusculas
text_lower = text.lower()
print("Lowercased text:", text_lower)

#Elimina puntuación
text_no_punct = re.sub(r'[^\w\s]', '', text_lower)
print("Text without punctuation:", text_no_punct)

#Tokenization
words = nltk.word_tokenize(text_no_punct)
print("Tokenized words:", words)

#Elimina Stopwords
stop_words = set(stopwords.words('english'))
words_no_stop = [word for word in words if word not in stop_words]
print("Text without stopwords:", words_no_stop)

#Stemming
ps = PorterStemmer()
words_stemmed = [ps.stem(word) for word in words_no_stop]
print("Stemmed words:", words_stemmed)

#Lemmatization
lemmatizer = WordNetLemmatizer()
words_lemmatized = [lemmatizer.lemmatize(word) for word in words_no_stop]
print("Lemmatized words:", words_lemmatized)


Lowercased text: learning new languages opens many opportunities around the world.
Text without punctuation: learning new languages opens many opportunities around the world
Tokenized words: ['learning', 'new', 'languages', 'opens', 'many', 'opportunities', 'around', 'the', 'world']
Text without stopwords: ['learning', 'new', 'languages', 'opens', 'many', 'opportunities', 'around', 'world']
Stemmed words: ['learn', 'new', 'languag', 'open', 'mani', 'opportun', 'around', 'world']
Lemmatized words: ['learning', 'new', 'language', 'open', 'many', 'opportunity', 'around', 'world']


## **Part of Speech (POS) Tagging**

El etiquetado de partes del discurso, conocido como POS Tagging, es el proceso de asignar a cada palabra en una oración una categoría gramatical específica, como sustantivos, verbos, adjetivos, adverbios, pronombres, entre otros. Este proceso se realiza analizando el contexto en el que aparece cada palabra dentro de la oración.

Su **importancia** recae en que nos ayuda a comprender la estructura gramatical y el significado de las oraciones.

Veamos ahora como NLTK’s POS tagger nos etiqueta la siguiente frase:

```
"The quick brown fox jumps over the lazy dog."
```



In [10]:
from nltk import pos_tag  # importa el etiquetador POS
from nltk import word_tokenize  # importa la función para tokenizar texto

text = "The quick brown fox jumps over the lazy dog."

tokenized_text = word_tokenize(text)  # tokeniza el texto

tags = pos_tag(tokenized_text)  # etiqueta las palabras con POS

tags

[('The', 'DT'),
 ('quick', 'JJ'),
 ('brown', 'NN'),
 ('fox', 'NN'),
 ('jumps', 'VBZ'),
 ('over', 'IN'),
 ('the', 'DT'),
 ('lazy', 'JJ'),
 ('dog', 'NN'),
 ('.', '.')]

El código anterior utiliza el etiquetador de partes de la oración (POS tagger) de NLTK para analizar la siguiente frase:

"The quick brown fox jumps over the lazy dog."

El etiquetado POS asigna etiquetas a cada palabra en el texto para indicar su categoría gramatical. Las etiquetas de POS que se utilizan son las siguientes:

- **DT** (Determiner): Determinante. "The" es un artículo definido, que determina el sustantivo "fox" y "dog".
  
- **JJ** (Adjective): Adjetivo. "quick" y "brown" son adjetivos que describen a "fox".
  
- **NN** (Noun, Singular or Mass): Sustantivo común en singular. "fox" y "dog" son sustantivos que se refieren a animales.
  
- **VBZ** (Verb, 3rd Person Singular, Present): Verbo en tercera persona singular del presente. "jumps" es el verbo en esta oración.

- **IN** (Preposition): Preposición. "over" indica la relación espacial entre "fox" y "dog".
