# Métodos tradicionales del NLP

En las próximas clases se verá el _estado del arte_ basado en Aprendizaje Profundo.  
Sin embargo, existe un gran repertorio de técnicas tradicionales en el Procesamiento del Lenguaje Natural (NLP) que es importante conocer.

Estas técnicas nos ayudarán a:

- Entender mejor el funcionamiento de las herramientas modernas.
- Complementar la preparación y limpieza de datos.
- Resolver tareas específicas donde una red neuronal pesada no sea necesaria o conveniente.

Las próximas sesiones se centrarán en redes usando PyTorch, pero antes, exploraremos las siguientes técnicas y librerías tradicionales:

## Herramientas de NLP que estudiaremos:

- Expresiones regulares con `re`.
- Búsqueda difusa de strings con `thefuzz`.

## Procesos de normalización y preprocesamiento:

- Stemming con `nltk`.
- Lematización con `spaCy`.
- Eliminación de Stop Words.

## Modos de representación de texto:

- Bolsa de Palabras (_Bag of Words_).
- TF-IDF usando `sklearn`.


## 1. Herramientas Básicas de NLP

### 1.1 Expresiones Regulares (regex) con `re`

Las expresiones regulares son patrones que permiten buscar y manipular texto de forma flexible.

In [10]:
import re

# Ejemplo práctico: Extracción de emails
texto = "Contacte a soporte@empresa.com o a ventas@servicio.com"
patron_email = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
emails = re.findall(patron_email, texto)
print("Emails encontrados:", emails)

Emails encontrados: ['soporte@empresa.com', 'ventas@servicio.com']


Aplicaciones comunes:
- Validación de formatos (emails, teléfonos)
- Búsqueda de patrones específicos
- Limpieza de texto (eliminar caracteres especiales)

### 1.2 Búsqueda difusa con `thefuzz` (antes fuzzywuzzy)

Útil para comparar cadenas similares pero no idénticas.

In [4]:
from thefuzz import fuzz
from thefuzz import process

# Comparación de strings
cadena1 = "Métodos de NLP"
cadena2 = "metodos nlp"

# Ratio de similitud
similitud = fuzz.ratio(cadena1.lower(), cadena2.lower())
print(f"Similitud: {similitud}%")

# Búsqueda de la mejor coincidencia en una lista
opciones = ["procesamiento de lenguaje", "procesado de lenguaje", "lenguaje natural", "proceso de lenguaje"]
mejor_coincidencia = process.extractOne("proceso de lenguaje natural", opciones)
print(f"La mejor coincidencia encontrada: {mejor_coincidencia}")

Similitud: 80%
La mejor coincidencia encontrada: ('proceso de lenguaje', 95)


Casos de uso:

- Corrección de errores tipográficos
- Búsqueda de registros similares en bases de datos
- Sistemas de recomendación basados en texto

## 2. Normalización y Preprocesamiento

### 2.1 Stemming con NLTK

Reduce palabras a su raíz (puede no ser una palabra válida)

In [2]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
palabras = ["corriendo", "corre", "correrán", "corrió"]
raices = [stemmer.stem(p) for p in palabras]

print("Original:", palabras)
print("Raíces:", raices)

Original: ['corriendo', 'corre', 'correrán', 'corrió']
Raíces: ['corriendo', 'corr', 'correrán', 'corrió']


Limitaciones:

- Raíces no siempre son palabras reales
- Sobresimplificación en algunos casos

### 2.2 Lematización con spaCy

Similar al stemming pero devuelve palabras válidas (lemas)

Actualiza NumPy primero

In [4]:
!pip install numpy --upgrade

Defaulting to user installation because normal site-packages is not writeable


Luego actualiza h5py

In [6]:
!pip install h5py --upgrade

Defaulting to user installation because normal site-packages is not writeable
Collecting h5py
  Downloading h5py-3.13.0-cp310-cp310-win_amd64.whl (3.0 MB)
     ---------------------------------------- 3.0/3.0 MB 11.1 MB/s eta 0:00:00
Installing collected packages: h5py
Successfully installed h5py-3.13.0


Reinstalar spaCy: Después vuelve a instalar spacy para asegurarte que todo sea compatible

In [7]:
!pip install spacy --upgrade

Defaulting to user installation because normal site-packages is not writeable


Instala ahora SpaCy

In [8]:
!pip install spacy

Defaulting to user installation because normal site-packages is not writeable


In [2]:
!python -m spacy download es_core_news_sm
import spacy

# Cargar modelo (ejecutar: python -m spacy download es_core_news_sm)
nlp = spacy.load("es_core_news_sm")

texto = "Los gatos corren rápidamente cuando cazan ratones"
doc = nlp(texto)

print("Original:", texto)
print("Lemas:", [token.lemma_ for token in doc])

Defaulting to user installation because normal site-packages is not writeable
Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
     --------------------------------------- 12.9/12.9 MB 13.3 MB/s eta 0:00:00
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m[+] Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
Original: Los gatos corren rápidamente cuando cazan ratones
Lemas: ['el', 'gato', 'correr', 'rápidamente', 'cuando', 'cazar', 'ratón']


Ventajas sobre stemming:

- Produce palabras reales
- Considera contexto gramatical
- Más preciso pero más lento