# Clase 1: Introducción al Procesamiento de Lenguaje Natural (NLP)

## 1. ¿Qué es el NLP?

El Procesamiento de Lenguaje Natural (NLP) es una rama de la Inteligencia Artificial que permite que las máquinas entiendan, procesen y generen lenguaje humano.

El objetivo principal es transformar texto (no estructurado) en datos numéricos que los modelos puedan analizar.

---

![usosNLP](https://f5b623aa.delivery.rocketcdn.me/wp-content/uploads/2022/10/New-Use-Cases-760px.jpg.avif)


## 2. ¿Por qué el texto es un problema para Machine Learning?

Los modelos de Machine Learning requieren **números**, pero el texto es:

- Ambiguo  
- Desordenado  
- Inconsistente  
- Extenso  

Por eso el NLP utiliza técnicas para **convertir texto → números**, como:

- Tokenización  
- Normalización  
- Limpieza  
- Vectorización  
- Embeddings  

![alt text](https://f5b623aa.delivery.rocketcdn.me/wp-content/uploads/2022/10/How-NLP-Works-760px.jpg.avif)

---

## 3. Machine Learning para Textos: visión general

En NLP se usan dos grandes familias de modelos:

### 3.1. Modelos clásicos (ML tradicional)

Trabajan con representaciones simples del texto, como Bag-of-Words o TF–IDF.

Ejemplos:
- Regresión Logística  
- Naive Bayes  
- SVM  
- KNN  
- Árboles y Random Forest  

Aplicaciones:
- Clasificación de sentimientos  
- Spam detection  
- Clasificación de documentos  

### 3.2. Modelos modernos (Deep Learning)

Aprenden representaciones profundas del lenguaje.

Ejemplos:
- Embeddings (Word2Vec, GloVe, FastText)  
- RNN, LSTM, GRU  
- Modelos Transformer (BERT, GPT, T5, RoBERTa)  

![challenges ](https://f5b623aa.delivery.rocketcdn.me/wp-content/uploads/2022/10/Challenges-760px.jpg.avif)


---

## 4. Flujo de trabajo típico en NLP

![alt text](https://datos.gob.es/sites/default/files/datosgobes/esquema_pasos.png)


1. Recolección del texto  
2. Limpieza y normalización  
3. Tokenización  
4. Vectorización  
5. Entrenamiento del modelo  
6. Predicción  
7. Evaluación  

---

## Flujo de trabajo en NLP: Métodos, enfoques y librerías

En esta sección desglosamos cada paso del flujo de trabajo típico en NLP, explicando **qué se hace, por qué se hace** y **cuáles son los métodos más comunes**, sin incluir código.  
Será el “mapa mental” para que tus estudiantes entiendan el panorama completo del procesamiento de texto.

---

### 1. Recolección del Texto

La calidad del dataset determina la calidad del modelo.  
Fuentes típicas:

- Comentarios de usuarios  
- Reseñas de productos  
- Chats, emails  
- Noticias, blogs, redes sociales  
- Archivos PDF, TXT, CSV  
- APIs (Twitter, Reddit, HuggingFace Datasets)

**Consideraciones importantes:**
- Tamaño del corpus  
- Dominio del lenguaje (médico, legal, redes sociales)  
- Ruido (errores ortográficos, emojis, siglas)  
- Etiquetas disponibles (clasificación, sentimiento, intención)

---

### 2. Limpieza y Normalización del Texto

Transformar el texto crudo en algo más homogéneo y analizable.

#### Técnicas comunes

##### **2.1 Lowercasing**
Unifica representación:
- “Película” = “película” = “PELÍCULA”

##### **2.2 Normalización Unicode**
Corrige caracteres extraños provenientes de HTML, PDF, acentos “compuestos”.

##### **2.3 Eliminación de ruido**
Dependiendo del proyecto:
- URLs  
- Números  
- Emojis  
- Signos repetidos  
- HTML tags  
- Menciones `@usuario`  

##### **2.4 Stopwords**
Palabras muy frecuentes y poco informativas: “el”, “y”, “pero”, “de”.

##### **2.5 Lematización**
Convierte palabras en su forma base:
- “Caminando”, “caminará”, “caminaron” → **caminar**

Motor común: **spaCy**, **Stanza**.

##### **2.6 Stemming**
Recorta palabras a su raíz morfológica:
- “Caminando”, “caminar”, “caminaron” → **camin**

Más agresivo. Librería: **NLTK**.

---

### 3. Tokenización

Convertir texto en unidades mínimas.

##### **3.1 Tokenización por palabras**
Divide el texto en palabras según espacios y reglas del lenguaje.

Librerías:
- NLTK
- spaCy
- HuggingFace Tokenizers

##### **3.2 Tokenización por frases**
Útil en análisis de documentos largos.

##### **3.3 Tokenización basada en subpalabras**
Usada en modelos modernos:
- **Byte-Pair Encoding (BPE)**
- **WordPiece (BERT, DistilBERT)**
- **SentencePiece (T5, ALBERT)**

Soluciona:
- el problema del vocabulario infinito  
- palabras desconocidas  
- manejo eficiente de morfología

---

### 4. Representación del Texto (Vectorización)

Convertir texto → números.  
Aquí hay 2 mundos: **modelos clásicos** y **modelos profundos**.

---

##### 4.1 Bag of Words (BoW)

Representa el texto como una bolsa de palabras, sin orden ni contexto.

![alt text](https://old.tacosdedatos.com/assets/detrasdelavis/004_frequency.png)

**Ventajas:**
- Simple  
- Rápido  
- Funciona bien en clasificación básica  

**Limitaciones:**
- No captura contexto  
- No entiende orden  
- Matrices enormes y dispersas  

---

##### 4.2 N-gramas

Una extensión de BoW que almacena secuencias de palabras.

Ejemplos:
- unigramas: “buena”, “película”
- bigramas: “buena película”
- trigramas: “no me gustó”

![alt text](http://jalammar.github.io/images/word2vec/lm-sliding-window-4.png)

Ayuda en:
- detección de expresiones comunes  
- negaciones (“no bueno”)  
- contexto local  

[More info +](https://old.tacosdedatos.com/word-to-vec-ilustrado)
---

##### 4.3 TF–IDF (Term Frequency – Inverse Document Frequency)

Pondera palabras según su importancia.

Idea:
- palabras frecuentes en un documento → importantes  
- palabras muy frecuentes en todos los documentos → menos importantes  

![alt text](https://old.tacosdedatos.com/assets/detrasdelavis/004_tfidf_no_norm.png)

**Ventajas:**
- buena base para modelos clásicos  
- reduce ruido  
- mantiene interpretación  

**Desventajas:**
- aún ignora el contexto semántico  
- sensible a vocabularios grandes  

---

### 4.4 Embeddings (Representaciones Densas)

Representan palabras como **vectores de números reales**, donde palabras con significados similares tienen vectores similares.


![alt text](https://web.engr.oregonstate.edu/~huanlian/teaching/ML/2024fall/unit4/figs/word_embeddings_visualization.png)


![alt text](http://jalammar.github.io/images/word2vec/king-man-woman-embedding.png)

![alt text](https://jalammar.github.io/images/word2vec/queen-woman-girl-embeddings.png)

#### ¿Qué resuelven?
- Semántica (“rey” parecido a “reina”)  
- Relaciones (“parís” - “francia” ≈ “berlín” - “alemania”)  
- Problema del vocabulario grande  

#### Enfoques principales de embeddings:

---

##### **A. Word2Vec** (Google)

Modelos:
- **CBOW** (predice palabra a partir de contexto)
- **Skip-gram** (predice contexto a partir de una palabra)

Aprenden relaciones semánticas sorprendentes.


![alt text](http://jalammar.github.io/images/word2vec/language_model_blackbox_output_vector.png)

---

##### **B. GloVe** (Stanford)

Basado en factorización de matrices y coocurrencias.  
Aprende relaciones globales del corpus.

---

##### **C. FastText** (Facebook)

Incluye subpalabras:
- “correr”, “corriendo”, “corrió” → vectores relacionados

Excelente para lenguajes flexivos (como español).

---

### 4.5 Embeddings contextuales (Transformers)

Revolucionaron el NLP porque entienden contexto **palabra por palabra** dentro de la frase.

#### **Modelos principales**

##### **BERT** (Bidirectional Encoder Representations from Transformers)

BERT es uno de los modelos más importantes en la historia del NLP.  
Fue desarrollado por Google en 2018 y **cambió por completo** la forma en que las máquinas entienden lenguaje.

A diferencia de los modelos clásicos o las RNN/LSTM, BERT **entiende el texto en contexto**, leyendo en ambas direcciones al mismo tiempo.

Antes de BERT:

- Los modelos leían **de izquierda a derecha** (como un texto normal)  
- O de derecha a izquierda  
- O en un solo sentido (RNN, LSTM, GRU)  
- O con contexto local limitado (CNN, n-gramas)

BERT rompe esta limitación:
> BERT lee el texto **simultáneamente hacia adelante y hacia atrás**, entendiendo el contexto completo.

Ejemplo:

En la frase:
> “El banco está cerrado”

BERT capta que “banco” significa **institución financiera**, no un asiento.  
Por eso se dice que entiende *contexto profundo*.

Características clave de BERT:

- Lee la frase en ambas direcciones  
- Capta contexto profundo  
- Base de miles de variantes  

##### **RoBERTa, ALBERT, DistilBERT**
Versiones optimizadas o más ligeras.

##### **GPT / T5 / LLaMA / Mistral**
Modelos generativos autoregresivos.


[Aprendamos un poco mas sobre BERT y su impacto.](https://youtu.be/MdEYUliufmk?si=N4SihF6iP09jHocU)
---

### ¿Por qué los embeddings contextuales son superiores?

Ejemplo:

- “banco” (sentarse)  
- “banco” (institución financiera)

BoW y TF-IDF los tratarían igual.  
Un Transformer **no**, porque interpreta la frase completa.

---

## 5. Entrenamiento del Modelo

Dependiendo de la representación del texto, se eligen distintos modelos.

### **Modelos clásicos**
Adecuados para BoW y TF-IDF:

- Regresión Logística  
- Naive Bayes  
- SVM  
- Random Forest  
- KNN  

**Pros:** rápidos, interpretables  
**Contras:** no captan semántica profunda  

### **Modelos basados en embeddings**
- Redes Neuronales densas  
- CNN para texto  
- RNN / LSTM / GRU  

### **Transformers**
- Fine-tuning de BERT  
- Modelos generativos (GPT-like)  
- Clasificación, QA, NER, resúmenes

---

## 6. Predicción

Una vez entrenado el modelo:
- se preprocesa el texto nuevo  
- se vectoriza con las mismas reglas  
- se hace la predicción  

Tipos de tareas:
- clasificación (sentimiento, intención)  
- regresión (puntajes de opinión)  
- etiquetado (NER)  
- generación (traducción, resumen)  

---

## 7. Evaluación

Métricas comunes:

### **7.1 Clasificación**
- Accuracy  
- Precision  
- Recall  
- F1-score  
- Matriz de confusión  

### **7.2 Modelos de lenguaje**
- Perplexity  
- BLEU score (traducción)  
- ROUGE (resumen)  

### **7.3 Evaluación humana**
Crucial en sistemas generativos:
- coherencia  
- fluidez  
- relevancia  

---

# Resumen visual del ecosistema NLP

- **BoW / N-gramas** → modelos clásicos  
- **TF-IDF** → potente y simple  
- **Embeddings estáticos** (Word2Vec, GloVe, FastText) → relaciones semánticas  
- **Embeddings contextuales** (BERT, GPT) → contexto profundo y comprensión real del lenguaje  

Este desglose prepara el terreno para la implementación práctica en la siguiente clase.
