# Transformers Pre-entrenados con HuggingFace

**Materiales desarrollados por Mat√≠as Barreto, 2025**

**Tecnicatura en Ciencia de Datos - IFTS**

**Asignatura:** Procesamiento de Lenguaje Natural

---

## Introducci√≥n

Este notebook marca un **punto de inflexi√≥n** en el curso. Hasta ahora construimos modelos desde cero (perceptr√≥n, MLP, LSTM) para entender los fundamentos. Ahora damos el salto al **paradigma moderno de NLP**: usar modelos transformers pre-entrenados con transfer learning.

### El momento "aj√°" del curso

Despu√©s de 5 notebooks programando y entrenando modelos, ahora vamos a ver que:
- **3 l√≠neas de c√≥digo** superan todo lo anterior
- No necesitamos entrenar desde cero
- Transfer learning es el est√°ndar de la industria

Esto no invalida lo que aprendimos. Todo ese conocimiento te permite entender **qu√© est√° pasando bajo el cap√≥** de HuggingFace.

### ¬øQu√© son los Transformers?

Arquitectura revolucionaria introducida en "Attention is All You Need" (Vaswani et al., 2017):
- **Attention mechanism**: Todas las palabras se ven entre s√≠ simult√°neamente
- **Paralelizable**: No procesa secuencialmente como LSTM
- **Escalable**: Funciona con modelos gigantes (GPT-3: 175B par√°metros)
- **Transfer learning**: Pre-entrenamiento + fine-tuning

### Objetivos de aprendizaje

1. Usar HuggingFace Transformers library
2. Cargar modelos pre-entrenados (BETO, RoBERTuito)
3. Aplicar pipelines para tareas comunes
4. Entender el concepto de transfer learning
5. Trabajar con modelos en espa√±ol
6. Prepararse para fine-tuning (pr√≥ximas semanas del curso)

### ¬øPor qu√© HuggingFace?

- **Model Hub**: Miles de modelos pre-entrenados
- **API unificada**: Mismo c√≥digo para BERT, GPT, T5, etc.
- **Comunidad**: Open source, muy activa
- **Industria**: Est√°ndar de facto en producci√≥n
- **Espa√±ol**: Excelentes modelos para espa√±ol (BETO, RoBERTuito, MarIA)

---

## 1. Instalaci√≥n de HuggingFace Transformers

En Google Colab, instalamos la librer√≠a (ya viene en algunas versiones, pero mejor asegurarnos).

In [2]:
# Instalamos transformers de HuggingFace
# -q: quiet mode (menos output)
!pip install -q transformers

print("Librer√≠a 'transformers' instalada correctamente.")

Librer√≠a 'transformers' instalada correctamente.


In [3]:
# Importamos librer√≠as
from transformers import pipeline
import warnings

# Suprimimos warnings menores para output m√°s limpio
warnings.filterwarnings('ignore')

print("Librer√≠as importadas.")
print("\nNota: La primera vez que uses un modelo, HuggingFace lo descargar√°.")
print("Esto puede tardar unos minutos dependiendo del tama√±o del modelo.")

Librer√≠as importadas.

Nota: La primera vez que uses un modelo, HuggingFace lo descargar√°.
Esto puede tardar unos minutos dependiendo del tama√±o del modelo.


---

## 2. Concepto: Transfer Learning en NLP

### Paradigma tradicional (lo que hicimos en notebooks anteriores):

```
1. Recolectar dataset etiquetado
2. Inicializar pesos aleatoriamente
3. Entrenar desde cero
4. Evaluar
```

**Problemas:**
- Requiere muchos datos (>10k muestras)
- Tiempo de entrenamiento largo
- Recursos computacionales (GPU)
- El modelo aprende lenguaje desde cero

### Paradigma moderno: Transfer Learning

```
1. Tomar modelo pre-entrenado en corpus masivo (Wikipedia, Common Crawl)
2. Adaptar a tu tarea espec√≠fica (fine-tuning)
3. Requiere pocos datos (<1k muestras)
4. Entrenamiento r√°pido
```

**Ventajas:**
- El modelo ya "entiende" lenguaje
- Solo ajusta para tu tarea espec√≠fica
- Funciona con datasets peque√±os
- Estado del arte con menos esfuerzo

### Analog√≠a

**Entrenar desde cero:** Como ense√±ar a leer a alguien desde alfabeto y luego pedirle que clasifique sentimientos

**Transfer learning:** Como pedirle a alguien que ya lee espa√±ol que aprenda a distinguir rese√±as positivas/negativas (mucho m√°s r√°pido)

### Dos fases del Transfer Learning

**Pre-entrenamiento (ya hecho por otros):**
- Corpus masivo: Wikipedia (3B palabras), Common Crawl (500B palabras)
- Tarea auto-supervisada: Masked Language Modeling (BERT), Next Token Prediction (GPT)
- Meses de entrenamiento en clusters de GPUs
- Costo: $100k - $1M USD

**Fine-tuning (lo que nosotros haremos):**
- Dataset espec√≠fico: Nuestras rese√±as etiquetadas
- Tarea supervisada: Clasificaci√≥n, NER, QA, etc.
- Horas/d√≠as en una GPU
- Costo: $10 - $100 USD

---

## 3. HuggingFace Pipelines: La Forma M√°s Simple

Los **pipelines** son abstracciones de alto nivel que encapsulan:
1. Tokenizaci√≥n (texto ‚Üí tokens)
2. Modelo (tokens ‚Üí predicciones)
3. Post-procesamiento (predicciones ‚Üí formato legible)

### Pipelines disponibles:

- `sentiment-analysis`: Clasificaci√≥n de sentimientos
- `ner`: Named Entity Recognition
- `question-answering`: Responder preguntas sobre un contexto
- `text-generation`: Generar texto (GPT)
- `translation`: Traducci√≥n
- `summarization`: Resumen de texto
- `fill-mask`: Completar texto enmascarado
- Y muchos m√°s...

### Sintaxis b√°sica:

```python
# Opci√≥n 1: Modelo por defecto (ingl√©s)
classifier = pipeline("sentiment-analysis")

# Opci√≥n 2: Modelo espec√≠fico
classifier = pipeline("sentiment-analysis", model="finiteautomata/beto-sentiment-analysis")
```

---

## 4. Cargando BETO: BERT en Espa√±ol

### ¬øQu√© es BETO?

**BETO** (Spanish BERT) es un modelo transformer pre-entrenado en espa√±ol:
- Basado en BERT (Bidirectional Encoder Representations from Transformers)
- Pre-entrenado en Wikipedia en espa√±ol
- 110M par√°metros
- Desarrollado por Universidad de Chile

### Variante que usaremos:

`finiteautomata/beto-sentiment-analysis`:
- BETO fine-tuneado para an√°lisis de sentimientos
- Entrenado en tweets en espa√±ol
- 3 clases: POS (positivo), NEU (neutral), NEG (negativo)
- Estado del arte para espa√±ol

In [4]:
print("Cargando modelo BETO...")
print("La primera vez descargar√° ~400MB (modelo + tokenizer).")
print("Esto puede tardar 1-2 minutos.\n")

# Creamos el pipeline de sentiment analysis con BETO
# model: Especificamos el modelo del HuggingFace Model Hub
clasificador = pipeline(
    "sentiment-analysis",
    model="finiteautomata/beto-sentiment-analysis"
)

print("Modelo BETO cargado correctamente.")
print("\nInformaci√≥n del modelo:")
print(f"  Nombre: finiteautomata/beto-sentiment-analysis")
print(f"  Base: BETO (Spanish BERT)")
print(f"  Tarea: Sentiment Analysis")
print(f"  Idioma: Espa√±ol")
print(f"  Clases: POS, NEU, NEG")

Cargando modelo BETO...
La primera vez descargar√° ~400MB (modelo + tokenizer).
Esto puede tardar 1-2 minutos.



config.json:   0%|          | 0.00/841 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/440M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/528 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/67.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


Modelo BETO cargado correctamente.

Informaci√≥n del modelo:
  Nombre: finiteautomata/beto-sentiment-analysis
  Base: BETO (Spanish BERT)
  Tarea: Sentiment Analysis
  Idioma: Espa√±ol
  Clases: POS, NEU, NEG


---

## 5. Primera Predicci√≥n: ¬°3 L√≠neas de C√≥digo!

Vamos a clasificar una frase. Observ√° lo simple que es comparado con todo lo que programamos antes.

In [5]:
# Una sola frase de ejemplo
texto = "Si queres morirte de calor, el lugar est√° b√°rbaro, muy recomendable."

# Predicci√≥n (una l√≠nea)
resultado = clasificador(texto)

# Mostramos el resultado
print("="*70)
print("PREDICCI√ìN CON TRANSFORMERS")
print("="*70)
print(f"\nTexto: '{texto}'")
print(f"\nResultado:")
print(f"  Sentimiento: {resultado[0]['label']}")
print(f"  Confianza: {resultado[0]['score']:.2%}")

print("\n" + "="*70)
print("Observaci√≥n: ¬°Esto fue mucho m√°s simple que todos los notebooks")
print("anteriores juntos! El modelo ya viene entrenado y listo para usar.")

PREDICCI√ìN CON TRANSFORMERS

Texto: 'Si queres morirte de calor, el lugar est√° b√°rbaro, muy recomendable.'

Resultado:
  Sentimiento: NEU
  Confianza: 88.38%

Observaci√≥n: ¬°Esto fue mucho m√°s simple que todos los notebooks
anteriores juntos! El modelo ya viene entrenado y listo para usar.


---

## 6. Corpus de Prueba: Espa√±ol Rioplatense

Usamos el mismo corpus de los notebooks anteriores para comparar resultados.

In [6]:
# Corpus en espa√±ol rioplatense con expresiones coloquiales
frases = [
    # Positivas
    "La verdad, este lugar est√° b√°rbaro. Muy recomendable.",
    "Qu√© buena onda la atenci√≥n, volver√≠a sin dudarlo.",
    "Me encant√≥ la comida, aunque la m√∫sica estaba muy fuerte.",
    "Todo excelente. Atenci√≥n de diez.",
    "Muy conforme con el resultado final.",
    "Super√≥ mis expectativas, gracias.",
    "El mejor asado que prob√© en mucho tiempo.",
    "Excelente relaci√≥n precio-calidad, muy recomendable.",
    "La atenci√≥n fue impecable, muy atentos.",
    "Me gust√≥ mucho el ambiente tranquilo.",

    # Negativas
    "Una porquer√≠a de servicio, nunca m√°s vuelvo.",
    "El env√≠o fue lento y el producto lleg√≥ da√±ado. Qu√© desastre.",
    "Qu√© estafa, me arrepiento de haber comprado.",
    "No me gust√≥ para nada la experiencia.",
    "No lo recomiendo, mala calidad.",
    "Mal√≠sima atenci√≥n, el mozo ten√≠a mala onda.",
    "Tardaron dos horas en entregar, lleg√≥ todo fr√≠o.",
    "Me cobraron de m√°s y encima se hicieron los giles.",
    "La carne estaba pasada, casi no se pod√≠a comer.",
    "P√©sima experiencia, no vuelvo m√°s.",

    # Adicionales con expresiones argentinas
    "Zafa, pero nada especial.",
    "Est√° piola el lugar, volver√≠a.",
    "Qu√© garr√≥n, tardaron una banda.",
    "Re copado todo, la rompieron.",
    "Un bodrio total, no vayan."
]

print(f"Corpus: {len(frases)} frases en espa√±ol rioplatense")
print(f"\nEjemplos:")
print(f"  [Positiva] {frases[0]}")
print(f"  [Negativa] {frases[10]}")
print(f"  [Coloquial] {frases[20]}")

Corpus: 25 frases en espa√±ol rioplatense

Ejemplos:
  [Positiva] La verdad, este lugar est√° b√°rbaro. Muy recomendable.
  [Negativa] Una porquer√≠a de servicio, nunca m√°s vuelvo.
  [Coloquial] Zafa, pero nada especial.


---

## 7. Clasificaci√≥n Masiva con Pipelines

Los pipelines pueden procesar listas de textos de forma eficiente.

In [7]:
print("Clasificando todas las frases con BETO...\n")

# Clasificamos todas las frases de una vez
# El pipeline autom√°ticamente procesa en batches
resultados = clasificador(frases)

print("="*70)
print("RESULTADOS DE CLASIFICACI√ìN")
print("="*70)

# Mostramos resultados detallados
for i, (frase, resultado) in enumerate(zip(frases, resultados), 1):
    label = resultado['label']
    score = resultado['score']

    # Truncamos frase si es muy larga
    frase_corta = frase if len(frase) <= 55 else frase[:52] + "..."

    # Formato de salida
    print(f"\n{i:2d}. '{frase_corta}'")
    print(f"    ‚Üí {label} (confianza: {score:.2%})")

print("\n" + "="*70)

Clasificando todas las frases con BETO...

RESULTADOS DE CLASIFICACI√ìN

 1. 'La verdad, este lugar est√° b√°rbaro. Muy recomendable.'
    ‚Üí POS (confianza: 99.85%)

 2. 'Qu√© buena onda la atenci√≥n, volver√≠a sin dudarlo.'
    ‚Üí POS (confianza: 99.87%)

 3. 'Me encant√≥ la comida, aunque la m√∫sica estaba muy fu...'
    ‚Üí POS (confianza: 99.84%)

 4. 'Todo excelente. Atenci√≥n de diez.'
    ‚Üí POS (confianza: 99.88%)

 5. 'Muy conforme con el resultado final.'
    ‚Üí POS (confianza: 99.74%)

 6. 'Super√≥ mis expectativas, gracias.'
    ‚Üí POS (confianza: 99.85%)

 7. 'El mejor asado que prob√© en mucho tiempo.'
    ‚Üí POS (confianza: 99.74%)

 8. 'Excelente relaci√≥n precio-calidad, muy recomendable.'
    ‚Üí POS (confianza: 99.88%)

 9. 'La atenci√≥n fue impecable, muy atentos.'
    ‚Üí POS (confianza: 83.46%)

10. 'Me gust√≥ mucho el ambiente tranquilo.'
    ‚Üí POS (confianza: 99.87%)

11. 'Una porquer√≠a de servicio, nunca m√°s vuelvo.'
    ‚Üí NEG (confianza: 99.94%)



---

## 8. An√°lisis de Resultados

Analicemos qu√© tan bien BETO maneja expresiones coloquiales argentinas.

In [8]:
# Extraemos las frases con expresiones muy argentinas
frases_argentinas = [
    ("Zafa, pero nada especial.", "NEU o POS"),  # Esperado
    ("Est√° piola el lugar, volver√≠a.", "POS"),
    ("Qu√© garr√≥n, tardaron una banda.", "NEG"),
    ("Re copado todo, la rompieron.", "POS"),
    ("Un bodrio total, no vayan.", "NEG"),
    ("Qu√© buena onda la atenci√≥n.", "POS"),
    ("Mal√≠sima atenci√≥n, mala onda.", "NEG"),
]

print("="*70)
print("AN√ÅLISIS: EXPRESIONES ARGENTINAS")
print("="*70)
print("\n¬øBETO entiende jerga argentina?\n")

# Clasificamos estas frases
resultados_arg = clasificador([frase for frase, _ in frases_argentinas])

aciertos = 0
for (frase, esperado), resultado in zip(frases_argentinas, resultados_arg):
    predicho = resultado['label']
    score = resultado['score']

    # Verificamos si coincide
    correcto = predicho in esperado
    marca = "‚úì" if correcto else "?"
    if correcto:
        aciertos += 1

    print(f"{marca} '{frase}'")
    print(f"  Esperado: {esperado} | Predicho: {predicho} ({score:.2%})\n")

print("="*70)
print(f"Aciertos: {aciertos}/{len(frases_argentinas)}")
print("\nObservaci√≥n: BETO fue entrenado en tweets en espa√±ol, por lo que")
print("maneja bien expresiones coloquiales. Sin embargo, jerga muy espec√≠fica")
print("de Argentina puede ser un desaf√≠o. Fine-tuning con datos locales mejorar√≠a esto.")

AN√ÅLISIS: EXPRESIONES ARGENTINAS

¬øBETO entiende jerga argentina?

‚úì 'Zafa, pero nada especial.'
  Esperado: NEU o POS | Predicho: POS (99.60%)

? 'Est√° piola el lugar, volver√≠a.'
  Esperado: POS | Predicho: NEU (99.77%)

‚úì 'Qu√© garr√≥n, tardaron una banda.'
  Esperado: NEG | Predicho: NEG (99.93%)

? 'Re copado todo, la rompieron.'
  Esperado: POS | Predicho: NEG (99.83%)

‚úì 'Un bodrio total, no vayan.'
  Esperado: NEG | Predicho: NEG (99.74%)

‚úì 'Qu√© buena onda la atenci√≥n.'
  Esperado: POS | Predicho: POS (99.89%)

‚úì 'Mal√≠sima atenci√≥n, mala onda.'
  Esperado: NEG | Predicho: NEG (99.93%)

Aciertos: 5/7

Observaci√≥n: BETO fue entrenado en tweets en espa√±ol, por lo que
maneja bien expresiones coloquiales. Sin embargo, jerga muy espec√≠fica
de Argentina puede ser un desaf√≠o. Fine-tuning con datos locales mejorar√≠a esto.


---

## 9. Comparaci√≥n con Modelos Anteriores

Comparemos conceptualmente lo que ganamos con transformers.

In [9]:
print("="*70)
print("COMPARACI√ìN: MODELOS CONSTRUIDOS VS. TRANSFORMERS")
print("="*70)

comparacion = [
    ("L√≠neas de c√≥digo", "~200-300 l√≠neas", "3 l√≠neas"),
    ("Tiempo de desarrollo", "Horas/d√≠as", "Minutos"),
    ("Datos requeridos", ">1000 muestras", "0 (modelo ya entrenado)"),
    ("Tiempo de entrenamiento", "Minutos/horas", "0 (ya entrenado)"),
    ("Comprensi√≥n ling√º√≠stica", "Limitada", "Profunda (pre-entrenado)"),
    ("Manejo de jerga", "Depende del vocabulario", "Robusto"),
    ("Contexto", "Limitado (BoW/LSTM)", "Bidireccional (BERT)"),
    ("Par√°metros", "Decenas/cientos", "110 millones"),
    ("Accuracy esperado", "70-85%", "90-95%"),
    ("Fine-tuning", "N/A", "Posible con pocos datos"),
    ("Multiling√ºe", "Solo espa√±ol", "Soporte nativo"),
    ("Interpretabilidad", "Alta (pesos directos)", "Media (attention)"),
    ("Recursos computacionales", "CPU suficiente", "GPU recomendada"),
    ("Tama√±o del modelo", "KB", "400+ MB"),
]

print(f"\n{'Aspecto':<30} | {'Nuestros Modelos':<25} | {'Transformers (BETO)':<25}")
print("-"*85)
for aspecto, nuestros, transformers in comparacion:
    print(f"{aspecto:<30} | {nuestros:<25} | {transformers:<25}")

print("\n" + "="*70)
print("CONCLUSI√ìN")
print("="*70)
print("\nLo que construimos en notebooks anteriores fue FUNDAMENTAL para:")
print("  1. Entender c√≥mo funcionan las redes neuronales")
print("  2. Apreciar la complejidad que HuggingFace abstrae")
print("  3. Saber qu√© est√° pasando 'bajo el cap√≥'")
print("  4. Debugging cuando algo falla")
print("\nPero para producci√≥n y proyectos reales:")
print("  ‚Üí SIEMPRE usar transfer learning con modelos pre-entrenados")
print("  ‚Üí HuggingFace es el est√°ndar de la industria")
print("  ‚Üí No reinventar la rueda (a√±os-persona de investigaci√≥n)")

COMPARACI√ìN: MODELOS CONSTRUIDOS VS. TRANSFORMERS

Aspecto                        | Nuestros Modelos          | Transformers (BETO)      
-------------------------------------------------------------------------------------
L√≠neas de c√≥digo               | ~200-300 l√≠neas           | 3 l√≠neas                 
Tiempo de desarrollo           | Horas/d√≠as                | Minutos                  
Datos requeridos               | >1000 muestras            | 0 (modelo ya entrenado)  
Tiempo de entrenamiento        | Minutos/horas             | 0 (ya entrenado)         
Comprensi√≥n ling√º√≠stica        | Limitada                  | Profunda (pre-entrenado) 
Manejo de jerga                | Depende del vocabulario   | Robusto                  
Contexto                       | Limitado (BoW/LSTM)       | Bidireccional (BERT)     
Par√°metros                     | Decenas/cientos           | 110 millones             
Accuracy esperado              | 70-85%                    | 90-95%   

---

## 10. Explorando Otros Modelos en Espa√±ol

HuggingFace tiene m√∫ltiples modelos para espa√±ol. Veamos algunos.

### 10.1. RoBERTuito: Especializado en Twitter Espa√±ol

**RoBERTuito** es un modelo basado en RoBERTa entrenado en tweets en espa√±ol:
- Mejor manejo de lenguaje coloquial
- Comprende jerga, emojis, hashtags
- Ideal para redes sociales

In [10]:
print("Cargando RoBERTuito...\n")

# Cargamos pipeline con RoBERTuito
clasificador_twitter = pipeline(
    "sentiment-analysis",
    model="pysentimiento/robertuito-sentiment-analysis"
)

print("RoBERTuito cargado.")
print("\nProbando con frases estilo Twitter/redes sociales:\n")

# Frases tipo tweet
tweets = [
    "Jajaja re copado el lugar üòÇüëå",
    "Nooo qu√© garr√≥n mal servicio üò§",
    "10/10 recomendad√≠simo üî•",
    "Naaa una estafa total üëéüëé",
]

resultados_twitter = clasificador_twitter(tweets)

for tweet, resultado in zip(tweets, resultados_twitter):
    print(f"Tweet: '{tweet}'")
    print(f"  ‚Üí {resultado['label']} ({resultado['score']:.2%})\n")

Cargando RoBERTuito...



config.json:   0%|          | 0.00/925 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/435M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

Device set to use cuda:0


RoBERTuito cargado.

Probando con frases estilo Twitter/redes sociales:

Tweet: 'Jajaja re copado el lugar üòÇüëå'
  ‚Üí POS (94.59%)

Tweet: 'Nooo qu√© garr√≥n mal servicio üò§'
  ‚Üí NEG (98.21%)

Tweet: '10/10 recomendad√≠simo üî•'
  ‚Üí POS (94.74%)

Tweet: 'Naaa una estafa total üëéüëé'
  ‚Üí NEG (93.26%)



### 10.2. Comparaci√≥n BETO vs. RoBERTuito

Comparemos ambos modelos en las mismas frases.

In [11]:
print("="*70)
print("COMPARACI√ìN: BETO vs. RoBERTuito")
print("="*70)

frases_test = [
    "Est√° piola el lugar, re tranquilo.",
    "Qu√© bodrio, nunca m√°s vuelvo.",
    "La comida estaba bien, nada del otro mundo.",
]

resultados_beto = clasificador(frases_test)
resultados_robertuito = clasificador_twitter(frases_test)

for i, frase in enumerate(frases_test):
    print(f"\nFrase: '{frase}'")
    print(f"  BETO:       {resultados_beto[i]['label']:8s} ({resultados_beto[i]['score']:.2%})")
    print(f"  RoBERTuito: {resultados_robertuito[i]['label']:8s} ({resultados_robertuito[i]['score']:.2%})")

print("\n" + "="*70)
print("Observaciones:")
print("  - BETO: M√°s formal, entrenado en Wikipedia")
print("  - RoBERTuito: Mejor con jerga y lenguaje informal")
print("  - Elecci√≥n depende del dominio de tu aplicaci√≥n")

COMPARACI√ìN: BETO vs. RoBERTuito

Frase: 'Est√° piola el lugar, re tranquilo.'
  BETO:       POS      (99.40%)
  RoBERTuito: POS      (96.02%)

Frase: 'Qu√© bodrio, nunca m√°s vuelvo.'
  BETO:       NEG      (99.92%)
  RoBERTuito: NEG      (93.93%)

Frase: 'La comida estaba bien, nada del otro mundo.'
  BETO:       POS      (99.78%)
  RoBERTuito: POS      (73.42%)

Observaciones:
  - BETO: M√°s formal, entrenado en Wikipedia
  - RoBERTuito: Mejor con jerga y lenguaje informal
  - Elecci√≥n depende del dominio de tu aplicaci√≥n


---

## 11. Casos Dif√≠ciles: L√≠mites de los Modelos

Incluso los transformers tienen l√≠mites. Veamos casos desafiantes.

In [12]:
print("="*70)
print("CASOS DIF√çCILES: IRON√çA, SARCASMO, AMBIG√úEDAD")
print("="*70)

casos_dificiles = [
    # Iron√≠a
    "Buen√≠simo, justo lo que necesitaba, tardar 3 horas.",

    # Sarcasmo
    "Claro, excelente idea cobrarme el doble.",

    # Sentimiento mixto
    "La comida excelente pero el servicio p√©simo.",

    # Ambig√ºedad
    "Interesante experiencia.",

    # Negaci√≥n doble
    "No estuvo nada mal.",
]

print("\nProbando BETO con casos desafiantes:\n")

resultados_dificiles = clasificador(casos_dificiles)

for caso, resultado in zip(casos_dificiles, resultados_dificiles):
    print(f"Frase: '{caso}'")
    print(f"  BETO dice: {resultado['label']} ({resultado['score']:.2%})")
    print(f"  Nota: ¬øCaptur√≥ el matiz?\n")

print("="*70)
print("Observaciones:")
print("  - Iron√≠a/sarcasmo: Muy dif√≠cil incluso para humanos sin contexto")
print("  - Sentimiento mixto: Los modelos devuelven una sola clase")
print("  - Ambig√ºedad: Score bajo indica incertidumbre del modelo")
print("\nSoluciones:")
print("  ‚Üí Fine-tuning con datos espec√≠ficos del dominio")
print("  ‚Üí Modelos multiclase para sentimientos mixtos")
print("  ‚Üí Features adicionales (emojis, contexto conversacional)")

CASOS DIF√çCILES: IRON√çA, SARCASMO, AMBIG√úEDAD

Probando BETO con casos desafiantes:

Frase: 'Buen√≠simo, justo lo que necesitaba, tardar 3 horas.'
  BETO dice: POS (99.67%)
  Nota: ¬øCaptur√≥ el matiz?

Frase: 'Claro, excelente idea cobrarme el doble.'
  BETO dice: POS (99.42%)
  Nota: ¬øCaptur√≥ el matiz?

Frase: 'La comida excelente pero el servicio p√©simo.'
  BETO dice: NEU (98.32%)
  Nota: ¬øCaptur√≥ el matiz?

Frase: 'Interesante experiencia.'
  BETO dice: POS (99.88%)
  Nota: ¬øCaptur√≥ el matiz?

Frase: 'No estuvo nada mal.'
  BETO dice: POS (99.80%)
  Nota: ¬øCaptur√≥ el matiz?

Observaciones:
  - Iron√≠a/sarcasmo: Muy dif√≠cil incluso para humanos sin contexto
  - Sentimiento mixto: Los modelos devuelven una sola clase
  - Ambig√ºedad: Score bajo indica incertidumbre del modelo

Soluciones:
  ‚Üí Fine-tuning con datos espec√≠ficos del dominio
  ‚Üí Modelos multiclase para sentimientos mixtos
  ‚Üí Features adicionales (emojis, contexto conversacional)


---

## 12. Pr√≥ximos Pasos: Fine-tuning

Lo que vimos en este notebook es **inferencia** (usar modelo ya entrenado). El siguiente paso es **fine-tuning**: adaptar el modelo a tu dataset espec√≠fico.

### ¬øCu√°ndo hacer fine-tuning?

**Usar modelo out-of-the-box:**
- Tarea general (sentiment analysis est√°ndar)
- No ten√©s datos etiquetados
- Prototipado r√°pido
- Precisi√≥n suficiente (>85%)

**Hacer fine-tuning:**
- Dominio muy espec√≠fico (medicina, legal, finanzas)
- Jerga particular (ej: argentinismos)
- Necesit√°s >90% accuracy
- Ten√©s dataset etiquetado (>500 muestras)

### Proceso de fine-tuning (pr√≥ximas semanas del curso):

```python
from transformers import AutoModelForSequenceClassification, Trainer

# 1. Cargar modelo pre-entrenado
modelo = AutoModelForSequenceClassification.from_pretrained("dccuchile/bert-base-spanish-wwm-cased")

# 2. Preparar dataset
train_dataset = tokenize_and_encode(train_texts, train_labels)
eval_dataset = tokenize_and_encode(eval_texts, eval_labels)

# 3. Configurar entrenamiento
trainer = Trainer(
    model=modelo,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

# 4. Fine-tune
trainer.train()
```

**Esto lo ver√°n en detalle en las pr√≥ximas semanas del curso.**

---

## Gu√≠a Te√≥rico-Conceptual

### 1. Arquitectura Transformer: Conceptos Clave

**Attention Mechanism (Self-Attention):**

La innovaci√≥n central de los transformers. Permite que cada palabra "preste atenci√≥n" a todas las dem√°s:

```
Frase: "El banco est√° cerrado"

Self-attention permite que "banco" mire:
  - "El" ‚Üí Art√≠culo (bajo peso)
  - "est√°" ‚Üí Verbo estado (medio peso)
  - "cerrado" ‚Üí ¬°Alto peso! Disambigua "banco" (instituci√≥n vs. asiento)
```

**F√≥rmula simplificada:**
$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

Donde:
- **Q (Query)**: "¬øQu√© busco?"
- **K (Key)**: "¬øQu√© ofrezco?"
- **V (Value)**: "¬øQu√© informaci√≥n tengo?"

**Multi-Head Attention:**
- M√∫ltiples attention en paralelo
- Cada "cabeza" aprende patrones diferentes
- BERT tiene 12 capas √ó 12 cabezas = 144 atenciones

**Ventajas sobre LSTM:**
1. **Paralelizaci√≥n**: Todas las palabras se procesan simult√°neamente
2. **Dependencias largas**: Cualquier palabra puede atender a cualquier otra
3. **Interpretabilidad**: Los pesos de attention son visualizables

### 2. BERT vs. GPT: Encoder vs. Decoder

| Aspecto | BERT | GPT |
|---------|------|-----|
| Arquitectura | Encoder (bidirectional) | Decoder (unidirectional) |
| Lectura | Lee toda la oraci√≥n | Lee izquierda a derecha |
| Pre-entrenamiento | Masked LM | Next token prediction |
| Mejor para | Clasificaci√≥n, NER, QA | Generaci√≥n de texto |
| Ejemplos | BERT, RoBERTa, BETO | GPT-2, GPT-3, GPT-4 |

**Masked Language Modeling (BERT):**
```
Input:  "El [MASK] est√° cerrado"
Output: "banco" (con probabilidad 0.8)
```

**Next Token Prediction (GPT):**
```
Input:  "El banco est√°"
Output: "cerrado" (con probabilidad 0.6)
```

### 3. Tokenizaci√≥n en Transformers

Los transformers usan **sub-word tokenization** (WordPiece, BPE):

**Ventajas sobre tokenizaci√≥n por palabra:**
```
Palabra completa:
"recomendabil√≠simo" ‚Üí <UNK> (desconocida)

WordPiece:
"recomendabil√≠simo" ‚Üí ["recomienda", "##bili", "##simo"]
```

Esto permite:
- Vocabulario finito (30k tokens)
- Manejar palabras nuevas
- Capturar morfolog√≠a (prefijos, sufijos)

### 4. Pre-entrenamiento: La Fase Cara

**Corpus de pre-entrenamiento:**
- BERT (ingl√©s): Wikipedia (2.5B palabras) + BookCorpus (800M palabras)
- BETO (espa√±ol): Wikipedia espa√±ol (3B palabras)
- GPT-3: Common Crawl (570GB de texto)

**Recursos computacionales:**
- BERT: 4 d√≠as en 16 TPUs (~$7k)
- GPT-3: Semanas en clusters masivos (~$12M)

**Por esto NO entrenamos desde cero:**
- Costo prohibitivo
- Expertise t√©cnico alto
- Modelos ya disponibles

### 5. Fine-tuning: La Fase Accesible

**Proceso:**
1. **Congelar capas inferiores**: Mantener conocimiento ling√º√≠stico general
2. **Entrenar capas superiores**: Adaptar a tarea espec√≠fica
3. **Pocos epochs**: 2-5 t√≠picamente
4. **Learning rate bajo**: 1e-5 a 5e-5

**Datos necesarios:**
- Clasificaci√≥n: 500-1000 muestras
- NER: 1000-5000 entidades
- QA: 500-2000 pares pregunta-respuesta

**Tiempo:**
- GPU T4 (Google Colab): 30-60 minutos
- GPU A100: 5-10 minutos

### 6. HuggingFace Model Hub

**Estad√≠sticas (2025):**
- 500,000+ modelos
- 100+ idiomas
- Todas las arquitecturas: BERT, GPT, T5, LLaMA, etc.

**Modelos destacados para espa√±ol:**
1. **BETO** (`dccuchile/bert-base-spanish-wwm-cased`)
   - BERT base en espa√±ol
   - 110M par√°metros
   - General purpose

2. **RoBERTuito** (`pysentimiento/robertuito-*`)
   - RoBERTa en tweets espa√±ol
   - Jerga, emojis, hashtags
   - Mejor para redes sociales

3. **MarIA** (`PlanTL-GOB-ES/roberta-base-bne`)
   - RoBERTa espa√±ol
   - Corpus BNE (Biblioteca Nacional)
   - Muy robusto

4. **mBERT** (`bert-base-multilingual-cased`)
   - 104 idiomas incluyendo espa√±ol
   - √ötil para tareas multiling√ºes

### 7. Limitaciones de Transformers

**1. Longitud de secuencia:**
- BERT: M√°ximo 512 tokens
- Documentos largos requieren truncamiento o chunking
- Soluciones: Longformer, BigBird (hasta 4096 tokens)

**2. Recursos computacionales:**
- Modelos grandes (400MB - 2GB)
- Inferencia m√°s lenta que modelos simples
- GPU recomendada para fine-tuning

**3. Interpretabilidad:**
- 110M par√°metros son dif√≠ciles de interpretar
- Attention weights ayudan pero no explican todo
- "Caja menos negra" que antes, pero a√∫n opaco

**4. Sesgos del pre-entrenamiento:**
- Heredan sesgos del corpus (Wikipedia, internet)
- Requiere cuidado en aplicaciones sensibles
- Fine-tuning puede amplificar sesgos

**5. Overfitting en fine-tuning:**
- Con pocos datos, puede sobreajustar
- Requiere regularizaci√≥n, early stopping
- Data augmentation ayuda

---

## Preguntas y Respuestas para Estudio

### Preguntas Conceptuales

**1. ¬øQu√© es transfer learning en NLP y por qu√© es tan importante?**

*Respuesta:* Transfer learning es usar un modelo pre-entrenado en un corpus masivo (Wikipedia, Common Crawl) y adaptarlo a una tarea espec√≠fica con pocos datos. Es importante porque:
1. El modelo ya "entiende" lenguaje (gram√°tica, sem√°ntica)
2. Solo necesit√°s 500-1000 muestras en vez de millones
3. Ahorras meses de entrenamiento y miles de d√≥lares
4. Obten√©s estado del arte sin expertise en deep learning

**2. ¬øCu√°l es la principal innovaci√≥n de los transformers sobre LSTM?**

*Respuesta:* **Self-attention mechanism**. En lugar de procesar secuencialmente (palabra por palabra), los transformers permiten que todas las palabras se "vean" entre s√≠ simult√°neamente. Esto:
- Permite paralelizaci√≥n (mucho m√°s r√°pido)
- Captura dependencias largas mejor
- Es m√°s interpretable (visualizar attention weights)

**3. ¬øQu√© es un pipeline en HuggingFace y qu√© problema resuelve?**

*Respuesta:* Un pipeline es una abstracci√≥n de alto nivel que encapsula:
1. **Tokenizaci√≥n**: Texto ‚Üí tokens
2. **Modelo**: Tokens ‚Üí embeddings ‚Üí predicciones
3. **Post-procesamiento**: Predicciones ‚Üí formato legible

Resuelve el problema de complejidad: en lugar de manejar manualmente tokenizers, modelos y configuraciones, el pipeline lo hace en una l√≠nea de c√≥digo.

**4. ¬øPor qu√© BERT es "bidirectional" y GPT es "unidirectional"?**

*Respuesta:*
- **BERT**: Lee toda la oraci√≥n en ambas direcciones. En "El banco est√° cerrado", "banco" ve tanto "El" (izquierda) como "cerrado" (derecha)
- **GPT**: Solo lee de izquierda a derecha. En "El banco est√°", solo puede usar "El banco" para predecir "est√°"

Por eso BERT es mejor para clasificaci√≥n/comprensi√≥n y GPT para generaci√≥n.

**5. ¬øQu√© es Masked Language Modeling y por qu√© es efectivo para pre-entrenamiento?**

*Respuesta:* MLM oculta aleatoriamente el 15% de las palabras y el modelo debe predecirlas: "El [MASK] est√° cerrado" ‚Üí "banco". Es efectivo porque:
- Fuerza al modelo a entender contexto bidireccional
- Es auto-supervisado (no requiere etiquetas humanas)
- Aprende representaciones profundas del lenguaje

### Preguntas T√©cnicas

**6. En el c√≥digo, ¬øqu√© hace exactamente `pipeline("sentiment-analysis", model="...")` internamente?**

*Respuesta:*
1. Descarga el modelo y tokenizer desde HuggingFace Hub (si no est√° en cach√©)
2. Carga el modelo pre-entrenado en memoria
3. Configura el tokenizer apropiado (WordPiece para BERT)
4. Crea un pipeline que encadena: tokenizaci√≥n ‚Üí modelo ‚Üí argmax ‚Üí label

**7. ¬øPor qu√© los modelos transformer son tan grandes (400MB+)?**

*Respuesta:*
- BERT base: 110M par√°metros √ó 4 bytes (float32) = 440MB
- Cada par√°metro es un peso de la red neuronal
- 12 capas √ó 12 attention heads √ó embeddings √ó FFN = muchos par√°metros

Comparado con nuestro MLP (280 par√°metros = 1KB), es ~400,000 veces m√°s grande.

**8. ¬øQu√© significa el "score" en el resultado del pipeline?**

*Respuesta:* Es la probabilidad (softmax) que el modelo asigna a esa clase:
- score=0.95 ‚Üí 95% seguro de la predicci√≥n
- score=0.55 ‚Üí Apenas seguro (predicci√≥n incierta)

√ötil para:
- Filtrar predicciones inciertas (threshold > 0.7)
- Priorizar casos para revisi√≥n humana

**9. ¬øCu√°l es la diferencia entre `model` y `pipeline` en HuggingFace?**

*Respuesta:*
- **Pipeline**: API de alto nivel, maneja todo autom√°ticamente, f√°cil de usar
- **Model**: API de bajo nivel, control total, requiere manejar tokenizaci√≥n manualmente

```python
# Pipeline (simple)
resultado = pipeline("sentiment-analysis")("texto")

# Model (control manual)
tokenizer = AutoTokenizer.from_pretrained("beto")
model = AutoModel.from_pretrained("beto")
inputs = tokenizer("texto", return_tensors="pt")
outputs = model(**inputs)
```

**10. ¬øPor qu√© BETO y RoBERTuito dan resultados diferentes en la misma frase?**

*Respuesta:*
1. **Corpus de pre-entrenamiento diferente**:
   - BETO: Wikipedia (formal)
   - RoBERTuito: Twitter (informal)
2. **Fine-tuning diferente**: Diferentes datos de sentiment analysis
3. **Vocabulario**: RoBERTuito conoce mejor jerga, emojis

La elecci√≥n depende del dominio de tu aplicaci√≥n.

### Preguntas de Aplicaci√≥n

**11. Ten√©s 200 rese√±as etiquetadas de un restaurante. ¬øUsar√≠as el modelo as-is o har√≠as fine-tuning?**

*Respuesta:* **Depende:**
- **As-is si**: El modelo out-of-the-box ya da >85% accuracy, el dominio es general
- **Fine-tuning si**:
  - Necesit√°s >90% accuracy
  - Hay vocabulario muy espec√≠fico del restaurante
  - 200 muestras son borderline (m√≠nimo recomendado es 500), pero pod√©s intentar con data augmentation

**12. ¬øC√≥mo manejar√≠as un documento de 2000 palabras con BERT (l√≠mite: 512 tokens)?**

*Respuesta:* Opciones:
1. **Truncamiento**: Tomar primeros 512 tokens (pierde info del final)
2. **Chunking + agregaci√≥n**: Dividir en chunks de 512, clasificar cada uno, agregar (voting, promedio)
3. **Extractivo**: Identificar secci√≥n clave (ej: resumen, intro) y clasificar eso
4. **Modelo especializado**: Usar Longformer o BigBird (hasta 4096 tokens)

**13. En producci√≥n, necesit√°s clasificar 10,000 textos/segundo. ¬øTransformers son apropiados?**

*Respuesta:* Probablemente **no** para latencia ultra-baja:
- BERT inference: ~50-100ms/texto en GPU
- 10k/seg = 0.1ms/texto (100x m√°s r√°pido requerido)

**Soluciones:**
1. **Distillation**: DistilBERT (60% m√°s r√°pido, 97% accuracy)
2. **Quantization**: INT8 en vez de FP32 (4x m√°s r√°pido)
3. **Caching**: Cachear predicciones para textos comunes
4. **Ensemble**: Modelo simple (Naive Bayes) para mayor√≠a, BERT solo para casos inciertos

**14. ¬øC√≥mo usar√≠as HuggingFace para un chatbot que genera respuestas?**

*Respuesta:*
```python
# Usar modelo generativo (GPT)
from transformers import pipeline

generador = pipeline("text-generation", model="gpt2")

respuesta = generador(
    "Usuario: Hola, ¬øc√≥mo est√°s?\nBot:",
    max_length=50,
    num_return_sequences=1
)
```

Para espa√±ol, usar modelos como `DeepESP/gpt2-spanish`.

**15. Dise√±√° un sistema de moderaci√≥n de contenido con transformers.**

*Respuesta:*
```python
# Pipeline multimodelo

# 1. Clasificaci√≥n de toxicidad
toxicidad = pipeline("text-classification", model="modelo-toxicidad-es")

# 2. Detecci√≥n de spam
spam = pipeline("text-classification", model="modelo-spam-es")

# 3. NER para detectar info personal
ner = pipeline("ner", model="modelo-ner-es")

def moderar(texto):
    # An√°lisis paralelo
    es_toxico = toxicidad(texto)[0]['score'] > 0.7
    es_spam = spam(texto)[0]['score'] > 0.8
    tiene_pii = any(ent['entity'] == 'PER' for ent in ner(texto))
    
    if es_toxico or es_spam:
        return "RECHAZAR"
    elif tiene_pii:
        return "ADVERTIR"
    else:
        return "APROBAR"
```

---

## Ejercicios Propuestos

### Ejercicio 1: Explorar el Model Hub
Visita https://huggingface.co/models y busca modelos para:
- Sentiment analysis en espa√±ol
- NER en espa√±ol
- Traducci√≥n es‚Üíen

Prob√° al menos 3 modelos diferentes y compar√° resultados.

### Ejercicio 2: An√°lisis de Confianza
Filtr√° las predicciones del modelo para mostrar solo aquellas con score > 0.8. ¬øCu√°ntas frases quedan? ¬øLas predicciones de baja confianza tienen algo en com√∫n?

### Ejercicio 3: Comparaci√≥n Cuantitativa
Eval√∫a BETO vs. RoBERTuito en un conjunto de 50 frases etiquetadas manualmente:
- Calcula accuracy, precision, recall
- Identifica en qu√© tipo de frases cada modelo es mejor

### Ejercicio 4: NER con Transformers
Usa un pipeline de NER para extraer entidades de texto:
```python
ner = pipeline("ner", model="mrm8488/bert-spanish-cased-finetuned-ner")
```
Prob√° con textos sobre geograf√≠a, personas famosas, organizaciones.

### Ejercicio 5: L√≠mites del Modelo
Crea 10 frases dise√±adas para "enga√±ar" al modelo (iron√≠a, sarcasmo, negaciones dobles). ¬øQu√© porcentaje clasifica incorrectamente? ¬øVes patrones en los errores?

---

## Conclusi√≥n

Este notebook marca el **fin del m√≥dulo introductorio** y el **inicio del programa principal** del curso.

### Lo que aprendimos:

1. **Transfer learning**: El paradigma moderno de NLP
2. **HuggingFace Transformers**: La librer√≠a est√°ndar de la industria
3. **Pipelines**: Abstracciones de alto nivel para inferencia
4. **Modelos en espa√±ol**: BETO, RoBERTuito, MarIA
5. **Limitaciones**: Casos dif√≠ciles, sesgos, recursos

### El viaje hasta aqu√≠:

```
Notebook 1-2: Baselines cl√°sicos (sklearn, Naive Bayes)
     ‚Üì
Notebook 3: Fundamentos (Perceptr√≥n desde cero)
     ‚Üì
Notebook 4: Redes profundas (MLP con PyTorch)
     ‚Üì
Notebook 5: Secuencias (LSTM con Keras)
     ‚Üì
Notebook 6: Estado del arte (Transformers con HuggingFace) ‚Üê EST√ÅS AQU√ç
```

### ¬øQu√© sigue en el curso?

**Semanas 1-3: Fundamentos de transformers**
- Arquitectura en detalle
- Tokenizaci√≥n avanzada
- Preparaci√≥n de datos

**Semanas 4-5: Fine-tuning**
- Clasificaci√≥n binaria y multiclase
- Optimizaci√≥n de hiperpar√°metros
- Evaluaci√≥n rigurosa

**Semana 6: NER y token classification**

**Semanas 7-8: Modelos generativos**
- GPT para generaci√≥n
- Summarization
- Question Answering

**Semanas 9-11: Proyecto integrador**

### Reflexi√≥n final

Los 5 notebooks anteriores fueron **fundamentales** para entender c√≥mo funcionan las redes neuronales. Ahora que vimos la potencia de HuggingFace, apreci√°s:

- El valor de abstracciones bien dise√±adas
- Por qu√© transfer learning revolucion√≥ NLP
- Que "hacer deep learning" hoy es usar herramientas correctamente, no programar todo desde cero

Pero tambi√©n entend√©s **qu√© est√° pasando bajo el cap√≥**, lo cual te diferencia de alguien que solo sabe usar pipelines sin comprensi√≥n profunda.

**Pr√≥ximo paso:** El Notebook 7 (Embeddings Sem√°nticos) es material complementario para proyectos avanzados. Luego contin√∫a con el programa principal del curso.

---

*Este material fue desarrollado con fines educativos para la Tecnicatura en Ciencia de Datos del IFTS.*