# Procesamiento de Lenguaje Natural con LLMs
### Modelo Cl√°sico a Modelos Modernos üöÄ

Este notebook muestra la evoluci√≥n del NLP:
1. Fundamentos cl√°sicos (preprocesamiento y representaci√≥n)
2. Clasificaci√≥n tradicional
3. LLMs modernos

## PARTE 1: FUNDAMENTOS CL√ÅSICOS DE NLP

In [1]:
!pip install nltk transformers torch scikit-learn -q

In [2]:
import nltk
import re
from collections import Counter
nltk.download('punkt', quiet=True)
nltk.download('punkt_tab', quiet=True)
nltk.download('stopwords', quiet=True)

True

In [3]:
# Dataset simple para clasificaci√≥n de sentimientos
reviews = [
    "Me encanta este producto, es incre√≠ble!",
    "P√©sima experiencia, no lo recomiendo",
    "Es aceptable, cumple lo esperado",
    "Excelente compra, super√≥ expectativas",
    "Horrible servicio, muy decepcionado",
    "Hay productos peores, pero por su precio vale la pena"
]
sentimientos = ['positivo', 'negativo', 'neutral', 'positivo', 'negativo', 'neutral']

print("=== DATASET ORIGINAL ===")
for i, (review, sent) in enumerate(zip(reviews, sentimientos), 1):
    print(f"{i}. [{sent}] {review}")

=== DATASET ORIGINAL ===
1. [positivo] Me encanta este producto, es incre√≠ble!
2. [negativo] P√©sima experiencia, no lo recomiendo
3. [neutral] Es aceptable, cumple lo esperado
4. [positivo] Excelente compra, super√≥ expectativas
5. [negativo] Horrible servicio, muy decepcionado
6. [neutral] Hay productos peores, pero por su precio vale la pena


### Preprocesamiento Cl√°sico

**PREPROCESAMIENTO**: Limpiar y normalizar texto para an√°lisis.
- Tokenizaci√≥n: dividir en palabras
- Stop words: remover palabras comunes sin significado
- Stemming: reducir palabras a su ra√≠z

In [4]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

stop_words = set(stopwords.words('spanish'))
stemmer = SnowballStemmer('spanish')

def preprocesar(texto):
    # Limpiar y tokenizar
    texto = re.sub(r'[^\w\s]', '', texto.lower())
    tokens = word_tokenize(texto)
    # Remover stop words y hacer stemming
    tokens = [stemmer.stem(t) for t in tokens if t not in stop_words]
    return ' '.join(tokens)

reviews_procesados = [preprocesar(r) for r in reviews]

print("\n=== DESPU√âS DEL PREPROCESAMIENTO ===")
for i, review in enumerate(reviews_procesados, 1):
    print(f"{i}. {review}")


=== DESPU√âS DEL PREPROCESAMIENTO ===
1. encant product increibl
2. pesim experient recom
3. acept cumpl esper
4. excelent compr super expect
5. horribl servici decepcion
6. product peor preci val pen


### Representaci√≥n: Bag of Words

**BAG OF WORDS**: Representa texto como vector de frecuencias de palabras.
Cada palabra del vocabulario es una dimensi√≥n.
Problema: Pierde contexto y sem√°ntica.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(reviews_procesados)

print("\n=== BAG OF WORDS (TF-IDF) ===")
print(f"Vocabulario: {vectorizer.get_feature_names_out()}")
print(f"Dimensi√≥n: {X.shape}")


=== BAG OF WORDS (TF-IDF) ===
Vocabulario: ['acept' 'compr' 'cumpl' 'decepcion' 'encant' 'esper' 'excelent' 'expect'
 'experient' 'horribl' 'increibl' 'pen' 'peor' 'pesim' 'preci' 'product'
 'recom' 'servici' 'super' 'val']
Dimensi√≥n: (6, 20)


### Clasificaci√≥n Tradicional

**CLASIFICACI√ìN CL√ÅSICA**: Usamos algoritmos como Naive Bayes o SVM.
Requieren mucho preprocesamiento y features engineering.

In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import cross_val_score

clf = MultinomialNB()
scores = cross_val_score(clf, X, sentimientos, cv=2)
print(f"\n=== CLASIFICACI√ìN TRADICIONAL (Naive Bayes) ===")
print(f"Accuracy promedio: {scores.mean():.2f}")


=== CLASIFICACI√ìN TRADICIONAL (Naive Bayes) ===
Accuracy promedio: 0.33


## PARTE 2: ¬°LA REVOLUCI√ìN DE LOS LLMs! ü§ñ‚ú®

**LLMs (Large Language Models)**: Modelos masivos entrenados en billones de palabras.
- Entienden contexto, sem√°ntica y relaciones complejas
- No necesitan preprocesamiento manual
- Pueden hacer m√∫ltiples tareas sin reentrenamiento (zero-shot)
- Ejemplos: BERT, GPT, LLaMA, etc.


In [None]:
from transformers import pipeline

print("\n" + "="*70)
print("üöÄ CARGANDO MODELO DE LENGUAJE MODERNO...")
print("="*70)

# Cargamos un modelo preentrenado en espa√±ol para an√°lisis de sentimientos
# Este modelo ya fue entrenado en millones de textos
clasificador_llm = pipeline(
    "sentiment-analysis",
    model="pysentimiento/robertuito-sentiment-analysis"
)

print("‚úÖ Modelo cargado: RoBERTuito (BERT en espa√±ol)")
print("   Entrenado en millones de tweets en espa√±ol\n")


üöÄ CARGANDO MODELO DE LENGUAJE MODERNO...


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/925 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/435M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

Device set to use cpu


‚úÖ Modelo cargado: RoBERTuito (BERT en espa√±ol)
   Entrenado en millones de tweets en espa√±ol



### An√°lisis con LLM - Zero Shot

**ZERO-SHOT**: El modelo puede clasificar SIN ver ejemplos de entrenamiento.
Ya aprendi√≥ sobre sentimientos de su entrenamiento masivo.

In [None]:
print("=== CLASIFICACI√ìN CON LLM (Sin preprocesamiento) ===\n")

for i, review in enumerate(reviews, 1):
    resultado = clasificador_llm(review)[0]
    etiqueta = resultado['label']
    confianza = resultado['score']

    # Mapeo de etiquetas
    etiqueta_es = {'POS': 'üòä Positivo', 'NEG': 'üòû Negativo', 'NEU': 'üòê Neutral'}

    print(f"{i}. \"{review}\"")
    print(f"   Predicci√≥n: {etiqueta_es.get(etiqueta, etiqueta)} (confianza: {confianza:.2%})")
    print()

=== CLASIFICACI√ìN CON LLM (Sin preprocesamiento) ===

1. "Me encanta este producto, es incre√≠ble!"
   Predicci√≥n: üòä Positivo (confianza: 97.81%)

2. "P√©sima experiencia, no lo recomiendo"
   Predicci√≥n: üòû Negativo (confianza: 95.58%)

3. "Es aceptable, cumple lo esperado"
   Predicci√≥n: üòä Positivo (confianza: 89.51%)

4. "Excelente compra, super√≥ expectativas"
   Predicci√≥n: üòä Positivo (confianza: 95.00%)

5. "Horrible servicio, muy decepcionado"
   Predicci√≥n: üòû Negativo (confianza: 97.84%)



### Casos m√°s complejos

In [None]:
print("\n" + "="*70)
print("üß™ PROBANDO CON CASOS DESAFIANTES")
print("="*70 + "\n")

casos_complejos = [
    "No es que sea malo, pero definitivamente no es bueno",  # Negaci√≥n compleja
    "Esperaba m√°s, aunque tiene sus puntos positivos",       # Sentimiento mixto
    "¬°Qu√© desastre tan espectacular! (Es iron√≠a)",          # Iron√≠a
    "Incre√≠ble c√≥mo algo tan caro puede ser tan mediocre"   # Sarcasmo
]

for caso in casos_complejos:
    resultado = clasificador_llm(caso)[0]
    etiqueta = {'POS': 'üòä', 'NEG': 'üòû', 'NEU': 'üòê'}.get(resultado['label'], 'ü§î')

    print(f"üìù \"{caso}\"")
    print(f"   {etiqueta} {resultado['label']} ({resultado['score']:.1%})\n")


üß™ PROBANDO CON CASOS DESAFIANTES

üìù "No es que sea malo, pero definitivamente no es bueno"
   üòû NEG (82.8%)

üìù "Esperaba m√°s, aunque tiene sus puntos positivos"
   üòê NEU (67.1%)

üìù "¬°Qu√© desastre tan espectacular! (Es iron√≠a)"
   üòû NEG (77.9%)

üìù "Incre√≠ble c√≥mo algo tan caro puede ser tan mediocre"
   üòû NEG (97.2%)



## PARTE 3: GENERACI√ìN DE TEXTO CON LLMs üé®

Los LLMs tambi√©n pueden **GENERAR** texto coherente.
Vamos a usar un modelo generativo en espa√±ol.

In [None]:
print("\n" + "="*70)
print("üé® GENERACI√ìN DE TEXTO")
print("="*70 + "\n")

# Modelo generativo (m√°s peque√±o para Google Colab)
generador = pipeline(
    "text-generation",
    model="DeepESP/gpt2-spanish",
    max_length=80
)

prompts = [
    "La inteligencia artificial es",
    "En el futuro, los robots",
    "El curso de IA me parece"
]

for prompt in prompts:
    texto_generado = generador(prompt, do_sample=True, temperature=0.7)[0]['generated_text']
    print(f"üí≠ Prompt: \"{prompt}\"")
    print(f"‚ú® Generado: {texto_generado}\n")


üé® GENERACI√ìN DE TEXTO



config.json:   0%|          | 0.00/914 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/261M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/115 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/262 [00:00<?, ?B/s]

Device set to use cpu


üí≠ Prompt: "La inteligencia artificial es"
‚ú® Generado: La inteligencia artificial es un factor que, por razones que no se pueden explicar, es esencial para la supervivencia. Un ejemplo m√°s de la inteligencia artificial es el de la inteligencia artificial. Si se trata de una inteligencia artificial, resulta esencial para la supervivencia de

üí≠ Prompt: "En el futuro, los robots"
‚ú® Generado: En el futuro, los robots, los ordenadores y los ordenadores se convertir√°n en una especie de robot y en un robot. 

‚ÄîAs√≠ que han venido a la Tierra ‚Äîdijo un robot‚Äî. Y eso significa que la Corporaci√≥n no tiene necesidad de

üí≠ Prompt: "El curso de IA me parece"
‚ú® Generado: El curso de IA me parece de lo m√°s adecuado. 

‚ÄîNo es mi trabajo ‚Äîdigo. 

‚ÄîEs tu trabajo, pero no te preocupes por √©l. 

‚ÄîSupongo que tendr√© que dejarte. 

Niega con la



## PARTE 4: COMPARACI√ìN Y CONCLUSIONES

In [None]:
print("\n" + "="*70)
print("üìä M√âTODOS CL√ÅSICOS vs LLMs")
print("="*70 + "\n")

comparacion = """
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ ASPECTO                 ‚îÇ M√âTODOS CL√ÅSICOS     ‚îÇ LLMs                ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ Preprocesamiento        ‚îÇ Extensivo y manual   ‚îÇ M√≠nimo o ninguno    ‚îÇ
‚îÇ Features                ‚îÇ Manual (BoW, TF-IDF) ‚îÇ Autom√°ticas         ‚îÇ
‚îÇ Contexto                ‚îÇ Limitado             ‚îÇ Excelente           ‚îÇ
‚îÇ Sem√°ntica               ‚îÇ B√°sica               ‚îÇ Profunda            ‚îÇ
‚îÇ Datos necesarios        ‚îÇ Miles por clase      ‚îÇ Zero/Few-shot       ‚îÇ
‚îÇ Velocidad inferencia    ‚îÇ Muy r√°pida           ‚îÇ M√°s lenta           ‚îÇ
‚îÇ Recursos computaci√≥n    ‚îÇ Bajos                ‚îÇ Altos               ‚îÇ
‚îÇ Tareas m√∫ltiples        ‚îÇ Un modelo por tarea  ‚îÇ Modelo multiuso     ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
"""

print(comparacion)


üìä M√âTODOS CL√ÅSICOS vs LLMs


‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ ASPECTO                 ‚îÇ M√âTODOS CL√ÅSICOS     ‚îÇ LLMs                ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ Preprocesamiento        ‚îÇ Extensivo y manual   ‚îÇ M√≠nimo o ninguno    ‚îÇ
‚îÇ Features                ‚îÇ Manual (BoW, TF-IDF) ‚îÇ Autom√°ticas         ‚îÇ
‚îÇ Contexto                ‚îÇ Limitado             ‚îÇ Excelente           ‚îÇ
‚îÇ Sem√°ntica               ‚îÇ B√°sica               ‚îÇ Profunda            ‚îÇ
‚îÇ Datos necesarios        ‚îÇ Miles por clase      ‚îÇ Zero/Few-shot       ‚îÇ
‚îÇ Velocidad inferencia    ‚îÇ Muy r√°

## BONUS: Clasificaci√≥n Personalizada con Few-Shot

**FEW-SHOT LEARNING**: Damos al LLM solo unos pocos ejemplos y aprende la tarea.
¬°No necesita reentrenamiento completo!

In [None]:
print("\n" + "="*70)
print("üéØ BONUS: FEW-SHOT LEARNING")
print("="*70 + "\n")

# Usamos un modelo m√°s potente para few-shot
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

modelo_nombre = "dccuchile/bert-base-spanish-wwm-cased"
tokenizer = AutoTokenizer.from_pretrained(modelo_nombre)
modelo = AutoModelForSequenceClassification.from_pretrained(
    modelo_nombre,
    num_labels=3
)

print("üí° Con few-shot, el modelo aprende de pocos ejemplos y generaliza.")
print("   √ötil cuando tienes datos limitados o tareas muy espec√≠ficas.\n")


üéØ BONUS: FEW-SHOT LEARNING



tokenizer_config.json:   0%|          | 0.00/364 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/648 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/134 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at dccuchile/bert-base-spanish-wwm-cased and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


üí° Con few-shot, el modelo aprende de pocos ejemplos y generaliza.
   √ötil cuando tienes datos limitados o tareas muy espec√≠ficas.



## CONCLUSIONES Y RECURSOS

In [None]:
print("\n" + "="*70)
print("üéì CONCLUSIONES")
print("="*70 + "\n")

print("""
üîó RECURSOS:
   ‚Ä¢ HuggingFace Models: https://huggingface.co/models
   ‚Ä¢ Transformers Library: https://huggingface.co/docs/transformers
   ‚Ä¢ Papers With Code (NLP): https://paperswithcode.com/area/natural-language-processing
""")

print("\n‚ú® ¬°El futuro del NLP es emocionante! Sigue explorando... ‚ú®\n")


üéì CONCLUSIONES


üîó RECURSOS:
   ‚Ä¢ HuggingFace Models: https://huggingface.co/models
   ‚Ä¢ Transformers Library: https://huggingface.co/docs/transformers
   ‚Ä¢ Papers With Code (NLP): https://paperswithcode.com/area/natural-language-processing


‚ú® ¬°El futuro del NLP es emocionante! Sigue explorando... ‚ú®

