# üìñ Evoluci√≥n de los Modelos de Lenguaje
## De NLP Cl√°sico a Modelos Generativos Modernos

**Curso Universitario - Procesamiento de Lenguaje Natural**

---

### Objetivos de aprendizaje:

1. Comprender la evoluci√≥n hist√≥rica del NLP
2. Practicar t√©cnicas cl√°sicas: tokenizaci√≥n, TF-IDF, n-gramas
3. Trabajar con embeddings modernos
4. Experimentar con modelos transformer (BERT, GPT)
5. Aplicar t√©cnicas avanzadas: prompt engineering, RAG, agentes

---

## 1. Introducci√≥n y Contexto

### ¬øQu√© es el Procesamiento de Lenguaje Natural (NLP)?

El **Procesamiento de Lenguaje Natural** (Natural Language Processing, NLP) es el campo de la inteligencia artificial que permite a las m√°quinas:

- **Entender** el lenguaje humano (comprensi√≥n)
- **Generar** texto coherente y relevante (generaci√≥n)
- **Extraer** informaci√≥n significativa de textos
- **Traducir** entre idiomas
- **Analizar** sentimientos, intenciones y contexto

### ¬øPor qu√© es importante?

- El 80% de los datos empresariales son no estructurados (textos, emails, documentos)
- Permite automatizar tareas que antes requer√≠an comprensi√≥n humana
- Aplicaciones: chatbots, traducci√≥n autom√°tica, an√°lisis de redes sociales, asistentes virtuales
- Base de sistemas como ChatGPT, Google Translate, Siri, Alexa

---

### üìä Evoluci√≥n Hist√≥rica del NLP

#### **1. Era de las Reglas (1950-1990)**
- **Enfoque**: Gram√°ticas formales, sistemas basados en reglas escritas a mano
- **Ejemplo**: ELIZA (1966), primer chatbot con reglas if-then
- **Limitaciones**: No escalables, fr√°giles ante variaciones del lenguaje

#### **2. Era Estad√≠stica (1990-2010)**
- **Enfoque**: Modelos probabil√≠sticos, n-gramas, Bag of Words, TF-IDF
- **T√©cnicas**: Naive Bayes, HMM (Hidden Markov Models), CRF
- **Ventajas**: Aprenden de datos, m√°s robustos
- **Limitaciones**: No capturan sem√°ntica profunda ni contexto largo

#### **3. Era del Deep Learning (2010-2017)**
- **Enfoque**: Redes neuronales: RNN, LSTM, GRU
- **Hito**: Word2Vec (2013), GloVe (2014) - embeddings que capturan sem√°ntica
- **Ventajas**: Capturan contexto secuencial
- **Limitaciones**: Problema del gradiente desvaneciente, lentitud en secuencias largas

#### **4. Era de los Transformers (2017-2020)**
- **Hito**: Paper "Attention Is All You Need" (2017)
- **Modelos**: BERT (2018), GPT-2 (2019), RoBERTa, T5
- **Innovaci√≥n**: Mecanismo de atenci√≥n, procesamiento paralelo
- **Ventajas**: Capturan contexto bidireccional, escalan mejor

#### **5. Era de los LLM - Modelos Generativos (2020-actualidad)**
- **Modelos**: GPT-3/4 (OpenAI), LLaMA (Meta), Claude (Anthropic), Gemini (Google)
- **Caracter√≠sticas**: 
  - Billones de par√°metros
  - Entrenamiento con billones de tokens
  - Capacidades emergentes (razonamiento, c√≥digo, multimodalidad)
- **T√©cnicas**: Prompt engineering, RAG, fine-tuning, agentes

---

### Tabla Comparativa

| Era | T√©cnica Principal | Fortaleza | Debilidad |
|-----|-------------------|-----------|----------|
| Reglas | Gram√°ticas manuales | Precisi√≥n en casos espec√≠ficos | No escala, inflexible |
| Estad√≠stica | N-gramas, TF-IDF | Aprende de datos | No captura sem√°ntica |
| Deep Learning | RNN, LSTM | Contexto secuencial | Lento, memoria limitada |
| Transformers | Attention mechanism | Contexto largo, paralelo | Requiere muchos datos |
| LLMs | Modelos masivos | Capacidades generales | Costoso, alucinaciones |

### üìù EJERCICIO 1: Reflexi√≥n sobre NLP en tu vida cotidiana

**Instrucciones**: Piensa en al menos **5 ejemplos** de aplicaciones de NLP que uses en tu d√≠a a d√≠a. Escr√≠belos en la lista de Python a continuaci√≥n.

In [None]:
# üìù EJERCICIO: Completa esta lista con 5 ejemplos de NLP que uses diariamente
# Ejemplos: "Autocorrector del m√≥vil", "Google Translate", "ChatGPT", etc.

mis_ejemplos_nlp = [
    # Escribe tus 5 ejemplos aqu√≠:
    
]

# Imprimimos la lista
print("ü§ñ Aplicaciones de NLP en mi vida cotidiana:\n")
for i, ejemplo in enumerate(mis_ejemplos_nlp, 1):
    print(f"{i}. {ejemplo}")

print(f"\nüìä Total de aplicaciones identificadas: {len(mis_ejemplos_nlp)}")

---

## 2. Preprocesamiento B√°sico y An√°lisis Ling√º√≠stico (NLP Cl√°sico)

### Fundamentos del NLP Cl√°sico

Antes de los modelos modernos, el procesamiento de texto requer√≠a m√∫ltiples pasos de preprocesamiento:

#### **Tokenizaci√≥n**
Dividir el texto en unidades b√°sicas (palabras, oraciones)
- Ejemplo: `"Hola mundo"` ‚Üí `["Hola", "mundo"]`

#### **Stopwords (palabras vac√≠as)**
Eliminar palabras comunes sin significado relevante
- Ejemplo: "el", "la", "de", "que", "y"

#### **Stemming (derivaci√≥n)**
Reducir palabras a su ra√≠z eliminando sufijos
- Ejemplo: `"corriendo"` ‚Üí `"corr"`
- M√°s r√°pido pero menos preciso

#### **Lematizaci√≥n**
Reducir palabras a su forma can√≥nica (lema) usando an√°lisis ling√º√≠stico
- Ejemplo: `"corriendo"` ‚Üí `"correr"`
- M√°s lento pero m√°s preciso

#### **N-gramas**
Secuencias consecutivas de N palabras
- 1-grama (unigrama): `["el", "gato", "negro"]`
- 2-grama (bigrama): `["el gato", "gato negro"]`
- 3-grama (trigrama): `["el gato negro"]`

### ¬øPor qu√© fueron importantes?

- Reducen la dimensionalidad del vocabulario
- Normalizan variaciones morfol√≥gicas
- Permiten enfocarse en palabras significativas
- Base para modelos estad√≠sticos (Naive Bayes, clasificadores)

---

In [None]:
# Instalamos las librer√≠as necesarias
!pip install -q spacy nltk
!python -m spacy download es_core_news_sm

In [None]:
from sentence_transformers import SentenceTransformer

modelo_embeddings = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")
print("Dimensi√≥n:", modelo_embeddings.get_sentence_embedding_dimension())


In [None]:
!pip install pandas

In [None]:
import pandas as pd

In [None]:
import spacy
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from collections import Counter
import matplotlib.pyplot as plt

# Descargamos recursos de NLTK
nltk.download('stopwords', quiet=True)

# Cargamos el modelo de espa√±ol de spaCy
nlp = spacy.load('es_core_news_sm')

print("‚úÖ Librer√≠as cargadas correctamente")

In [None]:
# Texto de ejemplo para analizar
texto = """
El procesamiento del lenguaje natural es una disciplina fascinante que combina 
la ling√º√≠stica computacional con la inteligencia artificial. Los investigadores 
est√°n desarrollando sistemas cada vez m√°s sofisticados para analizar, comprender 
y generar lenguaje humano. Estos sistemas procesan millones de textos y aprenden 
patrones ling√º√≠sticos complejos.
"""

print("üìù Texto original:")
print(texto.strip())

### Tokenizaci√≥n con spaCy

In [None]:
# Procesamos el texto con spaCy
doc = nlp(texto)

# Extraemos tokens (palabras)
tokens = [token.text for token in doc]

print("üî§ Tokens extra√≠dos:")
print(tokens)
print(f"\nüìä Total de tokens: {len(tokens)}")

### Eliminaci√≥n de stopwords

In [None]:
# Obtenemos las stopwords en espa√±ol
stop_words_es = set(stopwords.words('spanish'))

# Filtramos tokens que no sean stopwords ni puntuaci√≥n
tokens_filtrados = [
    token.text.lower() 
    for token in doc 
    if token.text.lower() not in stop_words_es 
    and token.is_alpha  # Solo palabras (no puntuaci√≥n)
]

print("üßπ Tokens despu√©s de eliminar stopwords:")
print(tokens_filtrados)
print(f"\nüìä Tokens originales: {len(tokens)} ‚Üí Tokens filtrados: {len(tokens_filtrados)}")
print(f"Reducci√≥n: {(1 - len(tokens_filtrados)/len(tokens)) * 100:.1f}%")

### Lematizaci√≥n con spaCy

In [None]:
# Lematizaci√≥n: reducimos cada palabra a su forma base
lemas = [token.lemma_ for token in doc if token.is_alpha and token.text.lower() not in stop_words_es]

print("üìö Comparaci√≥n Token ‚Üí Lema:\n")
comparacion = [(token.text, token.lemma_) for token in doc if token.is_alpha][:15]

for token, lema in comparacion:
    if token.lower() != lema.lower():
        print(f"  {token:20} ‚Üí {lema}")
    else:
        print(f"  {token:20} (sin cambio)")

### An√°lisis de frecuencias

In [None]:
# Contamos las palabras m√°s frecuentes
frecuencias = Counter(lemas)
mas_comunes = frecuencias.most_common(10)

print("üìä Top 10 palabras m√°s frecuentes (lematizadas):\n")
for palabra, freq in mas_comunes:
    print(f"  {palabra:20} {freq:3} veces {'‚ñà' * freq}")

### Generaci√≥n de N-gramas

In [None]:
def generar_ngramas(tokens, n):
    """Genera n-gramas a partir de una lista de tokens"""
    ngramas = []
    for i in range(len(tokens) - n + 1):
        ngrama = ' '.join(tokens[i:i+n])
        ngramas.append(ngrama)
    return ngramas

# Generamos bigramas y trigramas
bigramas = generar_ngramas(tokens_filtrados, 2)
trigramas = generar_ngramas(tokens_filtrados, 3)

print("üìå Ejemplos de Bigramas (2-gramas):\n")
for bg in bigramas[:10]:
    print(f"  ‚Ä¢ {bg}")

print("\nüìå Ejemplos de Trigramas (3-gramas):\n")
for tg in trigramas[:8]:
    print(f"  ‚Ä¢ {tg}")

---

### üìù EJERCICIO 2: Stemming vs Lematizaci√≥n

In [None]:
# üìù EJERCICIO: Implementa stemming y comp√°ralo con lematizaci√≥n

# Palabras de prueba
palabras_prueba = [
    "corriendo", "corri√≥", "correr", "corredor",
    "desarrollando", "desarrolladores", "desarrollo",
    "sistemas", "sistem√°tico", "sistematizaci√≥n"
]

# Inicializamos el stemmer
stemmer = SnowballStemmer('spanish')

print("üîç Comparaci√≥n Stemming vs Lematizaci√≥n:\n")
print(f"{'Palabra Original':<25} {'Stemming':<20} {'Lematizaci√≥n':<20}")
print("-" * 70)

for palabra in palabras_prueba:
    # Aplicamos stemming
    stem = stemmer.stem(palabra)
    
    # Aplicamos lematizaci√≥n
    doc_temp = nlp(palabra)
    lema = doc_temp[0].lemma_
    
    print(f"{palabra:<25} {stem:<20} {lema:<20}")

print("\nüí° Observa las diferencias:")
print("   - Stemming: m√°s agresivo, puede producir ra√≠ces no v√°lidas")
print("   - Lematizaci√≥n: m√°s preciso, produce palabras reales")

### üìù EJERCICIO 3: An√°lisis de N-gramas

In [None]:
# üìù EJERCICIO: Analiza las diferencias entre unigramas, bigramas y trigramas

# Generamos los tres tipos de n-gramas
unigramas = tokens_filtrados
bigramas = generar_ngramas(tokens_filtrados, 2)
trigramas = generar_ngramas(tokens_filtrados, 3)

# Contamos frecuencias
freq_uni = Counter(unigramas)
freq_bi = Counter(bigramas)
freq_tri = Counter(trigramas)

print("üìä An√°lisis comparativo de N-gramas\n")
print("="*80)

print("\nüîπ Top 5 Unigramas (palabras individuales):")
for ngrama, freq in freq_uni.most_common(5):
    print(f"  {freq}x - {ngrama}")

print("\nüîπ Top 5 Bigramas (pares de palabras):")
for ngrama, freq in freq_bi.most_common(5):
    print(f"  {freq}x - {ngrama}")

print("\nüîπ Top 5 Trigramas (tr√≠os de palabras):")
for ngrama, freq in freq_tri.most_common(5):
    print(f"  {freq}x - {ngrama}")

print("\n" + "="*80)
print("\nüí° ¬øQu√© observas?")
print("   - Unigramas: palabras aisladas, pierden contexto")
print("   - Bigramas: capturan relaciones b√°sicas entre palabras")
print("   - Trigramas: m√°s contexto, pero tambi√©n m√°s escasos")

### üìù EJERCICIO 4: Visualizaci√≥n de frecuencias

In [None]:
# üìù EJERCICIO: Crea un gr√°fico de barras con las palabras m√°s frecuentes

# Obtenemos las 15 palabras m√°s comunes
top_palabras = frecuencias.most_common(15)
palabras = [p[0] for p in top_palabras]
conteos = [p[1] for p in top_palabras]

# Creamos el gr√°fico
plt.figure(figsize=(12, 6))
plt.barh(palabras, conteos, color='steelblue', edgecolor='black')
plt.xlabel('Frecuencia', fontsize=12)
plt.ylabel('Palabra (lematizada)', fontsize=12)
plt.title('Top 15 Palabras M√°s Frecuentes en el Texto', fontsize=14, fontweight='bold')
plt.gca().invert_yaxis()  # Invertir para que la m√°s frecuente est√© arriba
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

print("üìä Gr√°fico generado con las palabras m√°s frecuentes")

---

## 3. Representaciones Vectoriales: Bag of Words y TF-IDF

### ¬øPor qu√© vectorizar el texto?

Los algoritmos de machine learning **no entienden texto**, solo n√∫meros. Necesitamos convertir el texto en vectores num√©ricos.

---

### **Bag of Words (BoW) - Bolsa de Palabras**

**Concepto**: Representar un documento como un vector de frecuencias de palabras, ignorando el orden.

**Ejemplo**:
```
Documento 1: "el gato come pescado"
Documento 2: "el perro come carne"

Vocabulario: [el, gato, perro, come, pescado, carne]

Doc1: [1, 1, 0, 1, 1, 0]
Doc2: [1, 0, 1, 1, 0, 1]
```

**Ventajas**:
- Simple de implementar
- Funciona bien para tareas b√°sicas

**Limitaciones**:
- Pierde el orden de las palabras
- No captura significado sem√°ntico
- Palabras comunes dominan la representaci√≥n

---

### **TF-IDF (Term Frequency - Inverse Document Frequency)**

**Concepto**: Ponderar las palabras seg√∫n su importancia en el documento y en todo el corpus.

**F√≥rmula**:
```
TF-IDF(palabra, doc) = TF(palabra, doc) √ó IDF(palabra)

TF = Frecuencia de la palabra en el documento
IDF = log(Total documentos / Documentos que contienen la palabra)
```

**Intuici√≥n**:
- Palabras **frecuentes** en un documento pero **raras** en el corpus ‚Üí **Mayor peso**
- Palabras **muy comunes** en todos los documentos ‚Üí **Menor peso**

**Ventajas**:
- Reduce el peso de palabras comunes
- Resalta palabras discriminativas
- Mejor para b√∫squeda y clasificaci√≥n

**Limitaciones**:
- Sigue sin capturar sem√°ntica
- Sensible al tama√±o del corpus

---

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd
import numpy as np

# Corpus de ejemplo: documentos sobre diferentes temas
corpus = [
    "El aprendizaje autom√°tico es una rama de la inteligencia artificial",
    "Las redes neuronales profundas son la base del deep learning",
    "Los modelos de lenguaje procesan y generan texto humano",
    "El procesamiento de lenguaje natural combina ling√º√≠stica e inteligencia artificial",
    "Los transformers revolucionaron el procesamiento del lenguaje natural"
]

print("üìö Corpus de documentos:\n")
for i, doc in enumerate(corpus, 1):
    print(f"{i}. {doc}")

### Bag of Words (BoW)

In [None]:
# Creamos el vectorizador Bag of Words
vectorizer_bow = CountVectorizer()

# Transformamos el corpus
bow_matrix = vectorizer_bow.fit_transform(corpus)

# Obtenemos el vocabulario
vocabulario = vectorizer_bow.get_feature_names_out()

# Convertimos a DataFrame para visualizar mejor
df_bow = pd.DataFrame(
    bow_matrix.toarray(),
    columns=vocabulario,
    index=[f"Doc{i+1}" for i in range(len(corpus))]
)

print("üéí Matriz Bag of Words:\n")
print(df_bow)
print(f"\nüìä Tama√±o del vocabulario: {len(vocabulario)} palabras")
print(f"üìä Dimensi√≥n de la matriz: {bow_matrix.shape}")

### TF-IDF

In [None]:
# Creamos el vectorizador TF-IDF
vectorizer_tfidf = TfidfVectorizer()

# Transformamos el corpus
tfidf_matrix = vectorizer_tfidf.fit_transform(corpus)

# Convertimos a DataFrame
df_tfidf = pd.DataFrame(
    tfidf_matrix.toarray(),
    columns=vectorizer_tfidf.get_feature_names_out(),
    index=[f"Doc{i+1}" for i in range(len(corpus))]
)

print("‚öñÔ∏è Matriz TF-IDF:\n")
print(df_tfidf.round(3))

### An√°lisis de palabras m√°s relevantes por documento

In [None]:
# Para cada documento, mostramos las 5 palabras con mayor TF-IDF
print("üîù Top 5 palabras m√°s relevantes por documento (TF-IDF):\n")

for i, doc_name in enumerate(df_tfidf.index):
    # Ordenamos las palabras por TF-IDF descendente
    top_palabras = df_tfidf.loc[doc_name].sort_values(ascending=False).head(5)
    
    print(f"üìÑ {doc_name}: {corpus[i][:60]}...")
    print("   Palabras clave:")
    for palabra, score in top_palabras.items():
        if score > 0:
            print(f"      ‚Ä¢ {palabra:20} (score: {score:.3f})")
    print()

---

### üìù EJERCICIO 5: Comparaci√≥n BoW vs TF-IDF

In [None]:
# üìù EJERCICIO: Compara BoW y TF-IDF para la palabra "inteligencia"

palabra_analizar = "inteligencia"

if palabra_analizar in df_bow.columns:
    print(f"üîç An√°lisis de la palabra: '{palabra_analizar}'\n")
    print("="*70)
    
    print("\nüìä Bag of Words (frecuencias absolutas):\n")
    for doc in df_bow.index:
        valor_bow = df_bow.loc[doc, palabra_analizar]
        print(f"  {doc}: {valor_bow} apariciones")
    
    print("\nüìä TF-IDF (importancia ponderada):\n")
    for doc in df_tfidf.index:
        valor_tfidf = df_tfidf.loc[doc, palabra_analizar]
        print(f"  {doc}: {valor_tfidf:.4f} score")
    
    print("\n" + "="*70)
    print("\nüí° Observaci√≥n:")
    print("   - BoW cuenta frecuencias brutas")
    print("   - TF-IDF pondera por rareza: si aparece en pocos docs, mayor peso")
else:
    print(f"‚ö†Ô∏è La palabra '{palabra_analizar}' no est√° en el vocabulario")

### üìù EJERCICIO 6: A√±ade un nuevo documento

In [None]:
# üìù EJERCICIO: A√±ade un documento nuevo y observa c√≥mo cambian los scores TF-IDF

# Corpus original
corpus_extendido = corpus.copy()

# A√±ade tu documento aqu√≠:
nuevo_documento = ""  # Ejemplo: "Los agentes de IA pueden planificar y ejecutar tareas complejas"

if nuevo_documento:
    corpus_extendido.append(nuevo_documento)
    
    # Recalculamos TF-IDF
    tfidf_nuevo = TfidfVectorizer()
    tfidf_matrix_nuevo = tfidf_nuevo.fit_transform(corpus_extendido)
    
    df_tfidf_nuevo = pd.DataFrame(
        tfidf_matrix_nuevo.toarray(),
        columns=tfidf_nuevo.get_feature_names_out(),
        index=[f"Doc{i+1}" for i in range(len(corpus_extendido))]
    )
    
    print("üìä TF-IDF con el nuevo documento:\n")
    print(df_tfidf_nuevo.round(3))
    
    # Analizamos el nuevo documento
    print("\nüÜï Palabras m√°s relevantes del nuevo documento:\n")
    top_nuevo = df_tfidf_nuevo.iloc[-1].sort_values(ascending=False).head(8)
    for palabra, score in top_nuevo.items():
        if score > 0:
            print(f"  ‚Ä¢ {palabra:20} {score:.4f}")
else:
    print("‚ö†Ô∏è A√±ade un texto en la variable 'nuevo_documento'")

### üìù EJERCICIO 7: Visualizaci√≥n comparativa

In [None]:
# üìù EJERCICIO: Visualiza la comparaci√≥n entre BoW y TF-IDF para un documento

# Seleccionamos el primer documento
doc_idx = 0
doc_nombre = f"Doc{doc_idx+1}"

# Obtenemos las top 10 palabras en ambas representaciones
top_bow = df_bow.loc[doc_nombre].sort_values(ascending=False).head(10)
top_tfidf = df_tfidf.loc[doc_nombre].sort_values(ascending=False).head(10)

# Creamos subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico BoW
axes[0].barh(top_bow.index, top_bow.values, color='coral', edgecolor='black')
axes[0].set_xlabel('Frecuencia', fontsize=11)
axes[0].set_title('Bag of Words', fontsize=13, fontweight='bold')
axes[0].invert_yaxis()
axes[0].grid(axis='x', alpha=0.3)

# Gr√°fico TF-IDF
axes[1].barh(top_tfidf.index, top_tfidf.values, color='steelblue', edgecolor='black')
axes[1].set_xlabel('Score TF-IDF', fontsize=11)
axes[1].set_title('TF-IDF', fontsize=13, fontweight='bold')
axes[1].invert_yaxis()
axes[1].grid(axis='x', alpha=0.3)

plt.suptitle(f'Comparaci√≥n: {doc_nombre}', fontsize=15, fontweight='bold')
plt.tight_layout()
plt.show()

print(f"üìä Visualizaci√≥n comparativa para: {corpus[doc_idx]}")

---

## 4. Embeddings Modernos

### Del espacio simb√≥lico al espacio sem√°ntico

Las representaciones anteriores (BoW, TF-IDF) tienen una **limitaci√≥n fundamental**:
- Tratan las palabras como s√≠mbolos independientes
- No capturan relaciones sem√°nticas
- "rey" y "monarca" son tan diferentes como "rey" y "manzana"

---

### ¬øQu√© son los embeddings?

**Embeddings** = Representaciones vectoriales **densas** que capturan el **significado sem√°ntico**

**Caracter√≠sticas**:
- Vectores de dimensi√≥n fija (ej: 300, 768, 1024)
- Palabras similares ‚Üí vectores cercanos en el espacio
- Permiten aritm√©tica sem√°ntica: `Rey - Hombre + Mujer ‚âà Reina`

---

### Evoluci√≥n de los embeddings

#### **1. Word2Vec (2013)**
- **Idea**: "Una palabra se entiende por las palabras que la rodean"
- **Arquitecturas**: CBOW (Continuous Bag of Words), Skip-gram
- **Limitaci√≥n**: Un embedding fijo por palabra (no contextual)

#### **2. GloVe (2014)**
- Global Vectors for Word Representation
- Basado en matriz de co-ocurrencias globales
- Captura tanto estad√≠sticas locales como globales

#### **3. Embeddings Contextualizados (2018+)**
- **BERT, GPT, RoBERTa**: Embeddings que cambian seg√∫n el contexto
- Ejemplo: "banco" (instituci√≥n financiera) vs "banco" (asiento)
  - Antes: mismo vector para ambos
  - Ahora: vectores diferentes seg√∫n contexto

#### **4. Sentence Transformers (2019+)**
- Embeddings para **frases completas**, no solo palabras
- Optimizados para tareas de similitud sem√°ntica
- Base de sistemas de b√∫squeda sem√°ntica y RAG

---

### Aplicaciones

- **B√∫squeda sem√°ntica**: Encontrar documentos similares
- **Sistemas de recomendaci√≥n**: Productos, contenidos
- **Clustering**: Agrupar textos por tema
- **Clasificaci√≥n**: Input para modelos de ML
- **RAG**: Recuperaci√≥n de contexto relevante

---

In [None]:
# Instalamos sentence-transformers
!pip install -q sentence-transformers

In [None]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.decomposition import PCA
import numpy as np

# Cargamos un modelo de embeddings multiling√ºe optimizado para espa√±ol
modelo_embeddings = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

print("‚úÖ Modelo de embeddings cargado")
print(f"üìä Dimensi√≥n de los embeddings: {modelo_embeddings.get_sentence_embedding_dimension()}")

In [None]:
# Frases para generar embeddings
frases = [
    "El perro corre por el parque",
    "Un canino est√° corriendo en el jard√≠n",
    "El gato duerme en el sof√°",
    "Python es un lenguaje de programaci√≥n",
    "Machine learning es una rama de la inteligencia artificial",
    "La IA est√° transformando el mundo",
    "Me gusta comer pizza",
    "La pizza es mi comida favorita"
]

print("üìù Frases de entrada:\n")
for i, frase in enumerate(frases, 1):
    print(f"{i}. {frase}")

In [None]:
# Generamos embeddings
embeddings = modelo_embeddings.encode(frases)

print(f"‚úÖ Embeddings generados")
print(f"üìä Forma de la matriz: {embeddings.shape}")
print(f"    {len(frases)} frases √ó {embeddings.shape[1]} dimensiones")

print(f"\nüîç Ejemplo - Embedding de la primera frase:")
print(f"   '{frases[0]}'")
print(f"   Primeros 10 valores: {embeddings[0][:10]}")

### C√°lculo de similitud sem√°ntica

In [None]:
# Calculamos la matriz de similitud del coseno
matriz_similitud = cosine_similarity(embeddings)

# Creamos un DataFrame para mejor visualizaci√≥n
df_similitud = pd.DataFrame(
    matriz_similitud,
    index=[f"F{i+1}" for i in range(len(frases))],
    columns=[f"F{i+1}" for i in range(len(frases))]
)

print("üìä Matriz de Similitud Sem√°ntica (0=diferentes, 1=id√©nticas):\n")
print(df_similitud.round(3))

In [None]:
# Visualizamos con un mapa de calor
plt.figure(figsize=(10, 8))
plt.imshow(matriz_similitud, cmap='RdYlGn', interpolation='nearest', vmin=0, vmax=1)
plt.colorbar(label='Similitud del Coseno', shrink=0.8)
plt.title('Mapa de Calor - Similitud Sem√°ntica entre Frases', fontsize=14, fontweight='bold', pad=20)
plt.xticks(range(len(frases)), [f"F{i+1}" for i in range(len(frases))])
plt.yticks(range(len(frases)), [f"F{i+1}" for i in range(len(frases))])

# A√±adimos valores en cada celda
for i in range(len(frases)):
    for j in range(len(frases)):
        valor = matriz_similitud[i, j]
        color = 'white' if valor > 0.7 else 'black'
        plt.text(j, i, f'{valor:.2f}', ha='center', va='center', color=color, fontsize=9)

plt.tight_layout()
plt.show()

print("\nüìù Leyenda de frases:")
for i, frase in enumerate(frases, 1):
    print(f"F{i}: {frase}")

In [None]:
# Encontramos los pares m√°s similares (excluyendo similitud consigo mismo)
print("üîù Top 5 pares de frases m√°s similares:\n")

# Creamos una lista de pares con su similitud
pares_similitud = []
for i in range(len(frases)):
    for j in range(i+1, len(frases)):  # Solo la mitad superior de la matriz
        pares_similitud.append((i, j, matriz_similitud[i, j]))

# Ordenamos por similitud descendente
pares_similitud.sort(key=lambda x: x[2], reverse=True)

# Mostramos los top 5
for idx, (i, j, sim) in enumerate(pares_similitud[:5], 1):
    print(f"{idx}. Similitud: {sim:.4f}")
    print(f"   ‚Ä¢ {frases[i]}")
    print(f"   ‚Ä¢ {frases[j]}")
    print()

### Reducci√≥n dimensional y visualizaci√≥n

In [None]:
# Reducimos de 384 dimensiones a 2 usando PCA
pca = PCA(n_components=2)
embeddings_2d = pca.fit_transform(embeddings)

print(f"‚úÖ Reducci√≥n dimensional completada")
print(f"üìä Varianza explicada: {sum(pca.explained_variance_ratio_)*100:.2f}%")

# Visualizamos en 2D
plt.figure(figsize=(12, 8))
plt.scatter(embeddings_2d[:, 0], embeddings_2d[:, 1], s=300, c='skyblue', edgecolors='navy', linewidths=2)

# A√±adimos etiquetas
for i, frase in enumerate(frases):
    plt.annotate(
        f"F{i+1}",
        (embeddings_2d[i, 0], embeddings_2d[i, 1]),
        fontsize=12,
        ha='center',
        va='center',
        fontweight='bold'
    )

plt.xlabel('Componente Principal 1', fontsize=12)
plt.ylabel('Componente Principal 2', fontsize=12)
plt.title('Visualizaci√≥n 2D de Embeddings Sem√°nticos', fontsize=14, fontweight='bold')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

print("\nüìù Leyenda:")
for i, frase in enumerate(frases, 1):
    print(f"F{i}: {frase}")

print("\nüí° Nota: Frases sem√°nticamente similares deber√≠an estar m√°s cercanas en el gr√°fico")

---

### üìù EJERCICIO 8: A√±ade nuevas frases y analiza similitudes

In [None]:
# üìù EJERCICIO: A√±ade 3 frases nuevas y observa su similitud con las existentes

# A√±ade tus frases aqu√≠:
nuevas_frases = [
    # Ejemplo: "Los algoritmos de IA aprenden de los datos",
    
]

if nuevas_frases:
    # Generamos embeddings de las nuevas frases
    nuevos_embeddings = modelo_embeddings.encode(nuevas_frases)
    
    print("üÜï An√°lisis de similitud para tus frases:\n")
    print("="*80)
    
    for i, nueva_frase in enumerate(nuevas_frases):
        # Calculamos similitud con todas las frases originales
        similitudes = cosine_similarity([nuevos_embeddings[i]], embeddings)[0]
        
        # Encontramos las 3 m√°s similares
        indices_top = np.argsort(similitudes)[::-1][:3]
        
        print(f"\nüîç Nueva frase {i+1}: '{nueva_frase}'")
        print("\n   Top 3 frases m√°s similares:")
        for rank, idx in enumerate(indices_top, 1):
            print(f"   {rank}. [{similitudes[idx]:.4f}] {frases[idx]}")
        print("-"*80)
else:
    print("‚ö†Ô∏è A√±ade al menos una frase en la lista 'nuevas_frases'")

### üìù EJERCICIO 9: B√∫squeda sem√°ntica

In [None]:
# üìù EJERCICIO: Crea una funci√≥n de b√∫squeda sem√°ntica

def buscar_frase_similar(query, frases_bd, embeddings_bd, top_k=3):
    """
    Encuentra las frases m√°s similares a una query.
    
    Args:
        query: Texto de b√∫squeda
        frases_bd: Lista de frases en la base de datos
        embeddings_bd: Embeddings de las frases
        top_k: N√∫mero de resultados a retornar
    
    Returns:
        Lista de tuplas (frase, similitud)
    """
    # Generamos embedding de la query
    query_embedding = modelo_embeddings.encode([query])
    
    # Calculamos similitudes
    similitudes = cosine_similarity(query_embedding, embeddings_bd)[0]
    
    # Ordenamos y obtenemos top_k
    indices_top = np.argsort(similitudes)[::-1][:top_k]
    
    resultados = [(frases_bd[idx], similitudes[idx]) for idx in indices_top]
    
    return resultados

# Probamos la funci√≥n
consulta = "animales dom√©sticos"  # Cambia esta consulta

print(f"üîé B√∫squeda: '{consulta}'\n")
print("Resultados m√°s relevantes:\n")

resultados = buscar_frase_similar(consulta, frases, embeddings, top_k=5)

for i, (frase, sim) in enumerate(resultados, 1):
    print(f"{i}. [{sim:.4f}] {frase}")

print("\nüí° Prueba con otras consultas cambiando la variable 'consulta'")

### üìù EJERCICIO 10: Clustering de frases por tema

In [None]:
# üìù EJERCICIO: Agrupa las frases por tema usando K-means

from sklearn.cluster import KMeans

# Definimos el n√∫mero de clusters (temas)
n_clusters = 3  # Puedes cambiar este n√∫mero

# Aplicamos K-means
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
clusters = kmeans.fit_predict(embeddings)

print(f"üìä Agrupaci√≥n de frases en {n_clusters} clusters (temas):\n")
print("="*80)

for cluster_id in range(n_clusters):
    print(f"\nüè∑Ô∏è Cluster {cluster_id + 1}:")
    indices = [i for i, c in enumerate(clusters) if c == cluster_id]
    for idx in indices:
        print(f"   ‚Ä¢ {frases[idx]}")

# Visualizaci√≥n con colores por cluster
plt.figure(figsize=(12, 8))
colores = plt.cm.Set3(clusters)

plt.scatter(embeddings_2d[:, 0], embeddings_2d[:, 1], s=300, c=colores, edgecolors='black', linewidths=2)

for i, frase in enumerate(frases):
    plt.annotate(
        f"F{i+1}\n(C{clusters[i]+1})",
        (embeddings_2d[i, 0], embeddings_2d[i, 1]),
        fontsize=9,
        ha='center',
        va='center'
    )

plt.xlabel('Componente Principal 1', fontsize=12)
plt.ylabel('Componente Principal 2', fontsize=12)
plt.title(f'Clustering de Frases por Similitud Sem√°ntica ({n_clusters} clusters)', fontsize=14, fontweight='bold')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

---

## 5. Clasificaci√≥n con Modelos Tipo BERT (Encoder)

### Arquitecturas Transformer: Encoder vs Decoder

Los transformers se pueden clasificar en tres categor√≠as seg√∫n su arquitectura:

---

### **üîç Encoder-only (BERT, RoBERTa, DistilBERT)**

**Funci√≥n**: **Comprensi√≥n** y **representaci√≥n** de texto

**Caracter√≠sticas**:
- Atenci√≥n **bidireccional**: Lee el texto completo en ambas direcciones
- Genera representaciones contextualizadas de cada token
- No dise√±ado para generar texto nuevo

**Usos principales**:
- ‚úÖ Clasificaci√≥n de texto (sentimientos, spam, categor√≠as)
- ‚úÖ Named Entity Recognition (NER)
- ‚úÖ Question Answering
- ‚úÖ Extracci√≥n de informaci√≥n
- ‚úÖ An√°lisis de similitud

**Ejemplo**: BERT
- Pre-entrenado con Masked Language Modeling (MLM)
- Predice palabras ocultas en un contexto bidireccional

---

### **‚úçÔ∏è Decoder-only (GPT, LLaMA, Claude)**

**Funci√≥n**: **Generaci√≥n** de texto

**Caracter√≠sticas**:
- Atenci√≥n **unidireccional** (solo hacia la izquierda)
- Predice el siguiente token bas√°ndose en los anteriores
- Autore Gresivo: genera palabra por palabra

**Usos principales**:
- ‚úÖ Generaci√≥n de texto (historias, art√≠culos)
- ‚úÖ Chatbots y asistentes conversacionales
- ‚úÖ Completado de c√≥digo
- ‚úÖ Traducci√≥n (con prompt adecuado)
- ‚úÖ Res√∫menes

**Ejemplo**: GPT-3/4
- Pre-entrenado con Causal Language Modeling
- Predice la siguiente palabra dadas las anteriores

---

### **üîÑ Encoder-Decoder (T5, BART, mBART)**

**Funci√≥n**: **Transformaci√≥n** de texto (input ‚Üí output)

**Caracter√≠sticas**:
- Encoder: comprende el input
- Decoder: genera el output
- Ideal cuando input y output son diferentes

**Usos principales**:
- ‚úÖ Traducci√≥n autom√°tica
- ‚úÖ Res√∫menes (texto largo ‚Üí resumen corto)
- ‚úÖ Par√°frasis
- ‚úÖ Correcci√≥n gramatical

---

### Tabla Comparativa

| Arquitectura | Atenci√≥n | Tarea Principal | Ejemplos | Mejor para |
|--------------|----------|-----------------|----------|------------|
| Encoder | Bidireccional | Comprensi√≥n | BERT, RoBERTa | Clasificaci√≥n, NER |
| Decoder | Unidireccional | Generaci√≥n | GPT, LLaMA | Chatbots, escritura |
| Encoder-Decoder | Ambas | Transformaci√≥n | T5, BART | Traducci√≥n, resumen |

---

### An√°lisis de Sentimientos con BERT

Vamos a usar un modelo BERT fine-tuneado para clasificar sentimientos en espa√±ol.

---

In [None]:
# Instalamos transformers
!pip install -q transformers torch

In [None]:
from transformers import pipeline

# Cargamos un modelo BERT multiling√ºe fine-tuneado para an√°lisis de sentimientos
# Este modelo clasifica en 5 estrellas (1=muy negativo, 5=muy positivo)
clasificador_sentimientos = pipeline(
    "sentiment-analysis",
    model="nlptown/bert-base-multilingual-uncased-sentiment",
    device=-1  # CPU (-1), cambiar a 0 para GPU
)

print("‚úÖ Modelo de clasificaci√≥n de sentimientos cargado")

In [None]:
# Frases de ejemplo con diferentes sentimientos
frases_sentimientos = [
    "Esta pel√≠cula es absolutamente incre√≠ble, la mejor que he visto en a√±os",
    "Me encant√≥ el servicio, muy profesional y r√°pido",
    "El producto es aceptable, cumple con lo esperado",
    "No me gust√≥ para nada, muy decepcionante",
    "P√©sima experiencia, nunca volver√© a comprar aqu√≠",
    "El hotel est√° bien ubicado pero las habitaciones son peque√±as",
    "Excelente calidad-precio, totalmente recomendable",
    "El libro es interesante aunque un poco largo",
    "Horrible, una p√©rdida total de tiempo y dinero",
    "Fant√°stico, super√≥ todas mis expectativas"
]

print("üìù Frases a clasificar:\n")
for i, frase in enumerate(frases_sentimientos, 1):
    print(f"{i:2}. {frase}")

In [None]:
# Clasificamos todas las frases
resultados = clasificador_sentimientos(frases_sentimientos)

print("üéØ Resultados de la Clasificaci√≥n:\n")
print("="*90)

for i, (frase, resultado) in enumerate(zip(frases_sentimientos, resultados), 1):
    label = resultado['label']
    score = resultado['score']
    estrellas_num = int(label.split()[0])
    
    # Categor√≠a sem√°ntica
    if estrellas_num <= 2:
        categoria = "üòû Negativo"
        color = "üî¥"
    elif estrellas_num == 3:
        categoria = "üòê Neutral"
        color = "üü°"
    else:
        categoria = "üòä Positivo"
        color = "üü¢"
    
    print(f"\n{i:2}. {frase[:70]}..." if len(frase) > 70 else f"\n{i:2}. {frase}")
    print(f"    {color} {categoria:15} | {label:8} | Confianza: {score*100:5.2f}% | {'‚≠ê' * estrellas_num}")

print("\n" + "="*90)

In [None]:
# Creamos un DataFrame con los resultados
datos_clasificacion = []

for frase, resultado in zip(frases_sentimientos, resultados):
    estrellas = int(resultado['label'].split()[0])
    
    if estrellas <= 2:
        sentimiento = "Negativo"
    elif estrellas == 3:
        sentimiento = "Neutral"
    else:
        sentimiento = "Positivo"
    
    datos_clasificacion.append({
        'Frase': frase[:60] + '...' if len(frase) > 60 else frase,
        'Sentimiento': sentimiento,
        'Estrellas': estrellas,
        'Confianza': f"{resultado['score']*100:.1f}%"
    })

df_clasificacion = pd.DataFrame(datos_clasificacion)

print("üìä Tabla de Clasificaci√≥n:\n")
print(df_clasificacion.to_string(index=True))

In [None]:
# Estad√≠sticas de clasificaci√≥n
conteo_sentimientos = df_clasificacion['Sentimiento'].value_counts()

print("\nüìà Distribuci√≥n de Sentimientos:\n")
print(conteo_sentimientos)

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
colores_sentimientos = {'Positivo': 'green', 'Neutral': 'gray', 'Negativo': 'red'}
colores_plot = [colores_sentimientos[sent] for sent in conteo_sentimientos.index]

axes[0].bar(conteo_sentimientos.index, conteo_sentimientos.values, color=colores_plot, edgecolor='black', linewidth=1.5)
axes[0].set_xlabel('Sentimiento', fontsize=11)
axes[0].set_ylabel('Cantidad', fontsize=11)
axes[0].set_title('Distribuci√≥n de Sentimientos', fontsize=13, fontweight='bold')
axes[0].grid(axis='y', alpha=0.3)

# Gr√°fico de pastel
axes[1].pie(
    conteo_sentimientos.values,
    labels=conteo_sentimientos.index,
    autopct='%1.1f%%',
    colors=colores_plot,
    startangle=90,
    textprops={'fontsize': 11, 'fontweight': 'bold'}
)
axes[1].set_title('Proporci√≥n de Sentimientos', fontsize=13, fontweight='bold')

plt.tight_layout()
plt.show()

---

### üìù EJERCICIO 11: Clasifica tus propias frases

In [None]:
# üìù EJERCICIO: A√±ade 10 frases propias y clasif√≠calas

mis_frases = [
    # A√±ade aqu√≠ tus 10 frases (opiniones, rese√±as, comentarios)
    # Ejemplo: "Me pareci√≥ interesante pero le falta profundidad",
    
]

if mis_frases and len(mis_frases) >= 5:
    # Clasificamos
    mis_resultados = clasificador_sentimientos(mis_frases)
    
    print("üéØ Clasificaci√≥n de tus frases:\n")
    print("="*90)
    
    for i, (frase, res) in enumerate(zip(mis_frases, mis_resultados), 1):
        estrellas = int(res['label'].split()[0])
        
        if estrellas <= 2:
            emoji = "üòû"
            sent = "Negativo"
        elif estrellas == 3:
            emoji = "üòê"
            sent = "Neutral"
        else:
            emoji = "üòä"
            sent = "Positivo"
        
        print(f"\n{i}. {frase}")
        print(f"   {emoji} {sent} | {res['label']} | {res['score']*100:.1f}% confianza")
    
    # Estad√≠sticas
    categorias = ["Negativo" if int(r['label'].split()[0]) <= 2 else "Neutral" if int(r['label'].split()[0]) == 3 else "Positivo" for r in mis_resultados]
    conteo = pd.Series(categorias).value_counts()
    
    print("\n" + "="*90)
    print("\nüìä Resumen:")
    print(conteo)
else:
    print("‚ö†Ô∏è A√±ade al menos 5 frases en la lista 'mis_frases'")

### üìù EJERCICIO 12: Compara diferentes modelos

In [None]:
# üìù EJERCICIO: Prueba con otro modelo y compara resultados

# Cargamos un segundo modelo (m√°s simple, basado en distilbert)
clasificador_2 = pipeline(
    "sentiment-analysis",
    model="distilbert-base-uncased-finetuned-sst-2-english",
    device=-1
)

print("‚úÖ Segundo modelo cargado (DistilBERT-SST2)\n")

# Frases de prueba en ingl√©s (este modelo solo funciona en ingl√©s)
frases_prueba = [
    "This movie is absolutely amazing, I loved it!",
    "Terrible experience, worst service ever",
    "It was okay, nothing special"
]

print("üîç Comparaci√≥n de modelos:\n")
print("="*80)

for frase in frases_prueba:
    resultado = clasificador_2([frase])[0]
    
    print(f"\nFrase: {frase}")
    print(f"Modelo 2: {resultado['label']} (confianza: {resultado['score']*100:.2f}%)")

print("\nüí° Observaci√≥n:")
print("   - Diferentes modelos pueden clasificar de forma distinta")
print("   - Importante elegir el modelo adecuado para tu idioma y tarea")

---

## 6. Generaci√≥n con Modelos Tipo GPT (Decoder)

### ¬øC√≥mo funcionan los modelos generativos?

Los modelos decoder como GPT est√°n dise√±ados para **generar texto** prediciendo el siguiente token de forma autoregresiva.

---

### Proceso de Generaci√≥n

1. **Input**: Prompt inicial ‚Üí `"El gato est√°"`
2. **Predicci√≥n**: Modelo predice siguiente palabra ‚Üí `"sentado"` (probabilidad 60%), `"durmiendo"` (35%), ...
3. **Selecci√≥n**: Se elige una palabra seg√∫n estrategia (temperature, top-k, top-p)
4. **Iteraci√≥n**: Nueva secuencia ‚Üí `"El gato est√° sentado"` ‚Üí predice siguiente ‚Üí ...
5. **Fin**: Hasta alcanzar max_length o token especial de fin

---

### Par√°metros de Generaci√≥n

#### **Temperature (œÑ)**
Controla la "creatividad" del modelo

```
P'(token) = P(token)^(1/œÑ)
```

- **œÑ = 0.1 - 0.5**: Conservador, predecible, determinista
  - Uso: Tareas que requieren precisi√≥n (c√≥digo, datos)
- **œÑ = 0.7 - 1.0**: Balanceado
  - Uso: Escritura general, chatbots
- **œÑ = 1.2 - 2.0**: Creativo, aleatorio, diverso
  - Uso: Escritura creativa, brainstorming

#### **Top-k Sampling**
Limita las opciones a las K palabras m√°s probables

- **k=1**: Greedy decoding (siempre la m√°s probable)
- **k=10-50**: Balanceado
- **k=100+**: M√°s diversidad

#### **Top-p (Nucleus) Sampling**
Considera palabras hasta alcanzar probabilidad acumulada P

- **p=0.5**: Muy conservador
- **p=0.9**: Balanceado (recomendado)
- **p=0.95-1.0**: M√°s diversidad

#### **Max Length / Max New Tokens**
- N√∫mero m√°ximo de tokens a generar

---

### Estrategias de Decodificaci√≥n

| Estrategia | Descripci√≥n | Uso |
|------------|-------------|-----|
| Greedy | Siempre token m√°s probable | Muy determinista, puede ser repetitivo |
| Beam Search | Mantiene N mejores secuencias | Traducciones, res√∫menes |
| Top-k Sampling | Muestrea entre top-K tokens | Balance creatividad/coherencia |
| Top-p Sampling | Probabilidad acumulada | Recomendado para texto general |

---

In [None]:
# Cargamos un modelo generativo peque√±o (DistilGPT-2)
# Nota: Est√° entrenado en ingl√©s, para espa√±ol hay alternativas como GPT-2-small-spanish

generador = pipeline(
    'text-generation',
    model='distilgpt2',
    device=-1
)

print("‚úÖ Modelo generativo cargado (DistilGPT-2)")

In [None]:
# Generaci√≥n b√°sica con configuraci√≥n por defecto
prompt = "Artificial intelligence is transforming"

resultado = generador(
    prompt,
    max_length=50,
    num_return_sequences=1,
    do_sample=True,
    temperature=0.7
)

print("üìù Generaci√≥n B√°sica:\n")
print(f"Prompt: {prompt}")
print(f"\nTexto generado:\n{resultado[0]['generated_text']}")

---

### üìù EJERCICIO 13: Experimenta con Temperature

In [None]:
# üìù EJERCICIO: Genera textos con diferentes valores de temperature

prompt = "The future of technology will"

temperaturas = [0.2, 0.7, 1.2]

print("üå°Ô∏è Experimento: Efecto de la Temperature\n")
print("="*90)

for temp in temperaturas:
    print(f"\nüîπ Temperature = {temp}")
    print("-"*90)
    
    resultados = generador(
        prompt,
        max_length=50,
        temperature=temp,
        num_return_sequences=2,  # Generamos 2 versiones
        do_sample=True
    )
    
    for i, res in enumerate(resultados, 1):
        print(f"\nVersi√≥n {i}:")
        print(res['generated_text'])
    
    print("\n" + "-"*90)

print("\nüí° An√°lisis:")
print("   Temperature baja (0.2)  ‚Üí M√°s predecible y coherente")
print("   Temperature media (0.7) ‚Üí Balance entre creatividad y coherencia")
print("   Temperature alta (1.2)  ‚Üí M√°s creativo pero potencialmente incoherente")

### üìù EJERCICIO 14: Top-k y Top-p

In [None]:
# üìù EJERCICIO: Compara diferentes configuraciones de top-k y top-p

prompt = "In a distant future, humanity discovered"

configuraciones = [
    {"nombre": "Conservador", "top_k": 10, "top_p": 0.5},
    {"nombre": "Balanceado", "top_k": 50, "top_p": 0.9},
    {"nombre": "Creativo", "top_k": 100, "top_p": 0.95}
]

print("üéØ Experimento: Top-k y Top-p Sampling\n")
print("="*90)
print(f"\nPrompt: '{prompt}'\n")

for config in configuraciones:
    print(f"\nüîπ {config['nombre']} (top_k={config['top_k']}, top_p={config['top_p']})")
    print("-"*90)
    
    resultado = generador(
        prompt,
        max_length=60,
        temperature=0.8,
        top_k=config['top_k'],
        top_p=config['top_p'],
        num_return_sequences=1,
        do_sample=True
    )
    
    print(f"\n{resultado[0]['generated_text']}")

print("\n" + "="*90)
print("\nüí° Observaciones:")
print("   - top_k bajo: Reduce opciones a las m√°s probables")
print("   - top_p bajo: Corta la 'cola' de probabilidades antes")
print("   - Combinaci√≥n de ambos: Control fino sobre creatividad vs coherencia")

### üìù EJERCICIO 15: Crea tu propio prompt

In [None]:
# üìù EJERCICIO: Define tu propio prompt y genera m√∫ltiples versiones

# Define tu prompt aqu√≠:
mi_prompt = ""  # Ejemplo: "The most important scientific discovery was"

if mi_prompt:
    print(f"üìù Tu prompt: '{mi_prompt}'\n")
    print("="*90)
    print("\nüé≤ Generando 5 versiones diferentes...\n")
    
    resultados = generador(
        mi_prompt,
        max_length=70,
        temperature=0.9,
        top_k=50,
        top_p=0.92,
        num_return_sequences=5,
        do_sample=True
    )
    
    for i, res in enumerate(resultados, 1):
        print(f"\nüîπ Versi√≥n {i}:")
        print("-"*90)
        print(res['generated_text'])
    
    print("\n" + "="*90)
else:
    print("‚ö†Ô∏è Define un prompt en la variable 'mi_prompt'")
    print("üí° Consejos:")
    print("   - Empieza con contexto claro")
    print("   - Deja la frase incompleta para que el modelo contin√∫e")
    print("   - Experimenta con diferentes temas")

### üìù EJERCICIO 16: Generaci√≥n con restricciones de longitud

In [None]:
# üìù EJERCICIO: Observa c√≥mo max_length afecta la generaci√≥n

prompt = "The three most important things in life are"

longitudes = [30, 60, 100]

print("üìè Experimento: Efecto de max_length\n")
print("="*90)

for max_len in longitudes:
    print(f"\nüîπ Max length = {max_len} tokens")
    print("-"*90)
    
    resultado = generador(
        prompt,
        max_length=max_len,
        temperature=0.7,
        num_return_sequences=1,
        do_sample=True
    )
    
    texto = resultado[0]['generated_text']
    print(f"\n{texto}")
    print(f"\n[Longitud real: {len(texto.split())} palabras]")

print("\n" + "="*90)

---

## 7. Prompt Engineering B√°sico

### ¬øQu√© es Prompt Engineering?

**Prompt Engineering** es el arte y ciencia de dise√±ar **instrucciones efectivas** para que los modelos de lenguaje generen las respuestas deseadas.

---

### Principios Fundamentales

#### **1. Contexto Claro**
Proporciona informaci√≥n de fondo necesaria

‚ùå Malo: "Explica"
‚úÖ Bueno: "Explica c√≥mo funcionan las redes neuronales en el contexto de visi√≥n por computador"

#### **2. Rol/Persona**
Define qui√©n debe "ser" el modelo

```
"Eres un profesor de f√≠sica explicando a estudiantes de secundaria..."
"Act√∫a como un experto en ciberseguridad..."
```

#### **3. Formato de Salida**
Especifica estructura deseada

```
"Responde en forma de lista numerada"
"Estructura tu respuesta en: 1) Introducci√≥n, 2) Desarrollo, 3) Conclusi√≥n"
"Genera una tabla con columnas: Nombre, Ventaja, Desventaja"
```

#### **4. Ejemplos (Few-shot Learning)**
Muestra el tipo de respuesta esperada

```
"Clasifica el sentimiento:

Texto: 'Me encant√≥ la pel√≠cula'
Sentimiento: Positivo

Texto: 'Fue aburrida'
Sentimiento: Negativo

Texto: 'El servicio fue excelente'
Sentimiento:"
```

#### **5. Restricciones**
L√≠mites de longitud, estilo, contenido

```
"En m√°ximo 3 oraciones..."
"Usando lenguaje t√©cnico apropiado para ingenieros..."
"Sin usar jerga t√©cnica, para audiencia general..."
```

---

### T√©cnicas Avanzadas

#### **Zero-shot**
Sin ejemplos, solo instrucciones
```
"Traduce al franc√©s: ..."
```

#### **One-shot**
Un ejemplo
```
"Escribe en estilo formal:
Informal: '¬øQu√© onda?'
Formal: '¬øC√≥mo est√° usted?'

Informal: '¬øTodo bien?'
Formal:"
```

#### **Few-shot**
M√∫ltiples ejemplos (2-5)

#### **Chain-of-Thought (CoT)**
Pide razonamiento paso a paso
```
"Resuelve paso a paso:
Pregunta: Si 5 manzanas cuestan $10, ¬øcu√°nto cuestan 8 manzanas?

Paso 1:"
```

---

### Errores Comunes

‚ùå **Vagos**: "H√°blame de IA"
‚ùå **Ambiguos**: "Escribe algo sobre esto"
‚ùå **Sin estructura**: Texto largo sin separaciones
‚ùå **Contradictorios**: "S√© breve pero detallado"

---

In [None]:
# Funci√≥n auxiliar para generar respuestas
def generar_respuesta(prompt, max_len=100, temp=0.7):
    """Genera una respuesta dado un prompt"""
    resultado = generador(
        prompt,
        max_length=max_len,
        temperature=temp,
        num_return_sequences=1,
        do_sample=True,
        pad_token_id=50256  # Para evitar warnings
    )
    return resultado[0]['generated_text']

print("‚úÖ Funci√≥n de generaci√≥n definida")

### Comparaci√≥n: Prompts Malos vs Buenos

In [None]:
# Ejemplo 1: Prompt vago vs espec√≠fico
print("üìã Ejemplo 1: Especificidad\n")
print("="*90)

# Prompt MALO
prompt_malo = "Write about AI"
print(f"\n‚ùå PROMPT MALO (vago):")
print(f"   '{prompt_malo}'\n")
respuesta_mala = generar_respuesta(prompt_malo, max_len=60)
print(f"Respuesta:\n{respuesta_mala}")

print("\n" + "-"*90 + "\n")

# Prompt BUENO
prompt_bueno = """Write a brief explanation of artificial intelligence for high school students.
Include: 1) Definition, 2) One real-world example, 3) One benefit.
Keep it under 100 words."""

print(f"‚úÖ PROMPT BUENO (espec√≠fico y estructurado):")
print(f"   {prompt_bueno}\n")
respuesta_buena = generar_respuesta(prompt_bueno, max_len=120)
print(f"Respuesta:\n{respuesta_buena}")

print("\n" + "="*90)

In [None]:
# Ejemplo 2: Sin contexto vs con contexto
print("üìã Ejemplo 2: Importancia del Contexto\n")
print("="*90)

# Sin contexto
prompt_sin_contexto = "What is Python?"
print(f"\n‚ùå SIN CONTEXTO:")
print(f"   '{prompt_sin_contexto}'\n")
resp1 = generar_respuesta(prompt_sin_contexto, max_len=50)
print(f"Respuesta:\n{resp1}")
print("\n(Podr√≠a referirse al animal o al lenguaje de programaci√≥n)")

print("\n" + "-"*90 + "\n")

# Con contexto
prompt_con_contexto = """In the context of programming languages, explain what Python is 
and mention two key features that make it popular."""

print(f"‚úÖ CON CONTEXTO CLARO:")
print(f"   {prompt_con_contexto}\n")
resp2 = generar_respuesta(prompt_con_contexto, max_len=80)
print(f"Respuesta:\n{resp2}")

print("\n" + "="*90)

---

### üìù EJERCICIO 17: Mejora estos prompts

In [None]:
# üìù EJERCICIO: Transforma estos prompts mediocres en prompts efectivos

prompts_mediocres = [
    "Tell me about climate change",
    "Explain machine learning",
    "What is a healthy diet"
]

# Escribe aqu√≠ las versiones mejoradas:
prompts_mejorados = [
    # Mejora del primer prompt (ejemplo completado):
    """Explain climate change for a general audience.
Structure: 1) What it is, 2) Main causes, 3) One concrete impact.
Use simple language, maximum 80 words.""",
    
    # Mejora del segundo prompt (completa t√∫):
    "",
    
    # Mejora del tercer prompt (completa t√∫):
    ""
]

# Comparamos los resultados
if all(prompts_mejorados):  # Si todos est√°n completos
    for i, (malo, bueno) in enumerate(zip(prompts_mediocres, prompts_mejorados), 1):
        print(f"\n{'='*90}")
        print(f"üìå CASO {i}")
        print(f"{'='*90}")
        
        print(f"\n‚ùå Prompt original (mediocre):")
        print(f"   {malo}\n")
        resp_mala = generar_respuesta(malo, max_len=60)
        print(f"Respuesta:\n{resp_mala}")
        
        print(f"\n{'-'*90}\n")
        
        print(f"‚úÖ Prompt mejorado:")
        print(f"   {bueno}\n")
        resp_buena = generar_respuesta(bueno, max_len=100)
        print(f"Respuesta:\n{resp_buena}")
        
        print(f"\n{'='*90}\n")
else:
    print("‚ö†Ô∏è Completa los 3 prompts mejorados en la lista 'prompts_mejorados'")
    print("\nüí° Consejos para mejorarlos:")
    print("   1. A√±ade contexto (audiencia, prop√≥sito)")
    print("   2. Especifica estructura de la respuesta")
    print("   3. Define restricciones (longitud, estilo)")
    print("   4. S√© claro y espec√≠fico")

### üìù EJERCICIO 18: Formato de salida estructurado

In [None]:
# üìù EJERCICIO: Crea un prompt que fuerce una salida en formato tabla

# Escribe tu prompt aqu√≠:
prompt_tabla = """
Create a comparison table of: Python, Java, and JavaScript.
Format:
Language | Paradigm | Key Advantage
---------|-----------|--------------
"""


if prompt_tabla:
    print("üéØ Tu prompt:")
    print(prompt_tabla)
    print("\n" + "="*90 + "\n")
    
    respuesta = generar_respuesta(prompt_tabla, max_len=120, temp=0.5)
    print("üìä Salida generada:\n")
    print(respuesta)
else:
    print("‚ö†Ô∏è Define un prompt en 'prompt_tabla' que fuerce salida estructurada")
    print("\nüí° Intenta formatos como:")
    print("   - Tablas (con | como separador)")
    print("   - Listas numeradas (1., 2., 3.)")
    print("   - Listas con bullets (-, *, ‚Ä¢)")
    print("   - JSON-like structures")

### üìù EJERCICIO 19: Few-shot Learning

In [None]:
# üìù EJERCICIO: Usa ejemplos para guiar al modelo (few-shot)

# Tarea: Clasificaci√≥n de emociones m√°s all√° de positivo/negativo
prompt_fewshot = """Classify the emotion in each text as: Joy, Sadness, Anger, Fear, or Neutral.

Examples:
Text: "I'm so happy today, everything is perfect!"
Emotion: Joy

Text: "I'm terrified of what might happen."
Emotion: Fear

Text: "This makes me so furious!"
Emotion: Anger

Now classify this:
Text: "I miss my old friends, those were good times."
Emotion:"""

print("üéì Few-shot Learning - Clasificaci√≥n de Emociones\n")
print("="*90)
print("\nüìù Prompt (con ejemplos):")
print(prompt_fewshot)
print("\n" + "-"*90 + "\n")

respuesta = generar_respuesta(prompt_fewshot, max_len=150, temp=0.3)
print("ü§ñ Respuesta del modelo:\n")
print(respuesta)

print("\n" + "="*90)
print("\nüí° Observa c√≥mo los ejemplos gu√≠an al modelo hacia el formato deseado")