# Laboratorio: Setup y uso básico de LLMs con LangChain + Prompt engineering avanzado

Este laboratorio está pensado para completarse en ~2 horas. Trabajaremos en Google Colab con recursos gratuitos, usando la Inference API de Hugging Face y un modelo instruct abierto.

- Contenidos:
  - Setup en Colab y configuración de Hugging Face Inference API
  - Uso básico de LLMs con LangChain (LCEL)
  - Parámetros de decodificación y control de estilo
  - Prompt engineering avanzado: zero-shot, few-shot, Chain of Thought, Role Prompting y salida estructurada (JSON)

Al finalizar, podrás:
- Conectarte a un LLM instruct vía Hugging Face Inference API desde LangChain.
- Construir cadenas simples con `prompt | llm | parser`.
- Diseñar prompts efectivos y controlar formato de salida (incluido JSON).


## Parte 0 — Setup (Colab + librerías + token)

Usaremos versiones estables para minimizar fricción en Colab. Asegurate de ejecutar esta sección antes de continuar.


In [None]:
# Instalar dependencias principales (versiones estables)
!pip -q install -U \
  "langchain==0.3.27" \
  "langchain-community==0.3.27" \
  "langchain-huggingface==0.3.1" \
  "transformers==4.55.2" \
  "huggingface_hub==0.34.4"

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.0 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.4/1.0 MB[0m [31m12.6 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.4/1.0 MB[0m [31m6.6 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.0/1.0 MB[0m [31m10.1 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/443.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m443.5/443.5 kB[0m [31m35.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m60.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━

In [None]:
from importlib.metadata import version, PackageNotFoundError

for dist in ["langchain", "langchain-community", "langchain-huggingface",
             "transformers", "huggingface_hub"]:
    try:
        print(dist, "=>", version(dist))
    except PackageNotFoundError:
        print(dist, "no instalado")

langchain => 0.3.27
langchain-community => 0.3.27
langchain-huggingface => 0.3.1
transformers => 4.55.2
huggingface_hub => 0.34.4


In [None]:
# Comprobar versión de Python y GPU/CPU
import sys, subprocess, torch
print(sys.version)
try:
    import torch
    print("PyTorch:", torch.__version__)
    print("CUDA disponible:", torch.cuda.is_available())
except Exception as e:
    print("PyTorch no disponible o sin CUDA", e)


3.11.13 (main, Jun  4 2025, 08:57:29) [GCC 11.4.0]
PyTorch: 2.6.0+cu124
CUDA disponible: True


### Configuración del token de Hugging Face

Para usar la Hugging Face Inference API, necesitás un token personal (gratuito). En Colab se recomienda guardarlo en `userdata`:

1. Crear el token en `https://huggingface.co/settings/tokens`.
2. En Colab: Abre el menú en la barra izquierda haciendo click en la llave → "Agregar nuevo secreto" ponle `HF_TOKEN` y el token que generamos → Habilita el acceso al notebook.
3. Ejecutar la celda siguiente para leerlo.


In [None]:
from google.colab import userdata
HF_TOKEN = userdata.get('HF_TOKEN')
assert HF_TOKEN is not None and len(HF_TOKEN) > 0, "Configurar el secreto 'HF_TOKEN' en Colab."
print("Token cargado OK")


Token cargado OK


## Parte 1 — Uso básico de LLMs con LangChain

Trabajaremos con un modelo instruct accesible vía Inference API. Para minimizar fricción, usaremos un modelo abierto.


In [None]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

MODEL_ID = "Qwen/Qwen3-4B-Instruct-2507"

hf_endpoint = HuggingFaceEndpoint(
    repo_id=MODEL_ID,
    task="conversational",
    huggingfacehub_api_token=HF_TOKEN,
    temperature=0.7,
    max_new_tokens=256,
)

llm = ChatHuggingFace(llm=hf_endpoint)

prompt = ChatPromptTemplate.from_messages([
    ("system", "Eres un asistente útil y conciso."),
    ("human", "Responde a la siguiente instrucción: {instruccion}"),
])

chain = prompt | llm | StrOutputParser()
print(chain.invoke({"instruccion": "Explica en 3 frases qué es un LLM y nombra 2 casos de uso."}))

Un LLM (Large Language Model) es un tipo de modelo de inteligencia artificial entrenado en grandes volúmenes de texto para entender, generar y realizar tareas relacionadas con el lenguaje humano.  
Casos de uso incluyen responder preguntas de forma natural y generar textos como artículos, emails o historias.  
También se usan en asistentes virtuales, traducción automática y análisis de sentimientos.


### Ejercicio 1.1 (10 min)

- Probar 3 variaciones de `temperature` y observar el cambio en estilo.
- Cambiar el rol del `system` para forzar un estilo (p.ej., “responde con viñetas y máximo 3 líneas”).
- Pregunta sugerida: “Resume la diferencia entre entrenamiento y fine-tuning en 3 puntos.”


In [None]:
from typing import List

instruccion: str = "Resume la diferencia entre entrenamiento y fine-tuning en 3 puntos."
temperaturas: List[float] = [0.0, 0.7, 1.2]

def ejecutar_variacion(temperature: float) -> str:
    # TODO: crear endpoint conversacional con 'temperature' y devolver el texto
    # Debe usar: MODEL_ID, HF_TOKEN, task="conversational"
    raise NotImplementedError

for t in temperaturas:
    print(f"\n==== temperature: {t} ====")
    print(ejecutar_variacion(t))

def ejecutar_estilo(instruccion: str) -> str:
    # TODO: crear prompt de estilo (system) + LLM base conversacional y devolver el texto
    raise NotImplementedError

print("\n==== estilo forzado ====")
print(ejecutar_estilo(instruccion))

## Parte 1.2 — Parámetros de decodificación

Ajustaremos parámetros como `top_p`, `repetition_penalty` y `max_new_tokens` para observar su efecto en la generación.


In [None]:
# Exploración de parámetros de decodificación
from typing import Dict, Any
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
from langchain_core.output_parsers import StrOutputParser

consulta: str = "Escribe una analogía breve para explicar RAG a un público no técnico."

configuraciones: Dict[str, Dict[str, Any]] = {
    "baseline":   {"temperature": 0.7, "top_p": 0.95, "repetition_penalty": 1.0, "max_new_tokens": 128},
    "creativo":   {"temperature": 1.1, "top_p": 0.90, "repetition_penalty": 1.0, "max_new_tokens": 128},
    "controlado": {"temperature": 0.2, "top_p": 0.80, "repetition_penalty": 1.1, "max_new_tokens": 96},
}

for nombre, cfg in configuraciones.items():
    tmp_endpoint = HuggingFaceEndpoint(
        repo_id=MODEL_ID,
        task="conversational",
        huggingfacehub_api_token=HF_TOKEN,
        temperature=cfg["temperature"],
        top_p=cfg["top_p"],
        repetition_penalty=cfg["repetition_penalty"],
        max_new_tokens=cfg["max_new_tokens"],
    )
    tmp_llm = ChatHuggingFace(llm=tmp_endpoint)
    salida = (prompt | tmp_llm | StrOutputParser()).invoke({"instruccion": consulta})
    print(f"\n==== {nombre} ({cfg}) ====\n{salida}")

## Parte 2 — Prompt engineering avanzado

Exploraremos estrategias para mejorar la calidad y control de las respuestas: zero-shot, few-shot, restricciones de estilo, salida estructurada y Chain of Thought.


### Conceptos clave: Zero-shot, Few-shot, CoT y Roles

- Zero-shot: el modelo resuelve la tarea solo con instrucciones; no se proporcionan ejemplos.
- Few-shot: además de la instrucción, se incluyen 1-3 ejemplos que muestran el formato y estilo deseados.
- Chain-of-Thought (CoT): se guía al modelo para mostrar pasos intermedios de razonamiento (p.ej., “razona paso a paso”) antes de una respuesta final.
- Role prompting: se asigna un rol (p.ej., “actúa como profesor de IA”) para influir en el estilo y nivel de detalle.
- JSON output: se pide una salida estricta en formato JSON y se valida con un parser.

Lectura recomendada: guía de prompt engineering avanzada en `https://learnprompting.org/docs/introduction`.


### Zero-shot y Few-shot


In [None]:
# Zero-shot vs Few-shot (diferencia marcada con patrón acróstico)
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# LLM más determinista
det_endpoint = HuggingFaceEndpoint(
    repo_id=MODEL_ID, task="conversational",
    huggingfacehub_api_token=HF_TOKEN, temperature=0.0, max_new_tokens=128
)
llm_det = ChatHuggingFace(llm=det_endpoint)
parser = StrOutputParser()

# Patrón no obvio: acróstico O-V-E (Overfitting), cada línea empieza con esa letra
instruccion = (
    "Escribe EXACTAMENTE 3 líneas sobre 'overfitting'. "
    "Cada línea debe comenzar con O, luego V, luego E (en ese orden). "
    "6-10 palabras por línea. Sin texto extra."
)

zero_shot = ChatPromptTemplate.from_messages([
    ("system", "Sigue estrictamente las instrucciones del usuario."),
    ("human", "{instruccion}")
])

few_shot = ChatPromptTemplate.from_messages([
    ("system", "Sigue estrictamente las instrucciones del usuario."),
    # Ejemplo: el patrón se demuestra con otro tema y otro acróstico (R-E-G)
    ("human", "Escribe EXACTAMENTE 3 líneas sobre 'regularización'. "
              "Cada línea debe comenzar con R, luego E, luego G. "
              "6-10 palabras por línea. Sin texto extra."),
    ("ai", "R Reduce complejidad para evitar ajustes al ruido\n"
           "E Estabiliza el aprendizaje con penalizaciones adecuadas\n"
           "G Generaliza mejor limitando pesos excesivamente grandes"),
    # Ahora se pide el caso real con el acróstico O-V-E
    ("human", "{instruccion}")
])

print("=== ZERO-SHOT ===")
print((zero_shot | llm_det | parser).invoke({"instruccion": instruccion}))

print("\n=== FEW-SHOT ===")
print((few_shot | llm_det | parser).invoke({"instruccion": instruccion}))

=== ZERO-SHOT ===
Overfitting occurs when a model learns noise instead of patterns.  
Overcomplicated models fail on new, unseen data.  
Overfitting reduces generalization in predictions.

=== FEW-SHOT ===
O Viola la generalización al ajustarse demasiado a datos de entrenamiento  
V Evalúa mal en datos nuevos por falta de robustez  
E Excede el poder de representación del modelo


### Role prompting

In [None]:
# Role prompting
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

role_prompt = ChatPromptTemplate.from_messages([
    ("system", "Actúa como profesor de IA de nivel intermedio. Sé claro, estructurado y usa ejemplos sencillos."),
    ("human", "Explica brevemente qué es el aprendizaje por refuerzo y menciona 2 ejemplos de aplicación."),
])

print((role_prompt | llm | StrOutputParser()).invoke({}))


Claro, aquí tienes una explicación breve y clara:

**Qué es el aprendizaje por refuerzo (Reinforcement Learning):**  
Es un tipo de inteligencia artificial donde un agente (como un robot o un programa) aprende a tomar decisiones para maximizar una recompensa a lo largo del tiempo. No tiene acceso a datos etiquetados, sino que aprende probando diferentes acciones y viéndose recompensado o sancionado según los resultados.

🔍 **Por ejemplo:**  
Imagina que un agente quiere aprender a jugar al ajedrez. Cada vez que gana, recibe una recompensa. Si pierde, la recompensa es baja o negativa. Con el tiempo, el agente aprende qué movimientos le llevan a ganar más.

### 2 ejemplos de aplicación:
1. **Juegos de video** (como AlphaGo o Deep Q-Networks): Los algoritmos aprenden a jugar mejor jugando miles de partidas y recibiendo recompensas por ganar.
2. **Robótica y automatización** (como un robot que aprende a caminar o navegar): El robot recibe recompensas cuando se mueve bien o evita caídas, y 

### CoT (Chain-of-Thought) prompting

In [None]:
# Prompts SIN CoT y CON CoT (Bayes) — nscale-compatible

from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

problema = (
    "En una población, 1% tiene la enfermedad. La prueba tiene 90% de sensibilidad y 90% de especificidad. "
    "Si una persona da positivo, ¿cuál es la probabilidad (en %) de que realmente esté enferma?"
)

parser = StrOutputParser()

# SIN CoT: SOLO porcentaje en una línea (recorta tokens)
endpoint_sin = HuggingFaceEndpoint(
    repo_id=MODEL_ID, task="conversational",
    huggingfacehub_api_token=HF_TOKEN, temperature=0.0, max_new_tokens=6
)
llm_sin = ChatHuggingFace(llm=endpoint_sin)

prompt_sin_cot = ChatPromptTemplate.from_messages([
    ("system", "Devuelve SOLO un número en formato porcentaje (ej: 8.33%). "
               "Sin explicaciones, sin ecuaciones, sin texto extra."),
    ("human", "{q}")
])

# CON CoT: piensa paso a paso y cierra con una línea final
endpoint_con = HuggingFaceEndpoint(
    repo_id=MODEL_ID, task="conversational",
    huggingfacehub_api_token=HF_TOKEN, temperature=0.0, max_new_tokens=256
)
llm_con = ChatHuggingFace(llm=endpoint_con)

prompt_con_cot = ChatPromptTemplate.from_messages([
    ("system", "Tómate tu tiempo y piensa paso a paso usando Bayes. "
               "Al final, da una sola línea con: 'Respuesta final: <n>%'"),
    ("human", "{q}")
])

print("=== SIN CoT ===")
print((prompt_sin_cot | llm_sin | parser).invoke({"q": problema}))

print("\n=== CON CoT ===")
print((prompt_con_cot | llm_con | parser).invoke({"q": problema}))

=== SIN CoT ===
9.09%

=== CON CoT ===
Vamos a resolver este problema paso a paso usando el **teorema de Bayes**.

---

### Datos del problema:

- Probabilidad de tener la enfermedad (prevalencia):  
  \( P(E) = 1\% = 0.01 \)

- Probabilidad de no tener la enfermedad:  
  \( P(\neg E) = 1 - 0.01 = 0.99 \)

- Sensibilidad de la prueba (probabilidad de dar positivo si tienes la enfermedad):  
  \( P(T^+ | E) = 90\% = 0.90 \)

- Especificidad de la prueba (probabilidad de dar negativo si no tienes la enfermedad):  
  \( P(T^- | \neg E) = 90\% = 0.90 \)

Esto implica que:

- El error de falsa positiva es \( P(T^+ | \neg E) = 1 - 0.90 = 0.10 \)

Nos piden:  
**Probabilidad de que una persona realmente tenga la enfermedad dado que dio positivo.**  
Es decir:  
\( P(E | T^+) = ? \)

---

### Usamos el teorema de Bayes:

\[
P(E | T^+) = \frac{P(T^+ | E) \cdot P(E)}{P(T^+)}
\]

Donde \( P(T^+) \) es la probabilidad total de dar positivo. Para calcularlo, usamos el **teorema de la probabilidad t

### Salida estructurada (JSON Output Parser)

In [None]:
# Salida estructurada (JSON) con output parser
import json
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

json_prompt = ChatPromptTemplate.from_template(
    """
    Eres un asistente que devuelve SIEMPRE JSON válido. Dado un tema, devuelve un objeto con:
    - "titulo": string
    - "puntos_clave": lista de 3 strings
    - "dificultad": uno de ["básico", "intermedio", "avanzado"]
    Responde SOLO con JSON válido sin texto adicional.
    Tema: {tema}
    """
)

json_text = (json_prompt | llm | StrOutputParser()).invoke({"tema": "RAG"})
print(json_text)

data = json.loads(json_text)
assert set(["titulo", "puntos_clave", "dificultad"]).issubset(data.keys())
print("JSON válido con las claves requeridas.")


{
  "titulo": "RAG (Retrieval-Augmented Generation)",
  "puntos_clave": [
    "RAG combina la recuperación de información de una base de conocimientos con la generación de texto para mejorar la precisión y relevancia.",
    "Permite que los modelos de lenguaje utilicen información de documentos externos en tiempo real durante la generación de respuestas.",
    "Reduce el riesgo de generar contenido fabricado al basarse en fuentes verificadas de información."
  ],
  "dificultad": "intermedio"
}
JSON válido con las claves requeridas.


## Ejercicios — Parte 2

Resuelve los siguientes ejercicios. Modifica prompts y parámetros si es necesario y justifica brevemente tus decisiones (en una celda de texto).


### Ejercicio 2.1 — Zero-shot vs Few-shot

- Tarea: explicar “regularización L2” en 3 viñetas claras para un público técnico.
- Paso 1 (zero-shot): crea un prompt sin ejemplos y observa el resultado.
- Paso 2 (few-shot): agrega 1-2 ejemplos de estilo y compara la salida.
- Pregunta guía: ¿mejoró la precisión o claridad con pocos ejemplos? Justifica.


In [None]:
def zero_shot_l2() -> str:
    # TODO: construir prompt zero-shot (3 viñetas) y llamar al LLM
    raise NotImplementedError

def few_shot_l2() -> str:
    # TODO: construir prompt con 1-2 ejemplos y llamar al LLM
    raise NotImplementedError

print("\n=== ZERO-SHOT ===\n")
print(zero_shot_l2())

print("\n=== FEW-SHOT ===\n")
print(few_shot_l2())

### Ejercicio 2.2 — Chain-of-Thought (CoT)

- Tarea: dado un problema de evaluación de modelos, razonar paso a paso y entregar una conclusión final breve.
- Problema sugerido: “¿Por qué accuracy puede ser engañoso en un dataset muy desbalanceado y qué métrica alternativa usarías?”
- Pista: pide explícitamente “razona paso a paso y luego da una respuesta final breve en una línea”.


In [None]:
def cot_razonamiento(problema: str) -> str:
    # TODO: pedir "razona paso a paso" y cerrar con una línea final
    raise NotImplementedError

problema: str = "¿Por qué accuracy puede ser engañoso en un dataset muy desbalanceado y qué métrica alternativa usarías?"
print(cot_razonamiento(problema))

### Ejercicio 2.3 — Role prompting

- Tarea: explicar el “sesgo de selección” a un equipo de data engineering con ejemplos concisos.
- Rol: “Actúa como líder técnico de datos; sé pragmático y directo, con viñetas concretas”.
- Objetivo: evaluar cómo cambia el estilo bajo un rol técnico específico.


In [None]:
def explicar_sesgo_seleccion() -> str:
    # TODO: role "líder técnico de datos", 3 viñetas + 1 ejemplo práctico
    raise NotImplementedError

print(explicar_sesgo_seleccion())