# Laboratorio: Setup y uso b√°sico de LLMs con LangChain + Prompt engineering avanzado

Este laboratorio est√° pensado para completarse en ~2 horas. Trabajaremos en Google Colab con recursos gratuitos, usando la Inference API de Hugging Face y un modelo instruct abierto.

- Contenidos:
  - Setup en Colab y configuraci√≥n de Hugging Face Inference API
  - Uso b√°sico de LLMs con LangChain (LCEL)
  - Par√°metros de decodificaci√≥n y control de estilo
  - Prompt engineering avanzado: zero-shot, few-shot, Chain of Thought, Role Prompting y salida estructurada (JSON)

Al finalizar, podr√°s:
- Conectarte a un LLM instruct v√≠a Hugging Face Inference API desde LangChain.
- Construir cadenas simples con `prompt | llm | parser`.
- Dise√±ar prompts efectivos y controlar formato de salida (incluido JSON).


## Parte 0 ‚Äî Setup (Colab + librer√≠as + token)

Usaremos versiones estables para minimizar fricci√≥n en Colab. Asegurate de ejecutar esta secci√≥n antes de continuar.


In [None]:
# Instalar dependencias principales (versiones estables)
!pip -q install -U \
  "langchain==0.3.27" \
  "langchain-community==0.3.27" \
  "langchain-huggingface==0.3.1" \
  "transformers==4.55.2" \
  "huggingface_hub==0.34.4"

[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/1.0 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[90m‚ï∫[0m[90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.4/1.0 MB[0m [31m12.6 MB/s[0m eta [36m0:00:01[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[90m‚ï∫[0m[90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.4/1.0 MB[0m [31m6.6 MB/s[0m eta [36m0:00:01[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m [32m1.0/1.0 MB[0m [31m10.1 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.0/1.0 MB[0m [31m9.0 MB/s[0m

In [None]:
from importlib.metadata import version, PackageNotFoundError

for dist in ["langchain", "langchain-community", "langchain-huggingface",
             "transformers", "huggingface_hub"]:
    try:
        print(dist, "=>", version(dist))
    except PackageNotFoundError:
        print(dist, "no instalado")

langchain => 0.3.27
langchain-community => 0.3.27
langchain-huggingface => 0.3.1
transformers => 4.55.2
huggingface_hub => 0.34.4


In [None]:
# Comprobar versi√≥n de Python y GPU/CPU
import sys, subprocess, torch
print(sys.version)
try:
    import torch
    print("PyTorch:", torch.__version__)
    print("CUDA disponible:", torch.cuda.is_available())
except Exception as e:
    print("PyTorch no disponible o sin CUDA", e)


3.11.13 (main, Jun  4 2025, 08:57:29) [GCC 11.4.0]
PyTorch: 2.6.0+cu124
CUDA disponible: True


### Configuraci√≥n del token de Hugging Face

Para usar la Hugging Face Inference API, necesit√°s un token personal (gratuito). En Colab se recomienda guardarlo en `userdata`:

1. Crear el token en `https://huggingface.co/settings/tokens`.
2. En Colab: Abre el men√∫ en la barra izquierda haciendo click en la llave ‚Üí "Agregar nuevo secreto" ponle `HF_TOKEN` y el token que generamos ‚Üí Habilita el acceso al notebook.
3. Ejecutar la celda siguiente para leerlo.


In [None]:
from google.colab import userdata
HF_TOKEN = userdata.get('HF_TOKEN')
assert HF_TOKEN is not None and len(HF_TOKEN) > 0, "Configurar el secreto 'HF_TOKEN' en Colab."
print("Token cargado OK")


Token cargado OK


## Parte 1 ‚Äî Uso b√°sico de LLMs con LangChain

Trabajaremos con un modelo instruct accesible v√≠a Inference API. Para minimizar fricci√≥n, usaremos un modelo abierto.


In [None]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

MODEL_ID = "Qwen/Qwen3-4B-Instruct-2507"

hf_endpoint = HuggingFaceEndpoint(
    repo_id=MODEL_ID,
    task="conversational",
    huggingfacehub_api_token=HF_TOKEN,
    temperature=0.7,
    max_new_tokens=256,
)

llm = ChatHuggingFace(llm=hf_endpoint)

prompt = ChatPromptTemplate.from_messages([
    ("system", "Eres un asistente √∫til y conciso."),
    ("human", "Responde a la siguiente instrucci√≥n: {instruccion}"),
])

chain = prompt | llm | StrOutputParser()
print(chain.invoke({"instruccion": "Explica en 3 frases qu√© es un LLM y nombra 2 casos de uso."}))

Un LLM (Large Language Model) es un tipo de modelo de inteligencia artificial entrenado en grandes vol√∫menes de texto para entender, generar y realizar tareas relacionadas con el lenguaje humano.  
Casos de uso incluyen responder preguntas de forma natural y generar textos como art√≠culos, emails o historias.  
Tambi√©n se usan en asistentes virtuales, traducci√≥n autom√°tica y an√°lisis de sentimientos.


### Ejercicio 1.1 (10 min)

- Probar 3 variaciones de `temperature` y observar el cambio en estilo.
- Cambiar el rol del `system` para forzar un estilo (p.ej., ‚Äúresponde con vi√±etas y m√°ximo 3 l√≠neas‚Äù).
- Pregunta sugerida: ‚ÄúResume la diferencia entre entrenamiento y fine-tuning en 3 puntos.‚Äù


In [None]:
from typing import List

instruccion: str = "Resume la diferencia entre entrenamiento y fine-tuning en 3 puntos."
temperaturas: List[float] = [0.0, 0.7, 1.2]

def ejecutar_variacion(temperature: float) -> str:
    # TODO: crear endpoint conversacional con 'temperature' y devolver el texto
    # Debe usar: MODEL_ID, HF_TOKEN, task="conversational"
    raise NotImplementedError

for t in temperaturas:
    print(f"\n==== temperature: {t} ====")
    print(ejecutar_variacion(t))

def ejecutar_estilo(instruccion: str) -> str:
    # TODO: crear prompt de estilo (system) + LLM base conversacional y devolver el texto
    raise NotImplementedError

print("\n==== estilo forzado ====")
print(ejecutar_estilo(instruccion))

## Parte 1.2 ‚Äî Par√°metros de decodificaci√≥n

Ajustaremos par√°metros como `top_p`, `repetition_penalty` y `max_new_tokens` para observar su efecto en la generaci√≥n.


In [None]:
# Exploraci√≥n de par√°metros de decodificaci√≥n
from typing import Dict, Any
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
from langchain_core.output_parsers import StrOutputParser

consulta: str = "Escribe una analog√≠a breve para explicar RAG a un p√∫blico no t√©cnico."

configuraciones: Dict[str, Dict[str, Any]] = {
    "baseline":   {"temperature": 0.7, "top_p": 0.95, "repetition_penalty": 1.0, "max_new_tokens": 128},
    "creativo":   {"temperature": 1.1, "top_p": 0.90, "repetition_penalty": 1.0, "max_new_tokens": 128},
    "controlado": {"temperature": 0.2, "top_p": 0.80, "repetition_penalty": 1.1, "max_new_tokens": 96},
}

for nombre, cfg in configuraciones.items():
    tmp_endpoint = HuggingFaceEndpoint(
        repo_id=MODEL_ID,
        task="conversational",
        huggingfacehub_api_token=HF_TOKEN,
        temperature=cfg["temperature"],
        top_p=cfg["top_p"],
        repetition_penalty=cfg["repetition_penalty"],
        max_new_tokens=cfg["max_new_tokens"],
    )
    tmp_llm = ChatHuggingFace(llm=tmp_endpoint)
    salida = (prompt | tmp_llm | StrOutputParser()).invoke({"instruccion": consulta})
    print(f"\n==== {nombre} ({cfg}) ====\n{salida}")

## Parte 2 ‚Äî Prompt engineering avanzado

Exploraremos estrategias para mejorar la calidad y control de las respuestas: zero-shot, few-shot, restricciones de estilo, salida estructurada y Chain of Thought.


### Conceptos clave: Zero-shot, Few-shot, CoT y Roles

- Zero-shot: el modelo resuelve la tarea solo con instrucciones; no se proporcionan ejemplos.
- Few-shot: adem√°s de la instrucci√≥n, se incluyen 1-3 ejemplos que muestran el formato y estilo deseados.
- Chain-of-Thought (CoT): se gu√≠a al modelo para mostrar pasos intermedios de razonamiento (p.ej., ‚Äúrazona paso a paso‚Äù) antes de una respuesta final.
- Role prompting: se asigna un rol (p.ej., ‚Äúact√∫a como profesor de IA‚Äù) para influir en el estilo y nivel de detalle.
- JSON output: se pide una salida estricta en formato JSON y se valida con un parser.

Lectura recomendada: gu√≠a de prompt engineering avanzada en `https://learnprompting.org/docs/introduction`.


### Zero-shot y Few-shot


In [None]:
# Zero-shot vs Few-shot (diferencia marcada con patr√≥n acr√≥stico)
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# LLM m√°s determinista
det_endpoint = HuggingFaceEndpoint(
    repo_id=MODEL_ID, task="conversational",
    huggingfacehub_api_token=HF_TOKEN, temperature=0.0, max_new_tokens=128
)
llm_det = ChatHuggingFace(llm=det_endpoint)
parser = StrOutputParser()

# Patr√≥n no obvio: acr√≥stico O-V-E (Overfitting), cada l√≠nea empieza con esa letra
instruccion = (
    "Escribe EXACTAMENTE 3 l√≠neas sobre 'overfitting'. "
    "Cada l√≠nea debe comenzar con O, luego V, luego E (en ese orden). "
    "6-10 palabras por l√≠nea. Sin texto extra."
)

zero_shot = ChatPromptTemplate.from_messages([
    ("system", "Sigue estrictamente las instrucciones del usuario."),
    ("human", "{instruccion}")
])

few_shot = ChatPromptTemplate.from_messages([
    ("system", "Sigue estrictamente las instrucciones del usuario."),
    # Ejemplo: el patr√≥n se demuestra con otro tema y otro acr√≥stico (R-E-G)
    ("human", "Escribe EXACTAMENTE 3 l√≠neas sobre 'regularizaci√≥n'. "
              "Cada l√≠nea debe comenzar con R, luego E, luego G. "
              "6-10 palabras por l√≠nea. Sin texto extra."),
    ("ai", "R Reduce complejidad para evitar ajustes al ruido\n"
           "E Estabiliza el aprendizaje con penalizaciones adecuadas\n"
           "G Generaliza mejor limitando pesos excesivamente grandes"),
    # Ahora se pide el caso real con el acr√≥stico O-V-E
    ("human", "{instruccion}")
])

print("=== ZERO-SHOT ===")
print((zero_shot | llm_det | parser).invoke({"instruccion": instruccion}))

print("\n=== FEW-SHOT ===")
print((few_shot | llm_det | parser).invoke({"instruccion": instruccion}))

=== ZERO-SHOT ===
Overfitting occurs when a model learns noise instead of patterns.  
Overcomplicated models fail on new, unseen data.  
Overfitting reduces generalization in predictions.

=== FEW-SHOT ===
O Viola la generalizaci√≥n al ajustarse demasiado a datos de entrenamiento  
V Eval√∫a mal en datos nuevos por falta de robustez  
E Excede el poder de representaci√≥n del modelo


### Role prompting

In [None]:
# Role prompting
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

role_prompt = ChatPromptTemplate.from_messages([
    ("system", "Act√∫a como profesor de IA de nivel intermedio. S√© claro, estructurado y usa ejemplos sencillos."),
    ("human", "Explica brevemente qu√© es el aprendizaje por refuerzo y menciona 2 ejemplos de aplicaci√≥n."),
])

print((role_prompt | llm | StrOutputParser()).invoke({}))


Claro, aqu√≠ tienes una explicaci√≥n breve y clara:

**Qu√© es el aprendizaje por refuerzo (Reinforcement Learning):**  
Es un tipo de inteligencia artificial donde un agente (como un robot o un programa) aprende a tomar decisiones para maximizar una recompensa a lo largo del tiempo. No tiene acceso a datos etiquetados, sino que aprende probando diferentes acciones y vi√©ndose recompensado o sancionado seg√∫n los resultados.

üîç **Por ejemplo:**  
Imagina que un agente quiere aprender a jugar al ajedrez. Cada vez que gana, recibe una recompensa. Si pierde, la recompensa es baja o negativa. Con el tiempo, el agente aprende qu√© movimientos le llevan a ganar m√°s.

### 2 ejemplos de aplicaci√≥n:
1. **Juegos de video** (como AlphaGo o Deep Q-Networks): Los algoritmos aprenden a jugar mejor jugando miles de partidas y recibiendo recompensas por ganar.
2. **Rob√≥tica y automatizaci√≥n** (como un robot que aprende a caminar o navegar): El robot recibe recompensas cuando se mueve bien o evi

### CoT (Chain-of-Thought) prompting

In [None]:
# Prompts SIN CoT y CON CoT (Bayes) ‚Äî nscale-compatible

from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

problema = (
    "En una poblaci√≥n, 1% tiene la enfermedad. La prueba tiene 90% de sensibilidad y 90% de especificidad. "
    "Si una persona da positivo, ¬øcu√°l es la probabilidad (en %) de que realmente est√© enferma?"
)

parser = StrOutputParser()

# SIN CoT: SOLO porcentaje en una l√≠nea (recorta tokens)
endpoint_sin = HuggingFaceEndpoint(
    repo_id=MODEL_ID, task="conversational",
    huggingfacehub_api_token=HF_TOKEN, temperature=0.0, max_new_tokens=6
)
llm_sin = ChatHuggingFace(llm=endpoint_sin)

prompt_sin_cot = ChatPromptTemplate.from_messages([
    ("system", "Devuelve SOLO un n√∫mero en formato porcentaje (ej: 8.33%). "
               "Sin explicaciones, sin ecuaciones, sin texto extra."),
    ("human", "{q}")
])

# CON CoT: piensa paso a paso y cierra con una l√≠nea final
endpoint_con = HuggingFaceEndpoint(
    repo_id=MODEL_ID, task="conversational",
    huggingfacehub_api_token=HF_TOKEN, temperature=0.0, max_new_tokens=256
)
llm_con = ChatHuggingFace(llm=endpoint_con)

prompt_con_cot = ChatPromptTemplate.from_messages([
    ("system", "T√≥mate tu tiempo y piensa paso a paso usando Bayes. "
               "Al final, da una sola l√≠nea con: 'Respuesta final: <n>%'"),
    ("human", "{q}")
])

print("=== SIN CoT ===")
print((prompt_sin_cot | llm_sin | parser).invoke({"q": problema}))

print("\n=== CON CoT ===")
print((prompt_con_cot | llm_con | parser).invoke({"q": problema}))

=== SIN CoT ===
9.09%

=== CON CoT ===
Vamos a resolver este problema paso a paso usando el **teorema de Bayes**.

---

### Datos del problema:

- Probabilidad de tener la enfermedad (prevalencia):  
  \( P(E) = 1\% = 0.01 \)

- Probabilidad de no tener la enfermedad:  
  \( P(\neg E) = 1 - 0.01 = 0.99 \)

- Sensibilidad de la prueba (probabilidad de dar positivo si tienes la enfermedad):  
  \( P(T^+ | E) = 90\% = 0.90 \)

- Especificidad de la prueba (probabilidad de dar negativo si no tienes la enfermedad):  
  \( P(T^- | \neg E) = 90\% = 0.90 \)

Esto implica que:

- El error de falsa positiva es \( P(T^+ | \neg E) = 1 - 0.90 = 0.10 \)

Nos piden:  
**Probabilidad de que una persona realmente tenga la enfermedad dado que dio positivo.**  
Es decir:  
\( P(E | T^+) = ? \)

---

### Usamos el teorema de Bayes:

\[
P(E | T^+) = \frac{P(T^+ | E) \cdot P(E)}{P(T^+)}
\]

Donde \( P(T^+) \) es la probabilidad total de dar positivo. Para calcularlo, usamos el **teorema de la probabilidad t

### Salida estructurada (JSON Output Parser)

In [None]:
# Salida estructurada (JSON) con output parser
import json
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

json_prompt = ChatPromptTemplate.from_template(
    """
    Eres un asistente que devuelve SIEMPRE JSON v√°lido. Dado un tema, devuelve un objeto con:
    - "titulo": string
    - "puntos_clave": lista de 3 strings
    - "dificultad": uno de ["b√°sico", "intermedio", "avanzado"]
    Responde SOLO con JSON v√°lido sin texto adicional.
    Tema: {tema}
    """
)

json_text = (json_prompt | llm | StrOutputParser()).invoke({"tema": "RAG"})
print(json_text)

data = json.loads(json_text)
assert set(["titulo", "puntos_clave", "dificultad"]).issubset(data.keys())
print("JSON v√°lido con las claves requeridas.")


{
  "titulo": "RAG (Retrieval-Augmented Generation)",
  "puntos_clave": [
    "RAG combina la recuperaci√≥n de informaci√≥n de una base de conocimientos con la generaci√≥n de texto para mejorar la precisi√≥n y relevancia.",
    "Permite que los modelos de lenguaje utilicen informaci√≥n de documentos externos en tiempo real durante la generaci√≥n de respuestas.",
    "Reduce el riesgo de generar contenido fabricado al basarse en fuentes verificadas de informaci√≥n."
  ],
  "dificultad": "intermedio"
}
JSON v√°lido con las claves requeridas.


## Ejercicios ‚Äî Parte 2

Resuelve los siguientes ejercicios. Modifica prompts y par√°metros si es necesario y justifica brevemente tus decisiones (en una celda de texto).


### Ejercicio 2.1 ‚Äî Zero-shot vs Few-shot

- Tarea: explicar ‚Äúregularizaci√≥n L2‚Äù en 3 vi√±etas claras para un p√∫blico t√©cnico.
- Paso 1 (zero-shot): crea un prompt sin ejemplos y observa el resultado.
- Paso 2 (few-shot): agrega 1-2 ejemplos de estilo y compara la salida.
- Pregunta gu√≠a: ¬ømejor√≥ la precisi√≥n o claridad con pocos ejemplos? Justifica.


In [None]:
def zero_shot_l2() -> str:
    # TODO: construir prompt zero-shot (3 vi√±etas) y llamar al LLM
    raise NotImplementedError

def few_shot_l2() -> str:
    # TODO: construir prompt con 1-2 ejemplos y llamar al LLM
    raise NotImplementedError

print("\n=== ZERO-SHOT ===\n")
print(zero_shot_l2())

print("\n=== FEW-SHOT ===\n")
print(few_shot_l2())

### Ejercicio 2.2 ‚Äî Chain-of-Thought (CoT)

- Tarea: dado un problema de evaluaci√≥n de modelos, razonar paso a paso y entregar una conclusi√≥n final breve.
- Problema sugerido: ‚Äú¬øPor qu√© accuracy puede ser enga√±oso en un dataset muy desbalanceado y qu√© m√©trica alternativa usar√≠as?‚Äù
- Pista: pide expl√≠citamente ‚Äúrazona paso a paso y luego da una respuesta final breve en una l√≠nea‚Äù.


In [None]:
def cot_razonamiento(problema: str) -> str:
    # TODO: pedir "razona paso a paso" y cerrar con una l√≠nea final
    raise NotImplementedError

problema: str = "¬øPor qu√© accuracy puede ser enga√±oso en un dataset muy desbalanceado y qu√© m√©trica alternativa usar√≠as?"
print(cot_razonamiento(problema))

### Ejercicio 2.3 ‚Äî Role prompting

- Tarea: explicar el ‚Äúsesgo de selecci√≥n‚Äù a un equipo de data engineering con ejemplos concisos.
- Rol: ‚ÄúAct√∫a como l√≠der t√©cnico de datos; s√© pragm√°tico y directo, con vi√±etas concretas‚Äù.
- Objetivo: evaluar c√≥mo cambia el estilo bajo un rol t√©cnico espec√≠fico.


In [None]:
def explicar_sesgo_seleccion() -> str:
    # TODO: role "l√≠der t√©cnico de datos", 3 vi√±etas + 1 ejemplo pr√°ctico
    raise NotImplementedError

print(explicar_sesgo_seleccion())