## 📘 Introducción a los LLMs y al Prompt Engineering

### Glosario de Conceptos

#### ¿Qué es un LLM y cómo funciona?

Un **LLM (Large Language Model)** es un modelo de lenguaje basado en aprendizaje profundo, entrenado con grandes volúmenes de texto para entender y generar lenguaje humano. Está diseñado para realizar tareas como:

- Completar textos
- Traducir idiomas
- Responder preguntas
- Generar código
- Resumir contenido

Los LLMs se basan principalmente en la **arquitectura Transformer**, donde la atención es el mecanismo clave para procesar texto en paralelo y comprender el contexto.

**Funcionamiento general:**

1. **Input (Prompt):** El usuario proporciona una instrucción o contexto.
2. **Tokenización:** El texto se convierte en tokens (fragmentos de palabras).
3. **Procesamiento:** El modelo calcula relaciones entre tokens usando capas de atención.
4. **Output:** El modelo genera una respuesta (texto, código, etc.) como continuación lógica del prompt.

---

## 🧠 Fundamentos del Prompting

El **prompting** es el arte de diseñar entradas efectivas para obtener respuestas útiles de un modelo LLM. Existen tres enfoques comunes:

### ✅ Zero-shot Prompting

Consiste en hacer una solicitud directa al modelo **sin proporcionar ejemplos previos**.

```text
Prompt:
"Resume el siguiente texto en una oración."
```

### ✅ Few-shot Prompting
Se proporciona al modelo uno o más ejemplos antes de realizar la solicitud. Esto le ayuda a entender el formato o la lógica deseada.

```text
Prompt:
Texto: "El cielo está nublado y podría llover."
Resumen: "Podría llover pronto."

Texto: "Hace calor y hay mucho sol."
Resumen:
```

### ✅ Chain-of-Thought (CoT) Prompting
Implica pedirle al modelo que razone paso a paso, como si pensara en voz alta. Esto permite respuestas más precisas para tareas de lógica, cálculo o análisis.

```text
Pregunta:
Si María tiene 5 manzanas y le da 2 a Juan, ¿cuántas le quedan?

Respuesta:
Primero, María tiene 5 manzanas.
Luego, le da 2 a Juan.
Entonces, le quedan 3 manzanas.
```

### 🔠 Tokens, Embeddings y Generación de Texto
#### 🎯 Tokens

Los LLMs no procesan texto directamente, sino que lo dividen en tokens, que pueden ser palabras, sílabas o incluso fragmentos de palabras.

```text
Texto: "Hola mundo"
Tokens: [ "Hola", " mundo" ]
```

#### 🧬 Embeddings

Cada token se transforma en un vector numérico conocido como embedding, que captura información semántica. Los embeddings permiten al modelo entender similitudes y relaciones entre palabras.

####  ✍️ Generación de Texto

La generación de texto se realiza token por token, prediciendo la siguiente palabra más probable según el contexto anterior. El resultado final es una secuencia coherente y contextual.

In [None]:
from google import genai
from getpass import getpass
GEMINI_API_KEY = getpass('Enter API key: ')

In [None]:
import google.generativeai as genai

# Configura tu API key (asegúrate de definir GEMINI_API_KEY correctamente antes)
genai.configure(api_key=GEMINI_API_KEY)

# Usa el modelo correcto
model = genai.GenerativeModel('gemini-2.0-flash')

# Llama a generate_content correctamente
response = model.generate_content("Actúa como profe de inglés y explica el pasado imperfecto con ejemplos.")

# Imprime el resultado
print(response.text)

## 🧩 Modelos LLM Multimodales

#### ¿Qué son?

Los **LLMs multimodales** son modelos de lenguaje capaces de procesar y generar contenido no solo en texto, sino también a partir de otras modalidades como **imágenes**, **audio** y **video**. Esto permite una interacción más natural y enriquecida con la inteligencia artificial.

---

#### 🧪 Ejemplos de uso con Gemini

- 🖼️ **Descripción de imágenes**: interpretar el contenido visual y generar descripciones en lenguaje natural.
- 🔊 **Transcripción de audio**: convertir voz a texto de manera automática.
- 😊 **Análisis de sentimiento**: detectar emociones y tono a partir de texto o voz.

---

#### ⚙️ Parámetros importantes

Al usar LLMs multimodales, se pueden ajustar varios **parámetros de configuración** para optimizar resultados:

- `temperature`: controla la creatividad de las respuestas (valores bajos generan respuestas más precisas).
- `model`: selección del modelo adecuado (ej. `gemini-2.0-pro`, `gemini-2.0-flash`, etc.).
- `max_output_tokens`: define la longitud máxima de la respuesta generada.

---

#### 💡 Ventajas clave

- Interacción más rica y contextual.
- Permite soluciones inclusivas y accesibles.
- Aplicaciones en educación, salud, diseño, etc.

---

#### 🔗 Recurso útil

- [Gemini Multimodal API](https://aistudio.google.com/)

In [None]:
import google.generativeai as genai
genai.configure(api_key=GEMINI_API_KEY)

model = genai.GenerativeModel('gemini-2.0-flash')

response = model.generate_content(
    "Actúa como profe de inglés, y dame ejemplos para mejorar vocabulario.",
    generation_config={
        "temperature": 0.1,
        "max_output_tokens": 500
    }
)

print(response.text)

In [None]:
from PIL import Image
import requests
from io import BytesIO
import google.generativeai as genai

genai.configure(api_key=GEMINI_API_KEY)

image_url = "https://kinsta.com/es/wp-content/uploads/sites/8/2019/09/jpg-vs-jpeg.jpg"
response = requests.get(image_url)
img = Image.open(BytesIO(response.content))

img_byte_arr = BytesIO()
img.save(img_byte_arr, format='JPEG')
img_bytes = img_byte_arr.getvalue()

model = genai.GenerativeModel('gemini-2.0-flash')

# Send the prompt with image
response = model.generate_content(
    [
        "Describe la escena en la imagen usando palabras sencillas para que un estudiante principiante pueda entenderla.",
        {"mime_type": "image/jpeg", "data": img_bytes}
    ]
)

# Print the result
print(response.text)

## 💻 Generación de Código con LLMs

### Introducción

Los **Modelos de Lenguaje de Gran Escala (LLMs)** no solo comprenden texto, también pueden **generar código** en múltiples lenguajes de programación. Gracias a su capacidad de aprender patrones sintácticos y semánticos, los LLMs son útiles para tareas como:

- Escribir funciones y scripts desde cero
- Explicar fragmentos de código
- Traducir código entre lenguajes
- Automatizar tareas repetitivas
- Resolver problemas paso a paso

Uno de los principales beneficios es la **aceleración del desarrollo**, especialmente para principiantes o para quienes buscan prototipar rápidamente. Sin embargo, es importante **verificar la validez y seguridad** del código generado.

---

### 🧪 Actividad: Traductor palabra por palabra en Python

#### Enunciado

Usa **Gemini API** para generar un script en Python que:

- Reciba como entrada una oración en inglés.
- Devuelva la traducción **palabra por palabra** al español.
- Se asuma que el modelo es un **experto en Python** y proporcione una solución funcional y clara.

In [None]:
import google.generativeai as genai
genai.configure(api_key=GEMINI_API_KEY)
model = genai.GenerativeModel('gemini-2.0-flash')
response = model.generate_content("Eres un experto en python. Escribe un código en Python que tome una oración en inglés y lo traduzca cada palabra al español")
print(response.text)

### **Prompt Template**

In [None]:
prompt_template = """
Eres un experto en programación, escribiendo código limpio en python y escribes comentarios en cada línea de código.
a continuación, {pregunta}.
"""
pregunta = "Crea un diccionario"
prompt = prompt_template.format(pregunta=pregunta)
print(prompt)

In [None]:
import google.generativeai as genai
genai.configure(api_key=GEMINI_API_KEY)
model = genai.GenerativeModel('gemini-2.0-flash')
response = model.generate_content(prompt)
print(response.text)

In [None]:
#Implementación de modelo que razona 'experimental gemini 2.0 flash'
import google.generativeai as genai
genai.configure(api_key=GEMINI_API_KEY)
model = genai.GenerativeModel('gemini-2.0-flash-thinking-exp')
response = model.generate_content(prompt)
print(response.text)

In [None]:
from IPython.display import display, Markdown
import google.generativeai as genai

#Implementación de modelo que razona 'experimental gemini 2.0 flash'
prompt_template = """
Eres un experto en programación, escribiendo código limpio en python y escribes comentarios en cada línea de código.
Explicame este código con detalle y como aplicarlo.
a continuación,
{codigo}.

El resultado deve estar en formato Markdown.
"""

codigo = """{ # Inicia la definición del diccionario con una llave de apertura {.
    "clave_texto": "valor de ejemplo", # Define el primer par clave-valor: "clave_texto" apunta a una cadena.
    "clave_numero": 123,             # Define el segundo par clave-valor: "clave_numero" apunta a un número entero.
    "clave_booleano": True,          # Define el tercer par clave-valor: "clave_booleano" apunta a un valor booleano.
    "clave_lista": [1, 2, 3]         # Define el cuarto par clave-valor: "clave_lista" apunta a una lista.
} # Cierra la definición del diccionario con una llave de cierre }.
"""

prompt = prompt_template.format(codigo=codigo)

print(prompt)
genai.configure(api_key=GEMINI_API_KEY)
model = genai.GenerativeModel('gemini-2.0-flash-thinking-exp')
response = model.generate_content(prompt)
display(Markdown(response.text))

# 💻 3. Generación de Código y Hugging Face

## 🧾 Generación y explicación de código mediante prompts

Los **Modelos de Lenguaje de Gran Escala (LLMs)** pueden generar fragmentos de código fuente a partir de instrucciones en lenguaje natural. Esto se logra mediante **prompts** bien diseñados que indican al modelo qué tipo de código se desea obtener. Por ejemplo, se puede pedir al modelo:

- Que escriba una función específica.
- Que traduzca código de un lenguaje a otro.
- Que explique paso a paso lo que hace un bloque de código.

Esta capacidad transforma al LLM en un asistente de programación que puede ser útil tanto para principiantes como para desarrolladores avanzados.

---

## 🤗 Uso de la librería Transformers de Hugging Face

La biblioteca **Transformers** de [Hugging Face](https://huggingface.co/transformers/) permite acceder y trabajar con una gran variedad de modelos preentrenados, incluyendo aquellos diseñados para tareas de generación de código como:

- `CodeT5`
- `StarCoder`
- `GPT-2` y `GPT-Neo` con fine-tuning
- `Phi`, `CodeGen`, entre otros

Características clave de la librería:

- Compatibilidad con PyTorch y TensorFlow.
- Carga sencilla de modelos y tokenizadores.
- Interfaz de alto nivel para inferencia y entrenamiento.
- Integración con APIs como Google Generative AI, OpenAI o DeepSpeed.

---

## ⚖️ Ventajas y desafíos del uso de LLMs en programación

### ✅ Ventajas
- **Ahorro de tiempo:** Los desarrolladores pueden generar funciones, scripts y estructuras básicas en segundos.
- **Automatización:** Es posible automatizar tareas repetitivas como generación de boilerplate, validaciones o transformaciones de datos.
- **Soporte educativo:** Ideal para aprender programación, entender errores y practicar con ejemplos guiados.

### ⚠️ Desafíos
- **Alucinaciones:** El modelo puede inventar funciones o estructuras no válidas, incluso si su sintaxis parece correcta.
- **Seguridad:** Puede generar código vulnerable si no se aplican filtros o validaciones.
- **Dependencia excesiva:** Usar el modelo sin entender el código puede llevar a una pérdida de criterio técnico o errores en producción.

### 🤗 **Hugging Face**

**Hugging Face** es una plataforma y comunidad de código abierto enfocada en la **inteligencia artificial** y el **procesamiento de lenguaje natural (NLP)**. Es ampliamente reconocida por facilitar el acceso a modelos de lenguaje preentrenados y herramientas para desarrolladores, investigadores y entusiastas de la IA.

---

#### 🔧 ¿Qué ofrece Hugging Face?

- **Transformers**: biblioteca en Python para utilizar modelos de lenguaje como BERT, GPT-2, T5, entre otros. Compatible con PyTorch y TensorFlow.
- **Model Hub**: repositorio con miles de modelos preentrenados listos para usar.
- **Datasets**: colección de conjuntos de datos públicos para entrenamiento y evaluación de modelos.
- **Spaces**: plataforma para crear y compartir aplicaciones de IA usando Gradio, Streamlit o similares.
- **Tokenizers**: herramientas para convertir texto en tokens de forma eficiente, fundamentales en NLP.

---

#### 💡 Aplicaciones comunes

- Generación de texto
- Traducción automática
- Clasificación de sentimientos
- Resumen de textos
- Chatbots y asistentes virtuales
- Pregunta-respuesta (Q&A)

In [None]:
from transformers import MarianMTModel, MarianTokenizer
model_name = "Helsinki-NLP/opus-mt-en-es"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

In [None]:
texto_ingles = ["Hello, how are you?", "This is a translation test."]
tokens = tokenizer(texto_ingles, return_tensors="pt", padding=True)

In [None]:
traduccion_tokens = model.generate(**tokens)
traduccion_texto = tokenizer.batch_decode(traduccion_tokens, skip_special_tokens=True)
print(traduccion_texto)

In [None]:
for i, t in zip(texto_ingles, traduccion_texto):
  print(f"Inglés: {i} - Español: {t}")

### 🔍 **RAG (Retrieval-Augmented Generation)**

**RAG (Generación Aumentada con Recuperación)** es una técnica que combina **modelos generativos** (como los LLMs) con un **sistema de recuperación de información**. Su objetivo es mejorar las respuestas del modelo accediendo a fuentes de conocimiento externas en tiempo real.

---

#### 🧠 ¿Cómo funciona?

1. **Consulta**: El usuario envía una pregunta o prompt.
2. **Recuperación**: El sistema busca información relevante en una base de datos o colección de documentos (por ejemplo, usando un motor tipo vectorial como FAISS o Elasticsearch).
3. **Generación**: El modelo LLM usa la información recuperada para generar una respuesta más precisa y actualizada.

---

#### 📌 Características clave

- No requiere reentrenar el modelo base.
- Permite respuestas más **contextualizadas** y **actualizadas**.
- Ideal para sistemas que usan datos privados, específicos o en constante cambio.

---

#### 🧪 Ejemplos de uso

- Asistentes de atención al cliente que consultan una base de conocimientos.
- Sistemas de recomendación basados en documentos.
- Aplicaciones empresariales que combinan IA generativa con datos internos.

---

#### ⚖️ Ventajas vs Fine-Tuning

| RAG                                  | Fine-Tuning                          |
|--------------------------------------|--------------------------------------|
| Usa documentos externos              | Modifica el modelo base              |
| No necesita entrenamiento adicional  | Requiere entrenamiento y cómputo     |
| Respuestas actualizadas y dinámicas | Respuestas más coherentes y estables |

In [None]:
documentos = {
    "IA": "La inteligencia artificial es un campo de la informática que se centra en la creación de sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, como reconocer voz, imágenes, tomar decisiones o resolver problemas.",
    "RAG": "Retrieval-Augmented Generation (RAG) es una técnica de IA que combina búsqueda de información en bases de datos o documentos con modelos generativos, permitiendo respuestas más precisas y basadas en conocimiento actualizado.",
    "Machine Learning": "El aprendizaje automático es una rama de la inteligencia artificial que permite a las computadoras aprender de datos y mejorar su rendimiento sin ser programadas explícitamente para cada tarea."
}

In [None]:
def recuperar_contexto(pregunta):
  for tema, contenido in documentos.items():
    if tema.lower() in pregunta.lower():
      return contenido
    return "No se encontro información relevante en la base de conocimientos"

In [None]:
def generar_respuesta(pregunta):
  contexto = recuperar_contexto(pregunta)
  prompt = f"""Usa el siguiente contexto para responder la pregunta de manera clara y concisa \n\n Contexto: {contexto} \n\n Pregunta: {pregunta}"""
  genai.configure(api_key=GEMINI_API_KEY)
  model = genai.GenerativeModel('gemini-2.0-flash')
  response = model.generate_content(prompt)
  return response.text

In [None]:
pregunta_usuario = "Que es RAG"
respuesta = generar_respuesta(pregunta_usuario)
print(respuesta)

In [None]:
pregunta_usuario = "Que es Cartagena"
respuesta = generar_respuesta(pregunta_usuario)
print(respuesta)