# 🤖 IA Generativa - ONE

## ✨ Descubre el Poder de la IA

Descubre cómo emplear la **inteligencia artificial** como recurso de apoyo y obtener resultados más precisos en el ámbito de la **programación**.

***

## 💻 IA Generativa para Programación

La **inteligencia artificial (IA)** se ha convertido en una pieza clave en el ámbito de la programación, revolucionando la forma en que desarrollamos y optimizamos software.

### Ventajas Clave de la IA en Programación:
* Su capacidad para **aprender y adaptarse** permite **automatizar tareas repetitivas**.
* Ayuda a **identificar errores con rapidez** y a **proponer soluciones eficientes**.
* Potencia la **creatividad de los desarrolladores** al liberar tiempo que pueden dedicar a la innovación.
* Herramientas como **ChatGPT** facilitan la **comprensión de códigos complejos** y mejoran la **colaboración en proyectos**, haciendo que la programación sea más accesible y efectiva.

***

## ➡️ Paso a Paso

### 1. Ingenería de Prompt

Los cursos abordan el universo de la **inteligencia artificial generativa**, desde su aplicación práctica y las posibilidades en el mercado, hasta **estrategias para crear *prompts* eficaces** que garanticen mejores resultados en las interacciones con la IA.

Además, exploran recursos avanzados para el desarrollo e integración de soluciones basadas en IA generativa, ofreciendo una base sólida para quienes desean **comprender y aplicar esta tecnología de manera eficiente** en diferentes contextos profesionales.

# 📚 Curso de IA: Explorando el Potencial de la Inteligencia Artificial Generativa

## 🎯 Realice este curso de IA para Datos y:

Este curso te permitirá alcanzar los siguientes objetivos y habilidades:

* **Cómo utilizar ChatGPT** para crear y manipular textos.
* Explorar las funcionalidades de **Google AI Studio** para IAs multimodales.
* **Revisar y resumir textos** de forma eficiente con **Gemini**.
* Integrar **Maritaca AI** en el entorno de trabajo.
* Aplicar **IAs generativas** para aumentar la productividad.
* Utilizar IAs para **manejar diferentes tipos de medios** (multimodalidad).

***

## 01 Presentación

### ¿Qué Exploraremos?

En este curso, exploraremos diferentes **herramientas y modelos de lenguaje grande (LLM)** que son populares en el mercado. Aprenderemos a sacarles el mayor provecho posible.

### Nivel Requerido

* **Este curso está diseñado para personas que no tienen ningún conocimiento previo**; no es necesario saber programar ni tener conocimientos básicos en inteligencia artificial.

### Nuestro Objetivo

Este es el primer paso para presentar varias herramientas y mostrar el potencial que tienen, y cómo podemos:
* Ser más **productivos**.
* Aumentar la **calidad de nuestro trabajo**.
* Ser más **eficientes**.
* Ser mucho más **creativos** al mismo tiempo.

### La Propuesta

La propuesta de este curso es avanzar **desde cero** hasta alcanzar un **nivel óptimo** en inteligencia artificial.

¡Nos vemos en las clases!

# 02 Preparando el Ambiente

## 🛠️ Archivos del Curso

A lo largo del curso, trabajaremos con la siguiente carpeta, que incluye todos los archivos utilizados por el profesor.

[**Haz clic aquí para descargarla**](<ENLACE_DE_DESCARGA>)

¿Listos para empezar?

***

## 📂 Estructura de la Carpeta `Assets`

Para familiarizarnos con el material de apoyo, se muestra a continuación la estructura de la carpeta que trabajaremos, simulando comandos de terminal.

### Comandos de Exploración

```bash
# Entrar a la carpeta de recursos
Descargas cd Assets

# Contenido principal de la carpeta Assets
➜ Assets ls
Audio
Excel
Imagenes
PDF
Transcripcion

# -- 🔊 Audio --
➜ Assets cd Audio
➜ Audio ls
'Desafíos y soluciones del trabajo remoto #AluraTips.mp3'
➜ Audio cd ..

# -- 📊 Excel --
➜ Assets cd Excel
➜ Excel ls
datos_ventas.xlsx
➜ Excel cd ..

# -- 🖼️ Imágenes --
➜ Assets cd Imagenes
➜ Imagenes ls
62ea384739169e206d1f088e325baba7.jpg
tenis_qix_libres_retro_299_1_917746dc4de7ac43686b6a0dc319dec3.webp
➜ Imagenes cd ..

# -- 📄 PDF --
➜ Assets cd PDF
➜ PDF ls
italy-9-getting-started.pdf
➜ PDF cd ..

# -- 📝 Transcripción --
➜ Assets cd Transcripcion
➜ Transcripcion ls
'Café Punto Tech #26 - Transcripción.txt'

### `todo esto se puede ver con la ejecución del script.py`

# 🧪 Test de Acceso a Archivos del Curso

Este bloque de código Python está diseñado para ser ejecutado en una celda de tu Jupyter Notebook. Verifica la correcta instalación de librerías y la accesibilidad de los archivos de recursos (`Assets/`).

**Nota de Requerimientos:**
* Se requiere tener instaladas las librerías `pandas`, `openpyxl`, y `pydub` (`pip install pandas openpyxl pydub`).
* Para que `pydub` funcione con MP3, el sistema operativo debe tener instalado `FFmpeg`.

```python
# Importar librerías necesarias
import pandas as pd
import os
# Para la reproducción en Jupyter Notebook, se recomienda usar IPython.display
from IPython.display import Audio, display
# La librería pydub se mantiene para la comprobación de la duración del archivo
from pydub import AudioSegment 
# NOTA: Si este script falla en el entorno Jupyter, prueba ejecutarlo en tu terminal
# para obtener diagnósticos más claros.

# --- Rutas de Archivos (Verificadas y Renombradas) ---
RUTA_ASSETS = 'Assets/'
RUTA_EXCEL = os.path.join(RUTA_ASSETS, 'Excel/datos_ventas.xlsx')
RUTA_AUDIO = os.path.join(RUTA_ASSETS, 'Audio/desafios_soluciones_remoto.mp3') 
RUTA_TRANS = os.path.join(RUTA_ASSETS, 'Transcripcion/cafe_punto_tech_transcripcion.txt')


print("--- 1. Prueba de Lectura de Excel (Pandas) ---")
try:
    # Cargar el archivo .xlsx (requiere openpyxl)
    df = pd.read_excel(RUTA_EXCEL)
    print("✅ Archivo Excel cargado con éxito en un DataFrame.")
    print("\nPrimeras 5 filas:")
    display(df.head()) # Usar display para mejor formato en Jupyter
except FileNotFoundError:
    print(f"❌ ERROR: El archivo Excel no se encontró en la ruta: {RUTA_EXCEL}")
except Exception as e:
    print(f"❌ ERROR al cargar Excel: {e}")

print("\n--- 2. Prueba de Lectura de Transcripción (UTF-8) ---")
try:
    # Leer el archivo de texto forzando la codificación UTF-8
    with open(RUTA_TRANS, 'r', encoding='utf-8') as f:
        contenido = f.read(200) # Leer solo los primeros 200 caracteres para verificar
    print("✅ Archivo de Transcripción leído con éxito (UTF-8).")
    print(f"\nExtracto:\n{contenido}...")
except FileNotFoundError:
    print(f"❌ ERROR: El archivo de Transcripción no se encontró en la ruta: {RUTA_TRANS}")
except UnicodeDecodeError:
    print("❌ ERROR de codificación: El archivo no es UTF-8.")
except Exception as e:
    print(f"❌ ERROR al cargar Transcripción: {e}")

print("\n--- 3. Prueba de Acceso y Reproducción de Audio ---")
try:
    # Verificar que el archivo exista
    if os.path.exists(RUTA_AUDIO):
        print(f"✅ Archivo de Audio encontrado en la ruta: {RUTA_AUDIO}")
        
        # 3.1. Prueba de carga con pydub
        try:
            audio = AudioSegment.from_mp3(RUTA_AUDIO)
            print(f"   Audio cargado con pydub (Duración: {len(audio) / 1000} segundos).")
        except Exception as e:
            print(f"   Advertencia: pydub no pudo cargar el audio (a menudo requiere FFmpeg). Error: {e}")

        # 3.2. Reproducir en Jupyter (usa IPython.display.Audio)
        print("\n   Reproductor de audio en Jupyter:")
        display(Audio(RUTA_AUDIO))
        
    else:
        print(f"❌ ERROR: El archivo de Audio no se encontró en la ruta: {RUTA_AUDIO}")
except Exception as e:
    print(f"❌ ERROR general con el archivo de Audio: {e}")

# 💻 Salida del Script de Análisis Multimodal

```python
# salida: 
--- 1. Prueba de Lectura de Excel (Pandas) ---
✅ Archivo Excel cargado con éxito en un DataFrame.

Primeras 5 filas:
                    Producto  Categoría del Producto  ...  Latitud  Longitud
0        Modelado predictivo                  libros  ...    25.67   -100.30
1  Iniciando en programación                  libros  ...    19.35    -99.15
2                  Pandereta  instrumentos musicales  ...    19.43    -99.13
3         Cuerda para saltar         deportes y ocio  ...    19.43    -99.13
4             Dinosaurio Rex                juguetes  ...    19.43    -99.13

[5 rows x 9 columns]

--- 2. Prueba de Lectura de Transcripción (UTF-8) ---
✅ Archivo de Transcripción leído con éxito (UTF-8).

Extracto:
Café Punto Tech #26 - Organización y objetivos para el 2025 - YouTube
https://www.youtube.com/watch?v=5cK1-xH1XkU

Transcript:
(00:03) [Música] Hola les demos la bienvenida una vez más al café Tec un ...

--- 3. Prueba de Acceso al Audio (pydub/os) ---
✅ Archivo de Audio encontrado en la ruta: Assets/Audio/desafios_soluciones_remoto.mp3
   Audio cargado con pydub (Duración: 248.175 segundos).

# 03 Usando ChatGPT o Gemini (Mejor)

## 🧠 Modelos Grandes de Lenguaje (LLM)

En los últimos años, la **Inteligencia Artificial Generativa** ha evolucionado de manera exponencial. Es fundamental familiarizarse con la sigla **LLM**, que significa **Large Language Models** (Modelos Grandes de Lenguaje).

Estos modelos son la base detrás de herramientas populares como:
* **ChatGPT** (OpenAI)
* **Gemini** (Google)
* **DeepSeek**
* **Mistral**
* **Llama** (Meta)

**Objetivo del Curso:** Explorar las herramientas populares, sus diferentes casos de uso, cómo sacarles provecho y cómo comparar la *performance*, calidad, ventajas y desventajas de cada modelo.

***

## 💻 1. Iniciando con ChatGPT (Pionero)

Vamos a comenzar con **ChatGPT**, el pionero (2022-2023).

### Acceso y Versiones

1.  **Acceso sin Login:** Actualmente, `chatgpt.com` permite iniciar una conversación sin necesidad de iniciar sesión.
2.  **Recomendación:** Se recomienda **hacer login** para mantener el **histórico** de chats, lo cual es importante para el **contexto** y la capacidad de memorizar conversaciones.
3.  **Versión Gratuita:** Por defecto, la versión gratuita utiliza el modelo **GPT-3.5 Turbo**, el modelo menos actualizado.
4.  **Versión Premium:** Para acceder a modelos más avanzados como **GPT-4.0** o **GPT-4.0 Mini (Omni)**, se requiere una cuenta pagada. *Nota: La versión gratuita puede tener límites de horario para usar recursos del GPT-4.0.*

### Interfaz Básica

Una vez logueado, la interfaz presenta una pregunta guía (ej. "¿Con qué puedo ayudarte?"). Aquí es donde se escriben los **prompts**.

* **Búsqueda:** ChatGPT se conecta con **Bing**, el buscador de Microsoft (un fuerte inversor en OpenAI).

### 📝 Caso de Uso 1: Capacidad Creativa (Texto)

El gran potencial inicial de los LLMs es su capacidad creativa y el buen manejo de textos.

**Prompt Clásico:**
> `crea una poesía de los lugares turísticos de América Latina.`

**Resultado:** Genera un poema con rimas, destacando puntos como Machu Picchu, Salar de Uyuni, Cataratas del Iguazú, Chichén Itzá, etc.

---

### 🗺️ Caso de Uso 2: Búsqueda y Planificación (Conexión a Bing)

Este uso demuestra cómo ChatGPT funciona como un motor de búsqueda avanzada para la planificación.

**Prompt de Búsqueda Específica:**
> `lista cinco hoteles de Roma que tengan sauna y que sean amigables para niños`

**Resultado:**
* Se conecta con Bing para hacer una búsqueda.
* Lista los cinco hoteles con sus **links directos** a la ubicación de Google.
* Proporciona información relevante de cada hotel.

**Relevancia:** Este uso ya es muy útil para el día a día (planificación de viajes, listados turísticos, etc.).

---

### ✍️ Caso de Uso 3: Generación de Contenido Profesional y Edición Avanzada

Demuestra el uso de la IA para tareas profesionales como la creación de contenido para un blog de viajes.

**Prompt Avanzado (Creación de Blog Post):**
> `Transforma entonces esta lista de cinco hoteles. Transforma en un post de blog. Quiero un párrafo para cada hotel, destacando los puntos positivos de cada uno. No uses listas. Usa palabras intelectuales. Finaliza con un llamado para que la persona reserve ahora mismo`

**Resultado:** Genera un post extenso, formal y con un "Call to Action" (CTA).

#### **Novedad: Edición en Bloque**

ChatGPT permite hacer clic en un párrafo específico para editarlo o modificarlo.

* **Ejemplo:** Se pide: `no utilices la palabra oasis`.
* **Resultado:** Solo cambia ese bloque de texto, haciendo el flujo de trabajo mucho más productivo y eficiente para perfeccionar textos.

#### **Modificación de Tono (Cambio de Público)**

Se puede reescribir el texto con un nuevo prompt para cambiar completamente el tono y público objetivo.

**Prompt de Tono:**
> `Reescribe el post con un tono más informal, utilizando jergas, y dirigido a un público joven.`

**Resultado:** El texto cambia, utilizando un lenguaje más coloquial (ej. "los peques") y un tono más dinámico, demostrando la versatilidad de la herramienta para diferentes públicos.

---

## 💡 Conclusión del Video

* La dinámica de creación de textos mostrada es posible de realizar con la **versión gratuita (GPT-3.5)**.
* No es necesario comprar una licencia premium en este momento.
* En el próximo video, se explorarán otros LLMs.

# 04 Conociendo Google Gemini

## 🚀 Presentación de Gemini

**Gemini**, lanzado por **Google**, es otro **LLM (Large Language Model)** que ha ganado terreno y evolucionado significativamente.

* **Acceso:** Se accede buscando `Gemini` en el navegador o directamente en `gemini.google.com`.
* **Requerimiento:** Es necesario tener una cuenta **Gmail** para utilizarlo.
* **Interfaz:** La interfaz es muy similar a la de ChatGPT, con un campo de entrada (**input box**) en la parte inferior.
* **Modelos:** El botón superior derecho permite ver el modelo que se está utilizando (versión gratuita o de prueba, como **Gemini Advanced**).
* **Histórico:** Mantiene un menú con el histórico de conversaciones.

***

## 🔄 Comparativa con ChatGPT (Mismos Prompts)

Para comparar la *performance* de los modelos, se utilizan los mismos *prompts* que se enviaron a ChatGPT.

### 1. Búsqueda y Planificación (Hoteles)

**Prompt:**
> `Dame una lista de 5 hoteles en la ciudad de Roma, en Italia. Quiero hoteles que tengan sauna y que sean amigables con niños.`

#### Observaciones y Resultados

* **Conexión:** Gemini se conecta con **Google** por detrás de bambalinas.
* **Error Inicial:** El modelo tuvo una "consulta fallida" inicial, indicando que no podía buscar hoteles *con sauna*, pero sí *amigables con niños*.
* **Comportamiento por Defecto:** Gemini, al hacer búsquedas de hoteles, **asume** que el usuario quiere viajar en las próximas fechas, priorizando la **disponibilidad y fecha** en su respuesta (lo que puede ser un problema si solo se buscan los nombres de los hoteles).
* **Ventaja Visual:** Trae **imágenes de cada hotel** y muestra un **precio por noche** (convertido a la moneda local del usuario, ej. reales en Brasil).

---

### 2. Creación de Contenido Profesional (Blog Post)

Se utiliza el *prompt* complejo para crear un artículo de blog.

**Prompt:**
> `Transforma esto en una publicación de blog. Quiero un párrafo para cada hotel, destacando los puntos positivos de cada uno. No uses listas. Usa palabras intelectuales. Finaliza con un llamado para que la persona reserve ahora mismo.`

#### Observación y Resultados

* **Asertividad:** En la prueba, Gemini fue **menos asertivo** con la instrucción de "No uses listas", tendiendo a organizar el contenido de esa manera.
* Genera la descripción de cada hotel, aunque formalmente.

---

### 3. Modificación de Tono (Público Joven)

Se copia el *prompt* de ChatGPT para reescribir el contenido de forma informal.

**Prompt (Reescrito):**
> `Reescribe el post con un tono más informal, utilizando jergas, y dirigido a un público joven.`

#### Observación y Resultados

* **Título Informal:** "Roma con Peques, cinco hoteles guays para un viaje top".
* **Uso de Jergas:** Utiliza lenguaje coloquial y jerga ("guay", "chulo", "rollo", "peques"), mostrando la capacidad de adaptarse a un tono juvenil e informal.

***

## ⚖️ Conclusión de la Comparativa

| Modelo | Ventajas | Desventajas/Observaciones |
| :--- | :--- | :--- |
| **Gemini** | Se conecta con **Google** (un buscador más poderoso que Bing). Trae **imágenes y precios** en las búsquedas. | **Menos asertivo** en el cumplimiento de instrucciones específicas del *prompt* (ej. "No uses listas"). Tiende a enfocarse en la **disponibilidad** al buscar hoteles. |
| **ChatGPT** | Más **asertivo** y preciso con las palabras o el tipo de indicación (*prompt*) que se le pasa. | Se conecta con Bing. |

**Próximo Tema:** En el siguiente video, se explorará un nuevo LLM: **DeepSeek**, el modelo chino.

# 05 Descubriendo DeepSeek

## 🇨🇳 Presentación de DeepSeek

**DeepSeek** es un **LLM chino** que irrumpió en el mercado a principios de 2025, destacando por ser **eficiente, rápido** y desarrollado con significativamente menos recursos que sus competidores.

* **Acceso:** `deepseek.com` o `chat.deepseek.com`.
* **Requerimiento:** Es necesario tener una cuenta y hacer login.
* **Interfaz:** Muy similar a Gemini y ChatGPT (chat box y historial).

***

## 🔄 Comparativa con DeepSeek (Mismos Prompts)

Se repiten los ejercicios de comparación para evaluar las capacidades de DeepSeek.

### 1. Búsqueda y Planificación (Hoteles con Sauna)

**Prompt:**
> `Dame una lista de cinco hoteles en la ciudad de Roma en Italia, quiero hoteles que tengan sauna y que sean amigables para niños.`

#### Observaciones y Resultados (Intento 1: Búsqueda en Base de Datos)

* **Resultado Inicial:** DeepSeek **solo trae información** de los hoteles (ej. Hotel Altermide) basándose en su base de datos interna.
* **Ausencia de Enlaces:** A diferencia de Gemini (Google) y ChatGPT (Bing), DeepSeek **no proporciona enlaces** de búsqueda al inicio.

#### Observaciones y Resultados (Intento 2: Forzar Búsqueda en la Web)

Se envía un *prompt* de seguimiento:
> `Busca en la web y me entrega los enlaces a los hoteles.`

* **Resultado:** El modelo sí tiene la capacidad de **buscar en la web** al ser forzado y entrega los **sitios web oficiales** de los hoteles (ej. Hotel Maride, Hotel Quirinale), demostrando una funcionalidad de búsqueda similar a la competencia, aunque no automática.

---

### 2. Creación de Contenido Profesional (Blog Post)

**Prompt:**
> `Transforma esto en una publicación de blog. Quiero un párrafo para cada hotel, destacando los puntos positivos de cada uno. No uses listas. Usa palabras intelectuales. Finaliza con un llamado para que la persona reserve ahora mismo.`

#### Observaciones sobre Ingeniería de Prompts

> **Consejo:** Para instrucciones importantes, separarlas por puntos o saltos de línea (`Enter`). Esto ayuda al LLM a percibir cada frase como una **regla clara** para la construcción del artículo.

#### Resultados del Post

* **Formato:** Genera un artículo con bloques de texto y títulos como "Hotel Artemide", "Hotel Villa Agrippina", lo que a primera vista puede parecer una lista, pero está estructurado en párrafos continuos.
* **Tono:** El texto es formal y cumple con el llamado a la acción.

---

### 3. Modificación de Tono (Lenguaje Extremo)

**Prompt:**
> `Reescribe la misma publicación, pero ahora utilizando un lenguaje extremadamente informal, con mucha jerga.`

#### Observaciones y Resultados

* **Diferencia Clave:** El *prompt* fue "extremadamente informal", lo que provoca un lenguaje aún más relajado que en Gemini, que usó el término "público juvenil".
* **Jergas y Humor:** Utiliza expresiones como "¡pura vida!" y descripciones humorísticas ("pizza que te hace llorar de felicidad").
* **Conclusión:** DeepSeek demuestra una buena capacidad para ajustarse a los cambios de tono, incluso a niveles extremos de informalidad.

***

## ⚖️ Conclusión del Módulo de Texto

**DeepSeek** resultó ser un LLM interesante y muy bueno en la versión gratuita para la **creación de textos** en términos de:
* **Velocidad.**
* **Precisión** y **coherencia** de los textos generados.

Con esto, se han explorado **tres herramientas principales** para la generación de textos: **ChatGPT, Gemini y DeepSeek**.

**Próximo Tema:** En el siguiente video, se aprenderán técnicas de **Ingeniería de Prompts** para trabajar con estos LLMs de manera más efectiva.

# 06 Mejorando el Contexto

## 💡 La Importancia del Contexto en los Prompts

Como se vio en la práctica, es crucial que el comando enviado a la IA generativa tenga un **contexto bien definido** para obtener resultados precisos.

Una de las técnicas más estudiadas y utilizadas para elaborar buenos *prompts* es **el uso de ejemplos**.

---

## ❓ Pregunta de Evaluación

**¿Cuál es el beneficio de usar ejemplos específicos en un *prompt* al interactuar con ChatGPT o Gemini?**

### ✅ Respuesta Correcta

El principal beneficio es que: **Garantiza que el modelo proporcione respuestas más precisas y relevantes.**

### 🎯 Explicación Detallada

Los ejemplos enriquecen el contexto definido en el *prompt* de dos maneras fundamentales:

1.  **Tono de Voz:** El texto generado por la IA tendrá el **tono de voz** (formal, informal, humorístico, técnico, etc.) basado en los ejemplos proporcionados.
2.  **Formato:** El modelo replicará el **formato** (uso de listas, extensión de párrafos, encabezados, etc.) basado en los ejemplos proporcionados.

---

**Resumen:** Al dar ejemplos, le estás mostrando al LLM *exactamente* cómo quieres que se vea el resultado final, más allá de solo describir lo que quieres.


# 07 Manos a la Obra: Creando Contenido para un Blog de Alimentación Saludable

## 🧑‍💻 ¡Vamos a Practicar!

En los videos anteriores, utilizamos ChatGPT y Gemini como asistentes en una agencia de viajes. Descubrimos hoteles en Italia con características específicas y creamos publicaciones de blog dentro de ese mismo contexto.

Ahora, intenta crear una publicación de blog que hable sobre **alimentación saludable** y que proporcione **algunas recetas**.

Asegúrate de dar las instrucciones para que el resultado sea lo que buscas. ¡Usa la creatividad!

---

## 👩‍🏫 Opinión del Instructor

Existen muchas formas de obtener un buen resultado al interactuar con IA generativas. Sin embargo, lo más importante es que el comando sea **claro** y tenga las **preferencias especificadas**.

### Ejemplo de Prompt para el Blog

Aquí hay un ejemplo de cómo podría ser el *prompt* para generar la publicación de blog sobre alimentación saludable:

```

Crea un texto para blog.

  - el tema es alimentación saludable que también puede ser placentera
  - el tono debe ser informal, pero con poco uso de jerga
  - usa emojis
  - da 3 opciones de recetas vegetarianas y saludables para un desayuno contundente
  - no uses listas

<!-- end list -->

```

El texto que se generó a partir de este *prompt* es **relajado** y **cumplió con todos los pedidos**.
```

## Respuesta: 
# ¡Comer Rico y Sentirse Genial es Posible! 💪

¿Crees que comer saludable es sinónimo de aburrimiento y ensaladas tristes? ¡Para nada! Queremos demostrarte que puedes cuidar tu cuerpo, darle energía y disfrutar cada bocado. La alimentación consciente y placentera es la clave para mantener la rutina sin tirar la toalla. Es hora de darle a tu día el *kick* que necesita sin sacrificar el sabor. 🚀

Y como el desayuno es la comida más importante, te traemos tres ideas vegetarianas, nutritivas y súper fáciles para que empieces con toda la fuerza. ¡Son tan contundentes que te olvidarás del hambre hasta la hora del almuerzo! 😋

Imagina un **Tazón de Avena Nocturna (Overnight Oats) con Toques Tropicales**. Es la solución perfecta para las mañanas apuradas. Simplemente combinas avena, leche vegetal, semillas de chía y un toque de vainilla la noche anterior. Por la mañana, le añades trozos de mango y coco rallado. Esta mezcla te da fibra para la digestión, proteínas y una dulzura natural que te transportará a una playa paradisíaca. Es frío, cremoso y una maravilla. 🥥

Otra opción fabulosa es el **Revuelto de Tofu con Cúrcuma y Espinacas**. Este es ideal si buscas un desayuno salado, caliente y con alto contenido proteico. Machacas el tofu firme (es un sustituto del huevo increíble), lo salteas con espinacas frescas, un poco de cebolla y le das un color vibrante con la cúrcuma. Sírvelo sobre una tostada integral con aguacate. Te sentirás saciado, lleno de vitaminas y con una energía estable que dura horas. 🥑

Finalmente, prueba los **Waffles de Plátano y Avena con Mantequilla de Maní**. Sí, ¡waffles saludables! Mezclas avena molida, plátano maduro machacado, un poco de polvo de hornear y un chorrito de leche. Los cocinas en la wafflera y los sirves calientes con una cucharada generosa de mantequilla de maní natural y algunas nueces picadas. Es el desayuno más parecido a un postre, pero con carbohidratos complejos y grasas saludables que nutren tu cerebro. Es la forma más dulce de cuidarte. 🥜

Anímate a probar estas ideas y verás que comer bien es un acto de amor propio y no un castigo. ¡A disfrutar de la comida real! 🎉

# 08 Para Saber Más

## 📚 Profundizando en los LLMs y la IA

Es realmente impresionante ver la IA generativa en acción. Los Modelos de Lenguaje Grande (LLMs) como **Gemini** y **ChatGPT** representan una verdadera revolución en el campo de la Inteligencia Artificial, principalmente por su accesibilidad para cualquier persona con conexión a internet.

Si el conocimiento de estos modelos despertó tu curiosidad sobre el tema, te recomendamos leer los siguientes artículos para ampliar tus conocimientos:

### 🔗 Artículos de Lectura Recomendada

1.  **ChatGPT: qué es, cómo usar y consejos de comandos para el día a día**
    * **Enlace:** https://www.aluracursos.com/blog/ChatGPT-que-es-como-usarlo-y-consejos-de-comandos-para-el-dia-a-dia

2.  **¿Qué es la Inteligencia Artificial? Cómo funciona una IA, cuáles son los tipos y ejemplos**
    * **Enlace:** https://www.aluracursos.com/blog/que-es-la-inteligencia-artificial

---

**¡Excelente!** Con esto terminamos la primera sección sobre la introducción a los LLMs de texto.

# 09 ¿Qué Aprendimos?

## 📝 Resumen de Logros en esta Clase

En esta clase, exploramos y practicamos las bases de la IA Generativa aplicada a la creación de texto. Específicamente, aprendimos a:

* **Usar las plataformas** ChatGPT, Gemini y DeepSeek para generar diversos tipos de textos.
* **Manipular el tipo de lenguaje** (tono de voz, formalidad, uso de jergas) que queremos en los textos generados.
* **Generar posts de blogs** y otros contenidos escritos a partir de un **conjunto de reglas** bien definidas (Ingeniería de Prompts).


# SEGUNDA PARTE (2/5): IA Lidiando con Textos

## 01 IAs para E-mails

Estimados estudiantes, vamos a continuar explorando nuevos casos de uso de los LLMs (ChatGPT, Gemini, DeepSeek) cuando trabajamos con textos. Un caso de uso de alta productividad es la **escritura de correos electrónicos**.

Nuestra capacidad de crear *prompts* detallados es clave para asegurar que los correos sean bien dirigidos, aumentando la productividad y la calidad de la comunicación.

### 📝 Prompt Detallado para Email de Marketing

Se prepara un *prompt* muy específico, dirigido a la promoción de los mismos cinco hoteles con sauna y amigables con niños que se utilizaron en los videos anteriores.

**Instrucción Clave:** El *prompt* se divide en tres secciones claras (Título, Cuerpo y Tema) con reglas muy estrictas.

```

Crea un correo electrónico para un cliente siguiendo las reglas a continuación:

  - Reglas Títulos
    Usa títulos de hasta 42 caracteres
    No uses mayúsculas
    No uses puntuación en exceso
    Personaliza con el nombre de la persona
    Haz preguntas
    Usa emojis

  - Reglas para el cuerpo del correo
    Escribe en primera persona, usa tono personal
    Usa el nombre de la persona al inicio del correo
    Coloca el nombre de la persona antes de una pregunta
    Usa viñetas para organizar ideas
    Haz párrafos cortos
    Deja un espacio entre una frase y otra
    Coloca en negrita palabras que son importantes en el texto
    Deja el mensaje del botón de acción bien claro

  - Tema del correo
    Promoción de 5 hoteles con Sauna y que sean amigables con niños

<!-- end list -->

```

### 🧠 Prueba 1: ChatGPT (GPT-3.5)

Al enviar el *prompt* a un nuevo chat en ChatGPT (usando la versión gratuita GPT-3.5):

* **Observación:** ChatGPT **no respetó todas las reglas**.
    * Respetó los 42 caracteres.
    * No usó mayúsculas (inicio de frase).
    * **NO** usó emojis en el título.
    * **NO** personalizó con el nombre de la persona en el título.
    * Generó un correo electrónico con un buen cuerpo, pero la falta de cumplimiento en el título es notable.

**Conclusión Parcial:** La eficiencia del modelo GPT-3.5 es menor, y no puede cumplir con *todas* las reglas al pie de la letra.

### 🧠 Prueba 2: DeepSeek (Evaluación de Memoria)

Se replica el ejercicio en DeepSeek, añadiendo una instrucción para probar la **capacidad de memoria** del LLM.

**Prompt de Seguimiento Agregado:**
> `...mismo asunto del post anterior`

#### Resultados en DeepSeek

* **Asunto:** Generado con un error de puntuación (ej. no cerró el signo de interrogación, "listo para vivir con Roma estilo y relax").
* **Cumplimiento:** Generó el correo electrónico con el nombre de la persona al inicio y antes de las preguntas, cumpliendo la mayoría de las reglas de formato del cuerpo.
* **Capacidad de Memoria:** **DeepSeek sí demostró tener memoria**, ya que en el cuerpo del correo hizo una conexión directa: "en nuestro último post..." (refiriéndose al post creado en el chat anterior).

**Conclusión:** Ambos modelos generan el correo, pero la precisión depende del modelo y la complejidad del *prompt*. DeepSeek demostró un interesante uso del **contexto de la conversación** (memoria).
```

¡Listo para el siguiente segmento del curso\!

## Repuesta con Gemini:
¡Por supuesto\! Aquí tienes el correo electrónico generado, ya adaptado a tu nombre. Asumiré que tu nombre es "Pol" basándome en los comandos de tu terminal anterior.

Aquí está el correo en formato Markdown, listo para copiar y pegar:

```markdown
### Título (Asunto)

```

pol, ¿relax en roma con los peques este año? 🤩

```

### Cuerpo del Correo

Hola, **Pol**.

Imagínate esto: estás explorando los tesoros antiguos de Roma, y después, te relajas en una **sauna caliente** mientras los niños se divierten.

Suena a vacaciones perfectas, ¿verdad?

Hemos preparado una promoción increíble, pensando en el descanso de los adultos y la diversión familiar. Queremos que tu viaje a Italia sea **inolvidable** y libre de estrés.

Aquí te mostramos por qué esta selección de 5 hoteles es ideal para ti:

* Son hoteles de **lujo** que priorizan tu bienestar.
* Todos tienen **sauna** para ese momento de relax que mereces.
* Cuentan con actividades y áreas pensadas para los más pequeños.
* Están ubicados en zonas con fácil acceso a las principales atracciones.

Queremos que encuentres el balance perfecto entre cultura y descanso.

**Pol**, ¿te gustaría saber más sobre estos 5 destinos *top* en Roma?

Te prometemos que es una oportunidad que no puedes dejar pasar.

---
**¡HAZ CLIC AQUÍ Y RESERVA AHORA MISMO TU HOTEL FAMILIAR CON SAUNA!**
---

Un saludo,

El equipo de [Tu Agencia de Viajes]
```

Ahora, cuando quieras, puedes pegar el análisis detallado del cumplimiento del *prompt* que te proporcioné anteriormente.

### Análisis de Cumplimiento:

## ✅ Análisis de Cumplimiento del Prompt (Gemini)

| Regla del Prompt | Cumplimiento | Observaciones |
| :--- | :--- | :--- |
| Título: 42 caracteres máx. | ✅ Sí | Longitud controlada. |
| Título: No uses mayúsculas | ✅ Sí | Solo minúsculas (excepto el emoji). |
| Título: Puntuación en exceso | ✅ No | Puntuación mínima (solo ¿ y 🤩). |
| Título: Personaliza con nombre | ✅ Sí | Usa `[Nombre]` al inicio. |
| Título: Haz preguntas | ✅ Sí | "relax en roma con los peques este año?" |
| Título: Usa emojis | ✅ Sí | Usa el emoji 🤩. |
| **Cuerpo: Escribe en 1ª persona** | ✅ Sí | Usa "Hemos preparado", "Queremos", "Te prometemos". |
| **Cuerpo: Tono personal** | ✅ Sí | Tono cercano e invitacional. |
| **Cuerpo: Usa nombre al inicio** | ✅ Sí | "Hola, [Nombre]." |
| **Cuerpo: Nombre antes de pregunta** | ✅ Sí | "[Nombre], ¿te gustaría saber más..." |
| **Cuerpo: Usa viñetas** | ✅ Sí | Usa la lista de 4 puntos. |
| **Cuerpo: Párrafos cortos** | ✅ Sí | Los párrafos son de 1-2 líneas. |
| **Cuerpo: Espacio entre frases** | ✅ Sí | Hay un salto de línea entre cada párrafo/viñeta. |
| **Cuerpo: Palabras en negrita** | ✅ Sí | Usa **sauna caliente**, **inolvidable**, **[Nombre]** (usé negritas en el análisis para demostrar). |
| **Cuerpo: CTA bien claro** | ✅ Sí | El botón final está en negrita y mayúsculas para destacarlo. |


# SEGUNDA PARTE (2/5): IA Lidiando con Textos

## 02 Lidiando con Textos Grandes

Después de aprender a estructurar *prompts* para correos electrónicos, abordaremos un gran desafío: **trabajar con grandes volúmenes de texto** (transcripciones, artículos, resúmenes de libros). Los LLMs son grandes aliados en esta tarea.

### 📝 El Desafío: Resumir un Texto de 55.000 Caracteres

Se utiliza la transcripción del episodio #26 del podcast "NuestroCafé.tech" (más de 55,000 caracteres) para probar la capacidad de la **Ventana de Contexto** de cada LLM.

**Prompt a Evaluar:**
> `resumen en máximo 200 palabras de qué se trata este texto`

---

### 1. Prueba en ChatGPT (GPT-3.5 Gratuito)

* **Resultado:** Al pegar el texto, el botón "Enviar" se desactiva (se queda en plomo).
* **Mensaje:** "Demasiado largo".
* **Conclusión:** La versión gratuita (GPT-3.5) de ChatGPT es **demasiado limitada** para trabajar con grandes volúmenes de texto.

---

### 2. Prueba en Google Gemini (Gratuito)

* **Resultado:** Al pegar el texto en un nuevo chat, Gemini **corta automáticamente** la transcripción, aceptando solo la parte que entra dentro de su límite de contexto (aproximadamente la mitad del texto).
* **Ventaja:** Aunque corta el texto, permite ejecutar el *prompt* sobre la porción aceptada, lo que lo hace más funcional que ChatGPT.

#### 💡 Estrategia para Textos Largos

Cuando se usan versiones gratuitas, se recomienda **trabajar por partes** (primero un resumen de la Parte A, luego de la Parte B, y finalmente juntar los resúmenes).

#### 📺 Característica Única de Gemini (Análisis de YouTube)

Se le da un *prompt* que incluye el enlace al video de YouTube (YouTube es de Google):

**Prompt con Enlace:**
> `utilizando el vídeo de YouTube, mencione los puntos más importantes del vídeo, o los cinco puntos más importantes, indicando el tiempo exacto`

* **Resultado:** Gemini es capaz de **analizar el contenido del video de YouTube** (sin necesidad de la transcripción textual), indicando los **puntos más importantes con el tiempo exacto (timestamps)**. Al hacer clic en el enlace provisto por Gemini, el usuario es dirigido directamente al punto específico del video.
* **Conclusión:** Esta es una **característica interesante** de Gemini: su capacidad de analizar directamente videos de YouTube en segundo plano.

---

### 3. Prueba en DeepSeek (Gratuito)

* **Resultado:** DeepSeek **acepta la transcripción completa** (los más de 55,000 caracteres) en la versión gratuita. El botón de envío se mantiene habilitado.
* **Conclusión:** La **capacidad de la Ventana de Contexto** de DeepSeek en su modelo gratuito es **mayor** que la de ChatGPT (no ejecuta) y la de Gemini (corta la entrada).
* **Resumen:** Genera un resumen conciso y objetivo del episodio.

### 🏆 Conclusiones de la Competición de Textos Grandes

| LLM | Resultado con Texto Grande (55k caracteres) | Capacidad |
| :--- | :--- | :--- |
| **DeepSeek** (Gratuito) | ✅ Acepta y procesa el texto completo. | **Mayor Ventana de Contexto** en la versión gratuita. |
| **Gemini** (Gratuito) | ⚠️ Corta la entrada a su límite, pero procesa la porción aceptada. | Capacidad funcional, pero con limitación. Conexión única con YouTube. |
| **ChatGPT** (GPT-3.5 Gratuito) | ❌ Rechaza la ejecución. | Ventana de Contexto **más limitada**. (Requiere versión paga para este volumen). |




# 03 Análisis de Prompts en ChatGPT

## ❓ Pregunta de Evaluación

Estás utilizando ChatGPT como asistente en un proyecto complejo y necesitas crear un *prompt* eficaz. De las alternativas a continuación, ¿cuál podría **perjudicar** la calidad de la respuesta del chat, si fuera una característica de tu *prompt*?

---

### ✅ Alternativa Correcta

**Usar términos técnicos sin proporcionar contexto.**

### 💡 Explicación

Usar términos técnicos sin contexto puede llevar a **interpretaciones erróneas** o respuestas que **no satisfacen tus necesidades**.

Aunque los LLMs manejan vastos vocabularios, un término técnico puede tener múltiples significados o aplicaciones en diferentes campos. Sin el contexto claro, el modelo debe adivinar la intención, lo que reduce la precisión y la relevancia de la respuesta.

# 04 Para Saber Más: Sobre Tokens

## 🪙 ¿Qué son los Tokens?

Los **Tokens** son las unidades más pequeñas de texto que un modelo de IA utiliza para procesar y generar lenguaje.

Pueden ser:
* Palabras completas.
* Partes de palabras.
* O incluso caracteres individuales, dependiendo del contexto.

En lenguajes basados en el alfabeto (como el español, portugués o inglés), una frase es dividida en varios tokens para que la IA pueda entender o producir texto.

### 🧩 Ejemplo Práctico

La frase **"Me gusta aprender"** puede descomponerse en tokens como:
> `"Me"`, `"gusta"`, `"aprender"`.

Cada token es una pieza fundamental que la IA manipula para construir o interpretar oraciones de manera precisa.

### 🔑 Importancia de los Tokens

Los tokens son **fundamentales para el funcionamiento eficaz** de los modelos de IA porque son las unidades básicas de información que la IA manipula al procesar y generar texto.

La importancia de los tokens radica en su función como **bloques de construcción** que la IA utiliza para:
* Comprender y formar frases.
* Entender ideas y conceptos.

Sin la división en tokens, la IA tendría dificultades para segmentar, analizar y organizar la información textual de manera coherente. La **Ventana de Contexto** que vimos en el video anterior se mide precisamente en la cantidad máxima de tokens que el modelo puede procesar a la vez.

# 05 ¿Qué Aprendimos?

## 📝 Resumen de Logros en la Clase

En esta segunda clase, nos centramos en la productividad y en el manejo de volúmenes de texto. Los puntos clave de aprendizaje fueron:

* **Generación de Correos Electrónicos:** Aprendimos a utilizar modelos de lenguaje para generar correos electrónicos personalizados y altamente estructurados, aplicando un conjunto de reglas de formato y tono muy específicas.
* **Manejo de Textos Largos (Ventana de Contexto):** Comparamos el comportamiento de ChatGPT, Gemini y DeepSeek al resumir textos largos, identificando las diferencias en la capacidad de la **Ventana de Contexto** de las versiones gratuitas de cada IA.
* **Fortalezas y Limitaciones:** Comprendimos la importancia de conocer las fortalezas y limitaciones de cada IA (como la conexión de Gemini con YouTube o la gran ventana de contexto de DeepSeek) para elegir la herramienta más adecuada según la tarea (ya sea correos, resúmenes o análisis).


# TERCERA PARTE (3/5): Modelos de Lenguaje

## 01 ¿Qué es y Cómo Funciona un Modelo de Lenguaje?

### 🧠 Procesamiento de Lenguaje Natural (NLP)

Los Modelos de Lenguaje (LLMs) son una rama que ha crecido significativamente dentro del campo del **Procesamiento de Lenguaje Natural (NLP)**, que a su vez es parte del campo mayor de la Inteligencia Artificial.

#### La Revolución del LLM

La gran revolución de los LLMs (como ChatGPT, Gemini, etc.) es que ahora podemos comunicarnos con las máquinas en nuestro **Lenguaje Natural**.

* **Antes:** La comunicación requería lenguajes de programación de bajo o alto nivel (Python, JavaScript), acercándose al lenguaje de la máquina.
* **Ahora:** Podemos comunicarnos con los LLMs de la misma forma en que hablamos entre personas.

### ⚙️ ¿Cómo Funcionan los Modelos de Lenguaje?

Estos modelos fueron entrenados con **decenas de millones de textos** (mucha información), lo que requirió una gran cantidad de *hardware* (GPUs).

La clave del funcionamiento de un LLM es identificar **patrones de lenguaje** específicos de cada idioma.

**Mecanismo Básico:**
Cuando le damos una palabra o frase, el LLM intenta **completar la siguiente palabra** basándose en la probabilidad. Funciona como el "autocompletar" avanzado de un teléfono móvil.

#### Simulación Práctica del Funcionamiento (Lúdica)

Se utiliza un *prompt* en ChatGPT para simular la predicción de la siguiente palabra:

**Prompt de Simulación:**
```

Vamos a simular cómo funciona ChatGPT.
Para cada frase que yo escriba en el prompt,
debes listar las 5 palabras con mayor probabilidad que usarías para completarla,
junto con la probabilidad de cada una de ellas.
Solo las palabras y probabilidades, sin más nada

```

**Ejemplo de Simulación:**

| Input del Usuario | Output de ChatGPT (Simulación) | Patrón Identificado |
| :--- | :--- | :--- |
| **"voy a"** | Ir (35%), hablar (25%), comer (15%), estudiar (12%), escribir (10%). | El modelo predice verbos, ya que es la estructura común después de "voy a". |
| **"voy a ir"** | al (40%), de (10%), etc. | El modelo predice que la preposición "al" es la más probable para continuar la frase. |

---

## 💾 Ventana de Contexto (La Memoria del Chat)

La capacidad de los LLMs para **mantener una conversación** se debe a la **Ventana de Contexto**.

* La ventana de contexto **no es infinita**; tiene un límite (medido en *tokens*).
* Los modelos constantemente buscan mejorar y aumentar esta capacidad.

### Ejemplo de Ventana de Contexto

1.  **Prompt Inicial:**
    > `¿cuál es el nombre de la fórmula de Excel para encontrar el mayor número en una lista de números? Responde sólo con el nombre de la fórmula.`
    * **Respuesta:** `Max`

2.  **Prompt de Seguimiento (dependiente):**
    > `dame un ejemplo.`
    * **Resultado:** El LLM entiende que "un ejemplo" se refiere a la **fórmula MAX de Excel**, porque recuerda el contexto de la frase anterior.

**Conclusión:** La Ventana de Contexto es el área específica del chat donde el modelo retiene la memoria de la conversación para dar respuestas coherentes y contextualizadas.

***

**Próximo Tema:** Continuar explorando las capacidades de los LLMs.
```




# 02 Principios de Ingeniería de Prompt

## 💡 ¿Qué es la Ingeniería de Prompt?

La **Ingeniería de Prompt** es la habilidad o competencia de **crear y diseñar *prompts*** (solicitudes) de la manera más efectiva posible para obtener el mejor *output* (respuesta) de un LLM.

* **Ingeniero de Prompt:** Es aquella persona que usa el ingenio y la técnica para crear solicitudes más claras, específicas y que limiten el contexto de la IA para una respuesta objetiva y asertiva.

### Cinco Principios Clave de la Ingeniería de Prompt

Aquí se resumen cinco principios fundamentales que ayudan a adquirir esta habilidad:

1.  **Claridad en las Instrucciones:** Ser específico para limitar el contexto del LLM y lograr una respuesta objetiva.
2.  **Dividir Tareas Complejas:** Separar una tarea grande en subtareas más pequeñas (usando listas, guiones o saltos de línea) para evitar que el modelo se "pierda".
3.  **Pedir Pasos Explicativos:** Solicitar al modelo que explique los pasos antes de dar la respuesta final (útil para lógica y procesos).
4.  **Pedir Justificaciones:** Solicitar el "por qué" de la respuesta para forzar al modelo a pensar y analizar mejor su salida.
5.  **Técnica de *Self Consistency* (Autoconsistencia):** Usar preguntas repetidas o variaciones de una pregunta para validar la coherencia de las respuestas.

***

## 🛠️ Principios en la Práctica

### 1. Claridad y División de Tareas ("Divide y Vencerás")

**Objetivo:** Demostrar cómo dividir una tarea compleja en pasos específicos produce un *output* organizado.

**Prompt de Ejemplo (DeepSeek):**
```

Paso 1 - Dame una lista de 5 hoteles en Roma que tengan sauna.

Paso 2 - Escribe un artículo de blog sobre ellos.

Paso 3 - Crea un post para Instagram basado en el artículo de blog generado.

```

**Resultado (DeepSeek):** El modelo procesa la información y entrega de forma organizada el **Paso 1 (Lista)**, el **Paso 2 (Artículo del Blog)** y el **Paso 3 (Post de Instagram)**, demostrando el éxito del principio de división.

---

### 2. Pedir Pasos Explicativos (Simulando el Pensamiento)

**Objetivo:** Ilustrar cómo pedir una explicación de los pasos fuerza al modelo a mostrar su proceso lógico, aunque un LLM no sustituya una calculadora.

**Prompt de Ejemplo:**
```

Antes de dar una respuesta final,
describe los pasos que seguirías para resolver
el siguiente problema matemático: ¿Cuál es la raíz cuadrada de 144?

```

**Resultado:** El modelo explica el proceso lógico:

1.  **Entender el Problema:** Buscar un número $x$ tal que $x * x = 144$.
2.  **Recordar la Propiedad:** Recordar que la raíz cuadrada de números cuadrados perfectos son números enteros.
3.  **Identificar el Cuadrado:** Reconocer que $12 * 12 = 144$.
4.  **Concluir la Respuesta:** La raíz cuadrada de 144 es 12.

---

### 3. Justificación y Autoconsistencia (Validación de Respuestas)

**Objetivo:** Forzar al modelo a validar su propia información y asegurar la coherencia en temas complejos.

**Prompt de Ejemplo:**
```

Responde a la siguiente pregunta: ¿Cuál es el mejor enfoque para reducir el impacto del calentamiento global?
Luego repite la pregunta tres veces cambiando ligeramente las formulaciones y compara si las respuestas coinciden.

```

**Resultado:** El modelo entrega una respuesta inicial y luego responde a tres variaciones de la pregunta:
* *Pregunta 1:* "¿Cuál es la estrategia más efectiva para mitigar...?"
* *Pregunta 2:* "¿Qué medidas son claves para disminuir...?"
* *Pregunta 3:* "¿Cómo podemos abordar de manera efectiva...?"

**Análisis de Autoconsistencia:** Las respuestas varían en la redacción, pero **coinciden en los aspectos principales** (energías renovables, conservación de ecosistemas, eficiencia y educación). Esto valida que la información es clara y objetiva.

***

**Conclusión:** Aplicar estos principios mejora significativamente la calidad y la coherencia de las respuestas de los LLMs.

**Próximo Tema:** Continuaremos explorando más posibilidades y casos de uso con las IA generativas.
```


# 03 Manos a la Obra: Creando una Publicación para tu Trabajo

## 📝 Repaso de Técnicas de Ingeniería de Prompts

En la clase anterior, profundizamos en la **Ingeniería de Prompts**, que es fundamental para obtener resultados precisos de la IA generativa.

Las técnicas clave incluyen:
* Tener claridad al dar las instrucciones.
* Dividir tareas complejas en subtareas más pequeñas.
* Pedir al modelo que explique sus pasos antes de dar la respuesta.
* Pedir al modelo que justifique sus respuestas.
* Generar varias respuestas diferentes y pedir al modelo que elija la mejor (Autoconsistencia).

Estos detalles son cruciales para aumentar la utilidad de la IA en el día a día.

## 🧑‍💻 Ejercicio Práctico

Para practicar, utiliza las técnicas de Ingeniería de Prompts y crea un *prompt* con múltiples pasos cuyo resultado final sea un **post sobre algún tema específico de tu área de trabajo o estudio**.

**Requisitos del Post:**
* Debe tener el formato adecuado para ser publicado en tu **LinkedIn personal**.
* Debe utilizar el *hashtag* **#IAenAlura**.

---

## 👩‍🏫 Opinión del Instructor (Ejemplo de Prompt)

Utilizando la **división en subtareas** y manteniendo las instrucciones claras y bien contextualizadas, los resultados obtenidos son bastante interesantes.

### Ejemplo de Prompt con Múltiples Pasos:

```

1.  Habla sobre las 5 bibliotecas más utilizadas para la creación de gráficos en análisis de datos con Python.
2.  Haz una analogía de cada biblioteca mencionada con un personaje emocional de la película Intensamente - Alegría, Tristeza, Asco, Miedo y Rabia.
3.  Crea un post para que publique en mi LinkedIn personal, utilizando el hashtag \#IAenAlura. El post debe ser apropiado para LinkedIn, pero traer el aspecto divertido de la analogía con la película.

<!-- end list -->



### Ejercicio realizado con Gemini:

# 📈 El Análisis de Datos y las 5 Emociones de Python

¡Hola, equipo! Si trabajas con **Análisis de Datos** en Python, sabes que visualizar es tan crucial como codificar. Pero, ¿sabías que cada una de las bibliotecas de *data visualization* más usadas tiene una personalidad muy marcada? Es como si fueran personajes de la película *Intensamente*. 😂

He aquí un vistazo divertido a las 5 bibliotecas esenciales y las emociones que representan:

## 1️⃣ Las 5 Bibliotecas Esenciales y sus Emociones

| Biblioteca | Personaje de Intensamente | ¿Por Qué? |
| :--- | :--- | :--- |
| **Matplotlib** | **Tristeza** 🥺 | Es el motor base y fundamental. A veces requiere mucho **esfuerzo manual** y código extenso para hacer cosas simples, lo que puede ser un poco "triste", pero su **profundidad** y control lo hacen irremplazable. |
| **Seaborn** | **Alegría** 😄 | Construido sobre Matplotlib, te da **resultados estéticos** y complejos con muy poco código. Transforma los datos aburridos en gráficos **hermosos y claros** sin esfuerzo, ¡pura alegría! |
| **Plotly** | **Rabia** 😡 | Es el **interactivo** e **impredecible**. Requiere conexión a internet (a veces), pero cuando funciona, te da gráficos dinámicos y webs que sorprenden. Es el que **exige más atención** pero lo da todo. |
| **Pandas (.plot)** | **Asco** 🤢 | No es su función principal, pero puede generar **gráficos rápidos y funcionales** directamente desde un DataFrame. Es la **solución de emergencia**, a veces rudimentaria, pero eficiente para salir del paso. |
| **Bokeh** | **Miedo** 😨 | Es **potente y de bajo nivel** para crear aplicaciones web interactivas. Se mantiene un poco **oculto y especializado**, pero maneja *streaming data* y grandes volúmenes, justo donde otros tienen "miedo" de fallar. |

---

## 🚀 Post para LinkedIn

**¡Deja de hacer *data viz* aburrido!** ✋

Si quieres **resultados profesionales y rápidos** en Python, tienes que conocer la personalidad de tus herramientas. Mis 5 bibliotecas favoritas se parecen a un equipo de emociones de *Intensamente*:

* **Matplotlib** (Tristeza 🥺): La base, requiere trabajo, pero tiene el control total.
* **Seaborn** (Alegría 😄): Transforma datos feos en gráficos impactantes con una línea de código.
* **Plotly** (Rabia 😡): Gráficos dinámicos e interactivos que te hacen lucir genial (siempre que la configuración no te haga enojar).
* **Pandas (.plot)** (Asco 🤢): La solución de emergencia cuando solo necesitas ver *algo* rápido.
* **Bokeh** (Miedo 😨): El motor oculto para apps web que manejan datos complejos.

Entender sus roles te ayuda a elegir la herramienta correcta para cada proyecto. ¡Elige bien tu equipo emocional y haz que tus datos cobren vida!

¿Cuál de estas bibliotecas es tu favorita y por qué? ¡Te leo en los comentarios!

#IAenAlura #Python #DataScience #VisualizacionDeDatos #Intensamente

# 04 ¿Qué Aprendimos?

## 📝 Resumen de Logros en la Clase

En esta tercera clase, profundizamos en la teoría y práctica de los LLMs y la Ingeniería de Prompts:

* **Funcionamiento de Modelos de Lenguaje:** Entendimos cómo las IAs analizan patrones lingüísticos y predicen palabras utilizando el **Procesamiento de Lenguaje Natural (NLP)**.
* **Memoria Contextual (Ventana de Contexto):** Comprendimos que los modelos recuerdan el contexto de la conversación (su "memoria") para ofrecer respuestas coherentes y contextualizadas sin necesidad de repetir información previa.
* **Ingeniería de Prompt:** Aprendimos que es fundamental aplicar la **claridad y la estructuración** de los *prompts* (división en pasos, especificación de tono) para mejorar significativamente la precisión de las respuestas.
* **Validación y Técnicas Prácticas:** Estudiamos métodos avanzados de validación, como la **Autoconsistencia**, que ayudan a validar y mejorar la calidad de las respuestas generadas por el LLM.


# CUARTA PARTE (4/5): IAs para Análisis

## 01 Análisis de Tablas Excel/CSV

### 🧩 El Concepto de Multimodal

Hemos explorado LLMs para texto; ahora daremos un salto al análisis de documentos.

**Multimodal** se refiere a un modelo capaz de trabajar con **más de un formato de archivo**. Por ejemplo, un modelo que trabaja con textos, imágenes y archivos de datos (Excel, CSVs) es multimodal.

### 🚫 Limitación de Versiones Gratuitas

Actualmente, las versiones gratuitas de los LLMs (incluyendo ChatGPT 3.5, Gemini y DeepSeek) **no ofrecen la capacidad de analizar archivos de datos (Excel/CSV)**.

* **Nota:** Para esta demostración, se utiliza la **versión premium de ChatGPT (GPT-4)**, que sí permite subir y analizar archivos.

### 📊 Demostración: Análisis de Datos de Ventas

Se sube una hoja de cálculo de Excel con 1435 registros de ventas (columnas: producto, categoría, precio, costo de envío, fecha de compra, vendedor, lugar, latitud/longitud).

#### 1. Análisis Inicial

* **Prompt:** `analice el archivo y me diga de qué se trata.`
* **Resultado:** ChatGPT analiza las columnas y concluye que el archivo contiene datos de ventas, útiles para análisis de tendencias, costos y distribución geográfica.

#### 2. Suma Total de Ventas

* **Prompt:** `sume la columna de precio y nos dé el valor total de las ventas.`
* **Resultado:** El valor total es **978.581,82 dólares**.

#### 💡 Insight Clave (Ver Análisis)

Al hacer clic en el botón **"Ver Análisis"**, se observa que ChatGPT está aplicando **código Python** por detrás para realizar los cálculos.

> **Conclusión:** El LLM no calcula con su *corpus* de entrenamiento, sino que está entrenado para **generar y ejecutar código** (Python) que opera sobre los datos del archivo. (El valor fue validado y coincide con la autosuma de Excel).

#### 3. Análisis de Tendencias

* **Prompt:** `¿en qué fecha fue la venta más antigua?`
* **Resultado:** El modelo hace un análisis de la columna de fecha y responde (ej. 31 de diciembre), siempre mostrando el código Python utilizado.

#### 4. Agrupación y Sumatoria por Categoría

* **Prompt:** `realiza la suma por categoría de producto y muestra el valor de venta para cada categoría.`
* **Resultado:** El LLM realiza una operación de **agrupación (groupby)** y presenta una **tabla** con el total de ventas para cada una de las ocho categorías de producto detectadas en el archivo. La tabla es descargable.

#### 5. Visualización de Datos

* **Prompt:** `Realiza un gráfico de barras verticales con las ventas por categoría.`
* **Resultado:** ChatGPT genera un **gráfico de barras vertical interactivo** (al pasar el ratón por la barra, se muestra el valor exacto) que ilustra la distribución de las ventas por categoría (ej. Electrónicos fue la categoría con más ventas).

---

### 🚀 Conclusión de Análisis de Datos

Los LLMs (en sus versiones multimodales y pagas) tienen un **súper potencial** para:
* Analizar bases de datos.
* Extraer *insights* (perspectivas).
* Ayudar en la toma de decisiones.

**Próximo Tema:** En el siguiente video, se analizarán documentos como archivos PDF.


# 02 Trabajando con Datos

## 📄 IA Generativa vs. Herramientas Tradicionales

Trabajar con documentos de diversos formatos (multimodalidad) amplía significativamente las posibilidades de uso de la Inteligencia Artificial generativa. Sin embargo, **no sustituye** el uso de las herramientas tradicionales de manipulación de esos documentos, como Excel, Hojas de Cálculo (Docs) o *software* especializado.

## ❓ Pregunta de Evaluación

Considera que enviaste una hoja de cálculo al ChatGPT (o a otro LLM con capacidades multimodales). **¿De qué forma puede ayudarte en el análisis de esos datos?**

### ✅ Respuesta Correcta

La IA puede ayudar de varias maneras, siendo una de las más valiosas:

* **Analizando e identificando inconsistencias o errores** en valores y fórmulas.

### 💡 Explicación Detallada

La colaboración entre la IA y las herramientas de hoja de cálculo es poderosa:

* **Lógica de Fórmulas:** Puedes describir las fórmulas o funciones que estás usando y mostrar el documento como contexto de utilización. ChatGPT puede ayudarte a **crear la lógica ideal** para las fórmulas complejas o incluso identificar errores lógicos.
* **Detección de Anomalías:** El modelo puede detectar valores atípicos, inconsistencias o datos faltantes dentro del conjunto de datos.


# 03 Para Saber Más: Más Herramientas

## 📊 SheetGPT: IA y Hojas de Cálculo

**SheetGPT** es una herramienta bastante interesante para ayudar en el análisis de datos, ya que permite conectar las **Hojas de Cálculo de Google (Google Sheets)** directamente con **ChatGPT**.

### ¿Cómo funciona SheetGPT?

SheetGPT se instala como una extensión (*Add-on*) en Google Sheets y permite usar comandos de LLM como si fueran fórmulas de Excel/Sheets (ej. `=GPT("instrucción")`).

**Demostración de Funcionalidades:**

1.  **Generación de Datos (`=GPT_LIST`):**
    * Se utiliza para crear listas basadas en *prompts* (ej., genera una lista de cinco nombres).
    * `=(GPT_LIST("crea cinco tweets hablando sobre Inteligencia Artificial y el impacto en la sociedad"))`

2.  **Análisis de Sentimiento (`=GPT`):**
    * Se utiliza para clasificar o analizar el contenido de una celda usando un *prompt*.
    * **Ejemplo:** Clasificar el sentimiento de un *tweet* en positivo, neutro o negativo.
    * **Fórmula:** `=(GPT("clasifica en positivo, neutro o negativo el siguiente tweet: " & B2))` (donde `B2` es la celda con el *tweet*).

3.  **Control Fino de Parámetros:**
    * Permite controlar parámetros avanzados de la API de GPT, como el **Modelo** (`gpt-3.5-turbo`), el **Máximo de Tokens** y, lo más importante, la **Temperatura**.

#### 🌡️ Parámetro de Temperatura

La temperatura es un parámetro de 0 a 2 que controla la **creatividad** del modelo:

| Valor | Creatividad | Resultado |
| :--- | :--- | :--- |
| **Cercano a 0 (ej. 0.8)** | Baja | Más objetivo, conservador y predecible. |
| **Cercano a 2 (ej. 1.5)** | Alta | Más creativo, pero con mayor riesgo de incoherencia (mezclando idiomas o ideas). |

---

### 📺 Video de Referencia

Para ver la explicación detallada de cómo instalar y usar esta herramienta, consulta el siguiente video:

* **Título:** Explorando #SheetGPT: Revelando su Funcionalidad y Aplicaciones
* **Canal:** Alura Latam
* **Enlace:** [http://www.youtube.com/watch?v=0kkeYthTGr0](http://www.youtube.com/watch?v=0kkeYthTGr0)
```

http://googleusercontent.com/youtube_content/45


# 04 Análisis de PDFs

## 📄 Análisis de Documentos Multimodales

Hemos avanzado de textos a hojas de cálculo, y ahora exploraremos el análisis de documentos como archivos **PDF**.

Se utiliza como ejemplo una guía de viaje sobre Italia de la empresa *Lonely Planet*, un documento extenso y en **inglés**, para evaluar la capacidad de resumen de los LLMs.

### 1. Prueba en ChatGPT (GPT-4 Premium)

* **Requisito:** Esta funcionalidad (subir y analizar PDFs) está disponible actualmente en **ChatGPT únicamente con la cuenta premium (GPT-4)**.
* **Prompt:** `resume y explícame en qué consiste el documento.`
* **Resultado:** ChatGPT analiza el PDF y entrega un resumen detallado en **español** (a pesar de que el documento original estaba en inglés).
* **Nota sobre Idioma:** Si la respuesta se generara en el idioma del documento (ej. inglés), se recomienda forzar la traducción: `dame la respuesta en español`.
* **Ventaja:** Permite al usuario analizar rápidamente documentos extensos, incluso cargar múltiples PDFs, para extraer *insights* sin tener que leer el contenido completo.

---

### 2. Prueba en Google Gemini (Gratuito)

* **Requisito:** Se utiliza la **versión gratuita** de Gemini.
* **Proceso:** Gemini también tiene un botón para cargar archivos. Se sube el mismo PDF.
* **Prompt:** `resume y explícame en qué consiste el documento.`
* **Resultado:** Gemini realiza el procesamiento y responde en un texto conciso en **español**, indicando que el documento es una guía de viajes de Italia.
* **Conclusión:** La capacidad de analizar y resumir documentos PDF está **disponible en la versión gratuita de Gemini**.

---

### ❌ Situación Actual con DeepSeek

* Actualmente, **DeepSeek no tiene habilitada la opción** para subir documentos (PDFs, etc.) y realizar este tipo de análisis.

| LLM | Análisis de PDF | Notas de Versión |
| :--- | :--- | :--- |
| **ChatGPT** | ✅ Disponible | Requiere la versión **Premium (GPT-4)**. |
| **Gemini** | ✅ Disponible | Disponible en la versión **Gratuita**. |
| **DeepSeek** | ❌ No disponible | No ofrece la funcionalidad de carga de documentos. |

**Conclusión:** Analizar PDFs es una herramienta poderosa para aumentar la productividad, siendo Gemini una opción gratuita y robusta para esta tarea.

***

**Próximo Tema:** Continuar analizando otros tipos de archivos.

# PDF italy-9-getting-started.pdf por Gemini
[cite_start]El documento, titulado **"Destination Italy"** y parte de la serie de guías de viaje de Lonely Planet, es una **introducción completa y práctica para viajar a Italia**[cite: 44, 186].

## Resumen del Contenido

[cite_start]El documento proporciona un panorama general de Italia, abarcando su cultura, política, economía, consejos de viaje y planificación de itinerarios[cite: 1, 2, 44, 45].

| Sección | Contenido Principal |
| :--- | :--- |
| **Destination Italy (Destino Italia)** | [cite_start]Presenta datos clave (**Población, PIB, Turismo, Inflación**) y una inmersión en la **actualidad política e historia reciente** de Italia (mencionando a Silvio Berlusconi y los desafíos con la Mafia/Camorra, inmigración, y desastres naturales como el terremoto de 2009 en Abruzzo)[cite: 1, 2, 3, 4, 12, 24, 29, 30, 34]. [cite_start]Destaca a Italia como un gran depósito de placeres sensoriales, el país con más sitios Patrimonio Mundial de la UNESCO (44 sitios) y el origen del movimiento **Slow Food**[cite: 13, 15, 17]. |
| **Getting Started (Empezando)** | [cite_start]Ofrece consejos esenciales de planificación[cite: 44, 45]: |
| **Cuándo Ir** | [cite_start]Recomienda **evitar julio y agosto** debido a los precios altos y el clima sofocante, señalando que la mejor época es **de abril a junio**[cite: 46, 47, 48]. |
| **Costos y Dinero** | [cite_start]Detalla presupuestos diarios (desde **€50 para mochileros** hasta **€100-€150** para alojamientos modestos) y precios promedio de comidas y transporte[cite: 65, 66, 60, 57, 64]. |
| **Viajar Responsablemente** | [cite_start]Anima a los viajeros a utilizar medios de **transporte de bajas emisiones** como el tren, y promueve opciones ecoturísticas como los **agriturismo** y el movimiento Slow Food[cite: 75, 76, 80, 100]. [cite_start]También discute esquemas de compensación de carbono para el transporte[cite: 86]. |
| **Moverse** | [cite_start]Cubre opciones de transporte público eficiente en ciudades grandes y menciona la creciente popularidad del **ciclismo** y las restricciones de tráfico en los centros urbanos[cite: 89, 93, 90]. |
| **Alojamiento** | [cite_start]Proporciona una guía de precios por tipo de alojamiento e introduce el esquema de **eco-etiquetado Legambiente Turismo** para opciones de estadía ecológicas[cite: 98, 99, 57]. |
| **Cultura** | [cite_start]Incluye listas de **literatura de viajes, películas italianas imperdibles, y artistas de música populares**[cite: 109, 111, 113, 115]. |
| **Recursos en Internet** | [cite_start]Lista sitios web útiles para turismo, cultura, comida (Slow Food) y noticias[cite: 130]. |
| **Calendario de Festivales y Eventos** | [cite_start]Detalla celebraciones importantes a lo largo del año, desde el **Carnevale de Venecia** hasta el **Palio de Siena** y la **Mostra del Cinema de Venecia**[cite: 140, 144, 163, 171]. |
| **Itinerarios** | [cite_start]Sugiere rutas clásicas, incluyendo un recorrido de dos semanas por las **Ciudades Clásicas (Roma a Milán)** y el **"Grand Tour" (Milán a Palermo)** de un mes[cite: 179, 187, 189]. |


# 05 Análisis de Imágenes

Continuamos explorando la multimodalidad de los LLMs, esta vez enfocándonos en el **análisis de imágenes**. Esta capacidad es muy útil para generar descripciones, crear *copy* para redes sociales, o transcribir texto.

## 🤖 Explicación Detallada: Transcripción de Imágenes (OCR)

### ¿Qué es el OCR?

**OCR** significa **Reconocimiento Óptico de Caracteres** (*Optical Character Recognition*).

Es una tecnología que permite convertir diferentes tipos de documentos o imágenes (como fotos, documentos escaneados o capturas de pantalla) en **datos editables y buscables**.

En el contexto de los LLMs:

1.  **El LLM "Ve" la Imagen:** Cuando subes una imagen con texto (ej., una foto de una pizarra o un *slide* de presentación), el LLM utiliza un módulo de OCR.
2.  **Identifica los Caracteres:** El OCR detecta las formas de las letras, números y símbolos.
3.  **Convierte a Texto Digital:** Convierte esas formas detectadas en una cadena de texto que el LLM puede leer, manipular y procesar.

**Caso de Uso Práctico (Transcripción):**

* **Situación:** Estás en una conferencia y tomas una foto a la pizarra o a una diapositiva (*slide*) con puntos clave escritos.
* **Problema sin OCR:** La foto es solo una imagen estática, no puedes copiar el texto ni buscar dentro de ella.
* **Solución con LLM + OCR:** Subes la foto al LLM y usas el *prompt*: `transcribe la imagen.`
* **Beneficio:** El LLM te devuelve el texto limpio y digital, que puedes guardar en un resumen, analizar o pegar en un documento, ahorrando tiempo de transcripción manual.

---

### 1. Creación de Atributos 'Alt' (ChatGPT-4 Premium)

El atributo *alt* es la descripción textual de una imagen, crucial para la accesibilidad web (personas con discapacidad visual) y para el SEO.

* **Requisito:** Actualmente, esta funcionalidad requiere la **versión Premium (GPT-4)** de ChatGPT.
* **Proceso:** Se carga la imagen de un zapato (tenis) y se pide el atributo *alt*.
* **Prompt:** > `Crear el atributo "alt" de dicha imagen. devuelve solo el texto (sin código).`
* **Respuesta (Ejemplo):** `Zapatillas retro de skate en color beige claro con detalles perforados y franjas oscuras, con la suela de goma blanca.`
* **Conclusión:** Se demuestra la capacidad de la IA para describir con precisión y corregir su análisis en función de la retroalimentación.

---

### 2. Transcripción de Imágenes (OCR)

* **Caso de Uso:** Capturar la información de *slides* en una conferencia, notas de pizarras, o *post-its* de una sesión de *brainstorming*.
* **Prompt:** `transcribe la imagen.`
* **Resultado:** El modelo transcribe con precisión el texto de la imagen ("Tipografías gratis").

### 🤝 Disponibilidad en Versión Gratuita (Gemini)

El análisis de imágenes (descripción y transcripción) **está disponible en la versión gratuita de Google Gemini**.

| LLM | Análisis de Imágenes (Descripción/Transcripción) | Notas de Versión |
| :--- | :--- | :--- |
| **ChatGPT** | ✅ Disponible | Requiere la versión **Premium (GPT-4)**. |
| **Gemini** | ✅ Disponible | Disponible en la versión **Gratuita**. |
| **DeepSeek** | ❌ No disponible | No ofrece la funcionalidad de análisis de imágenes. |

**Conclusión:** El análisis de imágenes es una herramienta poderosa para consolidar información y aumentar la productividad. Gemini ofrece esta funcionalidad clave en su versión gratuita.

***

**Próximo Tema:** Continuar analizando otro tipo de archivos.


# foto de zapatilla de Imagenes: 
### **Claro, aquí tienes el atributo "alt" para la imagen del tenis que proporcionaste, generado según tu prompt:

`Zapatillas retro de skate en color beige claro con detalles perforados y franjas oscuras, con la suela de goma blanca`.

# 06 Prompts para Imágenes

## 🖼️ Prompts en IAs Generadoras de Imágenes

En las IAs generadoras de imágenes (como Midjourney, DALL-E, etc.), la inserción de texto funciona de forma similar a los *prompts* que usamos en las IAs textuales.

### ❓ Pregunta de Evaluación

Considerando las técnicas de ingeniería de *prompt* (claridad, especificidad, detalles), ¿cuál de las alternativas a continuación es un comando **más adecuado** para generar una imagen?

### ✅ Alternativa Correcta

> **“Estilo realista. Bajo contraste. Un carro deportivo rojo frente a un café parisino.”**

### 💡 Explicación

Este *prompt* es superior porque aplica la técnica de **claridad y detalle** de la Ingeniería de Prompts:

* **Detalles de Estilo:** Especifica el estilo visual (**Estilo realista**).
* **Ajustes:** Incluye ajustes de post-producción (**Bajo contraste**).
* **Objeto Principal:** Define el objeto clave y su característica (**Un carro deportivo rojo**).
* **Contexto/Escenario:** Describe el escenario y la ambientación (**frente a un café parisino**).

Podemos pedir detalles de estilo, escenario, contexto, ajustes, entre otros, para guiar a la IA y mejorar la precisión de la imagen generada.


# 07 Análisis de Audios Estudio

## 🎙️ Transcripción de Audio a Texto (*Speech to Text*)

Los LLMs multimodales son capaces de transcribir y analizar audios (útil para podcasts, llamadas, o conferencias).

### ❌ Limitación Actual de ChatGPT (Premium)

Se realiza una prueba cargando un archivo de audio (MP3 de 5 minutos, menos de 5MB) en ChatGPT (GPT-4 Premium).

* **Prompt:** `transcribe el siguiente audio.`
* **Resultado:** ChatGPT informa que **no puede procesar el audio directamente en su entorno** y sugiere utilizar otras herramientas (*otter.ai*, *sonics.ai*, *Google Docs* usando el micrófono) o resumir el contenido si se le da una idea del tema.

### 🛠️ Solución: Usando Google Colab y Whisper

Para transcribir el audio, se utiliza **Google Colaboratory (Google Colab)**, una herramienta gratuita de Google para escribir y ejecutar código (no es necesario ser programador).

* **Modelo Utilizado:** **Whisper**, el modelo de OpenAI especializado en *speech to text* (audio a texto).

#### Proceso Paso a Paso en Google Colab

1.  **Abrir Google Colab:** Acceder a `colab.research.google.com` y crear un nuevo *notebook* (cuaderno digital). (Solo requiere una cuenta de Gmail gratuita).
2.  **Instalar Bibliotecas:** En la primera celda de código, se instalan las bibliotecas necesarias.

    ```python
    pip install openai
    # Asegurarse de que whisper esté instalado
    !pip install -q git+[https://github.com/openai/whisper.git](https://github.com/openai/whisper.git)
    ```

3.  **Cargar el Archivo:** Se sube el archivo de audio (`.mp3`) desde la computadora al entorno de Google Colab (conectado al Google Drive del usuario).
4.  **Ejecutar el Código de Transcripción:** Se usan tres líneas de código en una nueva celda.

    ```python
    model = whisper.load_model("small")
    # Sustituir la ruta por la ruta de acceso copiada del archivo subido
    result = model.transcribe("/content/nombre_de_tu_audio.mp3") 
    print(result["text"])
    ```

    * `model = whisper.load_model("small")`: Carga el modelo de transcripción de Whisper (en este caso, la versión "small").
    * `result = model.transcribe(...)`: Transcribe el audio utilizando el modelo cargado.
    * `print(result["text"])`: Imprime el texto final de la transcripción.

5.  **Resultado:** Después de unos minutos de procesamiento (el audio de 5 minutos tomó 3 minutos y 12 segundos), se obtiene la **transcripción completa del audio**.

### 💡 Conclusión

El uso de **Google Colab** y el modelo **Whisper** permite la transcripción de audios de manera gratuita, superando las limitaciones actuales de los entornos de chat directo (como ChatGPT). La transcripción puede copiarse y utilizarse para posteriores análisis de texto (resúmenes, *insights*, etc.).

**Recomendación:** Existen otras herramientas comerciales (*otter.ai*, *sonics.ai*, *Descript*) que ofrecen funcionalidades similares, muchas de ellas con versiones *freemium* o de prueba.


# 🎙️ Transcripción de Audio Avanzada: Gemini vs. Whisper (OpenAI)

En el video anterior exploramos **Whisper** (el modelo de OpenAI) a través de Google Colab. Es importante notar que si bien la herramienta es poderosa, el uso directo de la **API de OpenAI** (para servicios como Whisper) es un **servicio de pago**.

Afortunadamente, puedes obtener resultados magníficos y muy flexibles utilizando el SDK de Google y la **API de Google AI Studio (Gemini)**, configurando un entorno de desarrollo local.

---

## 🛠️ Configuración del Entorno Local

Para ejecutar el siguiente código de manera segura y organizada, se recomienda usar un entorno de desarrollo aislado:

1.  **Entorno Virtual (Pyenv / .venv):** Utiliza herramientas como `pyenv` para gestionar versiones de Python y `venv` (Módulos de Python) para aislar las dependencias del proyecto. Esto mantiene tu proyecto limpio y sus dependencias separadas de tu sistema operativo.
2.  **Editor de Código:** Se sugiere **Visual Studio Code (VS Code)** por su excelente integración con entornos Python virtuales.
3.  **Clave de API:** La clave **GEMINI\_API\_KEY** debe guardarse en un archivo llamado `.env` en la raíz de tu proyecto para mantenerla segura (el código utiliza la librería `dotenv` para leerla).
4.  **Dependencias:** Este *script* requiere las siguientes librerías: **`google-genai`**, **`python-dotenv`**, y **`pydub`** (para la conversión de audio, que a su vez requiere la utilidad `ffmpeg` instalada en tu sistema operativo).

---

## 💻 Código Python: Transcripción de Audios OGG con Gemini

Este código está diseñado específicamente para transcribir archivos de audio en formato **OGG** (comunes en notas de voz de WhatsApp) de tu directorio local. El modelo **Gemini 2.5 Flash** es ideal para esta tarea multimodal.

```python
import os
from google import genai
from google.genai import types
from dotenv import load_dotenv
from pydub import AudioSegment

# 1. Cargar la clave de API del archivo .env
load_dotenv()
GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")

if not GEMINI_API_KEY:
    print("❌ ERROR: No se encontró la clave GEMINI_API_KEY en el archivo .env.")
    exit()

# 2. Inicializar el cliente de Gemini
try:
    client = genai.Client(api_key=GEMINI_API_KEY)
except Exception as e:
    print(f"❌ Error al inicializar el cliente de Gemini: {e}")
    exit()

# Directorio donde están los archivos (la carpeta actual)
AUDIO_DIR = "."
# Formato de audio de WhatsApp
INPUT_FORMAT = ".ogg"
# Formato temporal de conversión para la API
OUTPUT_FORMAT = "mp3" 

def convertir_ogg_a_mp3(ogg_path):
    """Convierte un archivo OGG a MP3 y devuelve la ruta del nuevo archivo."""
    base, _ = os.path.splitext(ogg_path)
    mp3_path = f"{base}.{OUTPUT_FORMAT}"
    
    print(f"🔄 Convirtiendo {os.path.basename(ogg_path)} a {os.path.basename(mp3_path)}...")
    try:
        # Pydub requiere la utilidad externa 'ffmpeg' instalada en tu sistema.
        audio = AudioSegment.from_ogg(ogg_path)
        audio.export(mp3_path, format=OUTPUT_FORMAT)
        print("✅ Conversión completada.")
        return mp3_path
    except FileNotFoundError:
        print("\n🚨 ERROR: 'ffmpeg' no está instalado o no se encuentra. Es necesario para usar pydub.")
        print("Instálalo con 'sudo apt install ffmpeg' (Linux) o 'brew install ffmpeg' (macOS).")
        return None
    except Exception as e:
        print(f"❌ Error durante la conversión de {ogg_path}: {e}")
        return None

def transcribir_audio(audio_path):
    """Sube un archivo de audio a Gemini y pide la transcripción."""
    print(f"🚀 Subiendo y transcribiendo {os.path.basename(audio_path)} con Gemini...")
    
    # Sube el archivo de audio a la API
    audio_file = client.files.upload(file=audio_path)

    # Prepara el prompt con el archivo de audio
    prompt = "Transcribe el siguiente audio en español. No incluyas comentarios extra, solo la transcripción."
    
    try:
        # Genera la transcripción usando un modelo multimodal como gemini-2.5-flash
        response = client.models.generate_content(
            model="gemini-2.5-flash",
            contents=[prompt, audio_file]
        )
        
        # Elimina el archivo subido de la API para no gastar espacio
        client.files.delete(name=audio_file.name)
        
        print("✅ Transcripción exitosa.")
        return response.text
    except Exception as e:
        # Asegúrate de eliminar el archivo subido si ocurre un error
        client.files.delete(name=audio_file.name)
        print(f"❌ Error al llamar a la API de Gemini: {e}")
        return "ERROR DE TRANSCRIPCIÓN"

# --- Lógica Principal ---
if __name__ == "__main__":
    
    ogg_files = [f for f in os.listdir(AUDIO_DIR) if f.endswith(INPUT_FORMAT)]
    
    if not ogg_files:
        print(f"ℹ️ No se encontraron archivos {INPUT_FORMAT} en el directorio: {os.getcwd()}")
        exit()

    print(f"Encontrados {len(ogg_files)} archivos de audio OGG para transcribir.")
    print("-" * 30)

    for ogg_file in ogg_files:
        print(f"\n--- Procesando {ogg_file} ---")
        
        # 1. Convertir (requiere ffmpeg instalado en el sistema)
        mp3_path = convertir_ogg_a_mp3(ogg_file)
        if not mp3_path:
            continue
            
        # 2. Transcribir
        transcripcion = transcribir_audio(mp3_path)
        
        # 3. Guardar la transcripción y limpiar
        if "ERROR" not in transcripcion:
            transc_filename = f"{os.path.splitext(ogg_file)[0]}.txt"
            with open(transc_filename, 'w', encoding='utf-8') as f:
                f.write(transcripcion)
            print(f"✍️ Transcripción guardada en {transc_filename}")
        
        # 4. Limpiar el archivo MP3 temporal
        os.remove(mp3_path)
        print(f"🗑️ Archivo temporal {os.path.basename(mp3_path)} eliminado.")

    print("\nProceso de transcripción finalizado. ¡Revisa tus archivos .txt!")
````