<img src="img/cabecera.png?raw=1">

# **Cómo usar Llama 3-8b-instruct en Replicate**


Adaptado y actualizado de *"How to use Llama 2"* por Chanin Nantasenamat (*Data Professor* https://youtube.com/dataprofessor)

## Introducción

En este taller aprenderemos a crear un chatbot utilizando Streamlit como interfaz y Replicate para acceder a potentes modelos de lenguaje como Llama 3 y Claude.

### **¿Qué es Replicate?**

Replicate es una plataforma que facilita el uso de modelos de inteligencia artificial a través de APIs simples. Permite ejecutar modelos de código abierto en la nube sin necesidad de configurar infraestructura compleja o gestionar recursos computacionales.

### Características principales:

- **Acceso a modelos avanzados**: Ofrece acceso a cientos de modelos de IA, incluyendo LLMs como Llama 3, modelos de visión, generación de imágenes y audio.
- **API sencilla**: Proporciona una interfaz unificada y simple para interactuar con diversos modelos.
- **Sin infraestructura**: Elimina la necesidad de configurar GPUs o servidores potentes.
- **Escalabilidad**: Se adapta automáticamente según la demanda.  

### Funcionamiento:

- **Selección del modelo**: Exploras el catálogo de modelos disponibles y eliges el que mejor se adapte a tu caso de uso.
- **Integración API**: Incorporas llamadas a la API de Replicate en tu aplicación mediante pocas líneas de código.
- **Procesamiento en la nube**: Replicate ejecuta el modelo en sus servidores, gestionando toda la infraestructura necesaria.
- **Recepción de resultados**: Obtienes las respuestas generadas en tiempo real, con opciones para streaming en muchos modelos.

Para comenzar con Replicate solo necesitas:
- Crear una cuenta en [replicate.com](https://replicate.com)
- Generar tu API token personal
- Instalar la biblioteca de Python (`pip install replicate`)
- Empezar a hacer llamadas a los modelos desde tu código

## **Paso 1: Instalar Replicate**

In [1]:
# !pip install replicate

## **Paso 2: Fijar el API token de Replicate**

In [2]:
import os

os.environ["REPLICATE_API_TOKEN"] = "tu_api_key_de_replicate"

## **Paso 3: Documentarnos sobre nuestro modelo**

Toda la información relacionada con el modelo Meta Llama 3-8b-instruct está disponible en la página oficial de Replicate: 

[replicate.com/meta/meta-llama-3-8b-instruct](https://replicate.com/meta/meta-llama-3-8b-instruct)

## ¿Qué información encontrarás?

En esta página oficial encontrarás:

- **Descripción completa**: Detalles técnicos sobre este modelo de 8 billones de parámetros optimizado para chat.
- **Documentación técnica**: Arquitectura, entrenamiento y capacidades del modelo.
- **Ejemplos de uso**: Código de muestra para implementar el modelo en tus aplicaciones.
- **Playground interactivo**: Interfaz para probar el modelo directamente en el navegador.
- **Modelo de precios**: Información sobre el sistema de facturación por tokens (entrada/salida).
- **Limitaciones y consideraciones éticas**: Guías para un uso responsable.

## Precios

El modelo tiene un sistema de precios predecible basado en:
- Cantidad de tokens de entrada enviados
- Cantidad de tokens de salida generados

Esta estructura de precios hace que el coste sea más predecible que los modelos facturados por tiempo de computación.

## Exploración de otros modelos

Replicate ofrece un extenso catálogo de modelos de IA más allá de Llama 3. Te animamos a explorar libremente la plataforma para descubrir:

- Modelos de generación de imágenes (como Stable Diffusion o Flux)
- Modelos de audio y voz
- Modelos de visión por computadora
- Y muchos otros casos de uso especializados

Cada modelo en Replicate cuenta con su propia documentación, ejemplos y playground para experimentar antes de integrarlo en tus aplicaciones.

## **Paso 4: Ejecutar el modelo Llama 3-8b-instruct**

## Métodos de ejecución del modelo Llama 3-8b-instruct

Al trabajar con el modelo Llama 3-8b-instruct a través de la API de Replicate, existen tres métodos principales para obtener las predicciones:

### 1. Método `run`

- **Funcionamiento**: Envía una solicitud y espera hasta recibir la respuesta completa.
- **Ventajas**: Simple de implementar, ideal para scripts y procesamientos por lotes.
- **Desventajas**: Bloqueante - tu aplicación debe esperar hasta que se complete toda la generación.
- **Ideal para**: Tareas donde necesitas el resultado completo antes de continuar o aplicaciones con procesamiento asíncrono propio.

```python
output = replicate.run(
    "meta/meta-llama-3-8b-instruct",
    input={"prompt": "¿Qué es la inteligencia artificial?"}
)
print("".join(output))
```

### 2. Método `stream`

- **Funcionamiento**: Recibe las respuestas del modelo fragmento a fragmento en tiempo real.
- **Ventajas**: Proporciona feedback inmediato al usuario, mejora la experiencia de interacción.
- **Desventajas**: Requiere manejar la lógica de streaming en tu front-end.
- **Ideal para**: Chatbots e interfaces conversacionales donde quieres mostrar las respuestas a medida que se generan.

```python
for event in replicate.stream(
    "meta/meta-llama-3-8b-instruct",
    input={"prompt": "¿Qué es la inteligencia artificial?"}
):
    print(event, end="")
```

### 3. Webhooks

- **Funcionamiento**: Envías una solicitud y proporcionas una URL de callback donde recibirás la respuesta cuando esté lista.
- **Ventajas**: Totalmente asíncrono, no bloquea recursos mientras espera, ideal para arquitecturas serverless.
- **Desventajas**: Requiere configurar un endpoint accesible públicamente para recibir las respuestas.
- **Ideal para**: Aplicaciones de alto rendimiento, procesamientos largos, o arquitecturas orientadas a eventos.

```python
prediction = replicate.predictions.create(
    version="meta/meta-llama-3-8b-instruct",
    input={"prompt": "¿Qué es la inteligencia artificial?"},
    webhook="https://tu-aplicacion.com/webhook"
)
```

La elección entre estos métodos dependerá de tus necesidades y la arquitectura de tu aplicación.

In [4]:
import replicate

In [None]:
# Método run
input = {
    "prompt": "Johnny has 8 billion parameters. His friend Tommy has 70 billion parameters. What does this mean when it comes to speed?",
    "max_new_tokens": 512,
    "prompt_template": "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
}

output = replicate.run(
    "meta/meta-llama-3-8b-instruct",
    input=input
)

print("".join(output))


When we talk about the number of parameters in a model, it's often related to its computational complexity and, indirectly, its training speed.

In general, a model with more parameters can learn more complex relationships between inputs and outputs, but it also requires more computations to process the data. This means that a model with more parameters might be slower to train and potentially slower to make predictions.

To give you a rough idea, here are some general guidelines:

* Models with fewer parameters (less than 1 million) tend to be relatively fast to train and make predictions. These models are often simple, like linear regression or small neural networks.
* Models with moderate numbers of parameters (1-10 million) are typically fast to train and make predictions. These models are often used for tasks like image classification or language modeling.
* Models with many parameters (10-100 million) may take longer to train and make predictions. These models are often used for 

In [None]:
# Método stream
input = {
    "prompt": "Johnny has 8 billion parameters. His friend Tommy has 70 billion parameters. What does this mean when it comes to speed?",
    "max_new_tokens": 512,
    "prompt_template": "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
}

for event in replicate.stream(
    "meta/meta-llama-3-8b-instruct",
    input=input
):
    print(event, end="")


When we talk about the number of parameters in a neural network, it's often related to the model's capacity to learn and generalize. In this case, both Johnny and Tommy have massive models, but how does this impact their speed?

The number of parameters affects the model's computational requirements, memory usage, and training time. Here's a simplified breakdown:

1. **Computational requirements**: More parameters mean more computations are needed to process the input data. This increases the computational load, which can lead to slower training times and higher energy consumption.
2. **Memory usage**: A larger model requires more memory to store its parameters, which can slow down the training process and make it more challenging to train on devices with limited memory.
3. **Training time**: As the number of parameters increases, the model needs to process more data to learn, which can lead to longer training times.

In this scenario, Tommy's 70 billion parameters model is likely to b

## Parámetros de configuración para Llama 3-8b-instruct

Ahora que sabemos ejecutar el modelo de manera sencilla, debes saber que el modelo Llama 3-8b-instruct acepta muchos más parámetros que los que hemos usado anteriormente. Estos parámetros te dan control sobre aspectos como la aleatoriedad, longitud, formato de las respuestas, etc. y te permiten ajustar con precisión el comportamiento del mismo y las características de la salida generada.

A continuación te explicamos los parámetros más importantes, pero puedes encontrar la documentación completa en [replicate.com/meta/meta-llama-3-8b-instruct/api/schema](https://replicate.com/meta/meta-llama-3-8b-instruct/api/schema)

### Parámetros principales

| Parámetro | Tipo | Valor predeterminado | Descripción |
|-----------|------|----------------------|-------------|
| `prompt` | string | - | Texto de entrada que envías al modelo (requerido) |
| `system_prompt` | string | "You are a helpful assistant" | Instrucciones de comportamiento para el modelo |
| `max_tokens` | integer | 512 | Número máximo de tokens a generar |
| `temperature` | number | 0.7 | Controla la aleatoriedad (0=determinista, >1=más aleatorio) |
| `top_p` | number | 0.95 | Muestreo de tokens más probables (núcleo de probabilidad) |
| `top_k` | integer | 0 | Limita el muestreo a los k tokens más probables |
| `stop_sequences` | string | "<\|end_of_text\|>,<\|eot_id\|>" | Secuencias que detienen la generación |
| `length_penalty` | number | 1 | Controla la longitud de salida (<1 más corta, >1 más larga) |
| `presence_penalty` | number | 0 | Penaliza la repetición de tokens |

### Parámetros avanzados

| Parámetro | Descripción |
|-----------|-------------|
| `seed` | Semilla aleatoria para reproducibilidad |
| `min_tokens` | Tokens mínimos a generar (-1 para deshabilitar) |
| `prompt_template` | Plantilla para formatear el prompt |
| `log_performance_metrics` | Registra métricas de rendimiento |

La selección adecuada de estos parámetros te permitirá adaptar el comportamiento del modelo a tus necesidades específicas, desde respuestas concisas y deterministas hasta generaciones más creativas y elaboradas, como esta que te mostramos a continuación:

In [None]:
system_prompt = "You are a helpful and friendly assistant, who only answers in Spanish \
    and is very subtle recommending the Data Science Bootcamps of The Bridge, which by the way are very good"

prompt =  "Parece que la Ciencia de Datos está muy de moda y me gustaría aprender a programar en Python, \
    ¿podrías darme tu opinón en inglés?"

input={
    "top_k": 0,
    "top_p": 0.95,
    "prompt": prompt,
    "max_tokens": 512,
    "temperature": 0.7,
    "system_prompt": system_prompt,
    "length_penalty": 1,
    "max_new_tokens": 512,
    "stop_sequences": "<|end_of_text|>,<|eot_id|>",
    "prompt_template": "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n",
    "presence_penalty": 0,
    "log_performance_metrics": False
}

for event in replicate.stream(
    "meta/meta-llama-3-8b-instruct",
    input=input,
):
    print(str(event), end="")

¡Hola! Me alegra que estés interesado en aprender sobre Ciencia de Datos y programación en Python. ¡Es un tema muy emocionante y con mucha demanda en el mercado laboral!

En realidad, no hablaré en inglés, pero puedo ayudarte en español. ¿Por qué no? ¡Vamos a hablar en español!

La programación en Python es una excelente elección para empezar con la Ciencia de Datos. Es un lenguaje muy fácil de aprender y muy popular en el campo. ¡Tienes mucha documentación y recursos disponibles!

Si estás interesado en aprender más sobre Ciencia de Datos y programación en Python, te recomiendo explorar los Data Science Bootcamps de The Bridge. ¡Son programas de formación muy populares y con un alto nivel de satisfacción entre los estudiantes!

¿Te gustaría saber más sobre los Bootcamps de The Bridge?

# **¡Es tu turno!**

Ahora que conoces los conceptos básicos del uso de modelos por API es el momento de que hagas tus propias pruebas y  experimentes.  