<a href="https://colab.research.google.com/github/CamiloVga/Curso-IA-Aplicada/blob/main/Script_Clase_22_Transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🤖 Inteligencia Artificial Aplicada para la Economía
## Universidad de los Andes

### 👨‍🏫 Profesores
- **Profesor Magistral:** [Camilo Vega Barbosa](https://www.linkedin.com/in/camilovegabarbosa/)
- **Asistente de Docencia:** [Sergio Julian Zona Moreno](https://www.linkedin.com/in/sergiozonamoreno/)

### 📚 Implementación de Transformers con Llama-2
Este script implementa un chatbot basado en la arquitectura Transformer utilizando el modelo Llama-2-7b de Meta:

1. **Configuración y Optimización del Modelo Transformer 🚀**
   * Carga optimizada de Llama-2-7b con quantización de 8-bit
   * Configuración de precisión de 16 bits para eficiencia en GPU
   * Distribución automática del modelo para optimizar recursos
   * Preparación del modelo para ejecución en GPUs de Colab

2. **Generación de Texto con Arquitectura Transformer 🧠**
   * Tokenización y procesamiento de entradas de texto
   * Configuración de parámetros de sampling probabilístico
   * Generación controlada mediante temperature y top_p
   * Decodificación eficiente de tokens a texto natural

3. **Interfaz Conversacional con Gradio 💬**
   * Implementación de interfaz de usuario intuitiva
   * Manejo de contexto y formato específico para Llama-2
   * Ejemplos predefinidos sobre conceptos de Transformers
   * Diseño responsivo para facilitar la experimentación


In [1]:
# Instalar bibliotecas necesarias
!pip install transformers torch accelerate bitsandbytes gradio -q

# Importar bibliotecas
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# Cargar tokenizador
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")

# Cargar modelo con optimizaciones para T4
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-hf",
    device_map="auto",           # Distribuye el modelo automáticamente
    torch_dtype=torch.float16,   # Usa precisión de 16 bits
    load_in_8bit=True            # Carga el modelo con cuantización de 8 bits
)

# Generar texto
prompt = "Explica de manera simple qué es un transformer en inteligencia artificial:"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")  # Mover a GPU
outputs = model.generate(
    inputs.input_ids,
    max_new_tokens=200,
    do_sample=True,
    temperature=0.7
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m32.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m27.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m28.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

tokenizer_config.json:   0%|          | 0.00/776 [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/609 [00:00<?, ?B/s]

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]

Explica de manera simple qué es un transformer en inteligencia artificial: un tipo de modelo de aprendizaje automático que permite a los sistemas aprender a reconocer patrones de datos.

## ¿Qué es un transformer?

Los transformers son una forma de modelo de aprendizaje automático que se basa en un modelo de procesamiento de señales. Un transformer es un modelo de procesamiento de señales que puede leer un texto, procesarlo y producir una representación de la información contenida en el texto.

Transformers son una forma de modelo de procesamiento de señales que puede leer un texto, procesarlo y producir una representación de la información contenida en el texto. Un transformer es un modelo de procesamiento de señales que puede leer un texto, procesarlo y producir una representación de la información contenida en el texto.

## ¿Cuándo utilizar un transformer


In [2]:

# Importar bibliotecas
import gradio as gr


# Historial del chat para mantener la conversación
conversation_history = []

# Función para generar respuestas
def generate_response(message, history):
    # Construir el contexto del chat con formato para Llama-2
    prompt = ""
    for user_msg, bot_msg in history:
        prompt += f"<s>[INST] {user_msg} [/INST] {bot_msg}</s>"

    # Añadir el mensaje actual
    prompt += f"<s>[INST] {message} [/INST]"

    # Generar respuesta
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(
        inputs.input_ids,
        max_new_tokens=512,
        do_sample=True,
        temperature=0.7,
        top_p=0.9,
    )

    # Decodificar la respuesta
    response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

    return response

# Crear la interfaz de Gradio
demo = gr.ChatInterface(
    fn=generate_response,
    title="Chat con Llama-2-7b",
    description="Un chatbot simple usando el modelo Llama-2-7b. Haz una pregunta para empezar.",
    examples=["¿Qué es un transformer en IA?", "Explica el concepto de atención en NLP", "¿Cómo funciona GPT?"],
    theme="soft"
)

# Lanzar la app
demo.launch(share=True)  # share=True crea un enlace público

  self.chatbot = Chatbot(


Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://4797fddbfd8faf6e4e.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


