[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/CamiloVga/Curso-IA-Aplicada/blob/main/Semana%2011_Arquitectura%20Transformers/Script_Clase_22_Transformers.ipynb)

# ü§ñ Inteligencia Artificial Aplicada para la Econom√≠a
## Universidad de los Andes

### üë®‚Äçüè´ Profesores
- **Profesor Magistral:** [Camilo Vega Barbosa](https://www.linkedin.com/in/camilovegabarbosa/)
- **Asistente de Docencia:** [Sergio Julian Zona Moreno](https://www.linkedin.com/in/sergiozonamoreno/)

### üìö Implementaci√≥n de Transformers con Llama-2
Este script implementa un chatbot basado en la arquitectura Transformer utilizando el modelo Llama-2-7b de Meta:

1. **Configuraci√≥n y Optimizaci√≥n del Modelo Transformer üöÄ**
   * Carga optimizada de Llama-2-7b con quantizaci√≥n de 8-bit
   * Configuraci√≥n de precisi√≥n de 16 bits para eficiencia en GPU
   * Distribuci√≥n autom√°tica del modelo para optimizar recursos
   * Preparaci√≥n del modelo para ejecuci√≥n en GPUs de Colab

2. **Generaci√≥n de Texto con Arquitectura Transformer üß†**
   * Tokenizaci√≥n y procesamiento de entradas de texto
   * Configuraci√≥n de par√°metros de sampling probabil√≠stico
   * Generaci√≥n controlada mediante temperature y top_p
   * Decodificaci√≥n eficiente de tokens a texto natural

3. **Interfaz Conversacional con Gradio üí¨**
   * Implementaci√≥n de interfaz de usuario intuitiva
   * Manejo de contexto y formato espec√≠fico para Llama-2
   * Ejemplos predefinidos sobre conceptos de Transformers
   * Dise√±o responsivo para facilitar la experimentaci√≥n


In [None]:
# Instalar bibliotecas necesarias
!pip install transformers torch accelerate bitsandbytes gradio -q

# Importar bibliotecas
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# Cargar tokenizador
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")

# Cargar modelo con optimizaciones para T4
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-hf",
    device_map="auto",           # Distribuye el modelo autom√°ticamente
    torch_dtype=torch.float16,   # Usa precisi√≥n de 16 bits
    load_in_8bit=True            # Carga el modelo con cuantizaci√≥n de 8 bits
)

# Generar texto
prompt = "Explica de manera simple qu√© es un transformer en inteligencia artificial:"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")  # Mover a GPU
outputs = model.generate(
    inputs.input_ids,
    max_new_tokens=200,
    do_sample=True,
    temperature=0.7
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

In [None]:

# Importar bibliotecas
import gradio as gr


# Historial del chat para mantener la conversaci√≥n
conversation_history = []

# Funci√≥n para generar respuestas
def generate_response(message, history):
    # Construir el contexto del chat con formato para Llama-2
    prompt = ""
    for user_msg, bot_msg in history:
        prompt += f"<s>[INST] {user_msg} [/INST] {bot_msg}</s>"

    # A√±adir el mensaje actual
    prompt += f"<s>[INST] {message} [/INST]"

    # Generar respuesta
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(
        inputs.input_ids,
        max_new_tokens=512,
        do_sample=True,
        temperature=0.7,
        top_p=0.9,
    )

    # Decodificar la respuesta
    response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

    return response

# Crear la interfaz de Gradio
demo = gr.ChatInterface(
    fn=generate_response,
    title="Chat con Llama-2-7b",
    description="Un chatbot simple usando el modelo Llama-2-7b. Haz una pregunta para empezar.",
    examples=["¬øQu√© es un transformer en IA?", "Explica el concepto de atenci√≥n en NLP", "¬øC√≥mo funciona GPT?"],
    theme="soft"
)

# Lanzar la app
demo.launch(share=True)  # share=True crea un enlace p√∫blico