## **Prueba `LLaMa 2 7B`**
---

In [1]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Detectar el dispositivo disponible: CUDA, MPS (para Apple Silicon) o CPU
if torch.cuda.is_available():
    device = "cuda"
elif torch.backends.mps.is_available():
    device = "mps"
else:
    device = "cpu"

print("Usando dispositivo:", device)

# Nombre del modelo (asegúrate de tener acceso y de haber descargado el modelo correctamente)
model_name = "meta-llama/Llama-2-7b-hf"

# Cargar el tokenizador (ahora que se tiene SentencePiece instalado)
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)

# Cargar el modelo, especificando el tipo de datos y usando device_map="auto" para aprovechar la GPU
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16 if device in ["cuda", "mps"] else torch.float32,
    device_map="auto"
)

# Función para generar una respuesta dado un prompt
def generate_response(prompt, max_new_tokens=128):
    # Preparar la entrada y moverla al dispositivo seleccionado
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    
    # Configuración de generación: puedes ajustar parámetros como temperature, top_p, etc.
    generation_config = GenerationConfig(
        max_new_tokens=max_new_tokens,
        do_sample=True,
        temperature=0.8,
        top_p=0.95
    )
    
    # Generar la respuesta
    outputs = model.generate(**inputs, generation_config=generation_config)
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response

# Bucle de conversación simple
def chat():
    print("Chatbot Llama2 iniciado. Escribe 'salir' para terminar.")
    while True:
        prompt = input("Usuario: ")
        if prompt.lower() in ["salir", "exit"]:
            print("Terminando la sesión.")
            break
        
        response = generate_response(prompt)
        print("Bot:", response)

if __name__ == "__main__":
    chat()

Usando dispositivo: mps


Fetching 2 files: 100%|██████████| 2/2 [10:36<00:00, 318.20s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:06<00:00,  3.16s/it]
Some parameters are on the meta device because they were offloaded to the disk.


Chatbot Llama2 iniciado. Escribe 'salir' para terminar.


KeyboardInterrupt: 