In [None]:
# Importaciones
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

In [None]:
# Verificar si hay GPU
print(f"GPU disponible: {torch.cuda.is_available()}")

In [None]:
# Nombre del modelo
model_name = "codellama/CodeLlama-7b-Instruct-hf"

In [None]:
# Cargar el tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token  # Configurar el token de relleno

In [None]:
# Cargar el modelo en media precisión (fp16)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype=torch.float16,  # Reduce el uso de memoria
)

In [None]:
# Prompt de prueba
prompt = """# Function to retrieve a csv as a list of dicts, where every row in the csv is a dict in the list"""

In [None]:
# Preparar la entrada
inputs = tokenizer(
    prompt,
    return_tensors="pt",
    padding=True,  # Añade relleno si es necesario
    truncation=True,  # Trunca si el texto es demasiado largo
).to("cuda" if torch.cuda.is_available() else "cpu")

In [None]:
# Generar la respuesta con parámetros ajustados
outputs = model.generate(
    inputs.input_ids,
    max_length=300,  # Incrementa el número de tokens para respuestas más completas
    temperature=0.7,  # Controla la creatividad
    do_sample=True,  # Habilita el muestreo
    top_k=50,  # Considera solo las 50 palabras más probables en cada paso
    top_p=0.95,  # Habilita la selección basada en probabilidad acumulada
)

In [None]:
# Decodificar y mostrar la respuesta
print(tokenizer.decode(outputs[0], skip_special_tokens=True))