In [1]:
import json
from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer, DataCollatorForLanguageModeling
from peft import LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from huggingface_hub import login


  from .autonotebook import tqdm as notebook_tqdm





In [2]:
# -----------------------------
# 1. Cargar dataset
# -----------------------------
dataset = load_dataset("json", data_files="dataset.jsonl")

In [7]:
# -----------------------------
# 2. Cargar modelo base
# -----------------------------
model_name = "microsoft/Phi-3.5-mini-instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="None",
)


ValueError: When passing device_map as a string, the value needs to be a device name (e.g. cpu, cuda:0) or 'auto', 'balanced', 'balanced_low_0', 'sequential' but found None.

In [4]:
# -----------------------------
# 3. Configurar LoRA
# -----------------------------
lora_config = LoraConfig(
    r=8,
    lora_alpha=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)


In [5]:
# -----------------------------
# 4. Preprocesar el dataset
# -----------------------------
def format_instruction(example):
    prompt = f"Instrucci√≥n: {example['instruction']}\nRespuesta:"
    return tokenizer(prompt + example["response"], truncation=True)

tokenized = dataset.map(format_instruction)


In [6]:
# -----------------------------
# 5. Entrenamiento
# -----------------------------
training_args = TrainingArguments(
    output_dir="./lora-tutor",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=16,
    logging_steps=50,
    num_train_epochs=1,     # Pon 1 para no tardar horas
    fp16=False,             # IMPORTANTE
    bf16=False,
    save_steps=500,
    no_cuda=True,           # IMPORTANT√çSIMO
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized["train"],
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False),
)

trainer.train()

The model is already on multiple devices. Skipping the move to device specified in `args`.


RuntimeError: Function MmBackward0 returned an invalid gradient at index 1 - expected device meta but got cpu

In [None]:
# -----------------------------
# 6. Guardar adaptadores LoRA
# -----------------------------
model.save_pretrained("./lora-tutor")
print("Entrenamiento completado. Adaptadores guardados.")

In [1]:
import json
from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer, DataCollatorForLanguageModeling
from peft import LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer
import torch

# -----------------------------
# 1. Cargar dataset
# -----------------------------
dataset = load_dataset("json", data_files="tutor_dataset2.jsonl")

# -----------------------------
# 2. Cargar modelo base (CPU optimizado)
# -----------------------------
model_name = "microsoft/Phi-3.5-mini-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

# Cargar modelo en CPU con dtype float32 (sin cuantizaci√≥n)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float32,  # Usar float32 para CPU
    low_cpu_mem_usage=True,     # Optimizar uso de memoria
    device_map="cpu"            # Forzar CPU
)

# -----------------------------
# 3. Configurar LoRA (ajustado para Phi-3.5)
# -----------------------------
lora_config = LoraConfig(
    r=8,                        # Phi-3.5 mini es peque√±o, podemos usar r=8
    lora_alpha=16,              
    target_modules=["qkv_proj", "o_proj"],  # M√≥dulos correctos para Phi-3.5
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)
print(f"Par√°metros entrenables: {model.print_trainable_parameters()}")

# -----------------------------
# 4. Preprocesar el dataset
# -----------------------------
def format_instruction(example):
    # Formato espec√≠fico para Phi-3.5
    prompt = f"<|user|>\n{example['instruction']}<|end|>\n<|assistant|>\n"
    full_text = prompt + example["response"] + "<|end|>"
    
    # Tokenizar con longitud m√°xima
    return tokenizer(
        full_text, 
        truncation=True, 
        max_length=512,
        padding="max_length"
    )

tokenized = dataset.map(
    format_instruction, 
    remove_columns=dataset["train"].column_names
)

# -----------------------------
# 5. Entrenamiento (configuraci√≥n para CPU)
# -----------------------------
training_args = TrainingArguments(
    output_dir="./lora-tutor3",
    per_device_train_batch_size=2,      # Phi-3.5 es m√°s peque√±o, podemos usar batch_size=2
    gradient_accumulation_steps=8,      
    logging_steps=10,
    num_train_epochs=3,                 # 3 √©pocas es razonable para Phi-3.5
    fp16=False,                         
    save_steps=100,
    save_total_limit=2,                 
    learning_rate=2e-4,
    warmup_steps=50,
    lr_scheduler_type="cosine",
    dataloader_num_workers=0,           
    optim="adamw_torch",                
    max_grad_norm=1.0,
    report_to="none",                   
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized["train"],
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False),
)

print("Iniciando entrenamiento en CPU (esto puede ser LENTO)...")
trainer.train()

# -----------------------------
# 6. Guardar adaptadores LoRA
# -----------------------------
model.save_pretrained("./lora-tutor3")
tokenizer.save_pretrained("./lora-tutor3")
print("‚úÖ Entrenamiento completado. Adaptadores guardados en ./lora-tutor3")

# -----------------------------
# 7. Ejemplo de inferencia (opcional)
# -----------------------------
print("\n--- Prueba de inferencia ---")
model.eval()
test_prompt = "<|user|>\n¬øC√≥mo crear una lista en Python?<|end|>\n<|assistant|>\n"
inputs = tokenizer(test_prompt, return_tensors="pt")

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=100,
        temperature=0.7,
        do_sample=True
    )

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

2025-12-10 23:49:36.125568: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:31] Could not find cuda drivers on your machine, GPU will not be used.
2025-12-10 23:49:36.161729: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-12-10 23:49:37.187395: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:31] Could not find cuda drivers on your machine, GPU will not be used.
`torch_dtype` is deprecated! Use `dtype` instead!


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

trainable params: 4,718,592 || all params: 3,825,798,144 || trainable%: 0.1233
Par√°metros entrenables: None


Map:   0%|          | 0/500 [00:00<?, ? examples/s]

The model is already on multiple devices. Skipping the move to device specified in `args`.


Iniciando entrenamiento en CPU (esto puede ser LENTO)...


Step,Training Loss
10,3.2235
20,2.8215
30,1.9026
40,0.8375
50,0.4273
60,0.368
70,0.349
80,0.3487
90,0.3495


‚úÖ Entrenamiento completado. Adaptadores guardados en ./lora-tutor3

--- Prueba de inferencia ---
¬øC√≥mo crear una lista en Python? En Python, listas se implementa utilizando estructuras nativas o clases personalizadas. Aqu√≠ tienes un ejemplo simple en Python relacionado con listas.


In [2]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel
import torch

# -----------------------------
# 1. Configuraci√≥n
# -----------------------------
model_name = "microsoft/Phi-3.5-mini-instruct" 
lora_path = "./lora-tutor3"  

# -----------------------------
# 2. Cargar modelo base y adaptadores LoRA
# -----------------------------
print("Cargando modelo base...")
tokenizer = AutoTokenizer.from_pretrained(model_name)

base_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.float32,      
    device_map="cpu",               
    low_cpu_mem_usage=True
)

print("Cargando adaptadores LoRA...")
model = PeftModel.from_pretrained(base_model, lora_path)
model.eval()  # Modo evaluaci√≥n

# -----------------------------
# 3. Funci√≥n de inferencia
# -----------------------------
def generar_respuesta(pregunta, max_tokens=300, temperature=0.7):
    # Formato correcto para Phi-3.5
    prompt = f"<|user|>\n{pregunta}<|end|>\n<|assistant|>\n"
    
    inputs = tokenizer(prompt, return_tensors="pt")
    # NO usar .to("cuda") porque estamos en CPU
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_tokens,
            temperature=temperature,
            do_sample=True,
            top_p=0.9,
            repetition_penalty=1.1,
            pad_token_id=tokenizer.eos_token_id
        )
    
    respuesta_completa = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Extraer solo la respuesta del asistente
    if "<|assistant|>" in respuesta_completa:
        respuesta = respuesta_completa.split("<|assistant|>")[-1].strip()
    else:
        respuesta = respuesta_completa
    
    return respuesta

# -----------------------------
# 4. Ejemplos de uso
# -----------------------------
print("\n" + "="*60)
print("ü§ñ Tutor de Programaci√≥n LoRA - Listo para responder")
print("="*60 + "\n")

# Ejemplo 1
pregunta1 = "Expl√≠came qu√© es una funci√≥n en Java."
print(f"Pregunta: {pregunta1}")
print(f"Respuesta: {generar_respuesta(pregunta1)}\n")

# Ejemplo 2
pregunta2 = "¬øC√≥mo puedo leer un archivo en Java?"
print(f"Pregunta: {pregunta2}")
print(f"Respuesta: {generar_respuesta(pregunta2)}\n")

# Ejemplo 3
pregunta3 = "¬øQu√© es un bucle for?"
print(f"Pregunta: {pregunta3}")
print(f"Respuesta: {generar_respuesta(pregunta3)}\n")

Cargando modelo base...


`torch_dtype` is deprecated! Use `dtype` instead!
Loading checkpoint shards: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:24<00:00, 12.27s/it]


Cargando adaptadores LoRA...

ü§ñ Tutor de Programaci√≥n LoRA - Listo para responder

Pregunta: Expl√≠came qu√© es una funci√≥n en Python.
Respuesta: Expl√≠came qu√© es una funci√≥n en Python. En el contexto del lenguaje de programaci√≥n Python, la palabra "funci√≥n" se refiere a un bloque compuesto y reutilizable de c√≥digo que realiza tareas espec√≠ficas o calculos predefinidos cuando se llama con ciertos argumentos (llamados par√°metros). Las funciones ayudan al desarrollo eficiente dividiendo las operaciones complejas en partes m√°s peque√±as y manejables, permitiendo as√≠ mejor legibilidad, modularizaci√≥n y mantenimiento del programa.

Aqu√≠ hay algunas caracter√≠sticas clave sobre las funciones en Python:

1. Definici√≥n: Una funci√≥n puede definirse usando la sintaxis `def` seguida por su nombre junto con los par√©ntesis para contener sus posibles argumentos entre ellos. Despu√©s viene dos puntos (:) y luego la lista de declaraciones dentro de l√≠neas separadas u otra estructu

In [2]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel
import torch

# -----------------------------
# 1. Configuraci√≥n
# -----------------------------
model_name = "microsoft/Phi-3.5-mini-instruct" 
lora_path = "./lora-tutor"  

# -----------------------------
# 2. Cargar modelo base y adaptadores LoRA
# -----------------------------
print("Cargando modelo base...")
tokenizer = AutoTokenizer.from_pretrained(model_name)

base_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.float32,      
    device_map="cpu",               
    low_cpu_mem_usage=True
)

print("Cargando adaptadores LoRA...")
model = PeftModel.from_pretrained(base_model, lora_path)
model.eval()  # Modo evaluaci√≥n

# -----------------------------
# 3. Funci√≥n de inferencia
# -----------------------------
def generar_respuesta(pregunta, max_tokens=300, temperature=0.7):
    # Formato correcto para Phi-3.5
    prompt = f"<|user|>\n{pregunta}<|end|>\n<|assistant|>\n"
    
    inputs = tokenizer(prompt, return_tensors="pt")
    # NO usar .to("cuda") porque estamos en CPU
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_tokens,
            temperature=temperature,
            do_sample=True,
            top_p=0.9,
            repetition_penalty=1.1,
            pad_token_id=tokenizer.eos_token_id
        )
    
    respuesta_completa = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Extraer solo la respuesta del asistente
    if "<|assistant|>" in respuesta_completa:
        respuesta = respuesta_completa.split("<|assistant|>")[-1].strip()
    else:
        respuesta = respuesta_completa
    
    return respuesta
while True:
    pregunta = input("\nüë§ Tu pregunta: ").strip()
    
    if pregunta.lower() in ['salir', 'exit', 'quit']:
        print("¬°Hasta luego! üëã")
        break
    
    if not pregunta:
        continue
    
    print(f"ü§ñ Respuesta: {generar_respuesta(pregunta)}")

Cargando modelo base...


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Cargando adaptadores LoRA...



üë§ Tu pregunta:  ¬øPuedes decirme como imprimir un Hola Mundo! en java ?


ü§ñ Respuesta: ¬øPuedes decirme como imprimir un Hola Mundo! en java ? ¬°Claro! Aqu√≠ tienes el c√≥digo b√°sico para crear una clase simple en Java que, cuando se ejecute, mostrar√° "Hello World" en la consola:

```java
public class HelloWorld {
    public static void main(String[] args) {
        System.out.println("Hello World");
    }
}
```

Para compilar y ejecutar este programa de Java:

1. Gu√°rdalo con extensi√≥n `.java`, por ejemplo `HelloWorld.java`.
2. Usa tu terminal o s√≠mbolo del sistema e inicia el Javac Compiler escribiendo `javac HelloWorld.java`. Esto generar√° un archivo bytecode llamado `HelloWorld.class` si todo est√° bien.
3. Ejecuta luego el int√©rprete Java usando `java HelloWorld` desde la l√≠nea de comandos. Deber√≠as ver el mensaje "Hello World" impreso a la salida.

Recuerda tener instalado el JDK (Java Development Kit), ya que es necesario para desarrollar aplicaciones Java. Si no lo has configurado previamente, puedes encontrarte utilizando el comando alte

KeyboardInterrupt: Interrupted by user

In [None]:
import json
from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer, DataCollatorForLanguageModeling
from peft import LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer
import torch
import gc

print("Entrenamiento LoRA con Qwen 2.5-0.5B")
print("="*70)

# -----------------------------
# 1. Cargar dataset
# -----------------------------
print("\nCargando dataset...")
dataset = load_dataset("json", data_files="tutor_dataset2.jsonl")
print(f" Dataset cargado: {len(dataset['train'])} ejemplos")

# -----------------------------
# 2. Cargar modelo base LIGERO
# -----------------------------
model_name = "Qwen/Qwen2.5-0.5B-Instruct"
print(f"\nü§ñ Cargando modelo: {model_name}")

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

# Configurar padding token si no existe
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

print("‚öôÔ∏è  Cargando modelo base...")
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,      
    device_map="cpu",
    low_cpu_mem_usage=True,
    trust_remote_code=True
)

# Liberar memoria
gc.collect()
print(f" Modelo cargado en CPU con dtype float16")

# -----------------------------
# 3. Configurar LoRA (optimizado para Qwen)
# -----------------------------
print("\nüîß Configurando LoRA...")

lora_config = LoraConfig(
    r=16,                           
    lora_alpha=32,                  
    target_modules=[
        "q_proj", 
        "k_proj", 
        "v_proj", 
        "o_proj"
    ],                              
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)
print(" LoRA configurado")
model.print_trainable_parameters()

# -----------------------------
# 4. Preprocesar el dataset
# -----------------------------
print("\nüìù Preprocesando dataset...")

def format_instruction(example):
    """
    Formato de chat para Qwen 2.5:
    <|im_start|>user
    {pregunta}<|im_end|>
    <|im_start|>assistant
    {respuesta}<|im_end|>
    """
    prompt = f"<|im_start|>user\n{example['instruction']}<|im_end|>\n<|im_start|>assistant\n"
    full_text = prompt + example["response"] + "<|im_end|>"
    
    # Tokenizar con longitud controlada
    return tokenizer(
        full_text, 
        truncation=True, 
        max_length=512,             # L√≠mite razonable para CPU
        padding="max_length"
    )

tokenized = dataset.map(
    format_instruction, 
    remove_columns=dataset["train"].column_names,
    desc="Tokenizando ejemplos"
)

print(f"‚úÖ Dataset tokenizado: {len(tokenized['train'])} ejemplos")

# Liberar memoria
gc.collect()

# -----------------------------
# 5. Configuraci√≥n de entrenamiento
# -----------------------------
print("\n‚öôÔ∏è  Configurando entrenamiento...")

training_args = TrainingArguments(
    output_dir="./lora-qwen-tutor",
    
    # --- Batch y optimizaci√≥n ---
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,
    num_train_epochs=3,
    learning_rate=3e-4,
    warmup_steps=50,
    max_grad_norm=1.0,
    optim="adamw_torch",
    lr_scheduler_type="cosine",

    # --- Logging y barra de progreso ---
    logging_steps=10,
    logging_first_step=True,      # imprime inmediatamente
    report_to="none",             # no usa wandb/tensorboard, pero NO afecta tqdm
    disable_tqdm=False,           # <- ACTIVA la barra de progreso!

    # --- Guardado ---
    save_steps=100,
    save_total_limit=2,
    save_strategy="steps",

    # --- Otros ---
    fp16=False,                   # NO usar float16 en CPU
    bf16=False,
    dataloader_num_workers=0,
    eval_strategy="no",
    logging_dir="./logs",
)


# -----------------------------
# 6. Crear Trainer
# -----------------------------
print("\nüèãÔ∏è  Creando Trainer...")

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized["train"],
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False),
)

# -----------------------------
# 7. ENTRENAR
# -----------------------------
print("\n" + "="*70)
print(" INICIANDO ENTRENAMIENTO")
print("="*70)
print("  ADVERTENCIA: En CPU esto puede tardar 30 min - 2 horas")
print("    dependiendo de tu procesador y tama√±o del dataset")
print("="*70 + "\n")

try:
    trainer.train()
    print("\n Entrenamiento completado!")
except KeyboardInterrupt:
    print("\n  Entrenamiento interrumpido por el usuario")
except Exception as e:
    print(f"\n Error durante el entrenamiento: {e}")

# -----------------------------
# 8. Guardar modelo
# -----------------------------
print("\nüíæ Guardando adaptadores LoRA...")
model.save_pretrained("./lora-qwen-tutor")
tokenizer.save_pretrained("./lora-qwen-tutor")
print("‚úÖ Adaptadores guardados en: ./lora-qwen-tutor")

# Liberar memoria
del model
del trainer
gc.collect()

print("\n" + "="*70)
print(" PROCESO COMPLETADO")

2025-12-10 23:33:40.467564: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:31] Could not find cuda drivers on your machine, GPU will not be used.
2025-12-10 23:33:42.893979: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-12-10 23:33:46.763411: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:31] Could not find cuda drivers on your machine, GPU will not be used.


Entrenamiento LoRA con Qwen 2.5-0.5B

Cargando dataset...
 Dataset cargado: 500 ejemplos

ü§ñ Cargando modelo: Qwen/Qwen2.5-0.5B-Instruct


`torch_dtype` is deprecated! Use `dtype` instead!


‚öôÔ∏è  Cargando modelo base...
 Modelo cargado en CPU con dtype float16

üîß Configurando LoRA...
 LoRA configurado
trainable params: 2,162,688 || all params: 496,195,456 || trainable%: 0.4359

üìù Preprocesando dataset...
‚úÖ Dataset tokenizado: 500 ejemplos


The model is already on multiple devices. Skipping the move to device specified in `args`.



‚öôÔ∏è  Configurando entrenamiento...

üèãÔ∏è  Creando Trainer...

 INICIANDO ENTRENAMIENTO
  ADVERTENCIA: En CPU esto puede tardar 30 min - 2 horas
    dependiendo de tu procesador y tama√±o del dataset





In [10]:
import json
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM, 
    AutoTokenizer, 
    DataCollatorForLanguageModeling,
    TrainingArguments, 
    Trainer
)
from peft import LoraConfig, get_peft_model

# -----------------------------
# 1. Configuraci√≥n de Hardware
# -----------------------------
# Detectar si hay GPU disponible (CUDA funciona como alias para ROCm en PyTorch)
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Usando dispositivo: {device}")

# -----------------------------
# 2. Cargar dataset
# -----------------------------
dataset = load_dataset("json", data_files="tutor_dataset2.jsonl")

# -----------------------------
# 3. Cargar modelo base (Optimizado para GPU)
# -----------------------------
model_name = "microsoft/Phi-3.5-mini-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

# Cargar en GPU directamente usando bfloat16 (mejor para AMD serie 6000/7000)
# Phi-3.5 es peque√±o (~4GB en fp16), cabe sobrado en tu VRAM sin cuantizar a 4 bits.
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,     # bfloat16 es m√°s estable y r√°pido en GPUs modernas
    device_map="auto",              # PyTorch distribuir√° el modelo en la GPU
    attn_implementation="eager"     # Compatibilidad general
)

# -----------------------------
# 4. Configurar LoRA
# -----------------------------
lora_config = LoraConfig(
    r=16,                           # Aumentamos a 16 ya que tienes buena GPU
    lora_alpha=32,                  
    # Agregamos m√°s m√≥dulos para un aprendizaje m√°s profundo
    target_modules=["qkv_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], 
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

# -----------------------------
# 5. Preprocesar el dataset
# -----------------------------
def format_instruction(example):
    prompt = f"<|user|>\n{example['instruction']}<|end|>\n<|assistant|>\n"
    full_text = prompt + example["response"] + "<|end|>"
    return tokenizer(
        full_text, 
        truncation=True, 
        max_length=1024, # Aumentamos contexto ya que tienes memoria de sobra
        padding="max_length"
    )

tokenized = dataset.map(format_instruction, remove_columns=dataset["train"].column_names)

# -----------------------------
# 6. Entrenamiento (Configuraci√≥n GPU AMD)
# -----------------------------
training_args = TrainingArguments(
    output_dir="./lora-tutor-phi35",
    per_device_train_batch_size=8,  # Tu GPU aguanta batch m√°s grande (m√°s r√°pido)
    gradient_accumulation_steps=2,   
    logging_steps=10,
    num_train_epochs=3,
    save_strategy="epoch",
    learning_rate=2e-4,
    warmup_ratio=0.03,
    lr_scheduler_type="cosine",
    optim="adamw_torch",            
    max_grad_norm=1.0,
    report_to="none",
    dataloader_pin_memory=True      # Acelera transferencia RAM -> VRAM
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized["train"],
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False),
)

print("üöÄ Iniciando entrenamiento en GPU AMD...")
trainer.train()

# -----------------------------
# 7. Guardar adaptadores
# -----------------------------
final_path = "./lora-tutor-final"
model.save_pretrained(final_path)
tokenizer.save_pretrained(final_path)
print(f"‚úÖ Adaptadores guardados en {final_path}")

Usando dispositivo: cpu


Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.67G [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/195 [00:00<?, ?B/s]

trainable params: 15,204,352 || all params: 3,836,283,904 || trainable%: 0.3963


Map:   0%|          | 0/500 [00:00<?, ? examples/s]

ValueError: Your setup doesn't support bf16/gpu.

In [8]:
import torch
import sys

print(f"Python version: {sys.version}")
print(f"PyTorch version: {torch.__version__}")
print("-" * 30)

if torch.cuda.is_available():
    print("‚úÖ ROCm/CUDA est√° activo y funcionando.")
    device = torch.device("cuda")
    print(f"Tarjeta gr√°fica detectada: {torch.cuda.get_device_name(0)}")
    
    # Prueba de c√°lculo
    try:
        x = torch.randn(1024, 1024).to(device)
        y = torch.randn(1024, 1024).to(device)
        z = torch.matmul(x, y)
        print("‚úÖ C√°lculo matricial (1024x1024) completado exitosamente.")
        
        if torch.cuda.is_bf16_supported():
            print("‚úÖ Soporte para bfloat16 confirmado (Ideal para entrenar).")
        else:
            print("‚ö†Ô∏è Tu tarjeta usar√° float16 est√°ndar.")
            
    except Exception as e:
        print(f"‚ùå Error al realizar c√°lculos: {e}")
else:
    print("‚ùå No se detect√≥ ninguna GPU. PyTorch est√° usando CPU.")

Python version: 3.12.5 | packaged by conda-forge | (main, Aug  8 2024, 18:36:51) [GCC 12.4.0]
PyTorch version: 2.4.1+rocm6.0
------------------------------
‚ùå No se detect√≥ ninguna GPU. PyTorch est√° usando CPU.


In [12]:
import torch

print("HIP version:", torch.version.hip)
print("CUDA available:", torch.cuda.is_available())
print("Device:", torch.cuda.get_device_name(0))


HIP version: 6.0.32830-d62f6a171
CUDA available: False


RuntimeError: No HIP GPUs are available

In [13]:
pip show torch


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Name: torch
Version: 2.6.0+rocm6.1
Summary: Tensors and Dynamic neural networks in Python with strong GPU acceleration
Home-page: https://pytorch.org/
Author: PyTorch Team
Author-email: packages@pytorch.org
License: BSD-3-Clause
Location: /home/yisus/.config/jupyterlab-desktop/jlab_server/lib/python3.12/site-packages
Requires: filelock, fsspec, jinja2, networkx, pytorch-triton-rocm, setuptools, sympy, typing-extensions
Required-by: accelerate, peft, torchaudio, torchvision
Note: you may need to restart the kernel to use updated packages.


In [14]:
import torch

print("Versi√≥n de PyTorch:", torch.__version__)
print("¬øROCm disponible?:", torch.version.hip is not None)
print("torch.cuda.is_available():", torch.cuda.is_available())
print("Nombre del dispositivo:", torch.cuda.get_device_name(0) if torch.cuda.is_available() else "No detectado")


Versi√≥n de PyTorch: 2.4.1+rocm6.0
¬øROCm disponible?: True
torch.cuda.is_available(): False
Nombre del dispositivo: No detectado
