In [1]:
import json
from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer, DataCollatorForLanguageModeling
from peft import LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer
import torch

# -----------------------------
# 1. Cargar dataset
# -----------------------------
dataset = load_dataset("json", data_files="tutor_dataset2.jsonl")

# -----------------------------
# 2. Cargar modelo base (CPU optimizado)
# -----------------------------
model_name = "microsoft/Phi-3.5-mini-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

# Cargar modelo en CPU con dtype float32 (sin cuantizaciÃ³n)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float32,  # Usar float32 para CPU
    low_cpu_mem_usage=True,     # Optimizar uso de memoria
    device_map="cpu"            # Forzar CPU
)

# -----------------------------
# 3. Configurar LoRA (ajustado para Phi-3.5)
# -----------------------------
lora_config = LoraConfig(
    r=8,                        # Phi-3.5 mini es pequeÃ±o, podemos usar r=8
    lora_alpha=16,              
    target_modules=["qkv_proj", "o_proj"],  # MÃ³dulos correctos para Phi-3.5
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)
print(f"ParÃ¡metros entrenables: {model.print_trainable_parameters()}")

# -----------------------------
# 4. Preprocesar el dataset
# -----------------------------
def format_instruction(example):
    # Formato especÃ­fico para Phi-3.5
    prompt = f"<|user|>\n{example['instruction']}<|end|>\n<|assistant|>\n"
    full_text = prompt + example["response"] + "<|end|>"
    
    # Tokenizar con longitud mÃ¡xima
    return tokenizer(
        full_text, 
        truncation=True, 
        max_length=512,
        padding="max_length"
    )

tokenized = dataset.map(
    format_instruction, 
    remove_columns=dataset["train"].column_names
)

# -----------------------------
# 5. Entrenamiento (configuraciÃ³n para CPU)
# -----------------------------
training_args = TrainingArguments(
    output_dir="./lora-tutor3",
    per_device_train_batch_size=2,      # Phi-3.5 es mÃ¡s pequeÃ±o, podemos usar batch_size=2
    gradient_accumulation_steps=8,      
    logging_steps=10,
    num_train_epochs=3,                 # 3 Ã©pocas es razonable para Phi-3.5
    fp16=False,                         
    save_steps=100,
    save_total_limit=2,                 
    learning_rate=2e-4,
    warmup_steps=50,
    lr_scheduler_type="cosine",
    dataloader_num_workers=0,           
    optim="adamw_torch",                
    max_grad_norm=1.0,
    report_to="none",                   
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized["train"],
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False),
)

print("Iniciando entrenamiento en CPU (esto puede ser LENTO)...")
trainer.train()

# -----------------------------
# 6. Guardar adaptadores LoRA
# -----------------------------
model.save_pretrained("./lora-tutor3")
tokenizer.save_pretrained("./lora-tutor3")
print("âœ… Entrenamiento completado. Adaptadores guardados en ./lora-tutor3")

# -----------------------------
# 7. Ejemplo de inferencia (opcional)
# -----------------------------
print("\n--- Prueba de inferencia ---")
model.eval()
test_prompt = "<|user|>\nÂ¿CÃ³mo crear una lista en Java?<|end|>\n<|assistant|>\n"
inputs = tokenizer(test_prompt, return_tensors="pt")

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=100,
        temperature=0.7,
        do_sample=True
    )

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

2025-12-11 09:57:31.574513: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:31] Could not find cuda drivers on your machine, GPU will not be used.
2025-12-11 09:57:31.612042: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-12-11 09:57:34.787543: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:31] Could not find cuda drivers on your machine, GPU will not be used.


Generating train split: 0 examples [00:00, ? examples/s]

`torch_dtype` is deprecated! Use `dtype` instead!


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

trainable params: 4,718,592 || all params: 3,825,798,144 || trainable%: 0.1233
ParÃ¡metros entrenables: None


Map:   0%|          | 0/472 [00:00<?, ? examples/s]

The model is already on multiple devices. Skipping the move to device specified in `args`.


Iniciando entrenamiento en CPU (esto puede ser LENTO)...




Step,Training Loss
10,2.3678
20,1.937
30,1.4157
40,1.1259
50,0.93
60,0.8413
70,0.8066
80,0.7704
90,0.802


âœ… Entrenamiento completado. Adaptadores guardados en ./lora-tutor3

--- Prueba de inferencia ---
Â¿CÃ³mo crear una lista en Java? Las listas (ArrayList) son colecciones dinÃ¡micas que pueden expandirse de forma automatica.

```java
import java.util.ArrayList;

public class Listas {
    public static void main(String[] args) {
        ArrayList<String> nombres = new ArrayList<>();
        nombres.add("Alice");
        System.out.println(nombres.size()); // Salida: 1
    }
}```


In [1]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel
import torch

# -----------------------------
# 1. ConfiguraciÃ³n
# -----------------------------
model_name = "microsoft/Phi-3.5-mini-instruct" 
lora_path = "./lora-tutor3"  

# -----------------------------
# 2. Cargar modelo base y adaptadores LoRA
# -----------------------------
print("Cargando modelo base...")
tokenizer = AutoTokenizer.from_pretrained(model_name)

base_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.float16,      
    device_map="cpu",               
    low_cpu_mem_usage=True
)

print("Cargando adaptadores LoRA...")
model = PeftModel.from_pretrained(base_model, lora_path)
model.eval()  # Modo evaluaciÃ³n

# -----------------------------
# 3. FunciÃ³n de inferencia
# -----------------------------
def generar_respuesta(pregunta, max_tokens=300, temperature=0.7):
    # Formato correcto para Phi-3.5
    prompt = f"<|user|>\n{pregunta}<|end|>\n<|assistant|>\n"
    
    inputs = tokenizer(prompt, return_tensors="pt")
    # NO usar .to("cuda") porque estamos en CPU
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_tokens,
            temperature=temperature,
            do_sample=True,
            top_p=0.9,
            repetition_penalty=1.1,
            pad_token_id=tokenizer.eos_token_id
        )
    
    respuesta_completa = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Extraer solo la respuesta del asistente
    if "<|assistant|>" in respuesta_completa:
        respuesta = respuesta_completa.split("<|assistant|>")[-1].strip()
    else:
        respuesta = respuesta_completa
    
    return respuesta

# -----------------------------
# 4. Ejemplos de uso
# -----------------------------
print("\n" + "="*60)
print("ðŸ¤– Tutor de ProgramaciÃ³n LoRA - Listo para responder")
print("="*60 + "\n")

# Ejemplo 1
pregunta1 = "ExplÃ­came quÃ© es una funciÃ³n en Java."
print(f"Pregunta: {pregunta1}")
print(f"Respuesta: {generar_respuesta(pregunta1)}\n")

# Ejemplo 2
pregunta2 = "Â¿CÃ³mo puedo leer un archivo en Java?"
print(f"Pregunta: {pregunta2}")
print(f"Respuesta: {generar_respuesta(pregunta2)}\n")

# Ejemplo 3
pregunta3 = "Â¿QuÃ© es un bucle for?"
print(f"Pregunta: {pregunta3}")
print(f"Respuesta: {generar_respuesta(pregunta3)}\n")

  from .autonotebook import tqdm as notebook_tqdm


Cargando modelo base...


`torch_dtype` is deprecated! Use `dtype` instead!
Loading checkpoint shards: 100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 2/2 [00:07<00:00,  3.64s/it]


Cargando adaptadores LoRA...

ðŸ¤– Tutor de ProgramaciÃ³n LoRA - Listo para responder

Pregunta: ExplÃ­came quÃ© es una funciÃ³n en Java.
Respuesta: ExplÃ­came quÃ© es una funciÃ³n en Java. Es un bloque de cÃ³digo encapsulado que puede ser llamado con su nombre y argumentos opcionales (tipo void).
```java
public static int sumar(int a, int b) { return a + b; } // Funcion para operaciÃ³n aritmetica simple.
System.out.println("Suma: " + sumar(2, 3));
// Salida: Suma: 5
```

Pregunta: Â¿CÃ³mo puedo leer un archivo en Java?
Respuesta: Â¿CÃ³mo puedo leer un archivo en Java? Se utiliza `FileReader` para lectura de texto y `BufferedReader` agrega bufferizaciÃ³n.

```java
import java.io.*; // Importar IO (Necesario)
public class Lectura {
    public static void main(String[] args) throws Exception {
        BufferedReader br = new BufferedReader(new FileReader("archivo.txt"));
         System.out.println(br.readLine()); 
       } catch(IOException e){System.err.print(e);} finally{if(br!=null)t

In [2]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel
import torch

# -----------------------------
# 1. ConfiguraciÃ³n
# -----------------------------
model_name = "microsoft/Phi-3.5-mini-instruct" 
lora_path = "./lora-tutor3"  

# -----------------------------
# 2. Cargar modelo base y adaptadores LoRA
# -----------------------------
print("Cargando modelo base...")
tokenizer = AutoTokenizer.from_pretrained(model_name)

base_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.float16,      
    device_map="cpu",               
    low_cpu_mem_usage=True
)

print("Cargando adaptadores LoRA...")
model = PeftModel.from_pretrained(base_model, lora_path)
model.eval()  # Modo evaluaciÃ³n

# -----------------------------
# 3. FunciÃ³n de inferencia
# -----------------------------
def generar_respuesta(pregunta, max_tokens=300, temperature=0.7):
    # Formato correcto para Phi-3.5
    prompt = f"<|user|>\n{pregunta}<|end|>\n<|assistant|>\n"
    
    inputs = tokenizer(prompt, return_tensors="pt")
    # NO usar .to("cuda") porque estamos en CPU
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_tokens,
            temperature=temperature,
            do_sample=True,
            top_p=0.9,
            repetition_penalty=1.1,
            pad_token_id=tokenizer.eos_token_id
        )
    
    respuesta_completa = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Extraer solo la respuesta del asistente
    if "<|assistant|>" in respuesta_completa:
        respuesta = respuesta_completa.split("<|assistant|>")[-1].strip()
    else:
        respuesta = respuesta_completa
    
    return respuesta
while True:
    pregunta = input("\nðŸ‘¤ Tu pregunta: ").strip()
    
    if pregunta.lower() in ['salir', 'exit', 'quit']:
        print("Â¡Hasta luego! ðŸ‘‹")
        break
    
    if not pregunta:
        continue
    
    print(f"ðŸ¤– Respuesta: {generar_respuesta(pregunta)}")

Cargando modelo base...


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Cargando adaptadores LoRA...



ðŸ‘¤ Tu pregunta:  Â¿QuÃ© es un algoritmo?


ðŸ¤– Respuesta: Â¿QuÃ© es un algoritmo? Un conjunto de instrucciones o pasos para resolver problemas.

```java
public int suma(int a, int b) { return a + b; } // Algoritmo simple: Sumar dos nÃºmeros.
```



ðŸ‘¤ Tu pregunta:  Â¿CÃ³mo puedo ordenar una secuencia de nÃºmeros?


ðŸ¤– Respuesta: Â¿CÃ³mo puedo ordenar una secuencia de nÃºmeros? La clase `Collections` proporciona mÃ©todos estÃ¡ticos para colas y listas, como el `sort()` que utiliza TimSort (una variaciÃ³n del merge sort).
```java
import java.util.*;
public class Ordenamiento {
    public static void main(String[] args) {
        List<Integer> numeros = Arrays.asList(34, 789, -12);
        Collections.sort(numeros); // [âˆ’12, 34, 789]
    }
}```


KeyboardInterrupt: Interrupted by user