<a href="https://colab.research.google.com/github/fercho-116/practicalwork/blob/main/untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from datasets import load_dataset
from transformers import AutoModelForCausalLM, GPT2Tokenizer, Trainer, TrainingArguments, DataCollatorForLanguageModeling

# Update datasets to the latest version if needed
!pip install datasets --upgrade

# Cargar el dataset de Hugging Face (asegurándonos de tener el dataset correcto)
dataset = load_dataset("wikitext", "wikitext-103-raw-v1")  # Ejemplo: Wikitext

# Cargar el modelo y tokenizer preentrenado
model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neo-125M")
tokenizer = GPT2Tokenizer.from_pretrained("EleutherAI/gpt-neo-125M")

# Definir el token de padding
tokenizer.pad_token = tokenizer.eos_token  # Define el token de padding como el token de fin de secuencia

# Tokenización del dataset con padding
def tokenize_function(examples):
    return tokenizer(examples["text"], return_tensors="pt", padding="max_length", truncation=True, max_length=512)  # max_length opcional

# Tokenizar todo el conjunto de datos
train_dataset = dataset["train"].map(tokenize_function, batched=True)
eval_dataset = dataset["validation"].map(tokenize_function, batched=True)

# Configuración de los parámetros de entrenamiento
training_args = TrainingArguments(
    output_dir="./gpt_neo_finetuned",  # Carpeta donde guardar el modelo
    num_train_epochs=3,  # Número de épocas
    per_device_train_batch_size=4,  # Tamaño del batch
    save_steps=10_000,  # Guardar el modelo cada cuántos pasos
    save_total_limit=2,  # Limitar el número de modelos guardados
)

# Create DataCollatorForLanguageModeling
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)  # mlm=False for causal language modeling

# Crear el objeto Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,  # Usamos el conjunto de entrenamiento tokenizado
    eval_dataset=eval_dataset,  # Usamos el conjunto de validación tokenizado,
    data_collator=data_collator # Use DataCollatorForLanguageModeling
)

# Entrenamiento
trainer.train()



Map:   0%|          | 0/1801350 [00:00<?, ? examples/s]

Map:   0%|          | 0/3760 [00:00<?, ? examples/s]

Step,Training Loss
500,3.4198


In [None]:
# Guardar el modelo fine-tuned
trainer.save_model("./gpt_neo_finetuned")

# Guardar el tokenizer para futuras predicciones
tokenizer.save_pretrained("./gpt_neo_finetuned")


In [None]:
# Función para generar texto a partir de un prompt
def generate_text(prompt, max_length=100):
    # Codificar el prompt de entrada
    inputs = tokenizer.encode(prompt, return_tensors="pt")

    # Generar texto con el modelo
    outputs = model.generate(inputs, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2, temperature=0.7)

    # Decodificar el texto generado
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

    return generated_text

# Probar con un ejemplo de prompt
prompt = "La inteligencia artificial es"
generated_text = generate_text(prompt)
print(generated_text)


In [None]:
# Generar varios ejemplos de texto
prompts = [
    "La inteligencia artificial es",
    "La tecnología de redes neuronales ha",
    "El futuro de la computación está en",
]

for prompt in prompts:
    print(f"Prompt: {prompt}")
    generated_text = generate_text(prompt)
    print(f"Texto generado: {generated_text}\n")
