# Generación de texto creativo con IA - Poesía

### Librerías

In [None]:
from transformers import GPT2TokenizerFast, GPT2LMHeadModel
from transformers import DataCollatorWithPadding, DataCollatorForLanguageModeling
from transformers import TrainingArguments, Trainer
from datasets import load_metric
from datasets import load_dataset
from tokenizers import AddedToken
import pandas as pd
import gradio as gr


### Carga de modelo, tokenizador y ajuste de tokenizador

Se carga la versión Medium del modelo GPT-2 Spanish, indicándole que el dispositivo que se usará es la GPU (CUDA: Compute Unified Device Architecture de Nvidia). Adicionalmente se le indica la ruta de la máquina local donde quedará alojado el modelo modelo descargado. El caracter'\n' que hace la función de salto de línea, ya está en el tokenizador de este modelo, pero se agregan tokens de inicio de secuencia, fin de secuencia, tokens de padding y de caracteres desconocidos.

In [None]:
tokenizer = GPT2TokenizerFast.from_pretrained("DeepESP/gpt2-spanish-medium")
model = GPT2LMHeadModel.from_pretrained("DeepESP/gpt2-spanish-medium", device_map="cuda", cache_dir= 'I:/transformers')

In [None]:
special_tokens = {
    'pad_token': '[PAD]',
    'bos_token': '<SC>',
    'eos_token': '<EC>',
    'unk_token': '<UNK>'
}

# Modifica los tokens especiales del tokenizador
tokenizer.add_special_tokens(special_tokens)

In [None]:
model.resize_token_embeddings(len(tokenizer))

### Adquisición de conjunto de datos de poesía, limpieza y pre-procesado

Se carga el conjunto de datos que contiene las poesías. Se eligen únicamente los textos en español y se pre-procesa el conjunto de datos, agregándole los tokens representarán el inicio y final de cada poesía. Despues, se tokeniza el conjunto de datos, truncandolos a 512 máximo de longitud y se realiza padding para rellenar aquellos textos que tenga una longitud menor. Finalmente se declara el data collator que se usará en el entrenamiento. 

In [None]:
# Cargar el conjunto de datos
dataset = load_dataset("linhd-postdata/poesias")

# Acceder a la información del conjunto de datos
print(dataset)

In [None]:
dataset_spanish = dataset.filter(lambda example: example['language'] == 'es')

In [None]:
def format_ds(example):
  example["text"] = "<SC>" + example['text'] + "<EC>"
  return example

In [None]:
dataset_spanish = dataset_spanish.map(format_ds)

In [None]:
tokenized_data = dataset_spanish.map(
    lambda example: tokenizer(example["text"], max_length=512, truncation=True),
    batched=True,
)


In [None]:
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer,  mlm=False)

### Entrenamiento y evaluación por época

En training_args se definen los argumentos principales de entrenamiento del modelo y esto alimenta el trainer, que se usará para entrenar el modelo y realizar la evaluación por época.

In [None]:
training_args = TrainingArguments(
    output_dir='I:/transformers/gtp2spamedium',
    learning_rate= 0.0001, #2e-5,
    save_steps = 1000000,
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    num_train_epochs=5,
    weight_decay=0.1,
    gradient_accumulation_steps=2,
    do_eval = True,
    evaluation_strategy  = 'epoch',
    eval_steps = 1
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_data['train'],
    eval_dataset=tokenized_data['test'],
    tokenizer=tokenizer,
    data_collator=data_collator,
)

In [None]:
trainer.train()

#### Guardado del modelo y métricas de rendimiento

El modelo entrenado y las métricas de rendimiento se guardan en el equipo local.

In [None]:

model.save_pretrained("C:/Users/Victor/OneDrive/Documentos/MasterIA/09_TFM/desarrollo/modelosfinal/modelos_generadores/gpt2_spa_medium_poesia")

In [None]:
logh = trainer.state.log_history

In [None]:
extracted_data = []

# Itera sobre cada diccionario en la lista 'data'
for entry in logh:
    # Extrae las claves 'loss', 'step' y 'eval_loss' de cada diccionario
    extracted_entry = {'loss': entry.get('loss', None),
                       'step': entry.get('step', None),
                       'eval_loss': entry.get('eval_loss', None)}

    # Agrega el diccionario extraído a la nueva lista
    extracted_data.append(extracted_entry)



In [None]:
# Crea un DataFrame de pandas con los datos extraídos
df = pd.DataFrame(extracted_data)
csv_file_path = 'C:/Users/Victor/OneDrive/Documentos/MasterIA/09_TFM/desarrollo/modelosfinal/metricas_modelo/loss_gpt2_spa_medium.csv'
df.to_csv(csv_file_path, index=False)

### Despliegue

#### Carga de modelo, tokenizador y ajuste de tokenizador

Se carga el modelo almacenado, así como el tokenizador original que se vuelve a ajustar para incluir el caracter '\n'.

In [None]:
ruta_modelo = "C:/Users/Victor/OneDrive/Documentos/MasterIA/09_TFM/desarrollo/modelosfinal/modelos_generadores/gpt2_spa_medium_poesia"
# Cargar el tokenizador y el modelo
model = GPT2LMHeadModel.from_pretrained(ruta_modelo, device_map="cuda")
tokenizer = GPT2TokenizerFast.from_pretrained("DeepESP/gpt2-spanish-medium")

In [None]:
special_tokens = {
    'pad_token': '[PAD]',
    'bos_token': '<SC>',
    'eos_token': '<EC>',
    'unk_token': '<UNK>'
}

# Modifica los tokens especiales del tokenizador
tokenizer.add_special_tokens(special_tokens)

In [None]:
model.resize_token_embeddings(len(tokenizer))

#### Función generadora de poesía

A partir del modelo cargado, se crea esta función generadora de texto, la cual se alimenta de una entrada textual y genera la poesía. Se declara el argumento do_sample a True para que genere diferentes poesías con la misma entrada. El argumento temperatura controla la aleatoriedad de la generación. Valores bajos producen texto mas conservador eligiendo palabras mas probables. Valores altos produce mayor variabilidad y creatividad en la generación. Un valor en 0.95 garantiza variabilidad y creatividad.

In [None]:
def generar_texto(Texto):
    input_ids = tokenizer.encode(Texto, return_tensors="pt").to('cuda')

    # Generar texto condicionalmente
    output = model.generate(input_ids, max_length=250, min_length=100,pad_token_id=tokenizer.eos_token_id,
                        #repetition_penalty = 1.2, num_beams=1, 
                        #num_beams=5, no_repeat_ngram_size=2, top_k=50, top_p=0.95, 
                        temperature=0.95, do_sample=True,)

# Decodificar y mostrar el texto generado
    texto_generado = tokenizer.decode(output[0], skip_special_tokens=False)

    
    #texto_generado = "Texto generado por el modelo..." # Aquí deberías llamar a tu modelo generativo para generar texto
    
    return texto_generado

#### Interfaz web para generar poesía con Gradio

Usando la libreria Gradio, a partir de la función anterior, se genera una interfaz web que permite ingresar un texto inicial y así generar poesía a partir de dicho texto. La interfaz permite interactuar con ella en el presente notebook o mediante un link web.

In [None]:
interfaz = gr.Interface(
    fn=generar_texto,
    inputs="text",
    outputs="text",
    title="Generador de Poesía",
    description="Introduce un texto inicial y genera poesía",
    allow_flagging = 'never',
    clear_btn = 'Nueva Poesía',
    submit_btn = 'Crea Poesía'

)

Se lanza la interfaz web por medio de launch().

In [None]:
interfaz.launch(share=True)

Se cierra la interfaz web por medio de close().

In [None]:
interfaz.close()