# Implementación de Transformers para Procesamiento de Lenguaje Natural (NLP)


### Objetivo
En esta evaluación, implementaremos un modelo basado en arquitecturas de Transformers para una tarea de procesamiento de lenguaje natural (NLP), utilizando el dataset **DailyDialog**. Este conjunto de datos de diálogos permite que el modelo practique en generación de texto y comprensión de contexto en interacciones cotidianas.

Usaremos TensorFlow para construir un modelo transformer básico con las siguientes características:
- **Encoder-Decoder**: para procesar la entrada y generar salida secuencial.
- **Atención Multi-cabezal**: para capturar dependencias a largo plazo en el diálogo.

Al final, evaluaremos el modelo utilizando métricas específicas de NLP, como BLEU o ROUGE.


## 1. Carga y Exploración del Dataset: DailyDialog

In [None]:

# Import necessary libraries
import tensorflow_datasets as tfds

# Cargar el dataset DailyDialog
dataset, info = tfds.load("daily_dialog", with_info=True, as_supervised=True)

# Dividir en entrenamiento y prueba
train_data, test_data = dataset['train'], dataset['test']

# Mostrar un ejemplo de datos
for example in train_data.take(1):
    print("Ejemplo de diálogo:", example[0].numpy().decode('utf-8'))
    print("Etiqueta:", example[1].numpy())
    
# Mostrar información del dataset
print(info)


## 2. Implementación del Modelo Transformer

In [None]:

# Importar librerías necesarias para el modelo
import tensorflow as tf
from tensorflow.keras.layers import Input, Dense, Embedding, MultiHeadAttention, LayerNormalization, Dropout

# Función para construir el encoder del transformer
def transformer_encoder(input_shape, num_heads, ff_dim):
    inputs = Input(shape=input_shape)
    attention = MultiHeadAttention(num_heads=num_heads, key_dim=input_shape[-1])(inputs, inputs)
    attention = Dropout(0.1)(attention)
    attention = LayerNormalization(epsilon=1e-6)(attention + inputs)

    outputs = Dense(ff_dim, activation='relu')(attention)
    outputs = Dense(input_shape[-1])(outputs)
    return LayerNormalization(epsilon=1e-6)(outputs + attention)

# Construcción de un transformer básico con encoder-decoder y atención multi-cabezal
# La arquitectura completa incluiría un decoder para las tareas de generación


## 3. Entrenamiento del Modelo

In [None]:

# Configuración de hiperparámetros
batch_size = 64
epochs = 10
learning_rate = 0.001

# Compilación y entrenamiento del modelo
# model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=learning_rate),
#               loss='categorical_crossentropy', metrics=['accuracy'])

# model.fit(train_data, validation_data=test_data, epochs=epochs)


## 4. Evaluación del Modelo

In [None]:

from nltk.translate.bleu_score import sentence_bleu

# Ejemplo de evaluación del modelo usando BLEU o ROUGE
# predictions = model.predict(test_data)
# print("BLEU Score:", sentence_bleu(reference_sentences, predictions))


## 5. Ajuste de Hiperparámetros

In [None]:

# Probar diferentes configuraciones de hiperparámetros
# Ejemplo: modificar num_heads, ff_dim, número de capas

# Documentar los resultados y evaluar cada configuración
# for num_heads in [2, 4, 8]:
#     for ff_dim in [32, 64, 128]:
#         # Redefinir y entrenar modelo con nuevos hiperparámetros
#         # Registrar métricas y comparar rendimiento


## 6. Presentación de Resultados y Conclusiones


En esta sección, resumiremos los resultados obtenidos, mostrando cómo los ajustes de los hiperparámetros impactaron en el rendimiento del modelo.
- **Resultados Finales**: Comparación de BLEU, ROUGE, y otras métricas para cada configuración.
- **Conclusiones**: Reflexión sobre el proceso, dificultades encontradas y aprendizajes obtenidos.

¡Gracias por revisar nuestro proyecto! Esperamos que esta implementación demuestre nuestro dominio en el uso de transformers para NLP.
