<a href="https://colab.research.google.com/github/milagrosmaurer/Aprendizaje-Automatico/blob/main/TP2/TP2_automatico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Carga de librerias

In [None]:
!pip install ebooklib beautifulsoup4 pandas
!pip install stanza


In [None]:
import torch
import torch.nn as nn
from torch.utils.data import TensorDataset,Dataset, DataLoader
from transformers import BertTokenizer, BertModel
from typing import List, Dict, Any
import numpy as np
import pandas as pd
from ebooklib import epub
import ebooklib
from bs4 import BeautifulSoup
import re
import stanza
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score,confusion_matrix

In [None]:
model_name = "bert-base-multilingual-cased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
model.eval()

In [None]:
stanza.download("es")
nlp = stanza.Pipeline("es", processors="tokenize,pos")

## Definición de funciones

In [None]:
def normalize_text_X(t):
    # Convertir a minúsculas y quitar puntuación
    t = t.lower()
    t = re.sub(r'[\u200b-\u200f\uFEFF]', '', t)
    t = re.sub(r"[^a-záéíóúüñ0-9' -]+", ' ', t)
    t = re.sub(r'\s+', ' ', t).strip()
    return t

In [None]:
def normalize_text_y(t):
    # Convertir a minúsculas y quitar puntuación
    t = re.sub(r'[\u200b-\u200f\uFEFF]', '', t)
    t = re.sub(r"[^a-zA-Záéíóúüñ0-9¿?,.' -]+", ' ', t)
    t = re.sub(r'\s+', ' ', t).strip()
    return t

In [None]:
prueba = "Hola...cómo estás?"

print(prueba.lower())
token_1 = tokenizer.tokenize(prueba.lower())
print(token_1)
print(tokenizer.convert_tokens_to_ids(token_1))
prueba_sin_punt = normalize_text_X(prueba)
print(tokenizer.convert_tokens_to_ids(tokenizer.tokenize(prueba_sin_punt)))

for palabra in prueba.split():
  print(palabra)
  print(tokenizer.tokenize(palabra.lower()))



In [None]:
def transformar_etiqueta(y, indice):
  puntuacion_iniciales = []
  puntuacion_finales = []
  capitalizaciones = []
  instancia_ids = []
  token_ids = []
  tokens_l = []

  for parrafo in y:
    inicio_pregunta = False
    palabras = parrafo.split()


    for palabra in palabras:
      tokens = tokenizer.tokenize(palabra.lower())

      for i in range(len(tokens)):
        if tokens[i] == "¿":
          inicio_pregunta = True
          continue
        if tokens[i] == "?" or tokens[i] == "." or tokens[i] == ",":
          continue

        instancia_ids.append(indice)
        token_ids.append(tokenizer.convert_tokens_to_ids(tokens[i]))
        tokens_l.append(tokens[i])

        if inicio_pregunta:
          puntuacion_iniciales.append(1) #('"¿"')
          inicio_pregunta = False
        else:
          puntuacion_iniciales.append(0) #("")

        if i != len(tokens) - 1:

          if tokens[i+1] == "?":
            puntuacion_finales.append(3) #('"?"')
          elif tokens[i+1] == ".":
            puntuacion_finales.append(1) #('"."')
          elif tokens[i+1] == ",":
            puntuacion_finales.append(2) #('","')
          else:
            puntuacion_finales.append(0) #("")

        else:
          puntuacion_finales.append(0) #("")

        if palabra.islower():
          capitalizaciones.append(0)
          ultimo_numero = 0
        elif palabra.istitle():
          capitalizaciones.append(1)
          ultimo_numero = 1
        elif palabra.isupper():
          capitalizaciones.append(3)
          ultimo_numero = 3
        else:
          capitalizaciones.append(2)
          ultimo_numero = 2

  etiquetas = np.column_stack([instancia_ids, token_ids, tokens_l, puntuacion_iniciales, puntuacion_finales, capitalizaciones])
  return etiquetas

In [None]:
def convertir_epub_a_csv(archivo_epub='libro.epub'):
  # Cargar el libro
  book = ebooklib.epub.read_epub(archivo_epub)

  # Lista donde se guardarán los párrafos
  parrafos = []

  # Recorremos los ítems del libro
  for item in book.get_items():
      if item.get_type() == ebooklib.ITEM_DOCUMENT:
          # Parseamos el contenido HTML
          soup = BeautifulSoup(item.get_body_content(), 'html.parser')
          # Extraemos los párrafos
          for p in soup.find_all('p'):
            #print("p:",p, 'tipo: ', type(p))
            texto = p.get_text().strip()
            #print("TEXTO:",texto, ' tipo: ', type(texto))
            palabras = texto.split()
            #print("PALABRAS:",palabras, ' tipo: ', type(palabras))
            if len(palabras) < 20 or len(palabras) > 100:  # descartamos párrafos cortos
                continue
            if texto:
                parrafos.append(texto)

  df = pd.DataFrame({'parrafo': parrafos})
  df.to_csv("libro_parrafos.csv", index=False, encoding="utf-8")

  print(f"Se extrajeron {len(parrafos)} párrafos y se guardaron en 'libro_parrafos.csv'.")

In [None]:
def crearDataSet(libro):
  convertir_epub_a_csv(libro)
  df = pd.read_csv('libro_parrafos.csv')
  parrafos = pd.DataFrame(columns=['default', 'limpio'])
  parrafos['limpio'] = df['parrafo'].apply(normalize_text_X)
  parrafos['default'] = df['parrafo'].apply(normalize_text_y)

  columnas = ['instancia_id', 'token_id', 'token', 'punt_inicial', 'punt_final', 'capitalización']
  datos = pd.DataFrame(columns=columnas)

  i = 0
  for p in parrafos['default']:
    etiquetas = transformar_etiqueta([p], i)
    etiquetas = pd.DataFrame(etiquetas, columns=columnas)
    datos = pd.concat([datos, etiquetas], ignore_index=True)
    i += 1

  print('Data set creado de tamaño: ', datos.shape)

  numeric_cols = ['instancia_id', 'token_id', 'punt_inicial', 'punt_final', 'capitalización']
  for col in numeric_cols:
    datos[col] = pd.to_numeric(datos[col], errors='coerce')

  return parrafos, datos

In [None]:
def agregar_embeddings(df_X): #habria que sacar esta
  token_ids = df_X['token_id'].tolist()
  embeddings_list = []
  for token_id  in token_ids:
      if token_id is None or token_id == tokenizer.unk_token_id:
        token_id = tokenizer.unk_token_id
      # Detach the tensor before converting to list
      embedding = model.embeddings.word_embeddings.weight[token_id].detach().tolist()
      embeddings_list.append(embedding)
  df_X['embeddings'] = embeddings_list
  # The embeddings are already lists of floats, no need to convert to int
  # df_X['embeddings'] = df_X['embeddings'].apply(lambda x: [int(i) for i in x])

  return df_X

In [None]:
def trasformar_df_dfPyTorch(datos_X, datos_Y):
  # Convert the list of lists in the 'embeddings' column to a NumPy array of floats
  embeddings_array = np.array(datos_X['embeddings'].tolist(), dtype=np.float32)
  X = torch.tensor(embeddings_array, dtype=torch.float32)
  Y = torch.tensor(datos_Y[['punt_inicial', 'punt_final', 'capitalización']].values, dtype=torch.float32)
  dataSetPT = TensorDataset(X, Y)

  return dataSetPT

In [None]:
def categoria_gramatical_stanza(palabra):
    doc = nlp(palabra)
    token = doc.sentences[0].words[0]
    return token.upos

upos2id = {
    "NOUN": 0, #Sustantivo común. Ej: gato, casa, libro, profesor
    "PROPN": 1, #Sustantivo propio. Ej: Argentina, Azul, Google
    "VERB": 2, #Verbo léxico. Ej: comer, hablar, correr
    "ADJ": 3, #Adjetivo. Ej: rápido, azul, brillante
    "ADV": 4, #Adverbio. Ej: rápidamente, muy, cerca
    "PRON": 5, #Pronombre. Ej: yo, tú, él, eso, alguien
    "DET": 6, #Determinante / artículo. Ej: el, la, los, un, ese, mi
    "ADP": 7, #Adposición: preposición o posposición. Ej: de, para, con, sin, sobre
    "SCONJ": 8, #Conjunción subordinante. Ej: que, porque, aunque, si
    "CCONJ": 9, #Conjunción coordinante. Ej: y, o, pero, ni
    "NUM": 10, #Numeral. Ej: uno, dos, 50, tercero
    "INTJ": 11, #Interjección. Ej: ay!, hola!, uf, eh
    "PART": 12, #Partícula gramatical (raro en español). Ejemplos típicos en inglés (not, 's), en español casi no se usa, pero aparece en casos como "sí" enfático.
    "AUX": 13, #Verbo auxiliar. Ej: haber, ser (cuando forman tiempos compuestos: “he comido”, “está hablando”)
    "PUNCT": 14, #Signos de puntuación. Ej: , . ; ! ?
    "SYM": 15, #Símbolos. Ej: $, %, +, =, →
    "X": 16 #Otros / desconocidos / extranjeros. Cualquier cosa que no encaja en ninguna categoría.
}

def indice_categoria_stanza(palabra):
    pos = categoria_gramatical_stanza(palabra)
    return upos2id.get(pos,-1)

In [None]:
def crearDataSetRF(datos):
  data_set_RF = pd.DataFrame(columns = ['token_id', 'posicion_frase',
                                        'categoria_gramatical', 'distancia_al_final',
                                        'id_anterior', 'id_siguiente', 'es_principio',
                                        'es_medio', 'es_final', 'forma_parte'])

  token_id = []
  posicion_frase = []
  categoria_gramatical = []
  distancia_al_final = []
  id_anterior = []
  id_siguiente = []
  es_principio = []
  es_medio = []
  es_final = []
  forma_parte = []

  for parrafo in datos:

    token_siguiente = -1
    token_anterior = -1
    palabras = parrafo.split()

    for i, palabra in enumerate(palabras):
      categoria = indice_categoria_stanza(palabra)
      tokens_id = tokenizer.convert_tokens_to_ids(tokenizer.tokenize(palabra))

      for j, id in enumerate(tokens_id):
        token_id.append(id)
        posicion_frase.append(i)
        categoria_gramatical.append(categoria)
        distancia_al_final.append(len(palabras) - i)
        id_anterior.append(token_anterior)

        n_tok = len(tokens_id)
        if j != n_tok - 1:
          id_sig  = tokens_id[j + 1]
          id_siguiente.append(id_sig)
        else:
          if i != len(palabras) - 1:
            token_siguiente = tokenizer.convert_tokens_to_ids(tokenizer.tokenize(palabras[i + 1]))[0]
            id_siguiente.append(token_siguiente)
          else:
            id_siguiente.append(-1)

        es_medio_id = 0
        es_final_id = 0
        es_principio_id = 0
        if j == 0:
          es_principio_id = 1
        elif j == n_tok - 1:
          es_final_id = 1
        else:
          es_medio_id = 1
        es_principio.append(es_principio_id)
        es_medio.append(es_medio_id)
        es_final.append(es_final_id)

        token_anterior = id

        forma_parte_id = 0
        if n_tok != 1:
          forma_parte_id = 1
        forma_parte.append(forma_parte_id)

  data_set_RF['token_id'] = token_id
  data_set_RF['posicion_frase'] = posicion_frase
  data_set_RF['categoria_gramatical'] = categoria_gramatical
  data_set_RF['distancia_al_final'] = distancia_al_final
  data_set_RF['id_anterior'] = id_anterior
  data_set_RF['id_siguiente'] = id_siguiente
  data_set_RF['es_principio'] = es_principio
  data_set_RF['es_medio'] = es_medio
  data_set_RF['es_final'] = es_final
  data_set_RF['forma_parte'] = forma_parte

  return data_set_RF

### Prueba texto corto

In [None]:
parrafo_prueba = [
    "La luna asomaba detrás de las nubes cuando Clara decidió salir a caminar. La calle estaba desierta y el silencio le resultaba casi reconfortante.",

    "El viejo cuaderno tenía páginas sueltas y esquinas dobladas. Cada anotación parecía escrita por alguien distinto, como si varias voces intentaran hablar a la vez.",

    "El viento golpeó las ventanas con una fuerza repentina. Tomás se levantó sobresaltado, preguntándose si el sonido venía realmente de afuera.",

    "Había algo en el brillo del objeto que no parecía natural. Un matiz rojizo que cambiaba apenas uno lo miraba directamente.",

    "El tren avanzaba lentamente entre campos dorados. Julia observaba el paisaje con una mezcla de nostalgia y curiosidad.",

    "La cafetería estaba casi vacía cuando él entró. El aroma a café recién molido lo envolvió de inmediato, trayéndole recuerdos difusos.",

    "En el pasillo oscuro, un murmullo leve se repetía como un eco. Sofía dudó un segundo antes de avanzar, pero la intriga pudo más.",

    "El reloj marcaba la medianoche cuando la luz se apagó de golpe. Por un instante, todo quedó suspendido en una quietud incómoda.",

    "Había leído ese mensaje tres veces y aún no podía descifrar su intención. ¿Era una advertencia, un pedido o simplemente un error?",

    "La ciudad brillaba desde la terraza. Miles de luces formaban un paisaje que parecía vivo, respirando en ritmos propios."
]


df = pd.DataFrame({'parrafo': parrafo_prueba})


parrafos_prueba = pd.DataFrame(columns=['default', 'limpio'])
parrafos_prueba['limpio'] = df['parrafo'].apply(normalize_text_X)
parrafos_prueba['default'] = df['parrafo'].apply(normalize_text_y)

columnas = ['instancia_id', 'token_id', 'token', 'punt_inicial', 'punt_final', 'capitalización']
datos = pd.DataFrame(columns=columnas)

i = 0
for p in parrafos_prueba['default']:
  etiquetas = transformar_etiqueta([p], i)
  etiquetas = pd.DataFrame(etiquetas, columns=columnas)
  datos = pd.concat([datos, etiquetas], ignore_index=True)
  i += 1

print('Data set creado de tamaño: ', datos.shape)

numeric_cols = ['instancia_id', 'token_id', 'punt_inicial', 'punt_final', 'capitalización']
for col in numeric_cols:
  datos[col] = pd.to_numeric(datos[col], errors='coerce')

In [None]:
datos_RF = crearDataSetRF(parrafos_prueba['limpio'])

In [None]:
datos_RF.shape

## Carga de datos y creación del dataset

In [None]:
path = 'https://raw.githubusercontent.com/AzulBarr/Aprendizaje-Automatico/main/TPs/tp2'
libro1 = '/Harry_Potter_y_el_caliz_de_fuego_J_K_Rowling.epub'
path = path + libro1


In [None]:
!wget -O libro1.epub $path


In [None]:
parrafos, dataSet = crearDataSet('libro1.epub')

In [None]:
parrafos.head()

In [None]:
dataSet.head()

In [None]:
datos_X = dataSet[['instancia_id', 'token_id', 'token']].copy()
datos_Y = dataSet[['punt_inicial', 'punt_final', 'capitalización']].copy()

In [None]:
datos_X_ext = agregar_embeddings(datos_X)

In [None]:
dataSetPT = trasformar_df_dfPyTorch(datos_X, datos_Y)


## Atributos para el dataset

In [None]:
dataSet_RF = pd.read_csv("dataSetRFSinEtiquetas.csv")

In [None]:
dataSet.shape

In [None]:
dataSet_RF.shape

In [None]:
dataSet_RF[198990:199000]

In [None]:
dataSet[199006:199016]

### Padding

In [None]:
from torch.nn.utils.rnn import pad_sequence

def collate_fn(batch):
    """
    batch: lista de tuplas (embeddings, labels)
    """
    embeddings_list, labels_list = zip(*batch)

    # Pad embeddings (seq_len, embedding_dim) -> (batch_size, max_seq_len, embedding_dim)
    embeddings_padded = pad_sequence(embeddings_list, batch_first=True, padding_value=0.0)

    # Pad labels
    punt_inicial = pad_sequence([l["punt_inicial"] for l in labels_list], batch_first=True, padding_value=-100)
    punt_final = pad_sequence([l["punt_final"] for l in labels_list], batch_first=True, padding_value=-100)
    capitalizacion = pad_sequence([l["capitalización"] for l in labels_list], batch_first=True, padding_value=-100)

    return embeddings_padded, {
        "punt_inicial": punt_inicial,
        "punt_final": punt_final,
        "capitalizacion": capitalizacion
    }

### Data Loader

In [None]:
dataloader = DataLoader(dataSetPT, batch_size=8, shuffle=True, collate_fn=collate_fn)


## Modelos

Buscar atributos para Random Forest

# Random Forest

## Etiqueta 1, capitalización

In [None]:
f, c = dataSet_RF.shape
f2, c2 = dataSet.shape
#dataSet_RF['capitalizacion'] = dataSet[:f]['capitalización']

In [None]:
print(f"Length of dataSet['token_id']: {len(dataSet['token_id'])}")
print(f"Length of dataSet_RF['token_id']: {len(dataSet_RF['token_id'])}")

unique_tokens_dataSet = set(dataSet['token_id'].unique())
unique_tokens_dataSet_RF = set(dataSet_RF['token_id'].unique())

diff_only_in_dataSet = unique_tokens_dataSet - unique_tokens_dataSet_RF
diff_only_in_dataSet_RF = unique_tokens_dataSet_RF - unique_tokens_dataSet

if not diff_only_in_dataSet and not diff_only_in_dataSet_RF:
    print("\nBoth series contain the same unique token_ids, although their lengths might differ.")
else:
    if diff_only_in_dataSet:
        print(f"\nToken_ids present in dataSet but not in dataSet_RF (first 10): {list(diff_only_in_dataSet)[:10]}")
        print(diff_only_in_dataSet)
    if diff_only_in_dataSet_RF:
        print(f"\nToken_ids present in dataSet_RF but not in dataSet (first 10): {list(diff_only_in_dataSet_RF)[:10]}")
        print(diff_only_in_dataSet_RF)

lista_diff_only_dataSet = list(diff_only_in_dataSet)
lista_diff_only_dataSetRF = list(diff_only_in_dataSet_RF)


for token_id in lista_diff_only_dataSet:
  print(tokenizer.convert_ids_to_tokens([token_id]))
for token_id in lista_diff_only_dataSetRF:
  print(tokenizer.convert_ids_to_tokens([token_id]))

In [None]:
lista_diff_only_dataSet[0]

In [None]:
dataSet[dataSet['token_id'] == lista_diff_only_dataSet[0]]

In [None]:
dataSet[dataSet['token_id'] == lista_diff_only_dataSet[1]]

In [None]:
dataSet_RF[dataSet_RF['token_id'] == lista_diff_only_dataSetRF[1]]

In [None]:
dataSet_RF[dataSet_RF['token_id'] == lista_diff_only_dataSetRF[0]]

### RNN Unidireccional

In [None]:
class EncoderUnidireccional(nn.Module):
    def __init__(self, embedding_dim=768, hidden_dim=256, num_layers=2, dropout=0.3):
        super(EncoderUnidireccional, self).__init__()
        self.lstm = nn.LSTM(
            input_size=embedding_dim,
            hidden_size=hidden_dim,
            num_layers=num_layers,#como es 2, significa que hay dos bloques de celdas LSTM
            batch_first=True, #(batch, seq, feature)
            dropout=dropout, #dropout probability
            bidirectional=False  # unidireccional
        )

    def forward(self, embeddings):
        """
        embeddings: tensor de forma (batch_size, seq_len, embedding_dim)
        """
        outputs, (hidden, cell) = self.lstm(embeddings)
        # outputs: (batch_size, seq_len, hidden_dim)
        # hidden: (num_layers, batch_size, hidden_dim)
        # cell:   (num_layers, batch_size, hidden_dim)
        return outputs, (hidden, cell)


In [None]:
class DecoderUnidireccional(nn.Module):
    def __init__(self, hidden_dim=256, num_layers=2, dropout=0.3):
        super(DecoderUnidireccional, self).__init__()
        self.lstm = nn.LSTM(
            input_size=hidden_dim,
            hidden_size=hidden_dim,
            num_layers=num_layers,
            batch_first=True,
            dropout=dropout,
            bidirectional=False  # unidireccional
        )

        # Capa feed-forward para cada problema
        self.punt_inicial_ff = nn.Linear(hidden_dim, 2)
        self.punt_final_ff = nn.Linear(hidden_dim, 4)
        self.capital_ff = nn.Linear(hidden_dim, 4)

        # Función de activación para cada problema
        #self.punt_inicial_sigmoid = nn.Sigmoid()
        #self.punt_final_softmax = nn.Softmax(dim=4)
        #self.capital_softmax = nn.Softmax(dim=4)


    def forward(self, encoder_outputs, hidden, cell):
        """
        encoder_outputs: (batch_size, seq_len, hidden_dim)
        hidden, cell: del encoder
        """
        outputs, _ = self.lstm(encoder_outputs, (hidden, cell))

        #punt_inicial_logits = self.punt_inicial_sigmoid(self.punt_inicial_ff(outputs))
        #punt_final_logits = self.punt_final_sofmax(self.punt_final_ff(outputs))
        #capital_logits = self.capital_sofmax(self.capital_ff(outputs))

        punt_inicial_logits = self.punt_inicial_ff(outputs)
        punt_final_logits = self.punt_final_ff(outputs)
        capital_logits = self.capital_ff(outputs)


        return {
            "puntuación inicial": punt_inicial_logits,
            "puntuación final": punt_final_logits,
            "capitalización": capital_logits,
        }

#### Encoder - Decoder

In [None]:
class ModeloUnidireccional(nn.Module):
    def __init__(self, embedding_dim=768, hidden_dim=256, num_layers=2, dropout=0.3):
        super(ModeloUnidireccional, self).__init__()
        self.encoder = EncoderUnidireccional(embedding_dim, hidden_dim, num_layers, dropout)
        self.decoder = DecoderUnidireccional(hidden_dim, num_layers, dropout)

    def forward(self, embeddings):
        encoder_outputs, (hidden, cell) = self.encoder(embeddings)
        predictions = self.decoder(encoder_outputs, hidden, cell)
        return predictions

### RNN Bidireccional

In [None]:
class EncoderBidireccional(nn.Module):
    def __init__(self, embedding_dim=768, hidden_dim=256, num_layers=2, dropout=0.3):
        super(EncoderBidireccional, self).__init__()
        self.lstm = nn.LSTM(
            input_size=embedding_dim,
            hidden_size=hidden_dim,
            num_layers=num_layers,
            batch_first=True,
            dropout=dropout,
            bidirectional=True  # bidireccional
        )

    def forward(self, embeddings):
        """
        embeddings: tensor de forma (batch_size, seq_len, embedding_dim)
        """
        outputs, (hidden, cell) = self.lstm(embeddings)
        # outputs: (batch_size, seq_len, hidden_dim)
        # hidden: (num_layers, batch_size, hidden_dim)
        # cell:   (num_layers, batch_size, hidden_dim)
        return outputs, (hidden, cell)

In [None]:
class DecoderBidireccional(nn.Module):
    def __init__(self, hidden_dim=256, num_layers=2, dropout=0.3):
        super(DecoderBidireccional, self).__init__()
        self.lstm = nn.LSTM(
            input_size=hidden_dim,
            hidden_size=hidden_dim,
            num_layers=num_layers,
            batch_first=True,
            dropout=dropout,
            bidirectional=True  # bidireccional
        )

        # Capa feed-forward para cada problema
        self.punt_inicial_ff = nn.Linear(hidden_dim, 2)
        self.punt_final_ff = nn.Linear(hidden_dim, 4)
        self.capital_ff = nn.Linear(hidden_dim, 4)

        # Función de activación para cada problema
        #self.punt_inicial_sigmoid = nn.Sigmoid()
        #self.punt_final_softmax = nn.Softmax(dim=4)
        #self.capital_softmax = nn.Softmax(dim=4)


    def forward(self, encoder_outputs, hidden, cell):
        """
        encoder_outputs: (batch_size, seq_len, hidden_dim)
        hidden, cell: del encoder
        """
        outputs, _ = self.lstm(encoder_outputs, (hidden, cell))

        #punt_inicial_logits = self.punt_inicial_sigmoid(self.punt_inicial_ff(outputs))
        #punt_final_logits = self.punt_final_sofmax(self.punt_final_ff(outputs))
        #capital_logits = self.capital_sofmax(self.capital_ff(outputs))

        punt_inicial_logits = self.punt_inicial_ff(outputs)
        punt_final_logits = self.punt_final_ff(outputs)
        capital_logits = self.capital_ff(outputs)

        return {
            "puntuación inicial": punt_inicial_logits,
            "puntuación final": punt_final_logits,
            "capitalización": capital_logits,
        }


#### Encoder - Decoder bidireccional

In [None]:
class ModeloBidireccional(nn.Module):
    def __init__(self, embedding_dim=768, hidden_dim=256, num_layers=2, dropout=0.3):
        super(ModeloBidireccional, self).__init__()
        self.encoder = EncoderBidireccional(embedding_dim, hidden_dim, num_layers, dropout)
        self.decoder = DecoderBidireccional(hidden_dim, num_layers, dropout)

    def forward(self, embeddings):
        encoder_outputs, (hidden, cell) = self.encoder(embeddings)
        predictions = self.decoder(encoder_outputs, hidden, cell)
        return predictions

### Entrenamiento

In [None]:
model = ModeloUnidireccional(embedding_dim=768, hidden_dim=256, num_layers=2)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion = torch.nn.CrossEntropyLoss(ignore_index=-100)  # ignorar padding
num_epochs = 1
for epoch in range(num_epochs):
    model.train()
    for embeddings, labels in dataloader:
        optimizer.zero_grad()

        outputs = model(embeddings)  # diccionario con tus tres salidas

        loss_inicial = criterion(outputs["puntuación inicial"].permute(0,2,1), labels["punt_inicial"])
        loss_final = criterion(outputs["puntuación final"].permute(0,2,1), labels["punt_final"])
        loss_cap = criterion(outputs["capitalización"].permute(0,2,1), labels["capitalizacion"])

        loss = loss_inicial + loss_final + loss_cap
        loss.backward()
        optimizer.step()