#### Ejemplos con BertTokenizer

In [4]:
import numpy as np
import matplotlib.pyplot as plt
from transformers import BertTokenizer
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
import random
from collections import Counter
from datasets import load_dataset
import pandas as pd

In [5]:
#!wget 'https://raw.githubusercontent.com/LeoBrasileo/Aprendizaje-Automatico-TP2/refs/heads/main/py/funciones_dataset.py'
#!wget 'https://github.com/LeoBrasileo/Aprendizaje-Automatico-TP2/raw/refs/heads/main/py/marquez_clean.py'
#!wget 'https://github.com/LeoBrasileo/Aprendizaje-Automatico-TP2/raw/refs/heads/main/py/token_embeddings.py'

In [6]:
from funciones_dataset import ETIQUETAS_PUNT_INICIAL, ETIQUETAS_PUNT_FINAL, ETIQUETAS_CAPITALIZACION

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

In [7]:
#pip install -U datasets

In [21]:
url = 'https://github.com/LeoBrasileo/Aprendizaje-Automatico-TP2/raw/refs/heads/main/data/datos_google_argento.csv'
df_google_arg = pd.read_csv(url, sep=',', index_col=False)
df_google_arg.head()

Unnamed: 0,texto_original,texto_limpio
0,"Para la caída del cabello, tengo un nuevo champú",para la caída del cabello tengo un nuevo champú
1,Los hámsters comen zanahorias,los hámsters comen zanahorias
2,¿Me podés mandar fotos de la pileta?,me podés mandar fotos de la pileta
3,Hola Cristina que bueno que pueda hablar con vos,hola cristina que bueno que pueda hablar con vos
4,Tranquilo va a estar todo bien,tranquilo va a estar todo bien


In [9]:
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")

original = '¿A qué hora vamos a McDonalds?'
texto = "a qué hora vamos a mcdonalds"
tokens = tokenizer.tokenize(texto)
tokens_orig = tokenizer.tokenize(original)

print(tokens)
print(tokens_orig)

['a', 'qué', 'hora', 'va', '##mos', 'a', 'm', '##c', '##dona', '##ld', '##s']
['¿', 'A', 'qué', 'hora', 'va', '##mos', 'a', 'McDonald', '##s', '?']


In [10]:
print(tokenizer.convert_tokens_to_ids(tokens))

[169, 38188, 24301, 10321, 13386, 169, 181, 10350, 64674, 12620, 10107]


#### Limpieza de strings

In [11]:
vocales_con_acento_min = [chr(x) for x in [ord('á'), ord('é'), ord('í'), ord('ó'), ord('ú')]]
vocales_con_acento_may = [chr(x) for x in [ord('Á'), ord('É'), ord('Í'), ord('Ó'), ord('Ú')]]
allowed_characters = [chr(x) for x in range(97,123)] + vocales_con_acento_min + [chr(241)] + [chr(10), chr(32)] + [chr(x) for x in range(48,58)] # los caracteres de letras minúsculas, espacio en blanco y fin de linea y números
characters_to_replace = [chr(x) for x in range(65,91)] + vocales_con_acento_may + [chr(209)] #las mayúsculas
characters_to_replace_with = [chr(x) for x in range(97,123)] + vocales_con_acento_min + [chr(241)] #las minúsculas
replace_dict = dict(zip(characters_to_replace, characters_to_replace_with))

def limpiar_string (s) :
  res = ""
  for c in s :
    if c in allowed_characters :
      res += c
    elif c in characters_to_replace :
      res += replace_dict[c]
  return res

In [12]:
test_limpieza = "Veamos que pasa si cortamos un árbol ¿Será capaz de entender? El Árbol no sentirá el corte hasta que sea demaisado tarde: al buscar sus raices para nutrir las hojas, sentirá la desesperación de la falta." + '\n' + '¡Ósado el talador, que se preocupa más por el calor de su morada que la protección que ofrece el bosque y la protección de todas sus criaturas contra el silencio verdadero!'
print(test_limpieza)
print('\n')
print(limpiar_string(test_limpieza))

Veamos que pasa si cortamos un árbol ¿Será capaz de entender? El Árbol no sentirá el corte hasta que sea demaisado tarde: al buscar sus raices para nutrir las hojas, sentirá la desesperación de la falta.
¡Ósado el talador, que se preocupa más por el calor de su morada que la protección que ofrece el bosque y la protección de todas sus criaturas contra el silencio verdadero!


veamos que pasa si cortamos un árbol será capaz de entender el árbol no sentirá el corte hasta que sea demaisado tarde al buscar sus raices para nutrir las hojas sentirá la desesperación de la falta
ósado el talador que se preocupa más por el calor de su morada que la protección que ofrece el bosque y la protección de todas sus criaturas contra el silencio verdadero


#### Etiquetas para datos de entrada

**Nota**: es un planteo preliminar, imitando cómo nos piden entregar las respuestas, se pueden hacer modificaciones para lo que necesitemos como entrada

In [13]:
import pandas as pd
from funciones_dataset import generar_data_palabras, asignar_etiquetas_puntuacion, asignar_puntuacion_a_tokens

Ejemplo 1:

Primero definimos puntuación para los tokens

In [14]:
texto_original = "¿Cuándo vamos a McDonald's?Ellos no vienen. Entonces, - ¿dónde están?"

texto_limpio = limpiar_string(texto_original)
tokens_texto_limpio = tokenizer.tokenize(texto_limpio)

puntuacion_tokens = asignar_puntuacion_a_tokens(instancia_original=texto_original,
                                                instancia_id=1,
                                                instancia_tokens=tokens_texto_limpio)
pd.DataFrame.from_dict(puntuacion_tokens)

Unnamed: 0,instancia_id,token,token_id,capitalizacion,puntuacion_inicial,puntuacion_final
0,1,cu,10854,1,¿,
1,1,##ánd,101439,1,,
2,1,##o,10133,1,,
3,1,va,10321,0,,
4,1,##mos,13386,0,,
5,1,a,169,0,,
6,1,m,181,2,,
7,1,##c,10350,2,,
8,1,##dona,64674,2,,
9,1,##ld,12620,2,,


La instancia etiquetada final (con las etiquetas definidas en _ETIQUETA_PUNT_FINAL_ y _ETIQUETA_PUNT_INICIAL_) sería de esta forma:

In [15]:
tokens_etiquetados = asignar_etiquetas_puntuacion(puntuacion_tokens)
pd.DataFrame.from_dict(tokens_etiquetados)

Unnamed: 0,instancia_id,token,token_id,capitalizacion,puntuacion_inicial,puntuacion_final
0,1,cu,10854,1,1,0
1,1,##ánd,101439,1,0,0
2,1,##o,10133,1,0,0
3,1,va,10321,0,0,0
4,1,##mos,13386,0,0,0
5,1,a,169,0,0,0
6,1,m,181,2,0,0
7,1,##c,10350,2,0,0
8,1,##dona,64674,2,0,0
9,1,##ld,12620,2,0,0


Ejemplo 2:

In [16]:
texto_original = "¿Cuándo vamos a McDonald's? Ellos no vienen. Entonces, ¿dónde están?"

texto_limpio = limpiar_string(texto_original)
tokens_texto_limpio = tokenizer.tokenize(texto_limpio)

puntuacion_tokens = asignar_puntuacion_a_tokens(instancia_original=texto_original,
                                                instancia_id=1,
                                                instancia_tokens=tokens_texto_limpio)

tokens_etiquetados = asignar_etiquetas_puntuacion(puntuacion_tokens)

pd.DataFrame.from_dict(tokens_etiquetados)

Unnamed: 0,instancia_id,token,token_id,capitalizacion,puntuacion_inicial,puntuacion_final
0,1,cu,10854,1,1,0
1,1,##ánd,101439,1,0,0
2,1,##o,10133,1,0,0
3,1,va,10321,0,0,0
4,1,##mos,13386,0,0,0
5,1,a,169,0,0,0
6,1,m,181,2,0,0
7,1,##c,10350,2,0,0
8,1,##dona,64674,2,0,0
9,1,##ld,12620,2,0,0


In [17]:
tokens_test_limpieza = tokenizer.tokenize(limpiar_string(test_limpieza))

puntuacion_tokens = asignar_puntuacion_a_tokens(instancia_original=test_limpieza,
                                                instancia_id=1,
                                                instancia_tokens=tokens_test_limpieza)

tokens_etiquetados = asignar_etiquetas_puntuacion(puntuacion_tokens)

pd.DataFrame.from_dict(tokens_etiquetados).head(12)

Unnamed: 0,instancia_id,token,token_id,capitalizacion,puntuacion_inicial,puntuacion_final
0,1,ve,10323,1,0,0
1,1,##amos,73983,1,0,0
2,1,que,10121,0,0,0
3,1,pasa,26088,0,0,0
4,1,si,10294,0,0,0
5,1,corta,53134,0,0,0
6,1,##mos,13386,0,0,0
7,1,un,10119,0,0,0
8,1,árbol,55220,0,0,0
9,1,será,23843,1,1,0


In [19]:
#creaar DataFrame para alimentar el dataset (pensando en que va a ser mas rapido para el entrenamiento)
data_path ='https://github.com/LeoBrasileo/Aprendizaje-Automatico-TP2/raw/refs/heads/main/data/marquez_cleaned.csv'  # Remove the leading slash
data = pd.read_csv(data_path, delimiter=',')
texto_original = data['texto_original'].tolist()
# texto_limpio = data['texto_limpio'].tolist()

puntuacion_tokens_marquez = []
problematic_sentences = []

for i in range(4,len(texto_original)):
    try:
        # tokens_texto_original = tokenizer.tokenize(texto_original[i])
        texto_limpio = limpiar_string(texto_original[i])
        tokens_texto_limpio = tokenizer.tokenize(texto_limpio)

        puntuacion_tokens = asignar_puntuacion_a_tokens(instancia_original=texto_original[i],
                                                        instancia_id=i+1,
                                                        instancia_tokens=tokens_texto_limpio)
        puntuacion_tokens = asignar_etiquetas_puntuacion(puntuacion_tokens)
        puntuacion_tokens_marquez.append(puntuacion_tokens)
    except Exception as e:
        # Store problematic sentence info instead of breaking
        problematic_sentences.append({
            'index': i,
            'original_text': texto_original[i],
            'cleaned_text': texto_limpio if 'texto_limpio' in locals() else None,
            'error': str(e)
        })
        continue


print(f"funcionaron: {len(puntuacion_tokens_marquez)} sentences")
print(f"con problemas: {len(problematic_sentences)}")

# oraciones con problemas
for prob in problematic_sentences[:5]:  # Show first 5 problematic sentences
    print(f"Index {prob['index']}: {repr(prob['original_text'][:100])}... Error: {prob['error']}")


# renumerar para que los ids de instancia sean consecutivos
puntuacion_tokens_marquez_clean = []
for new_id, tokens_list in enumerate(puntuacion_tokens_marquez):
    tokens_list_updated = []
    for token_dict in tokens_list:
        token_dict_updated = token_dict.copy()
        token_dict_updated['instancia_id'] = new_id + 1  # que empiece en 1?
        tokens_list_updated.append(token_dict_updated)
    puntuacion_tokens_marquez_clean.append(tokens_list_updated)


funcionaron: 1810 sentences
con problemas: 336
Index 19: 'Si has de volverte loco, vuélvete tú solo gritó . Pero no trates de inculcar a los niños tus ideas d'... Error: string index out of range
Index 28: 'Es el olor del demonio dijo ella. En absoluto corrigió Valeria . Está comprobado que el demonio tien'... Error: string index out of range
Index 36: 'En el mundo están ocurriendo cosas increíbles le decía a Gabriel . Ahí mismo, al otro lado del río, '... Error: string index out of range
Index 51: 'No importa decía Vega . Lo esencial es no perder la orientación.'... Error: string index out of range
Index 58: 'Sus sueños terminaban frente a ese mar color de ceniza, espumoso y sucio, que no merecía los riesgos'... Error: string index out of range


In [22]:
class MarquezDataset(Dataset):
    def __init__(self, data, label_key='puntuacion_final', pad_token_id=0, pad_label_id=-100):
        """
        Args:
            data: list of sentences, each a list of dicts (one per token)
            label_key: which label to use ('puntuacion_final' or 'puntuacion_inicial')
            pad_token_id: ID used for padding tokens
            pad_label_id: label used for padding positions (-100 for CrossEntropyLoss)
        """
        self.data = data
        self.label_key = label_key
        self.pad_token_id = pad_token_id
        self.pad_label_id = pad_label_id

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        sentence = self.data[idx]

        # Extract features
        token_ids = [tok['token_id'] for tok in sentence]
        caps = [tok['capitalizacion'] for tok in sentence]
        punt_inicial = [tok['puntuacion_inicial'] for tok in sentence]
        punt_final = [tok[self.label_key] for tok in sentence]

        return {
            'token_ids': torch.tensor(token_ids, dtype=torch.long),
            'capitalizacion': torch.tensor(caps, dtype=torch.float),
            'puntuacion_inicial': torch.tensor(punt_inicial, dtype=torch.float),
            'puntuacion_final': torch.tensor(punt_final, dtype=torch.float),
            'length': len(token_ids)
        }

def marquez_collate_fn(batch, pad_token_id=0, pad_label_id=-100):
    # Separate each field
    token_ids = [item['token_ids'] for item in batch]
    caps = [item['capitalizacion'] for item in batch]
    punt_inicial = [item['puntuacion_inicial'] for item in batch]
    punt_final = [item['puntuacion_final'] for item in batch]
    lengths = [item['length'] for item in batch]

    # Pad sequences
    padded_token_ids = pad_sequence(token_ids, batch_first=True, padding_value=pad_token_id)
    padded_caps = pad_sequence(caps, batch_first=True, padding_value=0.0)
    padded_punt_inicial = pad_sequence(punt_inicial, batch_first=True, padding_value=pad_label_id)
    padded_punt_final = pad_sequence(punt_final, batch_first=True, padding_value=pad_label_id)

    return {
        'token_ids': padded_token_ids,
        'capitalizacion': padded_caps,
        'puntuacion_inicial': padded_punt_inicial,
        'puntuacion_final': padded_punt_final,
        'lengths': torch.tensor(lengths)
    }

dataset = MarquezDataset(data=puntuacion_tokens_marquez)
loader = DataLoader(dataset, batch_size=32, shuffle=True, collate_fn=marquez_collate_fn)
dataset[0]

{'token_ids': tensor([10840, 93508,   177, 75980, 24367, 10198, 24033, 10121, 46982, 10173,
         43449, 33584, 10220, 55683, 82531, 18387, 10125, 10139, 21986, 18781,
         51164, 31858, 27584, 11911, 10192, 33946, 27920, 11908, 11957, 10715,
         13436, 39738, 10228, 10104, 22755, 13859, 14386, 16002, 10220, 10266,
         16898, 13859, 10109, 12088, 76456, 25303, 10443, 10198, 40407, 11047,
         15518, 17359, 10126, 10266, 11355, 55168, 10110, 77644, 10125, 13621,
         93548, 10104, 10846, 10173, 18533, 35854]),
 'capitalizacion': tensor([1., 1., 3., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]),
 'puntuacion_inicial': tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 

In [25]:
class RNN_Puntuacion(nn.Module):
  def _init_(self, input_size, hidden_size, punct_class_size, cap_class_size, num_layers, embeddings=None):
    super(RNN_Puntuacion, self)._init_()
    #si tenemos embeddings pre-etrenados, los usamos
    if embeddings is not None:
      self.embedding = nn.Embedding.from_pretrained(embeddings, freeze=True)
    else:
      self.embedding = nn.Embedding(input_size, hidden_size)
    #usamos dos RNNs bidireccionales, según el paper que habíamos visto
    self.rnn1 = nn.RNN(hidden_size, hidden_size, num_layers, batch_first=True, bidirectional=True)
    self.rnn2 = nn.RNN(hidden_size, hidden_size, num_layers, batch_first=True, bidirectional=True)
    #usamos dos lineales para predecir la puntiación con una y la capitalización con la otra
    self.linear_punctuation = nn.Linear(hidden_size, punct_class_size)
    self.linear_capitalization = nn.Linear(hidden_size, cap_class_size)
    #funciones de activación para las capas ocultas (ReLu) y para el ouput una softmax para cada set de predicciones
    self.activation_hidden = nn.ReLU()
    self.activation_output = nn.Softmax(dim=1)

  def forward(self, x):
    #x_in : input_size, x_out : hidden_size
      x = self.embedding(x)

    #x_in : hidden_size, x_out : hidden_size
      x = self.rnn1(x)
      x = self.activation_hidden(x)
      x = self.rnn2(x)
      x = self.activation_hidden(x)

    #x_in : hidden_size, x_out : |clases puntuación| + |clases capitalización|
      x_punt = self.linear_punctuation(x)
      x_punt = self.activation_output(x_punt)

      x_cap = self.linear_capitalization(x)
      x_cap = self.activation_output(x_cap)

      return torch.cat((x_punt,x_cap), dim=0)