In [1]:

# IMPORTANT: RUN THIS CELL IN ORDER TO IMPORT YOUR KAGGLE DATA SOURCES
# TO THE CORRECT LOCATION (/kaggle/input) IN YOUR NOTEBOOK,
# THEN FEEL FREE TO DELETE THIS CELL.
# NOTE: THIS NOTEBOOK ENVIRONMENT DIFFERS FROM KAGGLE'S PYTHON
# ENVIRONMENT SO THERE MAY BE MISSING LIBRARIES USED BY YOUR
# NOTEBOOK.

import os
import sys
from tempfile import NamedTemporaryFile
from urllib.request import urlopen
from urllib.parse import unquote, urlparse
from urllib.error import HTTPError
from zipfile import ZipFile
import tarfile
import shutil

CHUNK_SIZE = 40960
DATA_SOURCE_MAPPING = 'trained-models:https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F4090276%2F7096809%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240702%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240702T070514Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D888c8b6a522e8742d54d84637123228f3a8a112bdd9713518d64a4e388a8e5479ab59ea5d173912cb65dfd605cefd49dc3d6cf6cbb037fe53bf64b1a08e7eac9abed23bc14dbe63b991a0051ad67df004ffa12eb681f9dec0caf9b9e729e63a82e90936601a6249718ad422f1f7d834f24b7607469fd4e5164f4e02899c9b6db77eee0d769f871144dd510f7c8204d93d1d11b085ff515edc18f3bc250bddcac69fe1ab1e345361a5d1175bf878865f6c830139ed028e064209423ec545562d2b747f9e8e8d2166121d60f5b9a1a94b19d4f01722d98c5b4cbabe01622c6bfd022bf1c8e057eca91bd2aeb529c2adfec28b30c8b69c99022651ec3df3726766c,data-train-150-topics:https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F4016962%2F7181985%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240702%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240702T070514Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D91e1e57f327719de470f039ae53d57f0f91fec7881d8ea16e45028f857b796c30e9bb69318afc23889ce6514c4042766d9b192ef524d3c23efb53d427ec1804efc426f0469ad9a07e98745fea4c1d976634912adb4830af8439d9325f3c66bb3afd54516672282d69dba626ad3405fae26880815337ad1cce1ce5ff6c59450c03e744fc0f8410cb6f5a21e003b193f9589333ed6e5c86fb857fcee45de157302e8df22f08dceb6b8633487b7991b0ef5cd487dc7e5d56afcdae0be158c3fc24132c0359e89ff7045d1d012549de4f2de441d9ccfc01efc3639d5c8030c1c6eec9b86b91cbd43b8fbf986dd71d407e48e9add5537ef4798b9fa1a0620225c93bd,data-train-all-categories:https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F4107047%2F7339028%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240702%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240702T070515Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D0cdf55fccb337769e42891f9e8c94c0070c6de04ee182078419dd9a7d943727896f18fa44e6553072f46f796c6b7fcdb06d0e2d9f4b6e0e82ef5130455f7ffb63bdad17c21701ec05fd0847d19212faab513e899d6717333237bb4c6fabba52b0e847a877b2728dc79e5a2bc53fb0825c33df3c620b6e426cbc86e7e09e5fa66b930b30d822245f2021465aa85b2e6ee8a58526cca95f495e0beda50f14afcb5f0b592195002423c53452a24c009d669897e409f9ef8efb237613110567293b45e18c1d3dce833f3ad46dc6d4aec641507ea202e6bbcec8fd8e34f4219759eac6625ac829cedd0e71a181a4653b783ce6b6b89ff29fbe8e6921c321bbc5274f0'

KAGGLE_INPUT_PATH='/kaggle/input'
KAGGLE_WORKING_PATH='/kaggle/working'
KAGGLE_SYMLINK='kaggle'

!umount /kaggle/input/ 2> /dev/null
shutil.rmtree('/kaggle/input', ignore_errors=True)
os.makedirs(KAGGLE_INPUT_PATH, 0o777, exist_ok=True)
os.makedirs(KAGGLE_WORKING_PATH, 0o777, exist_ok=True)

try:
  os.symlink(KAGGLE_INPUT_PATH, os.path.join("..", 'input'), target_is_directory=True)
except FileExistsError:
  pass
try:
  os.symlink(KAGGLE_WORKING_PATH, os.path.join("..", 'working'), target_is_directory=True)
except FileExistsError:
  pass

for data_source_mapping in DATA_SOURCE_MAPPING.split(','):
    directory, download_url_encoded = data_source_mapping.split(':')
    download_url = unquote(download_url_encoded)
    filename = urlparse(download_url).path
    destination_path = os.path.join(KAGGLE_INPUT_PATH, directory)
    try:
        with urlopen(download_url) as fileres, NamedTemporaryFile() as tfile:
            total_length = fileres.headers['content-length']
            print(f'Downloading {directory}, {total_length} bytes compressed')
            dl = 0
            data = fileres.read(CHUNK_SIZE)
            while len(data) > 0:
                dl += len(data)
                tfile.write(data)
                done = int(50 * dl / int(total_length))
                sys.stdout.write(f"\r[{'=' * done}{' ' * (50-done)}] {dl} bytes downloaded")
                sys.stdout.flush()
                data = fileres.read(CHUNK_SIZE)
            if filename.endswith('.zip'):
              with ZipFile(tfile) as zfile:
                zfile.extractall(destination_path)
            else:
              with tarfile.open(tfile.name) as tarfile:
                tarfile.extractall(destination_path)
            print(f'\nDownloaded and uncompressed: {directory}')
    except HTTPError as e:
        print(f'Failed to load (likely expired) {download_url} to path {destination_path}')
        continue
    except OSError as e:
        print(f'Failed to load {download_url} to path {destination_path}')
        continue

print('Data source import complete.')


Downloading trained-models, 1075382447 bytes compressed
Downloading data-train-150-topics, 3404880 bytes compressed
Downloading data-train-all-categories, 4979274 bytes compressed
Data source import complete.


# BERT Beto

Importación de las librerías y carga del modelo beto, el aviso:
> Some weights of BertForSequenceClassification were not initialized from the model checkpoint at dccuchile/bert-base-spanish-wwm-cased and are newly initialized: ['bert.pooler.dense.weight', 'bert.pooler.dense.bias', 'classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference

Es un aviso normal, lo importante es que el modelo se ha cargado correctamente y por tanto esta preparado para que pueda ser entrenado, el aviso viene dado por la última capa de salida del modelo el 'classifier' esta es la capa de debe personalizarse para nuestro objetivo, y por tanto, al no encontrar ninguna ha cargado una aleatoria


* **ignore_mismatched_sizes=True**:Este argumento se utiliza para ignorar las diferencias en el tamaño de las matrices de peso preentrenadas y las matrices de peso del modelo que estás cargando.Se utiliza cuando quieres adaptar un modelo preentrenado a una tarea de clasificación que tiene un número de clases diferente al modelo preentrenado. El modelo preentrenado puede tener un número diferente de clases, y al establecer ignore_mismatched_sizes=True, le indicas a PyTorch que ignore la diferencia en el número de clases y utilice las capas que son compatibles, lo que puede ser útil para la afinación de modelos preentrenados en tareas de clasificación personalizadas


In [4]:
model_name="/kaggle/input/modelo-bert/bert_base"
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=4, ignore_mismatched_sizes=True, problem_type="multi_label_classification")
num_total_layers = model.config.num_hidden_layers
print(num_total_layers)
for name, param in model.named_parameters():
    print(name)

  return self.fget.__get__(instance, owner)()
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at /kaggle/input/modelo-bert/bert_base and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


12
bert.embeddings.word_embeddings.weight
bert.embeddings.position_embeddings.weight
bert.embeddings.token_type_embeddings.weight
bert.embeddings.LayerNorm.weight
bert.embeddings.LayerNorm.bias
bert.encoder.layer.0.attention.self.query.weight
bert.encoder.layer.0.attention.self.query.bias
bert.encoder.layer.0.attention.self.key.weight
bert.encoder.layer.0.attention.self.key.bias
bert.encoder.layer.0.attention.self.value.weight
bert.encoder.layer.0.attention.self.value.bias
bert.encoder.layer.0.attention.output.dense.weight
bert.encoder.layer.0.attention.output.dense.bias
bert.encoder.layer.0.attention.output.LayerNorm.weight
bert.encoder.layer.0.attention.output.LayerNorm.bias
bert.encoder.layer.0.intermediate.dense.weight
bert.encoder.layer.0.intermediate.dense.bias
bert.encoder.layer.0.output.dense.weight
bert.encoder.layer.0.output.dense.bias
bert.encoder.layer.0.output.LayerNorm.weight
bert.encoder.layer.0.output.LayerNorm.bias
bert.encoder.layer.1.attention.self.query.weight
bert.

In [3]:
from transformers import BertTokenizer, BertForSequenceClassification, AutoTokenizer, AutoModelForSequenceClassification
from typing import Optional

class BertModel():
    """
        Clase modelo BERT
    """

    model:BertForSequenceClassification = None
    tokenizer:BertTokenizer = None

    #dccuchile/bert-base-spanish-wwm-cased
    #xlm-roberta-base
    def __init__(self, num_labels:int, model_name: Optional[str] = "xlm-roberta-base"):
        super().__init__()

        if num_labels is None or num_labels == 0:
            raise ValueError("Para cargar el módelo BERT es necesario indicar el número de clases que debe códificar")

        try:
            #self.tokenizer = BertTokenizer.from_pretrained(model_name)
            #self.model = BertForSequenceClassification.from_pretrained(model_name, num_labels=num_labels, ignore_mismatched_sizes=True, problem_type="multi_label_classification")

            self.tokenizer = AutoTokenizer.from_pretrained(model_name)
            self.model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=num_labels, ignore_mismatched_sizes=True, problem_type="multi_label_classification")

            # Congelar todas las capas excepto las últimas N
            #num_total_layers = self.model.config.num_hidden_layers
            #for name, param in self.model.named_parameters():
            #    if 'layer' in name:
            #        layer_num = int(name.split('.')[3])
            #        if layer_num < num_total_layers - 5:
            #            param.requires_grad = False

        except Exception as e:
            print(f"Se produjo un error al cargar el modelo: {e}")
            self.model = None
        pass

    def configure_optimizers(self):
        # Inicializa tu optimizador con un lr y weight_decay inicial
        optimizer = torch.optim.AdamW(self.parameters(), lr=2e-5, weight_decay=0.01)

        # Define un programador de la tasa de aprendizaje (lr_scheduler)
        # Por ejemplo, ReduceLROnPlateau para ajustar el lr basado en la validación de la pérdida
        lr_scheduler = {
            'scheduler': torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=3),
            'monitor': 'val_loss',
        }

        return {'optimizer': optimizer, 'lr_scheduler': lr_scheduler}

# Carga y preparación datasets entrenamiento

1. Carga de datos
2. Preparación de los datos para que los entienda el modelo BERT
3. División de los datos cargados para entrenar el modelo vs validación posterior


**Carga de datos**

loadDatasetCsv: Es la función encargada de leer lo datos del fichero CSV pasado como parametro y devolver 2 vectores
* texts: Contiene los textos de la columna TEXTS
* lablels: Contiene lo topics IDS

**Preparación de los datos para que los entienda el modelo BERT**

En este frágmento de código, se cargan los datos del fichero que se quiera utilizar para el entrenamiento, se convierten a al formato que BERT pueda entender

1. **Tokenización:** Divide el texto en tokens (palabras o subpalabras), los cuales son las unidades básicas que el modelo puede procesar.
2. **Conversión a IDs:** Convierte los tokens en sus respectivos IDs de acuerdo con el vocabulario del modelo BERT. Cada token tiene un ID único que lo representa en el vocabulario.
3. **Padding:** Iguala la longitud de todas las secuencias de tokens a una longitud máxima especificada. Si el padding está configurado a "max_length", todas las secuencias se rellenarán hasta la max_length dada, en este caso, 512 tokens. Esto se hace porque BERT requiere que todas las secuencias de entrada tengan la misma longitud para el procesamiento por lotes.
4. **Truncamiento:** Si el texto es más largo que la longitud máxima permitida (max_length), se cortará a esa longitud para asegurar que no exceda el número máximo de tokens que el modelo puede manejar. Para BERT, la longitud máxima estándar es 512 tokens.
5. **Retorno de Tensores:** El parámetro return_tensors="pt" indica que los datos procesados deben ser convertidos a tensores de PyTorch, que es el tipo de dato requerido para alimentar al modelo BERT durante el entrenamiento o la evaluación.

La salida de esta línea de código será un diccionario que contiene los siguientes elementos, listos para ser utilizados como entrada del modelo BERT:

1. **input_ids:** Un tensor que contiene los IDs de los tokens.
2. **attention_mask:** Un tensor que indica a BERT qué tokens deben ser atendidos y cuáles son relleno (padding). Los tokens reales tienen un valor de 1, y los tokens de relleno tienen un valor de 0.
3. **token_type_ids:** (Si el tokenizer los soporta y es relevante para el modelo) Un tensor que puede diferenciar entre diferentes secuencias dentro de la misma entrada, útil para tareas que involucran múltiples secuencias como preguntas y respuestas o comparaciones de texto

**División de los datos cargados para entrenar el modelo vs validación posterior**

Dividir el conjunto de datos en dos SETS, uno para entrenar y otro para validar posteriormente el modelo entrenado

* **test_size**=0.2: Especifica que el 20% de los datos se reservará para el conjunto de validación, mientras que el 80% restante se usará para el entrenamiento.
* **random_state**=42: Es una semilla para el generador de números aleatorios que se utiliza para dividir los datos. Usar un número fijo aquí significa que el split será reproducible; es decir, obtendrás la misma división cada vez que ejecutes este código.

In [5]:

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from pandas import DataFrame
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from typing import Optional,Dict
from torch.utils.data import DataLoader, TensorDataset
from deprecated import deprecated

class DataLoaderBert:

    path:str = None
    df:DataFrame = None
    num_labels:int = 0
    column_label:str = None
    labels=None

    def __init__(self, path:str, column_label:str, dtype: Optional[Dict[str, str]]= None):
        self.path = path
        self.column_label = column_label
        self._loadDatasetCsv(dtype=dtype)
        pass

    def _loadDatasetCsv(self, dtype: Optional[Dict[str, str]]= None):
        """
        Carga los datos desde un archivo CSV y devuelve las listas de textos y etiquetas.

        Args:
            path (str): La ruta al archivo CSV que contiene los datos.
            dtype(Dict[str, str]): La clave del diccionario se corresponde con el campo del csv mientrás que el value del diccionario con el tipo de dato del campo
            plot_field (str): si queremos mostrar un grafico para ver lo equilibrado que esta el ds por un campo determinado

        Returns:
            data (DataFrame): DataFrame pandas.
        """

        data = pd.read_csv(self.path, dtype=dtype)

        if not "VERBATIM" in data:
            raise ValueError("El dataset que se quiere cargar no dispone del campo VERBATIM, este es obligatorio")

        data["VERBATIM"] = data["VERBATIM"].astype("str")
        data[self.column_label] = data[self.column_label].str.split(',')

        data.dropna()
        #data.drop_duplicates()
        data = data.sample(frac=1, random_state=42).reset_index(drop=True)
        self.df = data;
        self.labels = data.explode(self.column_label)[self.column_label].unique()
        self.num_labels = self.labels.size

    def explain(self):
        sns.countplot(x = self.column_label, data = self.df)
        plt.xlabel(self.column_label)
        plt.show()
        print(self.df.info())

    def explain2(self):
        # Supongamos que self.column_label contiene una lista de elementos
        # Combina todas las etiquetas en un solo registro como una cadena
        self.df['combined_labels'] = self.df[self.column_label].apply(lambda x: ', '.join(x))

        # Cree un nuevo DataFrame con las etiquetas combinadas
        combined_df = pd.DataFrame({'combined_labels': self.df['combined_labels']})

        # Utilice la función melt en el nuevo DataFrame
        melted_df = pd.melt(combined_df, value_vars=['combined_labels'], value_name='combined_labels')

        # Divida las etiquetas combinadas en una lista de etiquetas separadas
        melted_df['combined_labels'] = melted_df['combined_labels'].str.split(', ')

        # Cree countplots para cada categoría en las etiquetas combinadas
        plt.figure(figsize=(10, 6))  # Tamaño de la figura
        sns.countplot(data=melted_df, x='combined_labels', order=melted_df['combined_labels'].value_counts().index)
        plt.title('Countplots para etiquetas combinadas')
        plt.xlabel('Etiquetas Combinadas')
        plt.ylabel('Count')
        plt.xticks(rotation=90)  # Rotar las etiquetas en el eje x para mayor claridad
        plt.show()


In [6]:
import pandas as pd
df = pd.read_csv('/kaggle/input/dataset-borrados/ds-subtopics-combined-v12-valores_borrados.csv')
print(df['CODES'].unique())

['103' '104' '205' ... '0808,0104,0501' '9201,9701,9801' '0204,0104,0102']


In [7]:
dtype:Dict[str,str]={"VERBATIM":"str","CODES":"str"}
dl_test:DataLoaderBert = DataLoaderBert("/kaggle/input/dataset-borrados/ds-subtopics-combined-v12-valores_borrados.csv","CODES",dtype)
print(dl_test.labels)

['207' '708' '0405' '101' '9203' '0301' '9202' '0702' '406' '9501' '205'
 '0404' '103' '0701' '302' '9301' '0403' '9201' '405' '0501' '701' '203'
 '9401' '301' '0302' '9101' '808' '104' '206' '9801' '9702' '0104' '9601'
 '403' '0207' '201' '9701' '702' '404' '204' '0103' '0201' '202' '501'
 '0102' '0205' '402' '0204' '401' '102' '0208' '0101' '0202' '0401' '0808'
 '0402' '601' '208' '0601' '0203' '0708' '0206' '0406']


# Fine-tuning desde cero

El "fine-tuning" de un modelo en el contexto del aprendizaje automático se refiere al proceso de ajustar un modelo que ha sido previamente entrenado en un conjunto de datos grande y general (pre-entrenamiento) para que se adapte mejor a un conjunto de datos específico o a una tarea concreta. A veces se le llama "afinado" o "ajuste fino" en español, manteniendo la idea de realizar ajustes minuciosos para mejorar la performance del modelo en una tarea específica.

En nuestro caso particular tomamos el modelo BERT (BETO)

**TrainerUtils**
Se trata de una clase de utilidades que nos permite y nos ayuda a traves de sus métodos, analizar los resultados guardados en el output_dir del trainer
* **printMetrics:** Nos permite recorrecorer todos los checkpoint y imprimir su métrica de perdida de entrenamiento y validación
* **searchBestCheckpoint:** Busca que checkpoint tiene mejor métrica  de perdida
* **removeWorstCheckpoint:** Libera espacio, eliminando aquellos checkpoint que tienen peores métricas
* **loadBestModel:** Carga el modelo con mejores métricas a partir de los checkpoints
* **loadTokenizer:** Carga el tokenizer con mejores métricas a partir de los checkpoints

**Funciones para imprimir las métricas F1, roc_auc y accuracy durante el entrenamiento**

In [8]:
from sklearn.metrics import f1_score, precision_score, recall_score,roc_auc_score,accuracy_score
from transformers import EvalPrediction
import numpy as np
import torch

# source: https://jesusleal.io/2021/04/21/Longformer-multilabel-classification/
def multi_label_metrics(predictions, labels, threshold=0.5):
    # first, apply sigmoid on predictions which are of shape (batch_size, num_labels)
    sigmoid = torch.nn.Sigmoid()
    probs = sigmoid(torch.Tensor(predictions))
    # next, use threshold to turn them into integer predictions
    y_pred = np.zeros(probs.shape)
    y_pred[np.where(probs >= threshold)] = 1
    # finally, compute metrics
    y_true = labels
    f1_micro_average = f1_score(y_true=y_true, y_pred=y_pred, average='micro') #usamos micro debido al multietiquetado
    roc_auc = roc_auc_score(y_true, y_pred, average = 'micro') #usamos micro debido al multietiquetado
    accuracy = accuracy_score(y_true, y_pred)
    # return as dictionary
    metrics = {'f1': f1_micro_average,
               'roc_auc': roc_auc,
               'accuracy': accuracy}
    return metrics

def compute_metrics(p: EvalPrediction):
    print(p)
    preds = p.predictions[0] if isinstance(p.predictions,
            tuple) else p.predictions
    result = multi_label_metrics(
        predictions=preds,
        labels=p.label_ids)
    return result

**Clase TrainerUtils tiene funciones de utilidad para gestionar las salidas del entrenamiento, eliminar checkpoints, guardar modelos, pintar métricas, etc**

In [9]:
import os
import shutil
import json
from transformers import BertConfig, BertForSequenceClassification, BertTokenizer, AutoModelForSequenceClassification, AutoTokenizer, Trainer,DataCollatorWithPadding
from sklearn.preprocessing import MultiLabelBinarizer
from datasets import Dataset
import pandas as pd

class TrainerUtils:

    output_dir:str = None
    best_metric:float = float('inf')
    best_checkpoint:str = None

    def __init__(self,output_dir:str):
        self.output_dir = output_dir

    def printMetrics(self):

        # Recorrer todos los subdirectorios en el directorio de salida
        for subdir in os.listdir(self.output_dir):
            checkpoint_dir = os.path.join(self.output_dir, subdir)
            if os.path.isdir(checkpoint_dir) and subdir.startswith("checkpoint"):
                # Leer el trainer_state.json de cada checkpoint
                with open(os.path.join(checkpoint_dir, 'trainer_state.json'), 'r') as f:
                    trainer_state = json.load(f)
                # Comparar la métrica de evaluación y actualizar la mejor según sea necesario
                eval_loss = trainer_state['log_history'][-1]['eval_loss']
                loss = trainer_state['log_history'][-2]['loss']
                print(f"metrics {checkpoint_dir}, loss= {loss} eval_loss= {eval_loss}")


    def searchBestCheckpoint(self) -> str:

        # Recorrer todos los subdirectorios en el directorio de salida
        for subdir in os.listdir(self.output_dir):
            checkpoint_dir = os.path.join(self.output_dir, subdir)
            if os.path.isdir(checkpoint_dir) and subdir.startswith("checkpoint"):
                # Leer el trainer_state.json de cada checkpoint
                try:
                    with open(os.path.join(checkpoint_dir, 'trainer_state.json'), 'r') as f:
                        trainer_state = json.load(f)
                    # Comparar la métrica de evaluación y actualizar la mejor según sea necesario
                    eval_loss = trainer_state['log_history'][-1]['eval_loss']
                    if eval_loss < self.best_metric:
                        self.best_metric = eval_loss
                        self.best_checkpoint = checkpoint_dir
                except FileNotFoundError:
                    print(f"No se encontró trainer_state.json en {checkpoint_dir}")

        return self.best_checkpoint

    def saveBestCheckpoint(self,new_dir:Optional[str]="/kaggle/working/backup-best-checkpoint"):
        shutil.copytree(self.searchBestCheckpoint(), new_dir, dirs_exist_ok=True)

    def removeWorstCheckpoint(self):

        self.searchBestCheckpoint()
        # Borrar todos los checkpoints excepto el mejor
        for subdir in os.listdir(self.output_dir):
            checkpoint_dir = os.path.join(self.output_dir, subdir)
            if self.best_checkpoint==None:
                return

            if checkpoint_dir != self.best_checkpoint and os.path.isdir(checkpoint_dir) and subdir.startswith("checkpoint"):
                shutil.rmtree(checkpoint_dir)

    def removeDirFolders(self):

        for subdir in os.listdir(self.output_dir):
            checkpoint_dir = os.path.join(self.output_dir, subdir)
            if os.path.isdir(checkpoint_dir):
                shutil.rmtree(checkpoint_dir)
        print('Elementos eliminados')

    def loadBestModel(self)->AutoModelForSequenceClassification:
        return AutoModelForSequenceClassification.from_pretrained(self.searchBestCheckpoint())

    def loadBestTokenizer(self)->AutoTokenizer:
        return AutoTokenizer.from_pretrained(self.searchBestCheckpoint())

    def compressModel(self, name:str, path:str):
        archivo_zip = shutil.make_archive(name, "zip", path)

    def compressBestModel(self):
        best_model = self.searchBestCheckpoint()
        name = best_model.split('/')[-1]
        self.compressModel(name, best_model)

    def predictDataset(self, model_name:str, data_loader:DataLoader, threshold: float = 0.5):

        #El dataset usado para dloader tiene que ser el mismo que el de entrenamiento, al menos contener las mismas etiquetas.
        dloader:DataLoaderBert = DataLoaderBert("/kaggle/input/dataset-borrados/ds-subtopics-combined-v12-valores_borrados.csv","CODES",{"VERBATIM":"str","CODES":"str"})
        multiLabelBinarizer:MultiLabelBinarizer = MultiLabelBinarizer(classes=dloader.labels)
        data_loader.df['labels'] = list(multiLabelBinarizer.fit_transform(data_loader.df['CODES']).astype(float))
        dataset:Dataset = Dataset.from_pandas(data_loader.df)

        # Configuración personalizada del modelo
        config = BertConfig.from_pretrained(model_name)
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model =  AutoModelForSequenceClassification.from_pretrained(model_name,config=config)

        def tokenize_function(examples):
            tokenized_inputs = tokenizer(examples["VERBATIM"], padding="max_length", truncation=True, max_length=512)
            tokenized_inputs["labels"] = [list(map(float, label)) for label in examples["labels"]]
            return tokenized_inputs

        tokenized_datasets = dataset.map(tokenize_function, batched=True)
        data_collator = DataCollatorWithPadding(tokenizer=tokenizer, return_tensors='pt')
        trainer = Trainer(
            model=model,
            eval_dataset=tokenized_datasets,
            tokenizer=tokenizer,
            data_collator=data_collator
        )

        raw_pred, labels, _ = trainer.predict(tokenized_datasets)


        # Asegurarse de que raw_pred es un tensor de PyTorch
        if isinstance(raw_pred, np.ndarray):
            raw_pred = torch.from_numpy(raw_pred)
        sigmoid = torch.nn.Sigmoid()
        probs = sigmoid(raw_pred)
        predictions = np.zeros(probs.shape)

        predictions[np.where(probs >= threshold)] = 1

        predicted_labels_multilabel = multiLabelBinarizer.inverse_transform(predictions)
        # Mostrar las probabilidades multilabel


        dataset = dataset.to_pandas()
        res_dataset = dataset.drop(columns = 'labels')
        print(type(dataset))
        res_dataset['predicted'] = predicted_labels_multilabel
        print(res_dataset['predicted'][0])
        res_dataset.to_csv('output-verbatims-nov-2023-thres08-model3741-2702241340.csv',index = False)
        print(predictions[0])
        print(predicted_labels_multilabel[2])
        print(res_dataset['VERBATIM'][0])
        print(multiLabelBinarizer.classes_)


2024-07-05 06:24:39.028430: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-07-05 06:24:39.028562: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-07-05 06:24:39.161747: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


In [12]:
# Obtener predicciones de un dataset completo

trainer_utils:TrainerUtils = TrainerUtils("")
model_name = "/kaggle/working/results-bert/checkpoint-3810"
dtype:Dict[str,str]={"VERBATIM":"str","CODES":"str"}
data_loader:DataLoaderBert = DataLoaderBert("/kaggle/input/datase-t/nespresso_reviews - nespresso_reviews (1).csv","CODES",dtype)
print(data_loader.num_labels)
trainer_utils.predictDataset(model_name, data_loader = data_loader, threshold = 0.8)

40




Map:   0%|          | 0/80 [00:00<?, ? examples/s]



<class 'pandas.core.frame.DataFrame'>
('402',)
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
('207',)
Tuve que esperar casi una semana para que recogieran mi máquina para la reparación. Demasiado tiempo.
['207' '708' '0405' '101' '9203' '0301' '9202' '0702' '406' '9501' '205'
 '0404' '103' '0701' '302' '9301' '0403' '9201' '405' '0501' '701' '203'
 '9401' '301' '0302' '9101' '808' '104' '206' '9801' '9702' '0104' '9601'
 '403' '0207' '201' '9701' '702' '404' '204' '0103' '0201' '202' '501'
 '0102' '0205' '402' '0204' '401' '102' '0208' '0101' '0202' '0401' '0808'
 '0402' '601' '208' '0601' '0203' '0708' '0206' '0406']


**Definición de funciones de perdida**

In [10]:
from torch.optim import Adam
from torch.nn import BCEWithLogitsLoss

# Define la función de pérdida BCEWithLogitsLoss
loss_fn = BCEWithLogitsLoss()
# Crear una función de entrenamiento personalizada
def compute_loss(model, inputs):
    outputs = model(**inputs)
    logits = outputs.logits
    labels = inputs["labels"]
    return loss_fn(logits, labels)

# Sobrescribir el método de entrenamiento
def train_step(model, inputs):
    model.train()
    loss = compute_loss(model, inputs)
    loss.backward()
    return loss.item()

**Proceso de entrenamiento**

In [11]:
from datasets import Dataset
from transformers import DataCollatorWithPadding
from pytorch_lightning.callbacks import EarlyStopping, ModelCheckpoint
from transformers import Trainer, TrainingArguments, EarlyStoppingCallback, DataCollatorWithPadding
from tensorboard import program
from sklearn.preprocessing import MultiLabelBinarizer



print("Cargamos el dataset")
dtype:Dict[str,str]={"VERBATIM":"str","CODES":"str"}
dataLoader:DataLoaderBert = DataLoaderBert("/kaggle/input/dataset-borrados/ds-subtopics-combined-v12-valores_borrados.csv","CODES",dtype)
dataLoader_eval:DataLoaderBert = DataLoaderBert("/kaggle/input/dataset-borrados/ds-subtopics-combined-v12-valores_borrados.csv","CODES",dtype)
print(f"num labels: {dataLoader.num_labels} y labels: {dataLoader.labels}")
#dataLoader.explain()
print("Cargamos el modelo BERT")
bertModel:BertModel=BertModel(dataLoader.num_labels, "/kaggle/input/modelo-bert/bert_base")

# Convertir las etiquetas de texto a etiquetas numéricas
multiLabelBinarizer:MultiLabelBinarizer = MultiLabelBinarizer(classes=dataLoader.labels)
dataLoader.df['labels'] = list(multiLabelBinarizer.fit_transform(dataLoader.df['CODES']).astype(float))
dataLoader_eval.df['labels'] = list(multiLabelBinarizer.fit_transform(dataLoader_eval.df['CODES']).astype(float))
#dataset:Dataset = Dataset.from_pandas(dataLoader.df).train_test_split(train_size=0.8, test_size=0.2, seed = 42) # doing the split reproducible
dataset_train:Dataset = Dataset.from_pandas(dataLoader.df) # doing the split reproducible
dataset_eval:Dataset = Dataset.from_pandas(dataLoader_eval.df) # doing the split reproducible

# Check the number of records in training and testing dataset.
print('The training dataset has', len(dataset_train) ,' records.')
print('The test dataset has', len(dataset_eval) ,' records.')

# Tokeniza los textos
def tokenize_function(examples):
    #return bertModel.tokenizer(examples["VERBATIM"], padding='max_length', truncation=True)
    tokenized_inputs = bertModel.tokenizer(examples["VERBATIM"], padding="max_length", truncation=True, max_length=512)
     # Añadir etiquetas y convertirlas a flotantes
    tokenized_inputs["labels"] = [list(map(float, label)) for label in examples["labels"]]
    return tokenized_inputs

#tokenized_datasets = dataset.map(tokenize_function, batched=True)
tokenized_datasets_train = dataset_train.map(tokenize_function, batched=True)
tokenized_datasets_test = dataset_eval.map(tokenize_function, batched=True)

# Utilizar DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer=bertModel.tokenizer, return_tensors='pt')
# Definir los argumentos de entrenamiento
training_args = TrainingArguments(
    output_dir='/kaggle/working/results-bert',
    num_train_epochs=3,
    per_device_train_batch_size=8,#16
    per_device_eval_batch_size=8,#16
    warmup_steps=1000,
    weight_decay=0.01,
#    learning_rate=1e-5,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    logging_strategy="epoch",
    logging_dir='/kaggle/working/logs-bert',
    report_to="none",  # Esto evitará que se registre en W&B APIKEY: caff0a55580191e266efd6f4566148d5bb76129d
    overwrite_output_dir=False
)

# Inicializar el Trainer
trainer = Trainer(
    model=bertModel.model,  # Asegúrate de haber cargado o definido tu modelo BERT aquí
    args=training_args,
    train_dataset=tokenized_datasets_train,
    eval_dataset=tokenized_datasets_test,
    data_collator=data_collator,
    tokenizer=bertModel.tokenizer,
    callbacks = [EarlyStoppingCallback(early_stopping_patience=3, early_stopping_threshold=0.001)],
    compute_metrics=compute_metrics
)

# Sobrescribir el método de entrenamiento del Trainer para controlar el algoritmo de perdida y el optimizador de learning rate
trainer.train_step = train_step
trainer.optimizer = Adam(bertModel.model.parameters(), lr=5e-5) #lr=2e-5

# Entrenar y evaluar

# Carga la extensión de TensorBoard
#%load_ext tensorboard
# Inicia TensorBoard
#%tensorboard --logdir /kaggle/working/logs1


trainer.train()
trainer.evaluate()

trainerUtils:TrainerUtils = TrainerUtils('/kaggle/working/results-bert')
trainerUtils.compressBestModel()
print("best model compressed")

Cargamos el dataset
num labels: 63 y labels: ['207' '708' '0405' '101' '9203' '0301' '9202' '0702' '406' '9501' '205'
 '0404' '103' '0701' '302' '9301' '0403' '9201' '405' '0501' '701' '203'
 '9401' '301' '0302' '9101' '808' '104' '206' '9801' '9702' '0104' '9601'
 '403' '0207' '201' '9701' '702' '404' '204' '0103' '0201' '202' '501'
 '0102' '0205' '402' '0204' '401' '102' '0208' '0101' '0202' '0401' '0808'
 '0402' '601' '208' '0601' '0203' '0708' '0206' '0406']
Cargamos el modelo BERT


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at /kaggle/input/modelo-bert/bert_base and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


The training dataset has 20309  records.
The test dataset has 20309  records.


Map:   0%|          | 0/20309 [00:00<?, ? examples/s]

Map:   0%|          | 0/20309 [00:00<?, ? examples/s]



Epoch,Training Loss,Validation Loss,F1,Roc Auc,Accuracy
1,0.1717,0.068098,0.34363,0.604037,0.081491
2,0.0411,0.02044,0.965926,0.973911,0.924073
3,0.0177,0.013174,0.988639,0.992045,0.977498


<transformers.trainer_utils.EvalPrediction object at 0x7b6278429720>




<transformers.trainer_utils.EvalPrediction object at 0x7b62681ab910>




<transformers.trainer_utils.EvalPrediction object at 0x7b627eb765c0>




<transformers.trainer_utils.EvalPrediction object at 0x7b6268146b60>
best model compressed


Si queremos hacer clean del resultado del entrenamiento

In [None]:
trainerUtils:TrainerUtils = TrainerUtils('/kaggle/working/results-bert')
trainerUtils.compressModel('model-v7-4-checkpoint-weight001lr2e5-3741-2702241330','/kaggle/working/results-bert/checkpoint-2494' )

In [13]:
trainerUtils:TrainerUtils = TrainerUtils('/kaggle/working/results-bert')
print(trainerUtils.searchBestCheckpoint())
#trainerUtils.removeWorstCheckpoint()

/kaggle/working/results-bert/checkpoint-3810


# Fine-tunning a partir del mejor checkpoint

Una vez hemos entrenado un modelo (generalmente hemos entrenando la capa de clasificación de un modelo como BERT,Roberta, etc con nuestros datos), es decir, hemos entrenado la capa de clasificación de un modelo y por tanto hemos obtenido un clasificador con pesos y etiquetas propias, podemos seguir reentrenando (refinando) esa capa a partir de las mejores métricas que hayamos podido conseguir en dicho refinamiento previo. Esto nos permite seguir ajustando más el modelo

In [None]:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

In [None]:
from datasets import Dataset
from transformers import DataCollatorWithPadding
from pytorch_lightning.callbacks import EarlyStopping, ModelCheckpoint
from transformers import Trainer, TrainingArguments, EarlyStoppingCallback, DataCollatorWithPadding,AutoModelForSequenceClassification, AutoTokenizer
from tensorboard import program
from sklearn.preprocessing import MultiLabelBinarizer


print("Cargamos el dataset")
dtype:Dict[str,str]={"VERBATIM":"str","CODES":"str"}
dataLoader = DataLoaderBert("/kaggle/input/data-train-150-topics/ds-subtopics-combined_v1.csv","CODES",dtype)
print("Cargamos el modelo BERT")
bertModel:BertModel=BertModel(dataLoader.num_labels)

# Convert pyhton dataframe to Hugging Face arrow dataset
# Convertir las etiquetas de texto a etiquetas numéricas
multiLabelBinarizer:MultiLabelBinarizer = MultiLabelBinarizer(classes=dataLoader.labels)
dataLoader.df['labels'] = list(multiLabelBinarizer.fit_transform(dataLoader.df['CODES']).astype(float))
dataset:Dataset = Dataset.from_pandas(dataLoader.df).train_test_split(train_size=0.8, test_size=0.2, seed = 42) # doing the split reproducible


trainerUtils:TrainerUtils = TrainerUtils("/kaggle/working/results-retuning")
model =  AutoModelForSequenceClassification.from_pretrained("/kaggle/working/results-bert/checkpoint-2494")
tokenizer = AutoTokenizer.from_pretrained("/kaggle/working/results-bert/checkpoint-2494")

# Tokeniza los textos
def tokenize_function(examples):
    #return bertModel.tokenizer(examples["VERBATIM"], padding='max_length', truncation=True)
    tokenized_inputs = bertModel.tokenizer(examples["VERBATIM"], padding="max_length", truncation=True, max_length=512)
     # Añadir etiquetas y convertirlas a flotantes
    tokenized_inputs["labels"] = [list(map(float, label)) for label in examples["labels"]]
    return tokenized_inputs

tokenized_datasets = dataset.map(tokenize_function, batched=True)

# Utilizar DataCollatorWithPadding agrupar dinámicamente un lote de ejemplos de datos de manera eficiente.
# La principal funcionalidad de esta clase es tomar una lista de ejemplos (que pueden tener diferentes longitudes)
# y combinarlos en un solo lote con padding aplicado, de modo que todos los ejemplos en el lote tengan la misma longitud.
data_collator = DataCollatorWithPadding(tokenizer=tokenizer, return_tensors='pt')

# Definir los argumentos de entrenamiento
training_args = TrainingArguments(
    output_dir='/kaggle/working/results-retuning',
    num_train_epochs=15,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    warmup_steps=500,
    weight_decay=0.1,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    #learning_rate=1e-4,
    load_best_model_at_end=True,
    logging_strategy="epoch",
    logging_dir='/kaggle/working/logs-retuning',
    report_to="none",  # Esto evitará que se registre en W&B APIKEY: caff0a55580191e266efd6f4566148d5bb76129d
    overwrite_output_dir=False
)

# Inicializar el Trainer
trainer = Trainer(
    model=model,  # Asegúrate de haber cargado o definido tu modelo BERT aquí
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['test'],
    data_collator=data_collator,
    tokenizer=tokenizer,
    callbacks = [EarlyStoppingCallback(early_stopping_patience=3, early_stopping_threshold=0.001)],
    compute_metrics=compute_metrics
)

# Sobrescribir el método de entrenamiento del Trainer para controlar el algoritmo de perdida y el optimizador de learning rate
trainer.train_step = train_step
trainer.optimizer = Adam(bertModel.model.parameters(), lr=2e-5)
trainer.train()
trainer.evaluate()

In [None]:
trainerUtils:TrainerUtils = TrainerUtils('/kaggle/working/results-bert')
print(trainerUtils.searchBestCheckpoint())
#trainerUtils.removeWorstCheckpoint()

**save model**

In [None]:
from transformers import BertConfig, BertForSequenceClassification, BertTokenizer, AutoModelForSequenceClassification, AutoTokenizer

model_name = "dccuchile/bert-base-spanish-wwm-cased"
path:str = "/kaggle/working/results-bert/checkpoint-1502"
#path:str = "/kaggle/working/results-retuning/checkpoint-297"
config = BertConfig.from_pretrained(path)
model =  AutoModelForSequenceClassification.from_pretrained(path,config=config)
tokenizer = AutoTokenizer.from_pretrained(path)
model.save_pretrained("/kaggle/working/modelos/nes-multilabel-v5-epoch2-19120948")
config.save_pretrained("/kaggle/working/modelos/nes-multilabel-v5-epoch2-19120948")
tokenizer.save_pretrained("/kaggle/working/modelos/nes-multilabel-v5-epoch2-19120948")


In [None]:
# Guardar a zip
trainerUtils:TrainerUtils = TrainerUtils('/kaggle/working/results-bert')
trainerUtils.compressModel("nes-multilabel-v5-epoch6-18121830", "/kaggle/working/modelos/nes-multilabel-v5-epoch6-18121830")

# Test with trainer
Test loading a trained model from models or checkpoint

In [None]:
from datasets import Dataset
from transformers import DataCollatorWithPadding
from pytorch_lightning.callbacks import EarlyStopping, ModelCheckpoint
from transformers import Trainer, TrainingArguments, EarlyStoppingCallback, DataCollatorWithPadding,AutoModelForSequenceClassification, AutoTokenizer
from tensorboard import program
from sklearn.preprocessing import MultiLabelBinarizer

print("Cargamos el dataset")
dtype:Dict[str,str]={"VERBATIM":"str","CODES":"str"}
dataLoader:DataLoaderBert = DataLoaderBert("/kaggle/input/data-train-all-categories/ds-subtopics-combined-v3.csv","CODES",dtype)
dataLoader_eval:DataLoaderBert = DataLoaderBert("/kaggle/input/data-train-all-categories/ds-test-multilabel-v1.csv","CODES",dtype)
print(f"num labels: {dataLoader.num_labels} y labels: {dataLoader.labels}")
#dataLoader.explain()
print("Cargamos el modelo BERT")
bertModel:BertModel=BertModel(dataLoader.num_labels, model_name = "/kaggle/working/modelos/nes-multilabel-v3-epoch4-15121057")

# Convertir las etiquetas de texto a etiquetas numéricas
multiLabelBinarizer:MultiLabelBinarizer = MultiLabelBinarizer(classes=dataLoader.labels)
dataLoader.df['labels'] = list(multiLabelBinarizer.fit_transform(dataLoader.df['CODES']).astype(float))
dataLoader_eval.df['labels'] = list(multiLabelBinarizer.fit_transform(dataLoader_eval.df['CODES']).astype(float))
#dataset:Dataset = Dataset.from_pandas(dataLoader.df).train_test_split(train_size=0.8, test_size=0.2, seed = 42) # doing the split reproducible
dataset_train:Dataset = Dataset.from_pandas(dataLoader.df) # doing the split reproducible
dataset_eval:Dataset = Dataset.from_pandas(dataLoader_eval.df) # doing the split reproducible

# Check the number of records in training and testing dataset.
print('The training dataset has', len(dataset_train) ,' records.')
print('The test dataset has', len(dataset_eval) ,' records.')

# Tokeniza los textos
def tokenize_function(examples):
    #return bertModel.tokenizer(examples["VERBATIM"], padding='max_length', truncation=True)
    tokenized_inputs = bertModel.tokenizer(examples["VERBATIM"], padding="max_length", truncation=True, max_length=512)
     # Añadir etiquetas y convertirlas a flotantes
    tokenized_inputs["labels"] = [list(map(float, label)) for label in examples["labels"]]
    return tokenized_inputs

#tokenized_datasets = dataset.map(tokenize_function, batched=True)
tokenized_datasets_train = dataset_train.map(tokenize_function, batched=True)
tokenized_datasets_test = dataset_eval.map(tokenize_function, batched=True)

# Utilizar DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer=bertModel.tokenizer, return_tensors='pt')


# Definir los argumentos de entrenamiento
training_args = TrainingArguments(
    output_dir='/kaggle/working/results-retuning',
    num_train_epochs=15,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    warmup_steps=500,
    weight_decay=0.1,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    #learning_rate=1e-4,
    load_best_model_at_end=True,
    logging_strategy="epoch",
    logging_dir='/kaggle/working/logs-retuning',
    report_to="none",  # Esto evitará que se registre en W&B APIKEY: caff0a55580191e266efd6f4566148d5bb76129d
    overwrite_output_dir=False
)

# Inicializar el Trainer
trainer = Trainer(
    model= bertModel.model,  # Asegúrate de haber cargado o definido tu modelo BERT aquí
    args=training_args,
    train_dataset=tokenized_datasets_train,
    eval_dataset=tokenized_datasets_test,
    data_collator=data_collator,
    tokenizer=bertModel.tokenizer,
    callbacks = [EarlyStoppingCallback(early_stopping_patience=3, early_stopping_threshold=0.001)],
    compute_metrics=compute_metrics
)


raw_pred, labels, _ = trainer.predict(tokenized_datasets_test)

# Preprocess raw predictions
y_pred = np.argmax(raw_pred, axis=1)


labels_list = dataLoader.labels
print(raw_pred)
print(labels)



In [None]:
bertModel:BertModel=BertModel(dataLoader.num_labels, model_name = "/kaggle/working/results-bert/checkpoint-3810")


text = "La repartidora se retrasó mucho, muy malo todo"

encoding = bertModel.tokenizer(text, padding="max_length", truncation=True, max_length=512, return_tensors="pt")
#encoding = {k: v.to(trainer.model.device) for k,v in encoding.items()}

outputs = trainer.model(**encoding)
logits = outputs.logits
umbral = 0.7
# apply sigmoid + threshold
sigmoid = torch.nn.Sigmoid()
probs = sigmoid(logits.squeeze().cpu())
predictions = np.zeros(probs.shape)
predictions[np.where(probs >= umbral)] = 1
print(predictions)

# indices_1 = [i for i, value in enumerate(predictions) if value == 1]
# # turn predicted id's into actual label names

# print(labels[indices_1])

res_list = []
for i, row in tqdm(dataset.iterrows(), total=dataset.shape[0]):
    res = []

themes = predictText(sentence)
absa_prediction = classifier_ABSA(sentence,  text_pair=aspect)
sentiment = sentiment_to_number(absa_prediction[0]['label'])
theme_code = label_to_code(aspect)
code = create_code(sentiment, theme_code)
if code not in res:
    res.append(code)
res_list.append(res)
dataset['CLASSIFICATION'] = res_list
dataset.to_excel('output3.xlsx', index=False)
print('Text analysis finished')


# Validar encoding casos concretos

In [22]:
def printTokens(sentence:str, tokenizer:AutoTokenizer):
    # Tokeniza la frase
    inputs = tokenizer(sentence)

    # Imprime los tokens
    print(f"Tokens: {inputs.tokens()}")

    # Imprime los IDs de los tokens
    print(f"Token IDs: {inputs['input_ids']}")

    # Imprime los tokens correspondientes a cada ID
    print("Mapeo de tokens a palabras:")
    for token_id in inputs['input_ids']:
        print(f"{token_id} ----> {tokenizer.decode([token_id])}")

In [17]:
model_name="/kaggle/working/results-bert/checkpoint-3810"
trainerUtils:TrainerUtils = TrainerUtils(model_name)
#trainerUtils.removeWorstCheckpoint()
#trainerUtils.saveBestCheckpoint("/kaggle/working/backup-best-checkpoint-retrain")

In [None]:
from sklearn.preprocessing import MultiLabelBinarizer

dtype:Dict[str,str]={"VERBATIM":"str","CODES":"str"}
dataLoader = DataLoaderBert("/kaggle/input/data-train-all-categories/ds-subtopics-combined-v6.csv","CODES",dtype)
multiLabelBinarizer:MultiLabelBinarizer = MultiLabelBinarizer(classes=dataLoader.labels)
dataLoader.df['labels'] = list(multiLabelBinarizer.fit_transform(dataLoader.df['CODES']).astype(float))

In [36]:
import torch.nn.functional as F
from typing import Optional,Dict
from transformers import BertConfig, BertForSequenceClassification, BertTokenizer, AutoModelForSequenceClassification, AutoTokenizer

text = "Las cápsulas a veces no funcionan bien en la máquina y terminan haciendo un desastre."


# Configuración personalizada del modelo
config = BertConfig.from_pretrained(model_name)
#config.num_attention_heads = 16  # Configurar el número de cabezas de atención
#config.hidden_size = 1024  # Configurar el tamaño de la capa oculta

model =  AutoModelForSequenceClassification.from_pretrained(model_name,config=config)
tokenizer = AutoTokenizer.from_pretrained(model_name)
inputs = tokenizer(text, padding=True, truncation=True, max_length=512, return_tensors="pt")

# Realizar la predicción
outputs = model(**inputs)
# Aplicar softmax para obtener probabilidades
probs = torch.sigmoid(outputs.logits)
# Umbral para decidir si una etiqueta está presente o no
threshold = 0.5 # Puedes ajustar este umbral según tus necesidades

# Obtener las etiquetas predichas basadas en el umbral
predicted_labels = (probs > threshold).cpu().numpy()
predicted_labels_multilabel = multiLabelBinarizer.inverse_transform(predicted_labels)
# Mostrar las probabilidades multilabel
print(probs)
print(multiLabelBinarizer.classes_)
# Mostrar las etiquetas predichas
print(f"Etiquetas predichas: {predicted_labels_multilabel[0]}")

#labels: ['0403' '0301' '0501' '9101' '0101' '0702' '0406' '0203' '9601' '0208'
 #'0402' '0207' '9301' '0201' '0404' '0708' '0405' '0401' '0202' '9701'
 #'0701' '0206' '9200' '0204' '0103' '0601' '9401' '0205' '9801' '0104'
 #'0302' '9501' '0102' '9201' '0808' '9203' '9702']


tensor([[8.8046e-01, 1.8520e-03, 1.7719e-03, 2.4689e-03, 2.1031e-03, 2.6388e-03,
         4.4979e-03, 1.5831e-03, 1.9842e-03, 2.2240e-03, 2.2830e-03, 3.1887e-03,
         2.5453e-03, 2.1705e-03, 8.2217e-03, 2.4668e-03, 2.3898e-03, 4.0829e-03,
         4.0544e-03, 2.8820e-03, 2.2925e-03, 2.1022e-03, 3.7440e-03, 2.1657e-03,
         2.2478e-03, 2.3617e-03, 3.1354e-03, 2.8055e-03, 5.3580e-03, 2.4822e-03,
         2.1487e-03, 2.2310e-03, 3.8375e-03, 1.8431e-03, 7.7863e-03, 3.1924e-03,
         2.8614e-03, 6.9124e-04, 9.0203e-04, 4.7381e-03, 3.0513e-03, 3.7595e-03,
         4.0621e-03, 3.5735e-03, 1.3543e-03, 3.9845e-03, 1.7107e-03, 1.5908e-03,
         6.4490e-03, 1.4058e-03, 3.1207e-03, 2.1875e-03, 3.4279e-03, 2.7685e-03,
         4.1419e-03, 3.0725e-03, 3.6200e-03, 2.7959e-02, 2.6013e-03, 2.9844e-03,
         2.5114e-03, 3.0903e-03, 4.5037e-03]], grad_fn=<SigmoidBackward0>)
['207' '708' '0405' '101' '9203' '0301' '9202' '0702' '406' '9501' '205'
 '0404' '103' '0701' '302' '9301' '0403' '

Por probabilidades más altas descartando siempre cada alta dectada

In [19]:
etiquetas_seleccionadas = []  # Lista para almacenar las etiquetas seleccionadas


while True:
    # Aplicar la función softmax
    probabilities = torch.softmax(outputs.logits, dim=1).detach().numpy()
    print(probabilities)
    # Verificar si alguna probabilidad supera el umbral
    if np.any(probabilities > threshold):
        # Encontrar la etiqueta con la probabilidad más alta
        etiqueta_maxima = np.argmax(probabilities)
        # Agregar la etiqueta máxima a la lista de etiquetas seleccionadas
        etiquetas_seleccionadas.append(etiqueta_maxima)
        print(outputs.logits)
        # Establecer la probabilidad de la etiqueta máxima a cero para la próxima iteración
        outputs.logits[0][etiqueta_maxima]  = float('-inf')
    else:
        print("break")
        break
# Mostrar las etiquetas seleccionadas
print("Etiquetas seleccionadas:", etiquetas_seleccionadas)

[[0.00242094 0.00453019 0.00207138 0.01739279 0.00152058 0.00156386
  0.00144701 0.00326289 0.00369448 0.00463661 0.00306001 0.00135134
  0.00312196 0.00221542 0.00131441 0.00196833 0.00182151 0.0083843
  0.00177623 0.0032347  0.00204488 0.00292515 0.00213358 0.00128112
  0.00294682 0.01427312 0.00177721 0.33766976 0.00225533 0.04066738
  0.00145877 0.01801542 0.01075978 0.00359346 0.0017441  0.00347106
  0.00630079 0.00114604 0.00154241 0.00444814 0.00362186 0.00457922
  0.00291331 0.00363794 0.00482112 0.00164405 0.00335969 0.00187216
  0.00203447 0.00497342 0.00114434 0.40852788 0.00266815 0.0020139
  0.0022627  0.00173538 0.00212553 0.00313235 0.00251436 0.00152021
  0.00201095 0.0012305  0.00441313]]
break
Etiquetas seleccionadas: []


In [20]:
# Tokeniza la frase
tokens = tokenizer.tokenize(text)
# Imprime los tokens resultantes
print(tokens)
# Convierte los tokens a IDs
token_ids = tokenizer.convert_tokens_to_ids(tokens)
# Imprime los IDs de los tokens
print(token_ids)

['Ten', '##eis', 'muy', 'buena', 'atención', 'al', 'cliente', ',', 'aun', '##q', 'a', 'veces', 'las', 'empresa', 'de', 'mensaje', '##ría', '(', 'Se', '##ur', ')', 'deja', 'mucho', 'q', 'desear', ':', 'bastantes', 'veces', 'las', 'cápsulas', 'vienen', 'abol', '##ladas']
[1599, 19211, 1456, 2667, 3148, 1091, 6114, 1017, 6314, 30951, 1013, 2397, 1089, 2784, 1008, 4837, 2623, 1147, 1264, 1284, 1135, 5113, 1789, 1033, 21704, 1181, 23366, 2397, 1089, 29699, 7690, 14840, 9299]


In [23]:
printTokens("Cafeteras y café de calidad y el pedido lo entregaron a tiempo", tokenizer)

Tokens: ['[CLS]', 'Ca', '##fete', '##ras', 'y', 'café', 'de', 'calidad', 'y', 'el', 'pedido', 'lo', 'entregar', '##on', 'a', 'tiempo', '[SEP]']
Token IDs: [4, 1906, 24710, 1267, 1042, 5649, 1008, 3285, 1042, 1040, 7345, 1114, 7538, 1022, 1013, 1577, 5]
Mapeo de tokens a palabras:
4 ----> [CLS]
1906 ----> Ca
24710 ----> ##fete
1267 ----> ##ras
1042 ----> y
5649 ----> café
1008 ----> de
3285 ----> calidad
1042 ----> y
1040 ----> el
7345 ----> pedido
1114 ----> lo
7538 ----> entregar
1022 ----> ##on
1013 ----> a
1577 ----> tiempo
5 ----> [SEP]


# LIME

Es una librería que nos permite analizar como el modelo asigna los diferentes pesos a las palabras de una frase para determinar que etiqueta asigna

In [None]:
!pip install lime

Para disponer de las label, cargamos el dataset. Ejecutamos Lime con una frase de ejemEjecutamos Lime con una frase de ejem

In [None]:
import torch
from lime.lime_text import LimeTextExplainer

# Cargamos el mejor modelo que tengamos entrenado
model_name="/kaggle/working/results-retuning/checkpoint-388"
model =  AutoModelForSequenceClassification.from_pretrained(model_name, problem_type="multi_label_classification")
tokenizer = AutoTokenizer.from_pretrained(model_name)

def predict_fn(texts):
    # Asegúrate de que 'texts' sea una lista de textos
    if not isinstance(texts, list):
        texts = [texts]

    # Preparar la entrada para el modelo BERT
    inputs = tokenizer(texts, return_tensors='pt', truncation=True, padding=True, max_length=512)

    # Realiza las predicciones con el modelo BERT
    with torch.no_grad():
        outputs = model(**inputs)

    logits = outputs.logits
    probabilities = torch.sigmoid(logits)
    #probabilities = torch.softmax(logits, dim=1).cpu().numpy() # Softmax se aplica a lo largo del eje de las clases
    return probabilities

# Crea el explainer de LIME
explainer = LimeTextExplainer(class_names=multiLabelBinarizer.classes_)

# Ahora, suponiendo que tienes un texto de prueba llamado 'texto_de_prueba'
texto_de_prueba = "Buena atencion en la tienda y facilidad en la web."

# Explica la instancia de texto
explanation = explainer.explain_instance(texto_de_prueba, predict_fn, num_features=10)

# Muestra la explicación en el cuaderno
# Esta parte solo funcionará en un entorno de Jupyter Notebook
explanation.show_in_notebook()

lime multilabel

In [None]:
import torch
import numpy as np
from lime.lime_text import LimeTextExplainer
from transformers import AutoModelForSequenceClassification, AutoTokenizer

# Cargamos el mejor modelo que tengamos entrenado
model_name = "/kaggle/working/results-retuning/checkpoint-388"
model = AutoModelForSequenceClassification.from_pretrained(model_name, problem_type="multi_label_classification")
tokenizer = AutoTokenizer.from_pretrained(model_name)

def predict_fn(texts):
    # Asegúrate de que 'texts' sea una lista de textos
    if not isinstance(texts, list):
        texts = [texts]

    # Preparar la entrada para el modelo BERT
    inputs = tokenizer(texts, return_tensors='pt', truncation=True, padding=True, max_length=512)

    # Realiza las predicciones con el modelo BERT
    with torch.no_grad():
        outputs = model(**inputs)

    logits = outputs.logits
    probabilities = torch.sigmoid(logits)
    return probabilities

# Crear el explainer de LIME
explainer = LimeTextExplainer(class_names=list(map(str, range(37))))  # Cambiar 'num_labels' al número correcto de etiquetas

# Ahora, suponiendo que tienes un texto de prueba llamado 'texto_de_prueba'
texto_de_prueba = "Buena atención en la tienda y facilidad en la web."

# Explicar la instancia de texto
explanation = explainer.explain_instance(texto_de_prueba, predict_fn, num_features=10)

# Mostrar las características más importantes en la explicación
#explanation.show_in_notebook()
# Obtener las características explicadas e importancias
explained_features = explanation.as_list()
explained_features = [f[0] for f in explained_features]
importances = [f[1] for f in explained_features]

# Mostrar las características explicadas e importancias en una celda de Markdown
print("Características explicadas:")
for feature in explained_features:
    print(f"- {feature}")

print("\nImportancias:")
for importance in importances:
    print(f"- {importance:.4f}")


In [None]:
print(explained_features)
importances = [f[1] for f in explained_features]

print(importances)

# NLTK

Ejemplos nltk para inyectar sentencias SEP en una oración, la idea de esto es adaptar las oraciones para que el modelo interprete partes de la oración y no todo como una oración

In [None]:
import nltk
from nltk.tokenize import sent_tokenize

# Descargar el paquete punkt solo la primera vez
# nltk.download('punkt')

text = "Buena atención en la tienda y facilidad en la web. Me gusta viajar en moto"

# Tokenizar el texto en oraciones
sentences = sent_tokenize(text, language='spanish')

# Añadir el token [SEP] entre las oraciones
sep_token = " [SEP] "
tokenized_text_with_sep = sep_token.join(sentences)
print(tokenized_text_with_sep)

Estos son los tipos semánticos que detecta nltk dentro de una oración, pueden servir para determinar cuando una palabra está actuando dentro de la oración con una forma sintáctica diferente y por tanto podamos determinar que hacemos con ella

* **CC:** Coordinating conjunction (y, but, or)
* **CD:** Cardinal number (one, two, 3)
* **DT:** Determiner (the, a, some, most)
* **EX:** Existential there (there's, there is)
* **FW:** Foreign word (déjà vu, naiveté)
* **IN:** Preposition or subordinating conjunction (of, on, before, unless)
* **JJ:** Adjective (happy, sad)
* **JJR:** Adjective, comparative (happier, sadder)
* **JJS:** Adjective, superlative (happiest, saddest)
* **LS:** List item marker (1), (2), (A), (B)
* **MD:** Modal (can, could, shall, should)
* **NN:** Noun, singular or mass (dog, city)
* **NNS:** Noun, plural (dogs, cities)
* **NNP:** Proper noun, singular (London, John)
* **NNPS:** Proper noun, plural (Americans, Canadians)
* **PDT:** Predeterminer (all, both, half)
* **POS:** Possessive ending ('s)
* **PRP:** Personal pronoun (I, you, he)
* **PRP$:** Possessive pronoun (my, your, his)
* **RB:** Adverb (very, silently)
* **RBR:** Adverb, comparative (better)
* **RBS:** Adverb, superlative (best)
* **RP:** Particle (up, off)
* **SYM:** Symbol (+, %, &)
* **TO:** Infinitive 'to' (to go, to eat)
* **UH:** Interjection (ah, oops)
* **VB:** Verb, base form (take, live)
* **VBD:** Verb, past tense (took, lived)
* **VBG:** Verb, gerund or present participle (taking, living)
* **VBN:** Verb, past participle (taken, lived)
* **VBP:** Verb, non-3rd person singular present (take, live)
* **VBZ:** Verb, 3rd person singular present (takes, lives)
* **WDT:** Wh-determiner (which, that)
* **WP:** Wh-pronoun (who, what)
* **WP\$:** Possessive wh-pronoun (whose)
* **WRB:** Wh-adverb (where, when)

In [None]:
import nltk
nltk.download('averaged_perceptron_tagger')

# Ejemplo de oración
text = "Buena atención en la tienda y facilidad en la web."

# Tokenizamos la oración en palabras
words = nltk.word_tokenize(text)

# Realizamos el POS tagging a la lista de palabras
pos_tags = nltk.pos_tag(words, lang='spanish')

# Buscar la función de "y" en la oración
for word, tag in pos_tags:
    if word == "y":
        print(f"La palabra '{word}' es una {tag}")


# Spacy

Spacy utiliza un conjunto de etiquetas para el etiquetado de partes del discurso (POS) que se basan en el Universal Dependencies scheme. Aquí hay una lista de las etiquetas más comunes que encontrarás en Spacy:


* **ADJ:** Adjetivo
* **ADP:** Adposición
* **ADV:** Adverbio
* **AUX:** Auxiliar
* **CONJ:** Conjunción
* **CCONJ:** Conjunción coordinante
* **DET:** Determinante
* **INTJ:** Interjección
* **NOUN:** Sustantivo
* **NUM:** Numeral
* **PART:** Partícula
* **PRON:** Pronombre
* **PROPN:** Nombre propio
* **PUNCT:** Puntuación
* **SCONJ:** Conjunción subordinante
* **SYM:** Símbolo
* **VERB:** Verbo
* **X:** Otro

In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm

In [None]:

import spacy
nlp = spacy.load("es_core_news_sm")

text = "Buena atención en la tienda y facilidad en la web. Compre la cafetera y las capsulas"
doc = nlp(text)

for token in doc:
    if token.text == "y":
        print(f"La palabra '{token.text}' es una {token.pos_}")

# Longformer para sumarizar los verbatims

In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Cargar el tokenizador y el modelo preentrenado
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")



# Tokenizar el texto y generar el resumen
# input_ids = tokenizer.encode(texto, return_tensors="pt", max_length=1024, truncation=True)
# resumen_ids = model.generate(input_ids, max_length=700, min_length=40, length_penalty=2.0, num_beams=4, early_stopping=True)

# Decodificar y mostrar el resumen
# resumen = tokenizer.decode(resumen_ids[0], skip_special_tokens=True)
# print(resumen)


# Bertviz
https://colab.research.google.com/drive/1hXIQ77A4TYS4y3UthWF-Ci7V7vVUoxmQ?usp=sharing#scrollTo=TG-dQt3NOlub

In [None]:
!pip install bertviz

In [None]:
# Load model and retrieve attention weights
from bertviz import head_view, model_view
from transformers import AutoModelForSequenceClassification, AutoTokenizer, AutoConfig

# Carga el modelo y el tokenizador con la configuración para devolver los pesos de atención
model_name_or_path = "/kaggle/working/results-retuning/checkpoint-388"
model = AutoModelForSequenceClassification.from_pretrained(model_name_or_path, output_attentions=True, problem_type="multi_label_classification")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)

# Prepara las entradas y realiza la predicción
sentence = "Buena atencion en la tienda y facilidad en la web. No me gusto la atención por teléfono"
inputs = tokenizer(sentence, return_tensors='pt', add_special_tokens=True,max_length=512)
outputs = model(**inputs)

# Extrae los pesos de atención
attention = outputs.attentions

# Verifica las dimensiones
if attention is not None and all(att.shape == (1, model.config.num_attention_heads, model.config.max_position_embeddings, model.config.max_position_embeddings) for att in attention):
    print("Las dimensiones de los tensores de atención son correctas")
else:
    print("Las dimensiones de los tensores de atención NO son correctas")

# Si las dimensiones son correctas, intenta visualizar
if attention is not None:
    from bertviz import head_view
    tokens = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0])
    head_view(attention, tokens)
    model_view(attention, tokens)

In [None]:
"""import torch
from sklearn.metrics import classification_report, confusion_matrix

def evaluate_model_from_file(model, tokenizer, device, epoch, num_classes, lr):

    texts_val, labels_val, numLabels = loadDatasetCsv('/kaggle/input/data-train-csv/all_data.csv')
    criterion = torch.nn.CrossEntropyLoss()

    # Tokenizar y convertir a tensores
    input_ids_val = []
    attention_masks_val = []

    for text in texts_val:
        inputs_val = tokenizer(text, return_tensors="pt", padding="max_length", truncation=True, max_length=512)
        input_ids_val.append(inputs_val["input_ids"].squeeze())
        attention_masks_val.append(inputs_val["attention_mask"].squeeze())

    input_ids_val = torch.stack(input_ids_val)
    attention_masks_val = torch.stack(attention_masks_val)

    # Restar 1 a las etiquetas para ajustarlas a un rango [0, 1, 2, ..., 16]
    labels_val = [label - 1 for label in labels_val]
    labels_val = torch.tensor(labels_val)

    val_data = TensorDataset(input_ids_val, attention_masks_val, labels_val)
    val_dataloader = DataLoader(val_data, batch_size=16)

    val_loss = 0.0
    val_preds = []
    val_labels = []

    model.eval()  # Cambia el modo del modelo a evaluación

    with torch.no_grad():
        for batch in val_dataloader:
                batch = tuple(t.to(device) for t in batch)
                inputs = {'input_ids': batch[0], 'attention_mask': batch[1], 'labels': batch[2]}
                outputs = model(**inputs)
                logits = outputs.logits
                val_loss += criterion(logits, batch[2]).item()
                val_preds.extend(logits.argmax(dim=1).cpu().numpy())
                val_labels.extend(batch[2].cpu().numpy())

    val_loss /= len(val_dataloader)
    classification_metrics = classification_report(val_labels, val_preds, target_names=[str(i) for i in range(num_classes)])
    conf_matrix = confusion_matrix(val_labels, val_preds)

    metrics_path = model_name + '.txt'
    with open(metrics_path, 'w') as f:
        # Redirigir la salida de print al archivo
        print(f"Epoch {epoch + 1} Validation Loss: {val_loss}  lr: {lr}", file=f)
        print('F1-score: {f1_score}'.format(f1_score = f1_score), file=f)
        print("Classification Report:\n", classification_metrics, file=f)
        print("Confusion Matrix:\n", conf_matrix, file=f)
    print(f"Epoch {epoch + 1} Validation Loss: {val_loss} lr: {lr}")
    print("Classification Report:\n", classification_metrics)
    print("Confusion Matrix:\n", conf_matrix)

    model.train()  # Cambia el modo del modelo de nuevo a entrenamiento"""

In [None]:
"""import torch
from sklearn.metrics import classification_report, confusion_matrix
import sys

#file_path = "/kaggle/working/log.txt"
#sys.stdout = open(file_path, "w")

def evaluate_model_from_train(model, tokenizer, val_dataloader, device, epoch, num_classes,lr):
    val_loss = 0.0
    val_preds = []
    val_labels = []
    criterion = torch.nn.CrossEntropyLoss()

    # Cambia el modo del modelo a evaluación
    model.eval()

    with torch.no_grad():
        for batch in val_dataloader:
            batch = tuple(t.to(device) for t in batch)
            inputs = {'input_ids': batch[0], 'attention_mask': batch[1], 'labels': batch[2]}
            outputs = model(**inputs)
            logits = outputs.logits
            val_loss += criterion(logits, batch[2]).item()
            val_preds.extend(logits.argmax(dim=1).cpu().numpy())
            val_labels.extend(batch[2].cpu().numpy())

    val_loss /= len(val_dataloader)
    classification_metrics = classification_report(val_labels, val_preds, target_names=[str(i) for i in range(num_classes)])
    conf_matrix = confusion_matrix(val_labels, val_preds)
    print(f"Epoch {epoch + 1} Validation Loss: {val_loss} lr: {lr}")
    print("Classification Report:\n", classification_metrics)
    print("Confusion Matrix:\n", conf_matrix)

    # Cambia el modo del modelo de nuevo a entrenamiento
    model.train()  """

In [None]:
"""device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    num_epochs=2
    #lr_values=["2e-5","3e-5","4e-5","5e-5"]
    lr_values=["3e-5"]
    weight_decay_values=["0.1","0.5","0.0001"]

    for lr in lr_values:
        for weight_decay in weight_decay_values:
            model,tokenizer = loadModelBert()
            train_data, train_dataloader, val_data, val_dataloader, numLabels = splitDataTrain('/kaggle/input/data-train-150-topics/data_train_400_topics_v3.csv')

            # Definir optimizador y función de pérdida
            optimizer = AdamW(model.parameters(), lr=float(lr), weight_decay=float(weight_decay))
            criterion = torch.nn.BCEWithLogitsLoss()
            model.to(device)
            model.train()
            for epoch in range(num_epochs):
                total_loss = 0
                for batch in train_dataloader:
                    batch = tuple(t.to(device) for t in batch)
                    inputs = {'input_ids': batch[0],'attention_mask':batch[1],'labels':batch[2]}
                    optimizer.zero_grad()
                    outputs = model(**inputs)
                    loss = outputs.loss
                    loss.backward()
                    optimizer.step()
                    total_loss += loss.item()
                print(weight_decay)
                avg_loss = total_loss / len(train_dataloader)
                evaluate_model_from_file(model,tokenizer, device, epoch, numLabels, lr)

    # Asegúrate de que el modelo esté en modo de evaluación antes de guardarlo
    #model.eval()

    # Guardar el modelo entrenado
    #ruta_modelo_guardado = '/kaggle/working/modelo-topics-v3-5epochs-400prueba2.pth'  # Especifica la ruta donde deseas guardar el modelo
    # Guarda el modelo en el archivo especificado
    #torch.save(model.state_dict(), ruta_modelo_guardado)"""

In [None]:
'''from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

# Evaluar el modelo en el conjunto de prueba
val_loss = 0.0
val_preds = []
criterion = torch.nn.CrossEntropyLoss()

for batch in val_dataloader:
    batch = tuple(t.to(device) for t in batch)
    inputs = {'input_ids': batch[0],'attention_mask':batch[1],'labels':batch[2]}
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
    val_loss += criterion(logits, batch[2]).item()  # Las etiquetas no deben ser convertidas a 'Float'
    val_preds.extend(logits.argmax(dim=1).cpu().numpy())  # Obtenemos las predicciones de clases


# Calcular métricas de evaluación
val_preds = torch.tensor(val_preds)
classification_metrics = classification_report(val_labels, val_preds, target_names=["1","2","3","4","5","6","7","8","9","10","11","12","13","14","15","16","17"])
print(classification_metrics)
conf_matrix = confusion_matrix(val_labels, val_preds)
print(conf_matrix)'''
