<img src="../imgs/Adevinta-ULPGC-logo.jpg" width="530px" align="right">

<img src="imgs/wandb_logo.png" width="400">


**Weights & Biases** (W&B), referido comúnmente por su URL wandb.ai, es una plataforma diseñada para ayudar a los científicos de datos y desarrolladores de machine learning a registrar, visualizar y comparar experimentos de machine learning. La plataforma ofrece varias herramientas útiles que facilitan el seguimiento de métricas de experimentos, la visualización de resultados, la gestión de datasets, y la colaboración entre equipos.

Algunas características clave de Weights & Biases incluyen:

1. **Registro automático de métricas**: La plataforma permite a los usuarios registrar automáticamente métricas clave como la pérdida y la precisión durante el entrenamiento de modelos. Esto ayuda a los usuarios a monitorear el rendimiento de sus modelos en tiempo real.

2. **Visualización**: W&B proporciona herramientas visuales como gráficos y paneles que permiten a los usuarios ver de forma intuitiva el progreso y los resultados de sus modelos. Esto incluye desde gráficos de líneas hasta matrices de confusión y visualizaciones de embeddings.

3. **Gestión de artefactos**: Los usuarios pueden guardar y versionar datasets, modelos y otros tipos de archivos que se generan durante el ciclo de vida de los experimentos de machine learning. Esto es útil para el control de versiones y la reproducibilidad.

4. **Comparación de experimentos**: Weights & Biases permite comparar fácilmente diferentes experimentos para entender las diferencias en configuraciones y resultados, facilitando así la selección del mejor modelo.

5. **Colaboración**: La plataforma soporta equipos, permitiendo que múltiples usuarios trabajen juntos en proyectos, compartan experimentos y resultados, y colaboren eficientemente.

6. **Integración con otras herramientas**: W&B se integra bien con muchas otras herramientas y frameworks de machine learning, como TensorFlow, PyTorch, Keras, y muchos otros, lo que permite una integración sin fisuras en los flujos de trabajo existentes.

Weights & Biases se utiliza ampliamente en la industria y la academia debido a su capacidad para mejorar la productividad y la colaboración en proyectos de machine learning.

### **Cómo usar Weights & Biases**
https://docs.wandb.ai/tutorials

Usar Weights & Biases es bastante sencillo. Estos son los pasos básicos para empezar a usar wandb en tu proyecto:

#### **1. Instalación**

Primero, necesitas instalar la biblioteca `wandb`. Puedes hacerlo utilizando pip:

In [None]:
!pip install wandb

#### **2. Configuración**

Antes de empezar a usar wandb, necesitas configurar tu entorno. Primero, debes crear una cuenta en [wandb.ai](https://wandb.ai) si aún no tienes una. Una vez que tengas tu cuenta, puedes hacer login con el siguiente comando:

In [7]:
!wandb login

[34m[1mwandb[0m: Currently logged in as: [33mcayetano[0m. Use [1m`wandb login --relogin`[0m to force relogin


Después de ejecutar este comando, te pedirá que ingreses tu API KEY, que puedes encontrar en tu panel de control de wandb en la web.

#### **3. Integración en el código**

A continuación, debes integrar wandb en tu script de Python. Aquí tienes un ejemplo básico de cómo configurar wandb en un proyecto de entrenamiento de un modelo:

In [1]:
import torch
from torch import nn, optim
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import numpy as np

# Cargamos el dataset Iris
X, y = load_iris(return_X_y=True)

# Normalizamos los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Lo convertimos a tensores de PyTorch
X_tensor = torch.tensor(X_scaled, dtype=torch.float32)
y_tensor = torch.tensor(y, dtype=torch.long)

# Dividimos en conjunto de entrenamiento y de test
X_train, X_test, y_train, y_test = train_test_split(X_tensor, y_tensor, test_size=0.2, random_state=42)

In [2]:
model_config = {
    'hidden_size': 5,
    'learning_rate': 0.01
}

In [12]:
# Definimos el modelo
class IrisNet(nn.Module):
    def __init__(self):
        super(IrisNet, self).__init__()
        self.fc1 = nn.Linear(4, model_config['hidden_size']) # 4 características de entrada, 5 neuronas en la capa oculta
        self.fc2 = nn.Linear(model_config['hidden_size'], 3) # 3 clases de salida

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x  # Fíjate en que no aplicamos la función de activación softmax, ya que la función de pérdida CrossEntropyLoss lo hace por nosotros

model = IrisNet()

In [13]:
# Definimos el criterio de pérdida y el optimizador
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=model_config['learning_rate'])

In [14]:
import wandb
import os

os.environ['WANDB_NOTEBOOK_NAME'] = 'iris_classification.ipynb'

wandb.init(
    project='iris-classification',
    name='iris-' + str(model_config['hidden_size']) + '-hidden_' + str(model_config['learning_rate']) + '-lr',
    config=model_config
)
           
# Entrenamos el modelo
for epoch in range(500):
    model.train()
    optimizer.zero_grad()
    output = model(X_train)  # Pasamos el conjunto de entrenamiento completo, rara vez se hace esto en la práctica
    loss = criterion(output, y_train)  # Date cuenta de que pasamos las etiquetas originales, no en formato one-hot
    loss.backward()
    optimizer.step()

    wandb.log({'loss': loss.item()})
    
    if epoch % 100 == 0:
        # print(f'Epoch {epoch+1}, Loss: {loss.item()}')

        # Evaluamos el modelo
        model.eval()
        with torch.no_grad():
            output = model(X_test)
            predicted = torch.argmax(output, dim=1)
            accuracy = (predicted == y_test).sum() / y_test.size(0)
            # print(f'Accuracy: {accuracy.item()}')
            wandb.log({'accuracy': accuracy.item()})

wandb.finish()

VBox(children=(Label(value='0.001 MB of 0.008 MB uploaded\r'), FloatProgress(value=0.12596853721530876, max=1.…

0,1
accuracy,▁████
loss,█▆▅▄▃▃▂▂▂▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

0,1
accuracy,1.0
loss,0.04925


#### **4. Visualización y análisis**

Una vez que hayas iniciado tus experimentos y registrado los datos en wandb, puedes visualizar y analizar los resultados en tiempo real en la plataforma web de wandb. La plataforma te permite ver gráficos de tus métricas, comparar diferentes runs, y mucho más.

#### **5. Compartir y colaborar**

Puedes fácilmente compartir tus proyectos y resultados con otros usuarios, controlar quién puede ver o colaborar en tus proyectos, y incluso incrustar gráficos y dashboards en otras páginas web.

#### **6. Búsqueda de hiperparámetros**

Weights & Biases también ofrece una función de búsqueda de hiperparámetros que te permite explorar automáticamente diferentes configuraciones de hiperparámetros para encontrar la mejor combinación para tu modelo.

In [15]:
import wandb
import os

os.environ['WANDB_NOTEBOOK_NAME'] = 'iris_classification.ipynb'

# Definimos el modelo
class IrisNet(nn.Module):
    def __init__(self, hidden_size):
        super(IrisNet, self).__init__()
        self.fc1 = nn.Linear(4, hidden_size) # 4 características de entrada, 5 neuronas en la capa oculta
        self.fc2 = nn.Linear(hidden_size, 3) # 3 clases de salida

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x  # Fíjate en que no aplicamos la función de activación softmax, ya que la función de pérdida CrossEntropyLoss lo hace por nosotros

# Entrenamiento
def train(config=None):
    with wandb.init(project='iris-classification', config=config):
        config = wandb.config
        model = IrisNet(hidden_size=config['hidden_size'])

        criterion = nn.CrossEntropyLoss()
        optimizer = optim.Adam(model.parameters(), lr=config['learning_rate'])

        for epoch in range(500):
            model.train()
            optimizer.zero_grad()
            output = model(X_train)  # Pasamos el conjunto de entrenamiento completo, rara vez se hace esto en la práctica
            loss = criterion(output, y_train)  # Date cuenta de que pasamos las etiquetas originales, no en formato one-hot
            loss.backward()
            optimizer.step()

            if epoch % 10 == 0:
                # print(f'Epoch {epoch+1}, Loss: {loss.item()}')
                wandb.log({'loss': loss.item()})

                # Evaluamos el modelo
                model.eval()
                with torch.no_grad():
                    output = model(X_test)
                    predicted = torch.argmax(output, dim=1)
                    accuracy = (predicted == y_test).sum() / y_test.size(0)
                    wandb.log({'accuracy': accuracy.item()})
                    # print(f'Accuracy: {accuracy.item()}')


sweep_config = {
    'method': 'random',
    'metric': {
        'name': 'loss',
        'goal': 'minimize'
    },
    'parameters': {
        'learning_rate': {
            'values': [0.001, 0.01, 0.1]
        },
        'hidden_size': {
            'values': [5, 10, 20]
        },
    }
}

sweep_id = wandb.sweep(sweep_config, project='iris-classification')
wandb.agent(sweep_id, train, count=8)


Create sweep with ID: 1kvccutz
Sweep URL: https://wandb.ai/cayetano/iris-classification/sweeps/1kvccutz


[34m[1mwandb[0m: Agent Starting Run: p5jj6a4a with config:
[34m[1mwandb[0m: 	hidden_size: 10
[34m[1mwandb[0m: 	learning_rate: 0.1


VBox(children=(Label(value='0.007 MB of 0.008 MB uploaded\r'), FloatProgress(value=0.9063124485717644, max=1.0…

0,1
accuracy,▁███████████████████████████████████████
loss,█▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

0,1
accuracy,1.0
loss,0.03678


[34m[1mwandb[0m: Agent Starting Run: alxznc0g with config:
[34m[1mwandb[0m: 	hidden_size: 20
[34m[1mwandb[0m: 	learning_rate: 0.01


VBox(children=(Label(value='0.001 MB of 0.008 MB uploaded\r'), FloatProgress(value=0.12592418730195987, max=1.…

0,1
accuracy,▁▇▇▇████████████████████████████████████
loss,█▅▃▂▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

0,1
accuracy,0.96667
loss,0.03481


[34m[1mwandb[0m: Agent Starting Run: jpyxdp0s with config:
[34m[1mwandb[0m: 	hidden_size: 5
[34m[1mwandb[0m: 	learning_rate: 0.01


VBox(children=(Label(value='0.001 MB of 0.008 MB uploaded\r'), FloatProgress(value=0.12616108171663729, max=1.…

0,1
accuracy,▁▃▅▆▆▇▆▇▇▇██████████████████████████████
loss,█▆▅▄▃▃▂▂▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

0,1
accuracy,1.0
loss,0.04843


[34m[1mwandb[0m: Agent Starting Run: 9cl3kgfc with config:
[34m[1mwandb[0m: 	hidden_size: 5
[34m[1mwandb[0m: 	learning_rate: 0.1


VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded\r'), FloatProgress(value=1.0, max=1.0)))

0,1
accuracy,▁█▇█████████████████████████████████████
loss,█▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

0,1
accuracy,1.0
loss,0.04658


[34m[1mwandb[0m: Agent Starting Run: v7yys7ug with config:
[34m[1mwandb[0m: 	hidden_size: 10
[34m[1mwandb[0m: 	learning_rate: 0.01


VBox(children=(Label(value='0.001 MB of 0.008 MB uploaded\r'), FloatProgress(value=0.1261462497060898, max=1.0…

0,1
accuracy,▁▅▇▇▇▇██████████████████████████████████
loss,█▆▅▄▃▂▂▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

0,1
accuracy,1.0
loss,0.04739


[34m[1mwandb[0m: Agent Starting Run: zedurobw with config:
[34m[1mwandb[0m: 	hidden_size: 20
[34m[1mwandb[0m: 	learning_rate: 0.01


VBox(children=(Label(value='0.008 MB of 0.008 MB uploaded\r'), FloatProgress(value=1.0, max=1.0)))

0,1
accuracy,▁▆▇▇▇▇██████████████████████████████████
loss,█▅▃▂▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

0,1
accuracy,1.0
loss,0.04439


[34m[1mwandb[0m: Agent Starting Run: zijliws8 with config:
[34m[1mwandb[0m: 	hidden_size: 20
[34m[1mwandb[0m: 	learning_rate: 0.01


VBox(children=(Label(value='0.008 MB of 0.008 MB uploaded\r'), FloatProgress(value=1.0, max=1.0)))

0,1
accuracy,▁▇▇▇▇███████████████████████████████████
loss,█▅▄▃▂▂▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

0,1
accuracy,1.0
loss,0.0386


[34m[1mwandb[0m: Agent Starting Run: 7ujfqwh9 with config:
[34m[1mwandb[0m: 	hidden_size: 10
[34m[1mwandb[0m: 	learning_rate: 0.1


VBox(children=(Label(value='0.001 MB of 0.008 MB uploaded\r'), FloatProgress(value=0.12616108171663729, max=1.…

0,1
accuracy,▁▇▇█████████████████████████████████████
loss,█▃▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

0,1
accuracy,1.0
loss,0.04378


---

### Ejercicio

Introduce un nuevos hiperparámetros en el modelo:

- Una o dos capas ocultas más con un número de neuronas diferente.
- Una función de activación diferente.
- Un optimizador diferente.
- Ahora la tasa de aprendizaje no debe ser una entre unas opciones discretas, sino un valor en el rango [0.001, 0.1].
---

#### **7. Integración con las clases de Hugging Face**

Weights & Biases se integra con la librería de Hugging Face, lo que te permite registrar y visualizar tus experimentos de NLP en wandb de forma sencilla. Vamos a ver el ejemplo anterior, donde entrenamos un modelo para convertir números a texto, para hacer una exploración de hiperparámetros. Para ello, vamos a usar de nuevo la clase `SFTTrainer` de Hugging Face, que nos permite entrenar modelos de lenguaje de forma sencilla.

In [1]:
import os
import torch
import wandb
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    HfArgumentParser,
    TrainingArguments,
    pipeline,
    logging,
)
from peft import LoraConfig, PeftModel
from trl import SFTTrainer, setup_chat_format

'NoneType' object has no attribute 'cadam32bit_grad_fp32'


  warn("The installed version of bitsandbytes was compiled without GPU support. "


Aquí es donde configuraremos Weights & Biases para barrer (*sweep*) diferentes hiperparámetros y registrar los resultados en la plataforma.

In [2]:
os.environ["WANDB_NOTEBOOK_NAME"] = "C:\\Users\\NLP\\Propio\\Notebooks\\HF\\SFT\\SFT-mistral.ipynb"
wandb.login()

sweep_config = {
    "name": "SFT",
    "method": "random",
    "metric": {"name": "eval_loss", "goal": "minimize"},
    "parameters": {
        "learning_rate": {"values": [2e-3, 2e-4, 2e-5]},
        "lora_r": {"values": [2, 8, 32]},
        "lora_alpha": {"values": [8, 16, 32, 64]},
        "lora_dropout": {"values": [0.1, 0.2, 0.3, 0.5, 0.7]},
    },
}

sweep_id = wandb.sweep(sweep_config, project="Adapter LoRA")

[34m[1mwandb[0m: Currently logged in as: [33mcayetano[0m. Use [1m`wandb login --relogin`[0m to force relogin


Create sweep with ID: fu8kkwct
Sweep URL: https://wandb.ai/cayetano/Adapter%20LoRA/sweeps/fu8kkwct


In [3]:
model_name = "unsloth/mistral-7b-instruct-v0.2-bnb-4bit"

dataset_name = "/content/train.jsonl"
new_model = "./Mistral_for_numbers_to_text"  # Una vez entrenado el modelo, se guardará en esta ruta

use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False
output_dir = "./results"
num_train_epochs = 0.2
fp16 = False
bf16 = False
per_device_train_batch_size = 8
per_device_eval_batch_size = 8
gradient_accumulation_steps = 1
gradient_checkpointing = True
max_grad_norm = 0.3
learning_rate = 2e-4
weight_decay = 0.001
optim = "adamw_torch"
lr_scheduler_type = "constant"
max_steps = -1
warmup_ratio = 0.03
group_by_length = True
save_steps = 25
logging_steps = 5
max_seq_length = None
packing = False
device_map = {"": 0} 

Preparamos los datasets de entrenamiento y validación. Fíjate que utilizaremos el formato que Mistral espera para el entrenamiento instructivo. Es decir,
cada ejemplo de entrenamiento es una cadena de la forma "\<s>[INST] 1234 [/INST] one thousand two hundred thirty four\</s>". Esto es así porque Mistral ya ha sido preentreando para entender el token [INST] como el inicio del comando y [/INST] como el final del comando y principio de la respuesta.

No vamos a utilizar cuantización ya que no vamos a utilizar la GPU para el entrenamiento. Aún así, dejamos el código para que se pueda utilizarlo si se necesita.

In [None]:
# Load datasets
train_dataset = load_dataset('json', data_files='./content/train.jsonl', split="train")
valid_dataset = load_dataset('json', data_files='./content/test.jsonl', split="train")

# Preprocess datasets
train_dataset_mapped = train_dataset.map(lambda examples: {'text': [f'<s>[INST] ' + prompt + ' [/INST] ' + completion + ' </s>' for prompt, completion in zip(examples['prompt'], examples['completion'])]}, batched=True)
valid_dataset_mapped = valid_dataset.map(lambda examples: {'text': [f'<s>[INST] ' + prompt + ' [/INST] ' + completion + ' </s>' for prompt, completion in zip(examples['prompt'], examples['completion'])]}, batched=True)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    # quantization_config=bnb_config,
    device_map=device_map,
    use_auth_token="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"
)

In [None]:
model.config.use_cache = False
model.config.pretraining_tp = 1
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

In [None]:
def train(config=None):

    with wandb.init(config=config, name="SFT-búsqueda de hiperparámetros"):

        config = wandb.config

        # Set LoRA configuration
        peft_config = LoraConfig(
            lora_alpha=config.lora_alpha,
            lora_dropout=config.lora_dropout,
            r=config.lora_r,
            bias="none",
            task_type="CAUSAL_LM",
        )

        # Set training parameters
        training_arguments = TrainingArguments(
            output_dir=output_dir,
            report_to="wandb",
            num_train_epochs=num_train_epochs,
            per_device_train_batch_size=per_device_train_batch_size,
            gradient_accumulation_steps=gradient_accumulation_steps,
            optim=optim,
            save_steps=save_steps,
            logging_steps=logging_steps,
            learning_rate=config.learning_rate,
            weight_decay=weight_decay,
            # fp16=fp16,
            # bf16=bf16,
            max_grad_norm=max_grad_norm,
            max_steps=max_steps,
            warmup_ratio=warmup_ratio,
            group_by_length=group_by_length,
            lr_scheduler_type=lr_scheduler_type,
            evaluation_strategy="steps",
            eval_steps=5,
        )
        # Set supervised fine-tuning parameters
        trainer = SFTTrainer(
            model=model,
            train_dataset=train_dataset_mapped,
            eval_dataset=valid_dataset_mapped,
            peft_config=peft_config,
            dataset_text_field="text",
            max_seq_length=max_seq_length,
            tokenizer=tokenizer,
            args=training_arguments,
            packing=packing,
            # compute_metrics=compute_metrics_fn
        )

        # Train the model
        trainer.train()


Fíjate que ahora no hacemos una llamada explícita a `wandb.log()` para registrar las métricas. En su lugar, incluimos la opción `report_to='wandb'` en el método `Trainer` de Hugging Face. Esto le dice a la clase `Trainer` que registre automáticamente las métricas en Weights & Biases. 

In [None]:
wandb.agent(sweep_id, train, count=10)