<img src="https://i.imgur.com/gb6B4ig.png" width="400" alt="Weights & Biases" />

# Что такое W&B?

Weights & Biases (W&B) - это набор инструментов машинного обучения, который поможет вам быстрее создавать лучшие модели.

Я буду использовать этот конкурс, основанный на знаниях ([Патология растений 2021 - FGVC8](https://www.kaggle.com/c/plant-pathology-2021-fgvc8)), чтобы продемонстрировать некоторые из его функций: **панель инструментов** (отслеживание экспериментов) и **артефакты** (управление версиями наборов данных и моделей).


## Чем полезен W&B?

**Соревнования Kaggle требуют быстрой разработки и оценки моделей**. Компонентов много: изучение данных обучения, обучение различных моделей, объединение обученных моделей в различных комбинациях (ансамбль) и т. Д.

> ⏳  Множество компонентов = много мест, где можно пойти не так = много времени, потраченного на отладку.

Вы можете упустить важные детали и вам придется переобучать свою модель, или вы можете тренироваться на неправильных данных (утечка информации). Или вы можете использовать неправильную модель для создания представления.

Вот где появляется W&B:
* **Панель управления (отслеживание экспериментов)**: регистрируйте и визуализируйте эксперименты в режиме реального времени = храните данные и результаты в одном удобном месте. Считайте это хранилищем экспериментов.
* **Артефакты** (набор данных + управление версиями моделей): хранить и обновлять наборы данных, модели и результаты = точно знать, на каких данных обучается модель.

# 🖥 Панель управления (отслеживание экспериментов)

Используйте панель мониторинга как центральное место для систематизации и визуализации результатов моделей машинного обучения.

* Отслеживайте показатели
* Визуализируйте результаты
* Тренируйтесь где угодно
* Оставайтесь организованными

> 🙌 **Сохраните все в одном месте и никогда больше не потеряйте свой прогресс** 🙌

## Отслеживайте показатели

Отслеживайте работу модели в режиме реального времени и сразу же выявляйте проблемные области.

## Визуализируйте результаты

W&B поддерживает большое количество типов мультимедиа - визуализируйте графики, изображения, видео, аудио, 3D-объекты и многое [другое](https://docs.wandb.ai/guides/track/log#logging-objects).

Кроме того, панель управления **интерактивна** - наведите указатель мыши на дополнительные параметры и информацию.

![Imgur](https://i.imgur.com/xW4cOSx.gif)

## Тренируйтесь где угодно

Панель управления W&B является **централизованной** - независимо от того, тренируетесь ли вы на локальном компьютере, в лабораторном кластере или на спотовых экземплярах в облаке, все ваши результаты регистрируются в одном месте.

![centralized dashboard](https://i.imgur.com/BGgfZj3.png)

## Оставайтесь организованными

W&B записывает данные в мощные таблицы с возможностью очереди, в которых вы можете искать, фильтровать, сортировать и группировать. Это позволяет легко сравнивать тысячи различных моделей и находить наиболее эффективную модель для различных задач.

![image.png](https://i.imgur.com/qPlykIn.png)

# 🗂 Артефакты (управление версиями набора данных)

Используйте артефакты W&B для отслеживания и создания версий ваших наборов данных, моделей, зависимостей и результатов в конвейерах машинного обучения.

Думайте об артефакте как о папке данных с версией. После того, как вы сохранили что-то как артефакт, все изменения автоматически регистрируются, что дает вам полную историю изменений.

> 🙌 **Следите, какая модель была обучена на каких данных** 🙌


### Управляйте своим конвейером / Отслеживайте происхождение данных

Вы сможете увидеть весь рабочий процесс машинного обучения с высоты птичьего полета. Сотрудничать с товарищами по команде проще с таким целостным взглядом на ваш конвейер.

![img](https://i.imgur.com/dhntZxK.png)

# ⚡️ TL;DR

Weights & Biase помогает **быстрее создавать лучшие модели**.

* Визуализируйте результаты в реальном времени на интерактивной централизованной панели инструментов
* Определите, как изменение данных влияет на результирующую модель

Кроме того, W&B работает быстро ([начните с 6 строк кода](https://docs.wandb.ai/quickstart)) и гибко ([интегрировано со всеми основными фреймворками машинного обучения](https://docs.wandb.ai/guides/integrations)).

Вот краткое (1:42) вступление:

[![thumbnail](https://i.imgur.com/oriwd9L.png)](https://www.youtube.com/watch?v=EIgoKitLUqM&t=92s)


# 🧰 1. Настроить W&B

W&B очень легко настроить и интегрировать.

## 🔵 1a. Установить `wandb`

`wandb` (библиотека W&B), встроена в ваши Kaggle kernels 

Однако, поскольку `wandb` быстро улучшается, я рекомендую установить последнюю версию `pip install`-ing с помощью флагов `--upgrade` и `-q`.

In [None]:
!pip install --upgrade -q wandb

## 🔵 1b. Импортируйте wandb и войдите в систему

Вам понадобится уникальный ключ API для входа в Weights & Biases.

1. Если у вас нет учетной записи Weights & Biases, вы можете перейти на https://wandb.ai/site и создать БЕСПЛАТНУЮ учетную запись.
2. Получите доступ к своему ключу API: https://wandb.ai/authorize.

Вы можете войти в систему с помощью ядра Kaggle двумя способами:

1. Запустите cell с помощью `wandb.login ()`. Он запросит ключ API, который вы можете скопировать + вставить.
2. Вы также можете использовать секреты Kaggle для хранения ключа API и использовать приведенный ниже фрагмент кода для входа в систему. Прочтите это [обсуждение](https://www.kaggle.com/product-feedback/114053), чтобы узнать больше о секретах Kaggle.

```
from kaggle_secrets import UserSecretsClient

user_secrets = UserSecretsClient()

# I have saved my API token with "wandb_api" as Label. 
# If you use some other Label make sure to change the same below. 
wandb_api = user_secrets.get_secret("wandb_api") 

wandb.login(key=wandb_api)
```
Подробнее о входе в W&B [здесь](https://docs.wandb.ai/ref/cli/wandb-login).

In [None]:
import wandb
from wandb.keras import WandbCallback

wandb.login()

> 📌 `WandbCallback` - это легкий обратный вызов (callback) Keras, который я буду использовать позже.

In [None]:
# 1. Import other dependencies

import tensorflow as tf
print(tf.__version__)
from tensorflow.keras import layers
from tensorflow.keras import models
import tensorflow_addons as tfa

import os
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.model_selection import train_test_split

In [None]:
# 2. Set the random seeds

def seed_everything():
    os.environ['TF_CUDNN_DETERMINISTIC'] = '1' 
    np.random.seed(hash("improves reproducibility") % 2**32 - 1)
    tf.random.set_seed(hash("by removing stochasticity") % 2**32 - 1)
    
seed_everything()

In [None]:
# 3. Set hyperparameters

TRAIN_PATH = '../input/resized-plant2021/img_sz_256/'
AUTOTUNE = tf.data.experimental.AUTOTUNE

CONFIG = dict (
    num_labels = 6,
    train_val_split = 0.2,
    img_width = 224,
    img_height = 224,
    batch_size = 64,
    epochs = 10,
    learning_rate = 0.001,
    architecture = "CNN",
    infra = "Kaggle",
    competition = 'plant-pathology',
    _wandb_kernel = 'ayut'
)

> 📌: Сохраните свои гиперпараметры в виде словаря, потому что позже вы можете напрямую зарегистрировать этот конфигурационный файл в W&B.

# 🔨 2. Построить входной конвейер

После импорта `wandb` и других зависимостей вы можете настроить конвейер ввода как обычно. Конкурс «Патология растений-2021» посвящен многоблочной классификации.

> The main objective of the competition is to develop machine learning-based models to accurately classify a given leaf image from the test dataset to a particular disease category, and to identify an individual disease from multiple disease symptoms on a single leaf image. Основная цель конкурса - разработать модели на основе машинного обучения для точной классификации данного изображения листа из тестового набора данных в конкретную категорию заболевания и для идентификации отдельного заболевания по множественным симптомам заболевания на одном изображении листа.
.

To build the input pipeline I have used `tf.data` API. 

In [None]:
# 4. Build input pipeline

# Encode competition-provided labels 
label_to_id = {
    'healthy': 0,
    'scab': 1,
    'frog_eye_leaf_spot': 2,
    'rust': 3,
    'complex': 4,
    'powdery_mildew': 5
}

id_to_label = {value:key for key, value in label_to_id.items()} 

# Helper fu
def make_path(row):
    return TRAIN_PATH+row.image

def parse_labels(row):
    label_list = row.labels.split()
    labels = []
    for label in label_list:
        labels.append(str(label_to_id[label]))
    
    return ' '.join(labels)

# Read train.csv file
df = pd.read_csv('../input/plant-pathology-2021-fgvc8/train.csv')
# Get absolute path
df['image'] = df.apply(lambda row: make_path(row), axis=1)
# Parse labels
df['labels'] = df.apply(lambda row: parse_labels(row), axis=1)

# Look at the dataframe
df.head()

In [None]:
# 5. Training and validation split

train_df, valid_df = train_test_split(df, test_size=CONFIG['train_val_split'])
print(f'Number of train images: {len(train_df)} and validation images: {len(valid_df)}')

In [None]:
# 6. Helper functions for input pipeline

@tf.function
def decode_image(image):
    # Convert the compressed string to a 3D uint8 tensor
    image = tf.image.decode_jpeg(image, channels=3)
    
    # Normalize image
    image = tf.image.convert_image_dtype(image, dtype=tf.float32)
    
    # Resize the image to the desired size
    return image

@tf.function
def load_image(df_dict):
    # Load image
    image = tf.io.read_file(df_dict['image'])
    image = decode_image(image)
    
    # Resize image
    image = tf.image.resize(image, (CONFIG['img_height'], CONFIG['img_width']))
    
    # Parse label
    label = tf.strings.split(df_dict['labels'], sep='')
    label = tf.strings.to_number(label, out_type=tf.int32)
    label = tf.reduce_sum(tf.one_hot(indices=label, depth=CONFIG['num_labels']), axis=0)
    
    return image, label

In [None]:
# 7. Build data loaders

AUTOTUNE = tf.data.AUTOTUNE

trainloader = tf.data.Dataset.from_tensor_slices(dict(train_df))
validloader = tf.data.Dataset.from_tensor_slices(dict(valid_df))

trainloader = (
    trainloader
    .shuffle(1024)
    .map(load_image, num_parallel_calls=AUTOTUNE)
    .batch(CONFIG['batch_size'])
    .prefetch(AUTOTUNE)
)

validloader = (
    validloader
    .map(load_image, num_parallel_calls=AUTOTUNE)
    .batch(CONFIG['batch_size'])
    .prefetch(AUTOTUNE)
)

In [None]:
# Data loader sanity check

def show_batch(image_batch, label_batch):
    plt.figure(figsize=(20,20))
    for n in range(25):
        ax = plt.subplot(5,5,n+1)
        plt.imshow(image_batch[n])
        plt.title(' '.join([id_to_label[i] for i, label in enumerate(label_batch[n].numpy()) if label==1.]))
        plt.axis('off')

image_batch, label_batch = next(iter(trainloader))
show_batch(image_batch, label_batch)

# 🔨 3. Настройте вашу модель

Затем создайте определение вашей модели. Поскольку это задача классификации с несколькими метками, активация вывода является`sigmoid`.

In [None]:
# 8. Define model: EfficientNetB0 trained on ImageNet as backbone

def get_model():
    base_model = tf.keras.applications.EfficientNetB0(include_top=False, weights='imagenet')
    base_model.trainabe = True

    inputs = layers.Input((CONFIG['img_height'], CONFIG['img_width'], 3))
    x = base_model(inputs, training=True)
    x = layers.GlobalAveragePooling2D()(x)
    x = layers.Dropout(0.5)(x)
    outputs = layers.Dense(len(label_to_id), activation='sigmoid')(x)
    
    return models.Model(inputs, outputs)

# Model sanity check
tf.keras.backend.clear_session()
model = get_model()
model.summary()

# 🚄 3. Тренируйтесь и оценивайте с W&B

В этом разделе я буду использовать:
* [`wandb.init()`](https://docs.wandb.ai/guides/track/launch): инициализировать новый запуск.

* [`wandb.finish()`](https://docs.wandb.ai/ref/python/finish):  завершить и закрыть пробег.

* [`wandb.config`](https://docs.wandb.ai/guides/track/config): объект, в котором хранятся гиперпараметры и настройки, связанные с запуском.


Run (или [объект wandb.Run](https://docs.wandb.ai/ref/python/run)) - это единица вычисления W&B, обычно это эксперимент машинного обучения.

In [None]:
# Initialize model
tf.keras.backend.clear_session()
model = get_model()

# Compile model
optimizer = tf.keras.optimizers.Adam(learning_rate=CONFIG['learning_rate'])
model.compile(optimizer, 
              loss=tfa.losses.SigmoidFocalCrossEntropy(), 
              metrics=[tf.keras.metrics.AUC(multi_label=True), tfa.metrics.F1Score(num_classes=6, average='micro')])

## 🔵 3. Используйте `wandb.init ()` для инициализации нового прогона W&B.

В pipline машинного обучения вы можете добавить `wandb.init ()` в начало вашего обучающего сценария, а также сценарий оценки, и каждая часть будет отслеживаться как запуск в W&B.

Обратите внимание на эти аргументы.

* `entity`: Сущность - это имя пользователя или название команды, в которую вы отправляете запуски.
* `project`: Имя проекта, в который вы отправляете новый запуск. Если проект не указан, запуск помещается в проект «Без категории».
* `config`: Устанавливает wandb.config, объект, подобный словарю, для сохранения входных данных для вашего задания, таких как гиперпараметры для модели или настройки для задания предварительной обработки данных.
* `group`: Укажите группу для организации отдельных запусков более крупного эксперимента. Это очень удобная функция. Например, вы можете создать группу для разных имен архитектуры модели.
* `job_type`: Укажите тип прогона, который полезен, когда вы группируете прогоны вместе в более крупные эксперименты с помощью группы. Типичные виды работ: «traib», «evaluate» и.т.д

In [None]:
# Update CONFIG dict with the name of the model.
CONFIG['model_name'] = 'efficientnetb0'
print('Training configuration: ', CONFIG)

# Initialize W&B run
run = wandb.init(project='plant-pathology', 
                 config=CONFIG,
                 group='EfficientNet', 
                 job_type='train')

Я использовал эти аргументы `wandb.init ()`:

* `project`: этот аргумент указывает имя проекта W&B, в который отправляется запуск. Здесь я создаю новый проект под названием «`plant-pathology`» и одновременно отправляю туда run.

* `config`: этот аргумент устанавливает `wandb.config`, объект, подобный словарю, в котором хранятся гиперпараметры, параметры ввода и другие независимые переменные.


    Напоминаем, что в настоящее время в `CONFIG` находится следующее:

```python
CONFIG = dict (
    num_labels = 6,
    train_val_split = 0.2,
    img_width = 224,
    img_height = 224,
    batch_size = 64,
    epochs = 10,
    learning_rate = 0.001,
    architecture = "CNN",
    infra = "Kaggle",
    model_name = "efficientnetb0"
)
```

* `group`: этот аргумент указывает значение для группировки отдельных прогонов. Позже у меня будет прогон, который группируется по «`EfficientNet`», чтобы мне было легче сравнивать прогоны из разных архитектур.
* `job_type`: этот аргумент указывает тип выполнения, например, «`train`» или «`evaluate`». Установка типа run упрощает последующую фильтрацию и группирование run, например, если вы хотите сравнить несколько «`train`» run-ов.

## 🔵 3b.Обновите wandb.config` 

Сохранение конфигурации тренировки полезно для анализа ваших экспериментов и воспроизведения вашей работы позже. С помощью W&B вы также можете группировать по значениям конфигурации, что означает, что вы можете сравнивать настройки разных run-ов и видеть, как они влияют на результат.

Есть несколько способов настроить `wandb.config`:

* Задайте `wandb.config` с аргументом `wandb.init (config)`, как указано выше в (3a).
Установите wandb.config напрямую.

* Установите `wandb.config` напрямую.
* См. Дополнительные параметры настройки в этом [Colab](https://colab.research.google.com/github/wandb/examples/blob/master/colabs/wandb-log/Configs_in_W%26B.ipynb#scrollTo=xFf3zjBSixC1).

In [None]:
# Add "type" and "kaggle_competition" to `wandb.config` directly
wandb.config.type = 'baseline'
wandb.config.kaggle_competition = 'Plant Pathology 2021 - FGVC8'

Вот гифка, показывающая, как W&B регистрирует и отображает конфигурацию тренировки бега:


![img](https://i.imgur.com/WxLjIBx.gif)

Теперь я буду использовать `WandbCallback ()`, облегченную интеграцию с Keras, о которой я упоминал ранее.

Этот обратный вызов автоматически сохраняет все метрики и значения потерь, отслеживаемые в `model.fit ()`. Ознакомьтесь с нашей [документацией по интеграции Keras](https://docs.wandb.ai/guides/integrations/keras), чтобы узнать больше.
`

 Weights and Biases поставляется с облегченной интеграцией для Keras. Мы будем использовать интеграцию W&B Keras (`WandbCallback ()`) для автоматического сохранения всех показателей и значений потерь, отслеживаемых в `model.fit ()`. Ознакомьтесь с [документацией](https://docs.wandb.ai/guides/integrations/keras), чтобы узнать больше об этой интеграции.

In [None]:
earlystopper = tf.keras.callbacks.EarlyStopping(
    monitor='val_loss', patience=3, verbose=0, mode='min',
    restore_best_weights=True
)

# Train
model.fit(trainloader, 
          epochs=CONFIG['epochs'],
          validation_data=validloader,
          callbacks=[WandbCallback(),
                     earlystopper])

# Close W&B run
run.finish()

> 📌 Pro tip: перейдите на панель управления W&B, нажав на ссылку, созданную выше.

> 📌 Pro tip: если вы хотите отключить журналы, связанные с W&B, используйте этот фрагмент кода os.environ [WANDB_SILENT] = "true" после импорта os. Ознакомьтесь с этим ответом [Stackoverflow](https://stackoverflow.com/a/65997094/8663152) для получения более подробной информации.

> 📌 Pro tip: используйте `run.finish ()`, чтобы закрыть инициализированный run W&B после завершения `job_type`.

Каждый запуск получает свою собственную страницу запуска, на вкладках которой содержится дополнительная информация о запуске.

Вот гифка, показывающая [вкладки Charts](https://docs.wandb.ai/ref/app/pages/run-page#charts-tab), [System tab](https://docs.wandb.ai/ref/app/pages/run-page#system-tab) и [Model tab](https://docs.wandb.ai/ref/app/pages/run-page#model-tab) из приведенного выше прогона:

![img](https://i.imgur.com/Eq8X9RN.gif)

Вы можете щелкнуть эту страницу запуска [здесь](https://wandb.ai/ayush-thakur/plant-pathology/runs/5yq0kz7t).

### Фильтрация и группировка

Вы можете использовать фильтр и функцию группировки на панели инструментов W&B, чтобы либо скрыть сбойный прогон, либо сгруппировать несколько run-ов в рамках одного эксперимента, сгруппировать в соответствии с типом задания, выбрать run, удовлетворяющие условию, и.т.д. Вы можете узнать больше о функции группирования [здесь](https://docs.wandb.ai/guides/track/advanced/grouping).


![img](https://i.imgur.com/BeYKbfS.gif)

## 🔵 3c. Регистрировать evaluation с помощью `wandb.log ()`

 `WandbCallback ()` можно использовать для `model.fit ()`, но не для `model.evaluate ()`. Если вы хотите регистрировать показатели evaluation, вы должны вызвать `wandb.log ()`.

* [`wandb.log()`](https://docs.wandb.ai/guides/track/log): регистрирует скалярные данные (такие показатели, как accuracy и loss) и любой другой тип [`wandb` object](https://docs.wandb.ai/ref/python/data-types) .


In [None]:
# Initialize a run
run = wandb.init(project='plant-pathology', 
                 config=CONFIG,
                 group='EfficientNet', 
                 job_type='evaluate') # Note the job_type

# Update `wandb.config`
wandb.config.type = 'baseline'
wandb.config.kaggle_competition = 'Plant Pathology 2021 - FGVC8'

# Evaluate model
loss, auc, f1_score = model.evaluate(validloader)

# Log scores using wandb.log()
wandb.log({'val_AUC': auc, 
           'val_F1_score': f1_score})

# Finish the run
run.finish()

![img](https://i.imgur.com/OBL9F1i.gif)

> 📌 Pro tip: Обратите внимание, что столбчатая диаграмма появляется, если для ключа более одного значения.

# 💾 4. Создайте артефакт W&B.

Панель инструментов W&B позволяет вам регистрировать процесс обучения модели, такие вещи, как журналы вывода, версии кода, конфигурацию, гиперпараметры и метрики. W&B Artifacts позволяет вам регистрировать данные, которые входят (например, набор данных) и выходят (например, веса обученной модели) этих процессов.

Другими словами, артефакты - это способ сохранить ваши наборы данных и модели. Вы можете использовать [этот Colab](https://colab.research.google.com/github/wandb/examples/blob/master/colabs/wandb-artifacts/Pipeline_Versioning_with_W%26B_Artifacts.ipynb), чтобы узнать больше об артефактах.

В этом разделе я покажу вам, как создать модель Артефакта. Я также создал несколько артефактов набора данных для этого конкурса, и вы можете проверить их все [здесь](https://wandb.ai/ayush-thakur/plant-pathology/artifacts).

## 🔵 4a. Сохраните свою тяжелую работу с помощью `wandb.log_artifact ()` 

В run есть три шага для создания и сохранения артефакта модели.

1. Создайте пустой артефакт с помощью `wandb.Artifact ()`.
2. Добавьте файл модели в Артефакт с помощью `wandb.add_file ()`.
3. Вызовите `wandb.log_artifact ()`, чтобы сохранить Артефакт.

In [None]:
# Save model
model.save('efficientnetb0-baseline.h5')

# Initialize a new W&B run
run = wandb.init(project='plant-pathology', 
                 config=CONFIG,
                 group='EfficientNet', 
                 job_type='save') # Note the job_type

# Update `wandb.config`
wandb.config.type = 'baseline'
wandb.config.kaggle_competition = 'Plant Pathology 2021 - FGVC8'

# Save model as Model Artifact
artifact = wandb.Artifact(name='efficientnet-b0', type='model')
artifact.add_file('efficientnetb0-baseline.h5')
run.log_artifact(artifact)

# Finish W&B run
run.finish()

Вот гифка, которая показывает, как артефакт появляется на странице запуска.

![img](https://i.imgur.com/HjHDoSx.gif)

В конце гифки есть график, показывающий происхождение: прогон «save» `deep-thunder-8` привел к созданию модели `effectivenetb0-v0`.
![img](https://i.imgur.com/59IFYoT.png)

# ❄️ Ресурсы

Я надеюсь, что вы найдете этот kernel полезным, и рекомендую вам попробовать Weights & Biases. Вот несколько релевантных ссылок, которые вы, возможно, захотите проверить:


* Ознакомьтесь с [официальной документацией](https://docs.wandb.ai/), чтобы узнать больше о передовых методах работы и дополнительных функциях.

* Ознакомьтесь с [репозиторием GitHub с примерами](https://github.com/wandb/examples), где вы найдете тщательно отобранные и минимальные примеры. Это может быть хорошей отправной точкой.

* [Fully Connected](https://wandb.ai/fully-connected) - это дом для кураторских руководств, дискуссий в произвольной форме, бумажных резюме, советов отраслевых экспертов и многого другого.

Вот некоторые другие ядра Kaggle с инструментами Weights & Biases, которые могут быть вам полезны.

* [EfficientNet+Mixup+K-Fold using TF and wandb](https://www.kaggle.com/ayuraj/efficientnet-mixup-k-fold-using-tf-and-wandb)

* [HPA: Segmentation Mask Visualization with W&B](https://www.kaggle.com/ayuraj/hpa-segmentation-mask-visualization-with-w-b)

* [HPA: Multi-Label Classification with TF and W&B](https://www.kaggle.com/ayuraj/hpa-multi-label-classification-with-tf-and-w-b)

* [🐦BirdCLEF: Quick EDA with W&B](https://www.kaggle.com/ayuraj/birdclef-quick-eda-with-w-b)