# Как избежать "подводных камней" машинного обучения: руководство для академических исследователей

[How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021)](https://arxiv.org/abs/2108.02497)

## Введение


В этой лекции дается краткое описание некоторых распространенных ошибок, возникающих при использовании методов машинного обучения, и того, что можно сделать, чтобы их избежать. Лекция предназначена в первую очередь как руководство для студентов-исследователей и посвящена вопросам, которые особенно актуальны в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако большинство уроков применимо и к более широкому использованию ML.

Мы рассмотрим пять этапов процесса машинного обучения:
* что нужно сделать до построения модели
* как надежно строить модели
* как надежно оценивать модели
* как справедливо сравнивать модели
* как сообщать о результатах

## Прежде чем приступить к созданию моделей

Это нормально - испытывать непреодолимое желание начать обучение и оценку моделей, но важно найти время, чтобы подумать о целях проекта, полностью понять данные, которые будут использоваться для достижения этих целей, рассмотреть любые ограничения данных, которые необходимо устранить, и понять, что уже было сделано в вашей области. Если этого не сделать, есть риск получить результаты, которые трудно опубликовать, или модели, которые не подходят для решения поставленной задачи.


### Разберитесь с тем, какую задачу/проблему вы хотите решить

При оценке того, является ли задача решаемой, стоит сначала спросить себя: а нужно ли ее решать? И если да, то нужно ли ее решать с помощью машинного обучения?

### Изучите литературу

Вы, вероятно, не первый, кто использует ML для решения конкретной проблемной области, поэтому важно понимать, что было сделано и что не было сделано ранее. Другие люди работали над той же проблемой - это не плохо; академический прогресс обычно представляет собой итерационный процесс, когда каждое исследование предоставляет информацию, которая может послужить основой для следующего. Может быть неприятно обнаружить, что кто-то уже исследовал вашу замечательную идею, но, скорее всего, они оставили открытыми многие пути исследования, и их предыдущая работа может быть использована в качестве обоснования вашей работы. Игнорировать предыдущие исследования - значит потенциально упустить ценную информацию. Например, возможно, кто-то уже пробовал предложенный вами подход и нашел фундаментальные причины, по которым он не сработает (и тем самым избавил вас от нескольких лет разочарования), или же частично решил проблему таким образом, что вы можете от нее оттолкнуться. Поэтому важно провести обзор литературы до начала работы; если вы сделаете это слишком поздно, это может означать, что вам придется объяснять, почему вы повторяете ту же самую тему или не опираетесь на существующие знания, когда вы сядете писать статью.


### Потратьте время на понимание своих данных

В конечном итоге вы захотите опубликовать свою работу. Это гораздо легче сделать, если ваши данные получены из надежного источника, собраны с использованием надежной методологии и имеют хорошее качество. Например, если вы используете данные, собранные на интернет-ресурсе, убедитесь, что вы знаете, откуда они взяты. Описаны ли они в статье? Если да, посмотрите на документ; убедитесь, что он был опубликован в авторитетном месте, и проверьте, упоминают ли авторы какие-либо ограничения данных. Не думайте, что если набор данных использовался в ряде работ, то он хорошего качества - иногда данные используются только потому, что их легко достать, а некоторые широко используемые наборы данных, как известно, имеют существенные ограничения (см. [Paullada et al., 2020]((https://arxiv.org/abs/2012.05345))). 

Например, при исследовании категорий `faces` в ImageNet [Deng et al., 2009](https://ieeexplore.ieee.org/document/5206848), [Crawford & Paglen, 2019](https://excavating.ai/) обнаружили миллионы изображений людей, которые были помечены оскорбительными категориями, включая расовые оскорбления и унизительные фразы. В ответ на эту работу, большая часть набора данных ImageNet была удалена [Yang et al., 2020](https://dl.acm.org/doi/abs/10.1145/3351095.3375709). 


Если вы обучаете свою модель на плохих данных, то, скорее всего, вы создадите плохую модель: процесс, известный как **garbage in garbage out** (чушь на входе - чушь на выходе). Поэтому всегда начинайте с того, что убедитесь, что ваши данные имеют смысл. Проведите **эксплораторный анализ данных** (см. [Cox, 2017](https://www.oreilly.com/library/view/translating-statistics-to/9781484222560/A426308_1_En_3_Chapter.html)). Ищите недостающие или непоследовательные записи. Гораздо проще сделать это сейчас, до обучения модели, чем потом, когда вы будете пытаться объяснить рецензентам, почему вы использовали плохие данные. 



ИДЕИ ДЛЯ ПРИМЕРА? 

Мои варианты: разобрать датасет с кучей дубликатов и прочей фигни в разных форматах

Это важно сделать независимо от того, используете ли вы существующие наборы данных или генерируете новые данные в рамках своего исследования. Если вы генерируете собственные данные, также учитывайте, что исследовательский анализ может быть ценен сам по себе, а результаты этого анализа могут стать важной частью вашей работы.

### Не смотрите на *все* свои данные

Когда вы изучаете данные, вполне вероятно, что вы заметите закономерности и сделаете выводы, которые будут направлять ваши усилия по построению модели. Это еще одна веская причина для изучения данных. Однако важно, чтобы вы не делали **непроверяемых** предположений, которые впоследствии будут использованы в вашей модели. Вообще делать предположения - это нормально, но они должны использоваться только для обучения модели, а не для тестирования. 

Вы должны избегать пристального изучения любых тестовых данных на начальном этапе исследовательского анализа. В противном случае вы можете сознательно или бессознательно сделать предположения, которые ограничат общность вашей модели не поддающимся тестированию способом. К этой теме мы будем возвращаться еще не раз, поскольку утечка информации из тестового набора в процесс обучения является распространенной причиной плохой генерализации ML моделей.


In [None]:
import numpy as np
from sklearn.model_selection import train_test_split

dataset_size = 100
n_features = 2

# Создадим рандомный датасет
X = np.random.normal(size=(dataset_size,n_features))
y = np.random.normal(size=(dataset_size,)) 
print('Размерность X', X.shape)
print('Размерность y', y.shape)

И разделим его на `train` и `test`. Если вы применяете случайное разбиение (как в следующем блоке кода), не забудьте зафиксировать random state, что бы в следующий раз вы получили ровно такую же тестовую выборку.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

print('Размерность X_train', X_train.shape)
print('Размерность X_test', X_test.shape)

В следующий раз вам стоит воспользоваться тестом только уже при проверке вашей обученной модели

### Правильно делайте разбиения

Разбиение на обуучение, валидацию и тест (как и разбиение при кроссвалидации) - это не так просто, как может показаться. 
>
Случайно разбиение может легко привести к утечке данных

МЕСТО ДЛЯ ПРИМЕРА 

Разные разбиения (даже осмысленные) могут давать разную оценку качества модели

МЕСТО ДЛЯ ПРИМЕРА 

Поэтому подбирайте модель на разбиении, которое наиболее точно описывает вашу задачу. Если вам нужно быстро находить похожие на ваш случай - это одно разбиение. Если вам нужно предсказывать что-то новое, до сих пор не виданное - другое. 

МЕСТО ДЛЯ ПРИМЕРА

### Не допускайте утечки тестовых данных в процесс обучения

Очень важно иметь данные, которые можно использовать для измерения того, насколько хорошо ваша модель обобщает. Распространенная проблема заключается в том, что информация об этих данных просачивается в конфигурацию, обучение или выбор моделей. Когда это происходит, данные перестают быть надежной мерой обобщения, что в свою очередь ведет к тому, что опубликованные модели ML часто не демонстрируют хороших результатов на реальных данных. 


МЕСТО ДЛЯ ПРИМЕРА


Существует несколько способов утечки информации из тестового набора. Некоторые из них кажутся вполне безобидными. Например, при подготовке данных используется информация о средних и диапазонах переменных во всем наборе данных для масштабирования переменных - чтобы предотвратить утечку информации, такие вещи следует делать только с обучающими данными. 


МЕСТО ДЛЯ ПРИМЕРА


Другие распространенные примеры утечки информации: выбор признаков до разбиения данных. 


МЕСТО ДЛЯ ПРИМЕРА


Лучшее, что вы можете сделать для предотвращения этих проблем, это разделить подмножество ваших данных в самом начале проекта, и использовать этот независимый тестовый набор только один раз для измерения генерализации одной модели в конце проекта. См. [Cawley, 2010](https://www.jmlr.org/papers/volume11/cawley10a/cawley10a.pdf) и [Kaufman et al., 2012](https://dl.acm.org/doi/10.1145/2382577.2382579) для более широкого обсуждения этого вопроса.

МЕСТО ДЛЯ ПРИМЕРА

### Убедитесь, что у вас достаточно данных

Если у вас недостаточно данных, то обучение хорошей обобщающей модели может оказаться невозможным. Понять так ли это - сложно пока вы не начнете строить модели: все зависит от отношения сигнал/шум в наборе данных. Если сигнал сильный, то можно обойтись меньшим количеством данных; если слабый, то нужно больше данных. 


#### Перекрестная валидация


Если вы не можете получить больше данных - то вы можете лучше использовать имеющиеся данные, используя перекрестную валидацию. 


МЕСТО ДЛЯ ПРИМЕРА про cross-validation

#### Аугментация данных


Вы также можете использовать методы **аугментации** данных (например, см. [Wong et al., 2016](https://arxiv.org/abs/1609.08764), [Shorten et al., 2019](https://link.springer.com/article/10.1186/s40537-019-0197-0?code=a6ae644c-3bfc-43d9-b292-82d77d5890d5)), и они могут быть весьма эффективны для расширения небольших датасетов. 

Так же в работе [Fort et al., 2021](https://arxiv.org/abs/2105.13343) было показано, что если для каждого сэмпла делать не одну аугментацию, а несколько (в рамках одного и того же батча) то увеличивается точность на тесте. При этом этот метод работает как при обучении на малых, так и на больших батчах, несмотря на уменьшение количества уникальных обучающих примеров в каждом мини-батче.


In [None]:
import albumentations as A
import cv2

In [None]:
transform = A.Compose([
    A.Resize(width=512, height=512),
    A.HorizontalFlip(p=1),
    A.CLAHE(clip_limit=4.0, tile_grid_size=(8, 8), always_apply=False, p=0.5)
])

In [None]:
!wget https://wallpaperaccess.com/full/3842851.jpg

In [None]:
image = cv2.imread("3842851.jpg")

In [None]:
transformed = transform(image=image)
transformed_image = transformed["image"]

In [None]:
import matplotlib.pyplot as plt
fig,ax = plt.subplots(ncols=2, figsize=(10,5))

ax[0].imshow(image)
ax[1].imshow(transformed_image)

ax[0].set_title('Original')
ax[1].set_title('Augmented')

for a in ax:
    a.axis('off')

##### Несколько аугментаций лучше чем одна

До 2021 года была принято проводить аугментации следующим образом: берем сэмпле, применяем к нему набор аугментаций с некоторой вероятностью (например p=0.5) и отправляем этот сэмпл в модель на обучение. В статье [Fort et al., 2021](https://arxiv.org/abs/2105.13343) предлагается способ, который работает лучше.

Берем сэмпл, дублируем его N раз и к каждому из дублей применяем свою аугментацию. Казалось бы, в каждом мини-батче становится меньше уникальных примеров, что должно бы негативно сказаться на способности к обобщению, но нет. Точность на тесте только увеличивается.

Проверим так ли это. ЕЩЕ ПЕРЕСОБЕРУ В НОРМАЛЬНУЮ ФУНКЦИЮ С ПАРАМЕТРАМИ. НО РАБОТАЕТ +)

In [None]:
#Фиксируем random_seed
import torch
import random
import numpy as np
torch.manual_seed(42)
random.seed(42)
np.random.seed(42)

#Выставлям device для расчетов
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [None]:
import shutil
import os
# Helper method to run Tensorboard in Colab
def reinit_tensorboard(clear_log = True):
  logs_base_dir = "/content/runs" # Directory for log files
  if clear_log:    
    shutil.rmtree(logs_base_dir, ignore_errors = True)
    os.makedirs(logs_base_dir, exist_ok=True)
  # Colab magic
  %reload_ext tensorboard
  %tensorboard --logdir {logs_base_dir}

In [None]:
import torch
import torchvision
import torchvision.transforms as transforms

In [None]:
from PIL import Image
class CIFAR10_with_multiplicity(torchvision.datasets.CIFAR10):
    def __init__(
            self,
            multiplicity = 1,
            *args,
            **kwargs
            ):
        super().__init__(*args,**kwargs)
        self.multiplicity = multiplicity
    
    def __getitem__(self, index):
        img, target = self.data[index], self.targets[index]
        img_pil = Image.fromarray(img)

        if self.transform is not None:
            img_with_duplicates = []
            if self.train == True:        
                for i in range(self.multiplicity):
                    # Duplicate
                    img_with_duplicates.append(self.transform(img_pil)) 
                target = torch.tensor([target]).repeat(self.multiplicity)
                return img_with_duplicates, target
            
            else:
                img = self.transform(img_pil)
                return img, target

def collate_fn(data):
    img = torch.vstack([torch.stack(x[0]) for x in data])
    labels = torch.vstack([x[1] for x in data]).flatten()
    # print(img.shape)
    return img, labels

In [None]:
transform_train = transforms.Compose(
    [transforms.RandomHorizontalFlip(p=0.5),
     transforms.RandomVerticalFlip(p=0.5),
     transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

transform_test = transforms.Compose([
     transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

batch_size = 256

multiplicity = 2
train_set = CIFAR10_with_multiplicity(multiplicity = multiplicity, root='./data', train=True,
                                 download=True, transform=transform_train)
train_loader = torch.utils.data.DataLoader(train_set, batch_size=batch_size//multiplicity,
                                          shuffle=False, num_workers=2, collate_fn=collate_fn,
                                           worker_init_fn=lambda x: np.random.seed())

test_set = CIFAR10_with_multiplicity(multiplicity = multiplicity, root='./data', train=False,
                                 download=True, transform=transform_test)
test_loader = torch.utils.data.DataLoader(test_set, batch_size=batch_size,
                                         shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

In [None]:
import torch.nn as nn
import torch.nn.functional as F

class SimpleNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = torch.flatten(x, 1) # flatten all dimensions except batch
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

In [None]:
from torch.utils.tensorboard import SummaryWriter
import torch.optim as optim
from torch import nn

model = SimpleNet().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)

In [None]:
def validate(model,testloader,device):
  correct = 0
  total = 0
  with torch.no_grad():
    for images, labels in testloader:
        images = images.to(device)
        labels = labels.to(device)
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()
  
  return correct / total  

In [None]:
reinit_tensorboard(clear_log=False)

In [None]:
writer = SummaryWriter()

for epoch in range(10):
    for img_batch, labels_batch in train_loader:
        optimizer.zero_grad()
        output = model(img_batch.to(device))
        loss = criterion(output, labels_batch.to(device))
        loss.backward()
        optimizer.step()
    writer.add_scalar('Loss/train',loss.cpu().item(),epoch)
    accuracy = validate(model,test_loader,device)
    writer.add_scalar('Accuracy',accuracy,epoch)
    print("Epoch {} Loss {:.2f} Accuracy {:.2f}".format(epoch,loss.item(),accuracy))
    writer.flush()
writer.close()

#### Дисбаланс классов


Увеличение данных также полезно в ситуациях, когда у вас ограниченные данные в определенных частях датасета, например, в задачах классификации, когда у вас меньше образцов в некоторых классах, чем в других - ситуация, известная как **дисбаланс классов** (см. [Haixiang et al., 2017](https://www.sciencedirect.com/science/article/abs/pii/S0957417416307175) для обзора методов решения этой проблемы). 



МЕСТО ДЛЯ ПРИМЕРА

#### Transfer-learning


Решить эту проблему частично можно при помощи transfer-learning - использовать модели, обученные на близких к вашей задачах

МЕСТО ДЛЯ ПРИМЕРА

Однако если у вас ограниченные данные, то, скорее всего, вам также придется ограничить сложность используемых моделей ML, поскольку модели с большим количеством параметров, например, глубокие нейронные сети, могут легко переобучаться на небольших датасетах. В любом случае, важно выявить эту проблему на ранней стадии и разработать подходящую (и обоснованную) стратегию для ее решения.


### Обращайтесь к экспертам в данной области

Эксперты в области вашего исследования могут быть очень ценными. Они помогут вам понять, какие проблемы полезно решать, как выбрать наиболее подходящий набор данных и модель ML, а также как определить в каком журнале публиковать статью (аудитория какого журнала будет наиболее подходящей). Если не учитывать мнение экспертов, вы рискуете тем, что ваш проект не будут решать полезные проблемы или будет решать полезные проблемы неподходящими способами (использование непрозрачной ML-модели для решения проблемы, где прозрачность критически важна, например, при принятии медицинских или финансовых решений, см. [Rudin, 2019](https://www.nature.com/articles/s42256-019-0048-x)). 

#### Просматривайте критику научных статей из вашей области

Часто даже большая доля экспертов из вашей области могут ошибаться при построении моделей и обработке данных. Полезно искать критический разбор таких работ от ученых из этой и смежных областей. 

МЕСТО ДЛЯ ПРИМЕРА

### Подумайте о том, как (и где) будет развернута ваша модель

Почему вы хотите построить модель ML? Это важный вопрос, и ответ на него должен повлиять на процесс, который вы используете для разработки модели. Многие академические исследования по своей сути не предназначены для создания моделей, которые будут использоваться в реальном мире. Это вполне справедливо, поскольку процесс построения и анализа моделей сам по себе может дать очень полезное понимание проблемы. Однако, у статей, в которых описываются модели, которые можно применять в реальных ситуациях, обычно, значительнно выше цитирование. Так что, стоит заранее подумать о том, как и где ваша модель будет применяться. 

Например, если модель будет развернута в среде с ограниченными ресурсами, например, на датчике или роботе, это может наложить ограничения на сложность модели. 



Если существуют ограничения по времени, например, классификация сигнала должна быть выполнена в течение миллисекунд, то это также необходимо учитывать при выборе модели. 



МЕСТО ДЛЯ ПРИМЕРА

*Например отслеживание тенисного мяча во время турнира. Идеи по проще есть?*


Еще одним моментом является то, как модель будет связана с более широкой программной системой, в которой она будет развернута. Эта процедура зачастую далеко не проста (см. [Sculley et al., 2015](https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf)). Однако новые подходы, такие как [**ML Ops**](https://ml-ops.org/), направлены на решение некоторых трудностей; см. [Tamburri et al., 2020](https://research.tue.nl/en/publications/sustainable-mlops-trends-and-challenges).

## Как надежно строить модели

Построение моделей - одна из самых приятных частей ML. С современными ML-фреймворками легко использовать всевозможные подходы к данным и смотреть, что к ним подходит. Однако это может закончится неорганизованном беспорядком экспериментов, которые потом сложно обосновать и о которых сложно писать статью. Поэтому важно подходить к построению моделей организованно, убеждаясь, что вы правильно используете данные, и уделяя должное внимание выбору моделей.

### Какие есть доступные ресурсы для обучения на GPU

GPU - крайне эффективный и ооооочень дорогой способ оубчать модели. К счастью для вас - вы относитесь к привелигированому классу исследователей, которым за GPU обычно платить не надо. Если вы можете обосновать зачем вам GPU - многие корпорации с удовольствием предоставят его бесплатно. 

Google Colab - в базовой версии - бесплатный способ обучать модели на GPU, но про него вы уже все знаете.

[Kaggle](https://www.kaggle.com/code) - похожим на Colab образом работают и Kaggle Kernels. Бесплатно и без особенных бумажек (GPU goes brrrrrrr)

Помимо бесплатных Colab и Kaggle, есть возможность получить доступ к серьезным ресурсам (несколько тысяч долларов на вычисления). У каждой програмы немного свои правила, но в целом схема такая: пишете заявку, где рассказываете о своих исследованиях и объясняете зачем вам GPU. Затем отправляете заявку с официального университетского/институтского аккаунта и в течение месяца получаете свои кредиты. 

Основные программы: 
* [Google Research Credits](https://edu.google.com/programs/credits/research/?modal_active=none)
* [Nvidia Research Grants](https://mynvidia.force.com/HardwareGrant/s/Application?ncid=so-twit-867980-vt16#cid=ix01_so-twit_en-us)
* [Yandex Research Grants](https://cloud.yandex.ru/promo/datasphere-education)

#### [Советы](https://mobile.twitter.com/artsiom_s/status/1434125597018632193?s=28) по использованию GPU

* `DataLoader` по умолчанию имеет плохие настройки. Поменяйте `num_workers > 0` (например в Colab используйте 2 workers, в ColabPro с большим ОЗУ - 4)
* Используйте `torch.backends.cudnn.benchmark = True` для тюнинга cuda kernels
* Если применение позваляет - максимизируйтее размер батча для максимальной нагрузки на GPU
* Перед слоями нормализации не забывайте отключать bias (`bias=False`) - в этом случае, это лишний параметр, который только раздувает размер модели
* Если вы работаете на нескольких GPU, используйте `DistributedDataParallel` даже если на самом деле ваши GPU не distributed
* Обучайте с `float16`

### Попробуйте различные модели

Вообще говоря, не существует такой вещи, как единственная лучшая модель ML. Cуществует даже доказательство этого в виде теоремы **No Free Lunch**, которая показывает, что ни один подход ML не лучше другого, если рассматривать все возможные проблемы [Wolpert, 2002](https://link.springer.com/chapter/10.1007/978-1-4471-0123-9_3). 

Таким образом, ваша задача - найти модель ML, которая хорошо работает для вашей конкретной проблемы. Возможно, у вас есть некоторые *априорные* знания о том, какая модель подойдет лучше всего, в виде качественных исследований по схожим темам, но большую часть времени вам придется работаете в темноте. К счастью, современные библиотеки ML в Python и т.д. позволяют вам опробовать несколько моделей с небольшими изменениями в коде, поэтому нет причин не опробовать несколько моделей и не выяснить для себя, какая из них работает лучше. В свете принципа "бесплатного обеда" важно избегать синдрома "не здесь придумано", т.е. использовать только те модели, которые были придуманы в вашем институте, поскольку это может привести к тому, что вы упустите лучшую модель для конкретной проблемы.


### Не используйте неподходящие модели

Снижая барьер для имплементации, современные библиотеки ML также облегчают применение неподходящих моделей к вашим данным. В качестве примера можно привести применение моделей, предполагающих категориальные признаки, к набору данных, состоящему из числовых признаков, или попытку применить модель, предполагающую отсутствие зависимостей между переменными, к данным временного ряда. 



МЕСТО ДЛЯ ПРИМЕРА

Это особенно важно учитывать в свете публикации, поскольку представление результатов, полученных с помощью несоответствующих моделей, создаст у рецензентов плохое впечатление о вашей работе. Другой пример - использование неоправданно сложной модели. Например, глубокая нейронная сеть - не лучший выбор, если у вас мало данных, если знания в области предполагают, что лежащая в основе модель довольно проста, или если модель должна быть интерпретируемой. 



МЕСТО ДЛЯ ПРИМЕРА


И, наконец, не используйте "современность" модели в качестве оправдания для выбора модели: старые, проверенные модели часто работают лучше, чем новые.

### Оптимизируйте гиперпараметры вашей модели

Многие модели имеют **гиперпараметры** - то есть числа или параметры, которые влияют на конфигурацию модели. Примерами могут служить функция ядра, используемая в SVM, количество деревьев в случайном лесу и архитектура нейронной сети. Многие из этих гиперпараметров существенно влияют на производительность модели, и, как правило, универсальных параметров не существует. То есть, чтобы получить максимальную отдачу от модели, их нужно подбирать под конкретный набор данных. Хотя может возникнуть соблазн возиться с гиперпараметрами до тех пор, пока вы не найдете что-то подходящее, такой подход, скорее всего, не будет оптимальным. Гораздо лучше использовать какую-то стратегию **оптимизации гиперпараметров**, и это гораздо легче обосновать при написании работы. Базовые стратегии включают случайный поиск и поиск по сетке, но они не очень хорошо масштабируются для большого количества гиперпараметров или для моделей, которые дорого обучать, поэтому стоит использовать инструменты, которые ищут оптимальные конфигурации более интеллектуальным способом (исследовано в [Yang et al., 2020](https://arxiv.org/abs/2007.15745)). 


##### **Библиотеки для оптимизации гиперпараметров**

Существует довольно много библиотек для оптимизации гиперпараметров. Ключевыми являются [Ray-tune](https://docs.ray.io/en/latest/tune/index.html), [Optuna](https://optuna.readthedocs.io/en/stable/) и [Hyperopt](https://github.com/hyperopt/hyperopt). В целом они друг от друга принципиально не отличаются, так что скорее это вопрос вкуса.

*Не уверен, что нам вообще тут надо много примеров показывать, в целом мы это уже в лекции объясняли, разве что напомнить*

###### **Ray-Tune**

In [None]:
!pip install ray[tune] tune-sklearn

In [None]:
from ray.tune.sklearn import TuneGridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier
from sklearn.datasets import load_iris
import numpy as np

iris = load_iris()
X = iris.data
y = iris.target

x_train, x_test, y_train, y_test = train_test_split(X,y,test_size = 0.3,random_state = 14)

# Example parameters to tune from SGDClassifier
parameter_grid = {"alpha": [1e-4, 1e-1, 1], "epsilon": [0.01, 0.1]}

tune_search = TuneGridSearchCV(
    SGDClassifier(),
    parameter_grid,
    early_stopping=True,
    max_iters=10)

tune_search.fit(x_train, y_train)

#best set of perameter
print(tune_search.best_params_)

#best score with best set of perameters
print(tune_search.best_score)


Также можно использовать методы **AutoML** для оптимизации выбора модели и ее гиперпараметров в дополнение к другим частям пайплайна добычи данных - см. обзор в [He et al., 2021](https://arxiv.org/abs/1908.00709).

### Будьте осторожны при оптимизации гиперпараметров и выборе признаков

Другим распространенным этапом обучения модели является проведение **feature selection** (рассматривается в [Cai et al., 2018](https://www.sciencedirect.com/science/article/pii/S0925231218302911)). Однако при проведении оптимизации гиперпараметров и выборе признаков важно рассматривать их как часть обучения модели, а не как нечто более общее, что делается перед обучением модели. Особенно распространенной ошибкой является отбор признаков на всем наборе данных до начала обучения модели. Эта ошибка приведет к утечке информации из тестового набора в процесс обучения. 


МЕСТО ДЛЯ ПРИМЕРА


Поэтому, если вы оптимизируете гиперпараметры или признаки, используемые моделью, надо использовать для отбора признаков отдельный, валидационный датасет, или же кросс-валидацию. Вы НЕ должны подбирать модель или ее гиперпараметры на тесте

Для бОльшей надежности можно исползьзовать метод **вложенной перекрестной валидации** (также известный как двойная кросс-валидация), которая включает в себя оптимизацию гиперпараметров и выбор признаков в качестве дополнительного цикла внутри основного цикла кросс-валидации. См. [Cawley, 2010](https://www.jmlr.org/papers/volume11/cawley10a/cawley10a.pdf) и [Wainer et al., 2021](https://research-portal.uea.ac.uk/en/publications/nested-cross-validation-when-selecting-classifiers-is-overzealous) для более широкого обсуждения.

МЕСТО ДЛЯ ПРИМЕРА

### Используйте систему для контроля за своими экспериментами

Учитывая все сказанное выше, лего представить какой хаос будет творится в процессе ваших эксперементов. Что бы этого избежать имеет смысл каким-то образом систематизировать эксперементальную фазу.

В простейшем виде можно завести **git** репозиторий. Каждый раз когда вы меняете что-то в модели, делайте commit. Таким образом если что-то пойдет не так - у вас будет возможность откатить все назад.


МЕСТО ДЛЯ ПРИМЕРА


Отличной идеей будет использовать инструменты контроля типа [Tensorboard](https://www.tensorflow.org/tensorboard),  [MLFlow](https://mlflow.org/) или [Weights&Biases](https://wandb.ai/site), которые помимо прочего позволяют визуально сравнивать модели и их результаты.

МЕСТО ДЛЯ ПРИМЕРА

## Как надежно оценить модели

Для того чтобы способствовать прогрессу в своей области, необходимо иметь достоверные результаты, на основании которых можно сделать надежные выводы. К сожалению, очень легко несправедливо оценивать модели ML и тем самым мутить воду академического прогресса. Поэтому тщательно продумайте, как вы собираетесь использовать данные в своих экспериментах, как вы собираетесь измерять истинную производительность ваших моделей и как вы собираетесь сообщать об этой производительности в содержательной и информативной форме.


### Используйте соответствующий тестовый датасет

Прежде всего, всегда используйте тестовый набор для измерения обобщающей способности модели ML. То, насколько хорошо модель работает на обучающем множестве, на практике не имеет никакого значения, и достаточно сложная модель может полностью переобучится на *train set*, но так и не научится обобщать тестовые данные. 


МЕСТО ДЛЯ ПРИМЕРА


Также важно убедиться, что данные в тестовом наборе на самом деле подходят. То есть, они не должны пересекаться с обучающим набором и в тоже время достаточно репрезентативными для реальных данных. Например, рассмотрим датасет фотографий объектов, где изображения в обучающем и тестовом наборе были получены на открытом воздухе в солнечный день. Наличие одинаковых погодных условий означает, что тестовое множество не будет независимым, а поскольку оно не охватывает более широкий спектр погодных условий, оно также не будет репрезентативным. 



МЕСТО ДЛЯ ПРИМЕРА

Аналогичные ситуации могут возникать, когда для сбора обучающих и тестовых данных используется одно оборудование. Если модель не учитывает характеристики оборудования, она, скорее всего, не будет обобщаться на другие единицы оборудования, и это не будет обнаружено при оценке на тестовом наборе.

МЕСТО ДЛЯ ПРИМЕРА

### Используйте набор для проверки (*validation set*)

Нередко обучают несколько моделей последовательно, используя знания, полученные о работе каждой модели, для настройки следующей. При этом важно не использовать тестовый набор в этом процессе. Вместо этого для измерения производительности следует использовать отдельный набор для проверки (*validation set*). Он содержит набор данных, которые не используются непосредственно в обучении, но используются для руководства обучением. Если вы будете использовать тестовое множество для этой цели, то тестовое множество станет неявной частью процесса обучения и больше не сможет служить независимой мерой способности к генерализации, т.е. ваши модели будут постепенно подгонять тестовое множество [Cawley, 2010](https://www.jmlr.org/papers/volume11/cawley10a/cawley10a.pdf). 


#### ЭТОТ РАЗДЕЛ СИЛЬНО ПЕРЕКЛИКАЕТСЯ С ПОДБОРОМ ГИПЕРПАРАМЕТРОВ, НАДО ПЕРЕДЕЛАТЬ


МЕСТО ДЛЯ ПРИМЕРА


Еще одним преимуществом наличия валидационного набора является то, что вы можете сделать **раннюю остановку** (*early stopping*), когда во время обучения одной модели, модель оценивается по валидационному набору на каждой итерации процесса обучения. Обучение прекращается, когда результат валидации начинает снижаться, так как это указывает на то, что модель начинает переобучаться на *train set*.

МЕСТО ДЛЯ ПРИМЕРА

### Оценивайте модель несколько раз

Многие модели ML нестабильны. То есть, если вы обучаете их несколько раз, или если вы вносите небольшие изменения в обучающие данные, то их производительность значительно изменяется. С этим можно и нужно бороться путем фиксации всех *random seeds* и переводом модели на детерменистические операции. Такая внимательность к деталям так же позволит другим людям *на самом деле* воспроизвести ваши результаты.



МЕСТО ДЛЯ ПРИМЕРА

Однако на практике это означает, что одна оценка модели может быть ненадежной и может либо недооценить, либо переоценить истинный потенциал модели. По этой причине обычно проводится несколько оценок. Существует множество способов сделать это, и большинство из них предполагает многократное обучение модели с использованием различных подмножеств обучающих данных. **Кросс-валидация** (CV) особенно популярна и имеет множество разновидностей [Arlot et al., 2010](https://projecteuclid.org/journals/statistics-surveys/volume-4/issue-none/A-survey-of-cross-validation-procedures-for-model-selection/10.1214/09-SS054.full). Десятикратная CV, когда обучение повторяется десять раз, является стандартом, но вы можете добавить больше строгости, используя повторную CV, когда весь процесс CV повторяется несколько раз с различными разбиениями данных. 





МЕСТО ДЛЯ ПРИМЕРА

Если некоторые классы данных малы, важно провести **стратификацию**, которая гарантирует, что каждый класс будет адекватно представлен в каждой складке. Обычно сообщается среднее значение и стандартное отклонение многократных оценок, но также рекомендуется вести учет индивидуальных оценок на случай, если вы позже будете использовать статистический тест для сравнения моделей.

МЕСТО ДЛЯ ПРИМЕРА

### Сохраните некоторые данные для оценки окончательного варианта модели


#### ТУТ КАКАЯ-ТО БРЕДЯТИНА (В ОРИГИНАЛЕ). КРОСС-ВАЛИДАЦИЯ НЕ ВЫДАСТ 10 разных моделей, она выдаст ПАРАМЕТРЫ, КОТОРЫЕ НАДО УСТАНОВИТЬ ПРИ ОБУЧЕНИИ НА ВСЕЙ ВАЛИДАЦИИ (СМОТРИМ SKLEARN тот же)

Мы использовали термин *модель* довольно свободно, но есть важное различие между оценкой потенциала общей модели (например, насколько хорошо нейронная сеть может решить вашу проблему) и производительностью конкретного варианта модели (например, конкретной нейронной сети, созданной одним запуском обратного распространения). Перекрестная проверка хороша в первом случае, но она менее полезна во втором. 

Допустим, например, вы провели десятикратную перекрестную валидацию. В результате будет получено десять экземпляров модели. Допустим, вы выбираете вариант с наивысшей оценкой тестовой складки в качестве модели, которую вы будете использовать на практике. Как вы сообщите о ее производительности? Можно подумать, что результат тестового сложения является надежным показателем ее эффективности, но это, скорее всего, не так. Во-первых, количество данных в одном фолде относительно невелико. Во-вторых, экземпляр с самым высоким баллом вполне может оказаться экземпляром с самой простой тестовой складкой, поэтому содержащиеся в нем данные оценки могут быть нерепрезентативными. Следовательно, единственным способом получить достоверную оценку универсальности экземпляра модели может быть использование другого тестового набора. Поэтому, если у вас достаточно данных, лучше отложить некоторые из них в сторону и использовать только один раз, чтобы получить несмещенную оценку окончательно выбранного экземпляра модели.

МЕСТО ДЛЯ ПРИМЕРА

### Не используйте точность в несбалансированных наборах данных

#### ЛУЧШЕ ЗАМЕНИТЬ НА ИСПОЛЬЗУЙТЕ МЕТРИКИ, ПОДХОДЯЩИЕ ЗАДАЧЕ. КОМУ-ТО и ACCURACY СОЙДЕТ НА НЕСБАЛАНСИРОВАННЫХ ДАННЫХ


Подробрнее - читаем [ДЬЯКОНОВА](https://dyakonov.org/2021/05/27/imbalance/)

Наконец, будьте внимательны к тому, какие метрики вы используете для оценки моделей ML. Например, в случае моделей классификации наиболее часто используемой метрикой является точность (*accuracy*), которая представляет собой долю образцов в наборе данных, которые были правильно классифицированы моделью. Это хорошо работает, если ваши классы сбалансированы, т.е. если каждый класс представлен одинаковым количеством образцов в наборе данных. Но многие наборы данных не сбалансированны, и в этом случае точность может быть очень обманчивой метрикой. 

Рассмотрим, например, набор данных, в котором 90\% образцов представляют один класс, а 10\% образцов - другой класс. Бинарный классификатор, который всегда выдает первый класс, независимо от его входа, будет иметь точность 90\%, несмотря на то, что он совершенно бесполезен. В такой ситуации предпочтительнее использовать такие метрики, как коэффициент каппа Коэна ($\kappa$) или коэффициент корреляции Мэтьюса (MCC), которые относительно нечувствительны к дисбалансу размеров классов. Более широкий обзор методов работы с несбалансированными данными см. в [Haixiang et al., 2017](https://www.sciencedirect.com/science/article/abs/pii/S0957417416307175).

МЕСТО ДЛЯ ПРИМЕРА

### Исследуйте артефакты набора данных

Эксперименты, выявляющие артефакты данных, или *абляции набора данных*, как их называет [Heinzerling, 2019](https://thegradient.pub/nlps-clever-hans-moment-has-arrived/), включают простые или бессмысленные *baselines*, такие как:

1) обучение моделей на неполных входных данных

МЕСТО ДЛЯ ПРИМЕРА

2) обучение модели на бесмысленных признаках 
полученных перемешиванием исходных признаков 

МЕСТО ДЛЯ ПРИМЕРА

3) сравнение итоговой модели с предсказанием среднего/медианы/...

МЕСТО ДЛЯ ПРИМЕРА

Это очень важная часть публикации. В современном мире машинного обучения, опубликовать статью без абляций - крайне затруднительно.

### Интерпретируйте предсказания ваших моделей

На данный момент известно множество подходов для интерпретации предсказаний моделей, в том числе сложных моделей типа нейронных сетей. 
К таким относятся [SHAP](https://github.com/slundberg/shap), [LIME](https://github.com/marcotcr/lime), [Grad-Cam](https://github.com/jacobgil/pytorch-grad-cam) и многие другие. Существуют и методы, дающие более точную интерпретацию, но для конкретных моделей. 

Если вы можете взглянуть на то, на что обращает внимание ваши модели - вы сможете:

1) понять, какая модель обращает внимание на более разумные с точки зрения области признаки 



МЕСТО ДЛЯ ПРИМЕРА 



2) насколько устойчиво то, на какие признаки обращают внимание модели 



МЕСТО ДЛЯ ПРИМЕРА 

3) найти уже упомянутые артефакты в данных 



МЕСТО ДЛЯ ПРИМЕРА 

## Как справедливо сравнивать модели

Сравнение моделей является основой академических исследований, но сделать это правильно удивительно сложно. Если вы проведете сравнение нечестно и опубликуете его, то впоследствии другие исследователи могут быть введены в заблуждение. Поэтому убедитесь, что вы оцениваете различные модели в одном и том же контексте, изучите несколько точек зрения и правильно используйте статистические тесты.

МЕСТО ДЛЯ ПРИМЕРА

### Не думайте, что большее число означает лучшую модель

Не редкость, когда в статье говорится что-то вроде "В предыдущих исследованиях сообщалось о точности до 94\%. Наша модель достигла 95\%, и поэтому она лучше." Существуют различные причины, по которым более высокий показатель не всегда означает лучшую модель. Например, если модели обучались или оценивались на разных разделах одного и того же набора данных, то небольшие различия в производительности могут быть вызваны этим. 

МЕСТО ДЛЯ ПРИМЕРА

Если они использовали совершенно разные наборы данных, то это может объяснять даже большие различия в производительности. 


МЕСТО ДЛЯ ПРИМЕРА

Другой причиной несправедливых сравнений является неспособность провести одинаковый объем оптимизации гиперпараметров при сравнении моделей; например, если одна модель имеет настройки по умолчанию, а другая была оптимизирована, то сравнение не будет справедливым. 

**Например** в статье [Csordás et al., 2021](https://arxiv.org/abs/2108.12284) авторы демонстрируют, что, просто пересмотрев такие базовые конфигурации модели, как масштабирование embeddings, early stopping, relative positional embeddings и универсальные варианты трансформеров, можно значительно улучшить обобщающую способность трансформеров.

По этим и другим причинам к сравнениям, основанным на опубликованных цифрах, всегда следует относиться с осторожностью. Чтобы действительно быть уверенным в справедливости сравнения двух подходов, вам следует заново реализовать все сравниваемые модели, оптимизировать каждую из них в одинаковой степени, провести множественные оценки, а затем использовать статистические тесты, чтобы определить, являются ли различия в производительности значительными.

### Используйте статистические тесты при сравнении моделей


Если вы хотите убедить людей в том, что ваша модель лучше, чем чья-то другая, то статистический тест - очень полезный инструмент. В широком смысле существует две категории тестов для сравнения отдельных моделей ML. Первый используется для сравнения отдельных экземпляров модели, например, двух обученных деревьев решений. Например,  *McNemar's test* является довольно распространенным выбором для сравнения двух классификаторов, и работает путем сравнения выходных меток классификаторов для каждой выборки в тестовом наборе (поэтому не забудьте записать их). 


МЕСТО ДЛЯ ПРИМЕРА


Вторая категория тестов используется для более общего сравнения двух моделей, например, для определения того, какое дерево решений или нейронная сеть лучше подходит для данных. Они требуют множественных оценок каждой модели, которые можно получить с помощью кросс-валидации или повторной выборки (или, если алгоритм обучения стохастический, многократных повторений на одних и тех же данных). Затем тест сравнивает два результирующих распределения. *T-тест Стьюдента* является распространенным выбором для такого сравнения, но он надежен только в случае нормального распределения, что часто бывает не так. 



МЕСТО ДЛЯ ПРИМЕРА

#### ФИГНЯ. ВЫБОРКИ, ПОЛУЧЕННЫЕ ВЫШЕ - НЕ НЕЗАВИСИМЫ (ЕСТЬ СТАТЬИ ПРО ЭФФЕКТ ЭТОГО ), ПОТОМУ Манн-Уитни ОСОБО ЛУЧШЕ НЕ СДЕЛАЕТ. ДА И ДЛЯ БОЛЬШОГО ЧИСЛА ОБЪЕКТОВ МНОГИЕ МЕТРИКИ РАСПРЕДЕЛЕНЫ НОРМАЛЬНО.  

Более надежным является *U-тест Манна-Уитни*, поскольку он не предполагает, что распределения нормальны. Для получения дополнительной информации смотрите [Raschka, 2020](https://arxiv.org/abs/1811.12808).

МЕСТО ДЛЯ ПРИМЕРА

### Сделайте поправку на множественное сравнение

Все становится немного сложнее, когда вы хотите использовать статистические тесты для сравнения более чем двух моделей, поскольку проведение нескольких парных тестов сродни многократному использованию тестового набора - это может привести к слишком оптимистичным интерпретациям значимости. В принципе, каждый раз, когда вы проводите сравнение двух моделей с помощью статистического теста, существует вероятность того, что он обнаружит значимые различия там, где их нет. Это отраженно в уровне доверия теста, который обычно устанавливается на уровне 95\%: это означает, что в 1 случае из 20 тест даст ложный результат. Для единичного сравнения это может быть уровнем неопределенности, с которым можно смириться. Однако она накапливается. То есть, если вы проведете 20 парных тестов с уровнем достоверности 95\%, один из них, скорее всего, даст вам неверный ответ. Это известно как **эффект множественности**, и является примером более широкой проблемы в науке о данных, известной как **выкапывание данных** (*data dredging*) или **p-хакинг** ([Head et a., 2015](https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002106)). 



МЕСТО ДЛЯ ПРИМЕРА


Чтобы решить эту проблему, можно применить поправку на множественные тесты. Наиболее распространенным подходом является поправка Бонферрони, очень простой метод, который снижает порог значимости в зависимости от количества проводимых тестов - см. [Salzberg, 1997](https://link.springer.com/article/10.1023/A:1009752403260). 


МЕСТО ДЛЯ ПРИМЕРА


Однако существует множество других подходов, и также ведутся споры о том, когда и где следует применять эти поправки; доступный обзор см. в [Streiner et al., 2015](https://academic.oup.com/ajcn/article/102/4/721/4564678).

МЕСТО ДЛЯ ПРИМЕРА

### Избегайте ошибок работы со статистикой 

[Makin et al., 2019](https://elifesciences.org/articles/48175)

О необходимости повышения воспроизводимости исследований написано много, и неоднократно звучали призывы к улучшению обучения методам статистического анализа. Давайте обсудим несколько статистических ошибок, которые часто встречаются в научной литературе. 

#### Использование маленьких сэмплов при сравнении моделей

[Эта часть](https://elifesciences.org/articles/48175#:~:text=Use%20of-,small,-samples). МОЖЕТ БЫТЬ ПОДХОДИТ. РАСПИСАТЬ

#### P-Hacking

[Эта часть](https://elifesciences.org/articles/48175#:~:text=Flexibility%20of%20analysis%3A%20p-hacking,-The%20problem). МОЖЕТ БЫТЬ ПОДХОДИТ. РАСПИСАТЬ

### Не доверяйте результатам community benchmarks

В некоторых проблемных областях стало обычным делом использовать эталонные наборы данных (*benchmarks*) для оценки новых моделей ML. Идея заключается в том, что, поскольку все используют одни и те же данные для обучения и тестирования своих моделей, сравнения будут более прозрачными. К сожалению, этот подход имеет ряд существенных недостатков. Во-первых, если доступ к тестовому набору неограничен, то стоит исходить из предположения, что люди использовали его в процессе обучения, что приводит к data leakage.


МЕСТО ДЛЯ ПРИМЕРА

Более тонкая проблема заключается в том, что даже если каждый, кто использует данные, использует тестовый набор только один раз, в совокупности тестовый набор используется сообществом много раз. В результате, сравнивая множество моделей на одном и том же тестовом наборе, становится все более вероятным, что лучшая модель просто слишком хорошо подходит к тестовому набору и не обязательно обобщает лучше, чем другие модели. 

МЕСТО ДЛЯ ПРИМЕРА

По этой и другим причинам следует внимательно относиться к результатам, полученным с помощью эталонного набора данных, и не считать, что небольшое увеличение производительности является значительным. См. [Paullada et al., 2020](https://arxiv.org/abs/2012.05345) для более широкого обсуждения вопросов, связанных с использованием общих наборов данных.



### Рассмотрите комбинации моделей

Хотя этот раздел посвящен сравнению моделей, полезно знать, что ML не всегда заключается в выборе между различными моделями. Часто имеет смысл использовать комбинации моделей. Различные модели ML исследуют различные компромиссы; комбинируя их, вы можете иногда компенсировать слабые стороны одной модели за счет использования сильных сторон другой модели, и наоборот. Такие комбинированные модели известны как **ансамбли**, а процесс их создания известен как **обучение ансамблей**. Существует множество подходов к обучению ансамблей (см. обзор в [Dong et al., 2019](https://link.springer.com/article/10.1007/s11704-019-8208-z)). 


МЕСТО ДЛЯ ПРИМЕРА

####  ВОДА ВОДЯНАЯ. Править
К первой категории относятся многие классические подходы, такие как **bagging** и **boosting**. Ансамбли могут быть либо сформированы из существующих обученных моделей, либо базовые модели могут быть обучены как часть процесса, обычно с целью создания разнообразного набора моделей, которые делают ошибки на разных частях пространства данных. 

Общее соображение в обучении ансамблей заключается в том, как объединить различные базовые модели; подходы к этому варьируются от очень простых методов, таких как голосование или взвешенное голосование, до более сложных подходов, которые используют другую модель ML для объединения выходов базовых моделей. Этот последний подход часто называют **стекинг**


МЕСТО ДЛЯ ПРИМЕРА

## Как сообщать о результатах

Цель академического исследования - не самовозвеличивание, а возможность внести свой вклад в развитие знаний. Для того чтобы внести эффективный вклад в знания, вам необходимо предоставить полную картину вашей работы, охватывающую как то, что получилось, так и то, что не получилось. ML часто связан с компромиссами - очень редко бывает, что одна модель лучше другой во всех отношениях, и вы должны постараться отразить это, используя тонкий и взвешенный подход к изложению результатов и выводов.


### Будьте прозрачны

Прежде всего, всегда старайтесь быть прозрачным в отношении того, что вы сделали и что обнаружили, так как это облегчит другим людям использование ваших наработок. В частности, хорошая практика - делиться своими моделями в доступной форме. Например, если вы использовали скрипт для проведения всех экспериментов, опубликуйте этот скрипт после публикации результатов. 

Хорошим примером воспроизводимых исследований может являться [ColabFold](https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb) - блокнот в Colab сопровождающий статью [Highly accurate protein structure prediction with AlphaFold (Jumper et al., 2021)](https://www.nature.com/articles/s41586-021-03819-2). В этом блокноте одновременно присутствуюет несколько вещей - во-первых, для того что бы им пользоваться не нужно ничего устанавливать; во-вторых, он снабжен более менее приличным графичееским интерфейсом, что сильно упрощает использование для не-програмистов; ну и в третьих, при желании, код можно посмотреть "неотходя от кассы".

Важно, что бы другие люди могли легко повторить ваши эксперименты. Воспроизводимость придает убедительности вашей работе. Это также значительно облегчает людям сравнение моделей, поскольку им больше не придется все реализовывать с нуля, чтобы обеспечить справедливое сравнение. Знание того, что вы будете делиться своей работой, также побуждает вас быть более осторожным, хорошо документировать свои эксперименты и писать чистый код, что приносит пользу как вам, так и другим. 

Стоит также отметить, что вопросы воспроизводимости становятся все более заметными в сообществе ML, поэтому в будущем вы, возможно, не сможете опубликовать работу, если ваш рабочий процесс не будет надлежащим образом задокументирован и распространен - например, см. [Pineau et al., 2020](https://arxiv.org/abs/2003.12206).


### Сообщайте о результатах работы различными способами

Одним из способов достижения большей строгости при оценке и сравнении моделей является использование нескольких наборов данных. Это помогает преодолеть любые недостатки, связанные с отдельными наборами данных, и позволяет представить более полную картину работы вашей модели. Также хорошей практикой является представление нескольких метрик для каждого набора данных, поскольку разные метрики могут представить различные точки зрения на результаты и повысить прозрачность вашей работы. Например, если вы используете точность, то нелишним будет включить метрики, которые менее чувствительны к дисбалансу классов. 

МЕСТО ДЛЯ ПРИМЕРА

Если вы используете частичную метрику, такую как precision, recall, sensitivity или specificity, также включите метрику, которая дает более полное представление об уровне ошибок вашей модели. Убедитесь, что понятно, какие метрики вы используете. Например, если вы сообщаете F-score, уточните, идет ли речь о F1 или о каком-то другом балансе между precision и recall. Если вы сообщаете AUC, укажите, является ли это площадью под кривой ROC или кривой PR. Для более широкого обсуждения смотрите [Blagec et al., 2020](https://arxiv.org/abs/2008.02577).


МЕСТО ДЛЯ ПРИМЕРА

### Не делайте обобщений, выходящих за рамки данных

Важно не представлять недействительные выводы, поскольку это может сбить с пути других исследователей. Распространенная ошибка - делать общие заявления, которые не подтверждаются данными, использованными для обучения и оценки моделей. Например, если ваша модель действительно хорошо работает на одном наборе данных, это не означает, что она будет хорошо работать и на других наборах данных. 

МЕСТО ДЛЯ ПРИМЕРА

Хотя вы можете получить более надежные выводы, используя несколько наборов данных, всегда существует ограничение на то, что вы можете заключить из любого экспериментального исследования. Этому есть множество причин (см. [Paullada et al., 2020](https://arxiv.org/abs/2012.05345)), многие из которых связаны с тем, как составлены наборы данных. Одной из распространенных проблем является предвзятость, или **ошибка выборки**: данные недостаточно репрезентативны для реального мира. 

МЕСТО ДЛЯ ПРИМЕРА

Другая проблема - дублирование: несколько наборов данных могут не быть независимыми и иметь схожие предубеждения (*biases*). 



МЕСТО ДЛЯ ПРИМЕРА

Существует также проблема качества: и это особенно актуально для наборов данных глубокого обучения, где необходимость в количестве данных ограничивает объем проверки качества, которую можно провести. Короче говоря, не преувеличивайте свои результаты и помните об их ограничениях.


### Будьте осторожны, сообщая о статистической значимости

Мы уже обсуждали статистические тесты, и как их можно использовать для определения различий между ML-моделями. Однако статистические тесты не совершенны. Некоторые из них консервативны и склонны занижать значимость, другие либеральны и склонны завышать значимость. Это означает, что положительный тест не всегда означает, что что-то является значимым, а отрицательный тест не обязательно означает, что что-то не является значимым. 


МЕСТО ДЛЯ ПРИМЕРА


Кроме того, существует проблема использования порога для определения значимости; например, 95\% доверительный порог (т.е. когда p-значение $<$ 0,05) означает, что 1 из 20 случаев разница, отмеченная как значимая, не будет значимой. На самом деле, статистики все чаще утверждают, что лучше не использовать пороговые значения, а вместо этого просто сообщать p-значения и предоставить читателю самому интерпретировать их. 




МЕСТО ДЛЯ ПРИМЕРА

Помимо статистической значимости, необходимо также учитывать, действительно ли разница между двумя моделями важна. Если у вас достаточно данных, вы всегда можете найти значительные различия, даже если фактическая разница в производительности ничтожна. Чтобы лучше понять, является ли что-то важным, можно измерить **размер эффекта** (*effect size*). Для этого используется целый ряд подходов: $d$ статистика Коэна, вероятно, самая распространенная, но более надежные подходы, такие как Колмогорова-Смирнова, предпочтительнее. Подробнее об этом см. в [Betensky, 2019](https://www.tandfonline.com/doi/full/10.1080/00031305.2018.1529624).

МЕСТО ДЛЯ ПРИМЕРА

### Посмотрите на свои модели

Обученные модели содержат много полезной информации. К сожалению, многие авторы просто сообщают показатели эффективности обученной модели, не давая никакого представления о том, чему она на самом деле научилась. Помните, что цель исследования не в том, чтобы добиться чуть более высокой точности, чем все остальные. Скорее, она заключается в том, чтобы генерировать знания и понимание и делиться ими с исследовательским сообществом. Если вы сможете это сделать, то вероятность того, что ваша работа получит достойную публикацию, значительно возрастет. 




МЕСТО ДЛЯ ПРИМЕРА

Как рекомендовалось ранее при выборе моделей - опять же, загляните внутрь своей итоговой модели. 

 Для относительно простых моделей, таких как деревья решений, также может быть полезно предоставить визуализацию ваших моделей, и в большинстве библиотек есть функции, которые сделают это за вас. Для сложных моделей, таких как глубокие нейронные сети, рассмотрите возможность использования методов **объяснимого ИИ** (Explainable AI) для извлечения знаний (рассмотрено в [Belle et al., 2021](https://www.frontiersin.org/articles/10.3389/fdata.2021.688969/full)); они вряд ли расскажут вам, что именно делает модель, но могут дать вам некоторые полезные идеи.

МЕСТО ДЛЯ ПРИМЕРА

## Общие советы по написанию статей

###  Полезные инструменты для написания статей

Английский язык, для многих из нас не является родным (и даже не тем языком, на котором мы свободно разговариваем). Конечно прекрастно, если в ваших соавторах есть носитель языка, или коллега, который много лет работал в Европе или США, но чаще всего - доступа к тамим коллегам у нас нет. 

**DISCLAIMER**. Всем, о чем пойдет речь дальше, следует пользоваться с большой осторожностью и не пренибрегать дополнительными проверками.

Хороший способ перевести текст с русского на английский - воспользоваться переводчиком [DeepL](https://www.deepl.com/translator), он довольно не плохо справляется со сложными научными и техническими текстами + в ннего встроено редактирование "на ходу" (то есть, на каждое слово - можно посмотреть несколько вариантов перевода).

Уже написанные на английском тексты, часто требуется перефразировать, например, когда вы описываете результаты исследований других людей или просто считаете, что написаное не доносит тот смысл, который вы хотели донести. Тут на помощь приходит инструмент [Wordtuna](https://www.wordtune.com/), который позволяет перефразировать любое предложение другими словами. Опять таки, часто в предложеных вариантах встречается билеберда, так что пользуйтесь внимательно и аккуратно.

Часто, когда мы пишем на английском, у нас страдает граматика и орфография (да что уж на английском, на русском тоже). С помощью [Grammarly](https://app.grammarly.com/) можно, как минимум, часть ошибок обнаружить и поправить.

Еще один инструмент, [GPT-J](https://6b.eleuther.ai/), вообще не стоит рассматривать в серьез как инструмент для научной комуникации. Тем не менее, им можно пользоваться для вдохновения. Например, часто мы начинаем писать предложение и еще не уверены, *что сказать. Поэтому мы записываем слова одно за другим, в произвольном порядке. Затем мы смотрим на записанные слова. Затем мы начинаем думать о том, как связать эти слова друг с другом. Затем мы снова записываем предложение. Иногда мы вносим изменения. Иногда мы начинаем сначала. Иногда мы думаем, что это никуда не годится, и выбрасываем предложения.* (*курсив* - дополнено GPT-J).

Вообщем вы поняли идею.

### Introduction, Main Part, Conclusion 

Советы

### Cover letter

Советы https://www.nature.com/articles/s41561-021-00824-y

## Чек-лист для публикации

- [ ]  Пункт 1 ...

## Список литературы

* [How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021)](https://arxiv.org/abs/2108.02497)

* [Data and its (dis)contents: A survey of dataset development and use in machine learning research (Paullada et al., 2020)](https://arxiv.org/abs/2012.05345)

* [ImageNet: A large-scale hierarchical image database (Deng et al., 2009)](https://ieeexplore.ieee.org/document/5206848)

* [Excavating AI. The Politics of Images in Machine Learning Training Sets (Crawford & Paglen, 2019)](https://excavating.ai/)

* [Towards fairer datasets: filtering and balancing the distribution of the people subtree in the ImageNet hierarchy (Yang et al., 2020)](https://dl.acm.org/doi/abs/10.1145/3351095.3375709)

* [Translating Statistics to Make Decisions: A Guide for the Non-Statistician (Cox, 2017)](https://www.oreilly.com/library/view/translating-statistics-to/9781484222560/A426308_1_En_3_Chapter.html)

* [Understanding data augmentation for classification: when to warp? (Wong et al., 2016)](https://arxiv.org/abs/1609.08764)

* [A survey on Image Data Augmentation for Deep Learning (Shorten et al., 2019)](https://link.springer.com/article/10.1186/s40537-019-0197-0?code=a6ae644c-3bfc-43d9-b292-82d77d5890d5)

* [Learning from class-imbalanced data: Review of methods and applications (Haixiang et al., 2017)](https://www.sciencedirect.com/science/article/abs/pii/S0957417416307175)

* [NLP's Clever Hans Moment has Arrived (Heinzerling, 2019)](https://thegradient.pub/nlps-clever-hans-moment-has-arrived/)

* [The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers (Csordás et al., 2021)](https://arxiv.org/abs/2108.12284)

* [Drawing Multiple Augmentation Samples Per Image During Training Efficiently Decreases Test Error (Fort et al., 2021)](https://arxiv.org/abs/2105.13343)

* [Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead (Rudin, 2019)](https://www.nature.com/articles/s42256-019-0048-x)

* [Hidden Technical Debt in Machine Learning Systems (Sculley et al., 2015)](https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf)

* [Sustainable MLOps - Trends and Challenges (Tamburri et al., 2020)](https://research.tue.nl/en/publications/sustainable-mlops-trends-and-challenges)

* [On Over-fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation (Cawley, 2010)](https://www.jmlr.org/papers/volume11/cawley10a/cawley10a.pdf)

* [Leakage in data mining: Formulation, detection, and avoidance (Kaufman et al., 2012)](https://dl.acm.org/doi/10.1145/2382577.2382579)

* [The Supervised Learning No-Free-Lunch Theorems (Wolpert, 2002)](https://link.springer.com/chapter/10.1007/978-1-4471-0123-9_3)

* [Feature selection in machine learning: A new perspective (Cai et al., 2018)](https://www.sciencedirect.com/science/article/pii/S0925231218302911)

* [On Hyperparameter Optimization of Machine Learning Algorithms: Theory and Practice (Yang et al., 2020)](https://arxiv.org/abs/2007.15745)

* [AutoML: A Survey of the State-of-the-Art (He et al., 2021)](https://arxiv.org/abs/1908.00709)

* [A survey of cross-validation procedures for model selection (Arlot et al., 2010)](https://projecteuclid.org/journals/statistics-surveys/volume-4/issue-none/A-survey-of-cross-validation-procedures-for-model-selection/10.1214/09-SS054.full)

* [Learning from class-imbalanced data: Review of methods and applications (Haixiang et al., 2017)](https://www.sciencedirect.com/science/article/abs/pii/S0957417416307175)

* [Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning (Raschka, 2020)](https://arxiv.org/abs/1811.12808)

* [The Extent and Consequences of P-Hacking in Science (Head et a., 2015)](https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002106)

* [On Comparing Classifiers: Pitfalls to Avoid and a Recommended Approach (Salzberg, 1997)](https://link.springer.com/article/10.1023/A:1009752403260)

* [Best (but oft-forgotten) practices: the multiple problems of multiplicity—whether and how to correct for many statistical tests (Streiner et al., 2015)](https://academic.oup.com/ajcn/article/102/4/721/4564678)

* [A survey on ensemble learning (Dong et al., 2019)](https://link.springer.com/article/10.1007/s11704-019-8208-z)

* [Improving Reproducibility in Machine Learning Research (A Report from the NeurIPS 2019 Reproducibility Program) (Pineau et al., 2020)](https://arxiv.org/abs/2003.12206)

* [A critical analysis of metrics used for measuring progress in artificial intelligence (Blagec et al., 2020)](https://arxiv.org/abs/2008.02577)

* [The p-Value Requires Context, Not a Threshold (Betensky, 2019)](https://www.tandfonline.com/doi/full/10.1080/00031305.2018.1529624)

* [Principles and Practice of Explainable Machine Learning (Belle et al., 2021)](https://www.frontiersin.org/articles/10.3389/fdata.2021.688969/full)

* [Science Forum: Ten common statistical mistakes to watch out for when writing or reviewing a manuscript (Makin et al., 2019)](https://elifesciences.org/articles/48175)

* [Highly accurate protein structure prediction with AlphaFold (Jumper et al., 2021)](https://www.nature.com/articles/s41586-021-03819-2). 