# Тема 1/4: Этика работы с данными

## Введение
Работа в любой сфере регламентируется юридическими правилами и нормами. Кроме юридических ограничений, существуют ещё и этические. Их выполнение зависит от конкретного человека.

Пример такого этического правила — Клятва Гиппократа, которую дают медики по всему миру. Конечно, юридические нормы могут уточнять этические и даже идти вразрез с ними. Например, во многих странах врачи обязаны сообщать соответствующим государственным органам о наличии у пациента заболеваний, распространение которых может привести к развитию серьёзной эпидемии: холера, оспа, ботулизм.

В мире данных не существует единых этических правил, но есть моменты, которым важно уделять внимание. Какие — покажем на примерах в следующих уроках.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### Зафиксируйте версии библиотек

In [None]:
!pip install pandas==1.0.0 scikit-learn==1.1.0 numpy==1.22.0

В том случае, если нужно установить специальную библиотеку или для подготовки окружения требуются более сложные манипуляции, напишите полную инструкцию или хотя бы оставьте ссылку на уже написанную инструкцию.

## Мониторинг моделей и предвзятость

Специалисты по Data Science не только тренируют модели, но и следят за ними в процессе использования.

Во время работы модели в реальных условиях накапливаются реальные данные, на которых можно проверить результаты предсказаний. В этот момент проявляются изъяны модели. Весомый изъян, который часто обнаруживается, — предвзятость.

### Пример 1
Вы работаете в крупнейшем банке страны специалистом по машинному обучению в отделе кредитного скоринга. Вы пользуетесь моделью, которая предсказывает, вернёт ли потенциальный заёмщик деньги в срок. Аналитики подготовили отчёт о результатах работы модели за последний год. Оказалось, что за прошедший период модель предсказала, что 68% женщин не вернут деньги в срок, в то время как для мужчин данный показатель равен 35%. На основе этого показателя уже можно судить о предвзятости модели: она считает, что женщины с большей вероятностью не выплатят кредит. 

В описанном случае предвзятость обнаружить легко: есть корреляция между признаком «Пол» и целевой переменной. Однако это не всегда так: иногда модель ведёт себя предвзято по отношению к группе объектов, объединённых по нескольким признакам. 

![image.png](attachment:image.png)

### Причины возникновения предвзятости
Одной из причин предвзятости моделей может служить историческая человеческая предвзятость. Так, если исторически на должности инженеров мужчин нанимали охотнее, то и обученный на исторических данных алгоритм будет более привилегированно относиться к кандидатам-мужчинам. Если исторически судебная система с большей охотой выносила обвинительные приговоры представителям определённой расы или народа, то и обученная модель будет чаще признавать виновными людей определённой расы или народности.

Другой причиной предвзятости могут быть неполные или нерепрезентативные обучающие данные. Например, если для разработки модели идентификации человека по фото используется датасет, где было очень мало людей с каким-то оттенком кожи, то и при использовании обученной на этом датасете модели люди с этим оттенком кожи будут чаще встречаться с ошибками распознавания. 

Иногда модель может ошибаться из-за непродуманной предобработки данных. Предположим, во время обработки датасета с характеристиками квартир и стоимостью их продажи вы обнаружили, что большинство квартир имеют 1, 2 или 3 комнаты, 5-комнатную квартиру не включили в обучающий датасет. Тогда, если для предсказания модели предложат 5-комнатную квартиру, модель может не сориентироваться и выдать заниженную или завышенную цену.

### Распознать и обезвредить
Как же тогда определить, что модель предсказывает предвзято? Один из способов — проверить каждую возможную группу объектов. В том случае, если признаков, по которым можно выделить объекты, очень много, используйте кластеризацию. После объединения объектов в группы сравните предсказания на них. Но сравнивать нужно не только предсказания для группы, но и ошибку. Как в случае с тарифом для автострахования, предсказания могут быть предвзятыми, но при этом честными.

Можно ли избежать предвзятости модели? Конечно, для этого нужно всего лишь… грамотно собрать, разметить и обработать обучающую выборку. В ней должны быть все возможные примеры: представители разного пола, народности, цвета кожи, возраста, конституции и т. д. В случае если признак может быть использован для дискриминации, как, например, пол при подборе кандидатов на работу, лучше всего исключить его из датасета. Особенно осторожно нужно работать с медицинскими данными: там пол и возраст могут иметь критически важное значение.

## Компьютерное зрение в PyTorch

Для работы с компьютерным зрением вам потребуется библиотека `torchvision`. С её помощью вы сможете загружать уже готовые претренированные модели классификации. С полным списком моделей вы можете ознакомиться в документации https://pytorch.org/vision/main/models.html#classification

Загрузим модель ResNet-18:

In [2]:
!pip install torch torchvision

Collecting torch
  Downloading torch-2.8.0-cp311-cp311-win_amd64.whl.metadata (30 kB)
Collecting torchvision
  Downloading torchvision-0.23.0-cp311-cp311-win_amd64.whl.metadata (6.1 kB)
Collecting filelock (from torch)
  Downloading filelock-3.19.1-py3-none-any.whl.metadata (2.1 kB)
Collecting sympy>=1.13.3 (from torch)
  Using cached sympy-1.14.0-py3-none-any.whl.metadata (12 kB)
Collecting networkx (from torch)
  Downloading networkx-3.5-py3-none-any.whl.metadata (6.3 kB)
Collecting fsspec (from torch)
  Downloading fsspec-2025.7.0-py3-none-any.whl.metadata (12 kB)
Collecting mpmath<1.4,>=1.1.0 (from sympy>=1.13.3->torch)
  Using cached mpmath-1.3.0-py3-none-any.whl.metadata (8.6 kB)
Downloading torch-2.8.0-cp311-cp311-win_amd64.whl (241.4 MB)
   ---------------------------------------- 0.0/241.4 MB ? eta -:--:--
   ---------------------------------------- 0.8/241.4 MB 6.7 MB/s eta 0:00:36
    --------------------------------------- 3.1/241.4 MB 10.2 MB/s eta 0:00:24
    ------------

In [3]:
import torch.nn as nn
import torchvision.models as models

resnet = models.resnet18(pretrained=True) #загружаем претренированную модель



Downloading: "https://download.pytorch.org/models/resnet18-f37072fd.pth" to C:\Users\Danila/.cache\torch\hub\checkpoints\resnet18-f37072fd.pth


100%|█████████████████████████████████████████████████████████████████████████████| 44.7M/44.7M [00:04<00:00, 10.2MB/s]


Нам не потребуется обучать модель, поэтому рекомендуем заморозить веса:

In [4]:
for param in resnet.parameters():
    param.requires_grad_(False)

После заморозки весов надо определиться, все ли слои можно использовать для получения эмбеддингов. На практике используются только свёрточные слои. Для получения списка слоёв пригодится метод `children()`:

In [5]:
print(list(resnet.children()))

[Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False), BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True), ReLU(inplace=True), MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False), Sequential(
  (0): BasicBlock(
    (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
    (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (relu): ReLU(inplace=True)
    (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
    (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  )
  (1): BasicBlock(
    (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
    (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (relu): ReLU(inplace=True)
    (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bia

В нашем случае, нужно взять все слои, кроме последних двух:

In [6]:
modules = list(resnet.children())[:-2]
resnet = nn.Sequential(*modules)

Не забудем перевести модель в режим предсказания:

In [7]:
resnet.eval()

Sequential(
  (0): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (2): ReLU(inplace=True)
  (3): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (4): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Con

Теперь перейдём к тому, как получить предсказания. Сначала изображение нужно привести в нужный формат. Для этого изменяют размер картинки, вырезают центр и нормализуют:

In [8]:
from torchvision import transforms
norm = transforms.Normalize(
    mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    norm,
])

Данные преобразования применимы к модели ResNet. Для других моделей уточняйте необходимые преобразования в документации.
Для чтения изображений понадобится библиотека PIL:

In [10]:
from PIL import Image
import os
#img = Image.open("path/to/image").convert('RGB')

Тогда получение эмбеддинга для конкретной картинки будет выглядеть так:

In [None]:
image_tensor = preprocess(img)
output_tensor = resnet(input_tensor).flatten() # сразу спрямим тензор в вектор