# Подготовка данных для обучения моделей

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* https://pytorch.org/docs/stable/data.html
* https://pytorch.org/tutorials/beginner/data_loading_tutorial.html
* Deep Learning with PyTorch (2020) Авторы: Eli Stevens, Luca Antiga, Thomas Viehmann


## Задачи для совместного разбора

1. Создайте синтетический датасет для задачи регрессии и представьте его в виде `torch.utils.data.Dataset`

In [3]:
import torch as th
from torch.utils.data import Dataset
from sklearn.datasets import make_regression

In [6]:
X, y = make_regression(n_samples=1000, n_features=10)
X.shape, y.shape, type(X)

((1000, 10), (1000,), numpy.ndarray)

In [20]:
from typing import Callable

class RegressionDataset(Dataset):
  def __init__(self, transform: Callable | None = None, **kwargs):
    super().__init__()
    self.X, self.y = make_regression(**kwargs)
    self.transform = transform

  def custom_method(self):
    ...

  def __getitem__(self, idx):
    x = self.X[idx]
    if self.transform is not None:
      x = self.transform(x)
    y = self.y[idx]

    return x, y

  def __len__(self):
    return len(self.X)

In [None]:
def f(x):
  return x

f(5)

In [10]:
class MyCallable:
  def __call__(self, x):
    return x

In [11]:
c = MyCallable()
c(5)

5

In [21]:
dataset = RegressionDataset(n_samples=1000, n_features=10)
dataset[0]

(array([-0.24141357,  1.68007701, -0.04975286, -0.25431413, -1.02886137,
        -0.66316105, -0.94303068, -0.68389982,  0.81544372,  1.30291763]),
 131.2152720762794)

In [15]:
import numpy as np


def my_transformer(x: np.ndarray) -> np.ndarray:
  return 1000 * x

In [17]:
class MyCallable:
  def __init__(self, coef: int) -> None:
    self._coef = coef

  def __call__(self, x: np.ndarray) -> np.ndarray:
    return self._coef * x

In [16]:
dataset = RegressionDataset(
    transform=my_transformer,
    n_samples=1000,
    n_features=10
)
dataset[0]

(array([ -555.22473229,   205.42609829,   973.52255518,  1029.77911366,
         1034.66585625,  1375.80970068, -2275.52594042,  -154.66961241,
        -1983.88807456,   412.34304866]),
 205.68075871586205)

In [18]:
dataset = RegressionDataset(
    transform=MyCallable(coef=10000),
    n_samples=1000,
    n_features=10
)
dataset[0]

(array([ -1542.66628129, -15887.32572743,  -1097.10086396,  -6952.29066923,
          2507.71457059,   4615.49363607,    244.33408318,   4389.47919397,
        -13193.46295254,  -6211.69272846]),
 -244.9297284302906)

In [19]:
dataset[:2]

(array([[ -1542.66628129, -15887.32572743,  -1097.10086396,
          -6952.29066923,   2507.71457059,   4615.49363607,
            244.33408318,   4389.47919397, -13193.46295254,
          -6211.69272846],
        [ -6524.47340239,    884.23858683,   5470.61054683,
         -10314.90079287,  -5903.28603929,  -2733.19632054,
          -6260.11135753,  13599.43083796,  -2701.26245013,
            489.17898144]]),
 array([-244.92972843,    6.16031246]))

In [22]:
from torch.utils.data import random_split

In [25]:
train, val, test = random_split(dataset, lengths=[0.7, 0.15, 0.15])

In [26]:
train[0]

(array([ 1.33336251, -0.49351486, -1.02045199, -1.07247949,  0.35146669,
         0.07814007, -0.29888023,  1.60881317,  2.10502361,  0.07108055]),
 1.054779999410627)

In [28]:
len(train)

700

In [29]:
from torch.utils.data import DataLoader

In [32]:
loader = DataLoader(train, 64, )

it = iter(loader)
x, y = next(it)
x.shape, y.shape

(torch.Size([64, 10]), torch.Size([64]))

In [33]:
for x, y in loader:
  print(x.shape, y.shape)
  # break

torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([60, 10]) torch.Size([60])


In [30]:
700 % 64

60

## Задачи для самостоятельного решения

<p class="task" id="1"></p>

1\. Считайте файл `bank-full.csv` ([источник](https://www.kaggle.com/datasets/hariharanpavan/bank-marketing-dataset-analysis-classification)) в виде `pd.DataFrame`.

Опишите класс `BankDatasetBase`. Решение должно удовлетворять следующим критериям:

* класс наследуется от `torch.utils.data.Dataset`;
* при создании объекта в конструктор передается набор данных в виде `pd.DataFrame`;
* объекты класса имеют поля `X` и `y` с признаками и метками соответственно;
* класс реализует интерфейс последовательностей (`__getitem__` + `__len__`);
* `obj[i]` возвращает кортеж, содержащий `i`-ую строку из `obj.X` (серию) и `i`-ую строку из `obj.y` (строку).
    
Создайте объект класса `BankDatasetBase` и продемонстрируйте работоспособность.

- [ ] Проверено на семинаре

In [None]:
class BankDatasetBase(
    # ...
):
    def __init__(self, data: pd.DataFrame) -> None:
        pass

    def __getitem__(self, idx: int) -> tuple:
        pass

    def __len__(self) -> int:
        pass

<p class="task" id="2"></p>

2\. Опишите класс `BankDataset`. Решение должно удовлетворять всем критериям из предыдущего задания, а также:
* при создании объекта в конструктор может быть передан необязательные аргументы `transform` и `target_transform`;
* если аргумент `transform` был передан, то при получении `i`-го элемента, нужно вызвать `transform(x)` и вернуть полученный результат.
* если аргумент `target_transform` был передан, то при получении `i`-го элемента, нужно вызвать `target_transform(y)` и вернуть полученный результат.

Создайте объект класса `BankDataset` и продемонстрируйте работоспособность (без передачи `target_transform` и `transform`).

- [ ] Проверено на семинаре

In [None]:
from typing import Callable


class BankDataset(
    # ...
):
    def __init__(
            self,
            data: pd.DataFrame,
            transform: Сallable | None = None,
            target_transform: Сallable | None = None
    ) -> None:
        pass

    def __getitem__(self, idx: int) -> tuple:
        # x - набор признаков из idx-й строки
        # y - набор признаков из idx-й строки
        # если при создании был передан transform
        # x, y = transform(x, y)
        pass

    def __len__(self) -> int:
        pass

<p class="task" id="3"></p>

3\. Опишите класс `OrdinalEncoderTransform`. Решение должно удовлетворять следующим критериям:

* при создании объекта в конструктор передаются названия нечисловых столбцов в датасете
* класс реализует интерфейс `Callable` (`__call__`); метод `__call__` имеет один параметр (признаки) и возвращает набор признаков, в котором нечисловые характеристики закодированы целыми числами;
* состояние объекта (индексы для кодирования) обновляется в момент очередного вызова `__call__` (т.е. все данные сразу никогда не передаются никакому методу объекта).
    
Продемонстрируйте работоспособность, создав объект `BankDataset` и передав при создании объект класса `OrdinalEncoderTransform`.

- [ ] Проверено на семинаре

In [None]:
class Transform:
    pass

In [None]:
import pandas as pd

class OrdinalEncoderTransform(Transform):
    def __init__(self, category_columns: list[str]) -> None:
        pass

    def __call__(self, x: pd.Series) -> pd.Series:
        pass

<p class="task" id="4"></p>

4\. Опишите класс `LabelEncoderTransform`. Решение должно удовлетворять следующим критериям:

* класс реализует интерфейс `Callable` (`__call__`); метод `__call__` имеет один параметр (строку) и возвращает целое число, соответствующее этой строке;
* состояние объекта (индексы для кодирования) обновляется в момент очередного вызова `__call__` (т.е. все данные сразу никогда не передаются никакому методу объекта).
    
Продемонстрируйте работоспособность, создав объект `BankDataset` и передав при создании объекта в качестве аргумента `target_transform` объект класса `LabelEncoderTransform`.

- [ ] Проверено на семинаре

In [None]:
class LabelEncoderTransform(Transform):
    def __init__(self) -> None:
        pass

    def __call__(self, x: str) -> int:
        pass

<p class="task" id="5"></p>

5\. Опишите класс `ToTensor`.  Решение должно удовлетворять следующим критериям:
* класс реализует интерфейс `Callable` (`__call__`); метод `__call__` принимает на вход серию или фрейм и возвращает тензор.

Опишите класс `Compose`.  Решение должно удовлетворять следующим критериям:
* при создании объекта в конструктор передается список объектов `transforms`, каждый из которых имеет метод `__call__(x, y)`;
* класс реализует интерфейс `Callable` (`__call__`); метод `__call__` принимает имеет параметра (признаки и класс в числовом виде) и и возвращает кортеж, полученный путем последовательного вызова объектов из `transforms`.

Продемонстрируйте работоспособность, создав объект `BankDataset` и передав при создании преобразования `Compose` список из объектов LabelEncoderTransform и ToTensor.

- [ ] Проверено на семинаре

In [None]:
import torch as th
from typing import Any

class ToTensor(Transform):
    def __call__(self, X: pd.Series | int) -> th.Tensor:
        pass

class Compose(Transform):
    def __init__(self, transforms: list[Transform]) -> None:
        pass

    def __call__(self, X: Any) -> Any:
        pass

<p class="task" id="6"></p>

6\. Разделите датасет из предыдущего задания на обучающую и тестовую выборку в соотношении 75% на 25%. Создайте объект `DataLoader` для получения пакетов размера 64, полученных из перемешанного обучающего датасета. Кастомизируйте `DataLoader` таким образом, чтобы пакет признаков был представлен в виде трехмерного тензора размера 64x2x8 (разделите 16 признаков на два тензора по 8). Получите один пакет и выведите на экран размерность тензоров пакета.

- [ ] Проверено на семинаре