## Задачи для совместного разбора

1. Создайте синтетический датасет для задачи регрессии и представьте его в виде `torch.utils.data.Dataset`

In [None]:
import torch as th
from torch.utils.data import Dataset
from sklearn.datasets import make_regression

In [None]:
X, y = make_regression(n_samples=1000, n_features=10)
X.shape, y.shape, type(X)

((1000, 10), (1000,), numpy.ndarray)

In [None]:
from typing import Callable

class RegressionDataset(Dataset):
  def __init__(self, transform: Callable | None = None, **kwargs):
    super().__init__()
    self.X, self.y = make_regression(**kwargs)
    self.transform = transform

  def custom_method(self):
    ...

  def __getitem__(self, idx):
    x = self.X[idx]
    if self.transform is not None:
      x = self.transform(x)
    y = self.y[idx]

    return x, y

  def __len__(self):
    return len(self.X)

In [None]:
def f(x):
  return x

f(5)

5

In [None]:
class MyCallable:
  def __call__(self, x):
    return x

In [None]:
c = MyCallable()
c(5)

5

In [None]:
dataset = RegressionDataset(n_samples=1000, n_features=10)
dataset[0]


(array([-0.76144751,  0.89368459,  1.90104788, -0.76797794,  0.64751393,
         0.48789274,  0.26571376,  0.59413217, -0.16829248, -1.83620007]),
 -57.15073421147048)

In [None]:
import numpy as np


def my_transformer(x: np.ndarray) -> np.ndarray:
  return 1000 * x

In [None]:
class MyCallable:
  def __init__(self, coef: int) -> None:
    self._coef = coef

  def __call__(self, x: np.ndarray) -> np.ndarray:
    return self._coef * x

In [None]:
dataset = RegressionDataset(
    transform=my_transformer,
    n_samples=1000,
    n_features=10
)
dataset[0]

(array([ 1926.76532782,  -361.11316007,   901.5824913 , -1892.5947697 ,
          411.85504512, -1651.96294707, -1156.72050829, -1343.78101123,
          149.73937767,  -763.9756208 ]),
 -214.9273825211871)

In [None]:
dataset = RegressionDataset(
    transform=MyCallable(coef=10000),
    n_samples=1000,
    n_features=10
)
dataset[0]

(array([  6701.26721832,   6694.02643488,   -276.11608973,   7663.204239  ,
          9039.78003595, -13053.01075388,  11395.11010442,  -8899.31677303,
          8003.8415776 ,   6050.15813359]),
 112.68097649899093)

In [None]:
dataset[:2]

(array([[ -8846.08946118,  20835.70903418,   7261.56895168,
           7045.79129431, -11227.1350132 , -10525.99810997,
          -9565.23391514, -12145.64501343,  -6007.36541922,
         -15472.37973203],
        [ 11323.07424038,  -9823.11520796, -21821.13173044,
          -9532.21608606, -28646.91156685,     97.92876   ,
           4902.94670609,    410.23783073,   3894.32721213,
           9046.80528692]]),
 array([-105.72411979, -372.66398946]))

In [None]:
from torch.utils.data import random_split

In [None]:
train, val, test = random_split(dataset, lengths=[0.7, 0.15, 0.15])

In [None]:
train[0]

(array([  4003.20144707,  20308.6640614 , -25808.18374574,   5970.2371649 ,
          2039.32296666,   9876.28459682,   -395.24846669, -12657.28231897,
         -7493.02931397,   8033.60848452]),
 -90.54081025443043)

In [None]:
len(train)

700

In [None]:
from torch.utils.data import DataLoader

In [None]:
loader = DataLoader(train, 64, )

it = iter(loader)
x, y = next(it)
x.shape, y.shape


(torch.Size([64, 10]), torch.Size([64]))

In [None]:
for x, y in loader:
  print(x.shape, y.shape)
  # break


torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([64, 10]) torch.Size([64])
torch.Size([60, 10]) torch.Size([60])


In [None]:
700 % 64

60

## Задачи для самостоятельного решения

<p class="task" id="1"></p>

1\. Считайте файл `bank-full.csv` ([источник](https://www.kaggle.com/datasets/hariharanpavan/bank-marketing-dataset-analysis-classification)) в виде `pd.DataFrame`.

Опишите класс `BankDatasetBase`. Решение должно удовлетворять следующим критериям:

* класс наследуется от `torch.utils.data.Dataset`;
* при создании объекта в конструктор передается набор данных в виде `pd.DataFrame`;
* объекты класса имеют поля `X` и `y` с признаками и метками соответственно;
* класс реализует интерфейс последовательностей (`__getitem__` + `__len__`);
* `obj[i]` возвращает кортеж, содержащий `i`-ую строку из `obj.X` (серию) и `i`-ую строку из `obj.y` (строку).
    
Создайте объект класса `BankDatasetBase` и продемонстрируйте работоспособность.

- [ ] Проверено на семинаре

In [None]:
import torch as th
import pandas as pd
from torch.utils.data import Dataset
data = pd.read_csv('bank-full.csv')
data.head(1)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no


In [None]:
class BankDatasetBase(Dataset
    # ...
):
    def __init__(self, data: pd.DataFrame) -> None:
        super().__init__()
        self.y = data['y']
        self.X = data.drop(columns=['y'])

    def __getitem__(self, idx: int) -> tuple:
        x = self.X.iloc[idx] #self.x[idx]
        y = self.y.iloc[idx] #sself.y[idx]

        return x,y

    def __len__(self) -> int:
        return len(self.X)

In [None]:
obj = BankDatasetBase(data)
type(data) #pandas.core.frame.DataFrame

In [None]:
issubclass (BankDatasetBase, th.utils.data.Dataset) #наследование

True

In [None]:
obj.X

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown


In [None]:
obj.y

Unnamed: 0,y
0,no
1,no
2,no
3,no
4,no
...,...
45206,yes
45207,yes
45208,yes
45209,no


In [None]:
len(obj) #len

45211

In [None]:
obj[:5] #getitem

(   age           job  marital  education default  balance housing loan  \
 0   58    management  married   tertiary      no     2143     yes   no   
 1   44    technician   single  secondary      no       29     yes   no   
 2   33  entrepreneur  married  secondary      no        2     yes  yes   
 3   47   blue-collar  married    unknown      no     1506     yes   no   
 4   33       unknown   single    unknown      no        1      no   no   
 
    contact  day month  duration  campaign  pdays  previous poutcome  
 0  unknown    5   may       261         1     -1         0  unknown  
 1  unknown    5   may       151         1     -1         0  unknown  
 2  unknown    5   may        76         1     -1         0  unknown  
 3  unknown    5   may        92         1     -1         0  unknown  
 4  unknown    5   may       198         1     -1         0  unknown  ,
 0    no
 1    no
 2    no
 3    no
 4    no
 Name: y, dtype: object)

In [None]:
obj[0]

(age                  58
 job          management
 marital         married
 education      tertiary
 default              no
 balance            2143
 housing             yes
 loan                 no
 contact         unknown
 day                   5
 month               may
 duration            261
 campaign              1
 pdays                -1
 previous              0
 poutcome        unknown
 Name: 0, dtype: object,
 'no')

<p class="task" id="2"></p>

2\. Опишите класс `BankDataset`. Решение должно удовлетворять всем критериям из предыдущего задания, а также:
* при создании объекта в конструктор может быть передан необязательные аргументы `transform` и `target_transform`;
* если аргумент `transform` был передан, то при получении `i`-го элемента, нужно вызвать `transform(x)` и вернуть полученный результат.
* если аргумент `target_transform` был передан, то при получении `i`-го элемента, нужно вызвать `target_transform(y)` и вернуть полученный результат.

Создайте объект класса `BankDataset` и продемонстрируйте работоспособность (без передачи `target_transform` и `transform`).

- [ ] Проверено на семинаре

In [None]:
import pandas as pd

In [None]:
from typing import Callable

class BankDataset(Dataset
    # ...
):
    def __init__(
            self,
            data: pd.DataFrame,
            transform: Callable | None = None,
            target_transform: Callable | None = None
    ) -> None:
        super().__init__()
        self.y = data['y']
        self.X = data.drop(columns=['y'])

        if transform is not None:
            self.X = transform(self.X)
        if target_transform is not None:
            self.y = target_transform(self.y)

    def __getitem__(self, idx: int) -> tuple:
        # x - набор признаков из idx-й строки
        # y - набор признаков из idx-й строки
        # если при создании был передан transform
        # x, y = transform(x, y)
        x = self.X.iloc[idx]
        y = self.y.iloc[idx]

        return x,y

    def __len__(self) -> int:
        return len(self.X)

In [None]:
obj_1  = BankDataset(data)
obj_1.X

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown


In [None]:
obj_1.y

Unnamed: 0,y
0,no
1,no
2,no
3,no
4,no
...,...
45206,yes
45207,yes
45208,yes
45209,no


In [None]:
obj_1.X[1:3]

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown


In [None]:
len(obj_1)

45211

<p class="task" id="3"></p>

3\. Опишите класс `OrdinalEncoderTransform`. Решение должно удовлетворять следующим критериям:

* при создании объекта в конструктор передаются названия нечисловых столбцов в датасете
* класс реализует интерфейс `Callable` (`__call__`); метод `__call__` имеет один параметр (признаки) и возвращает набор признаков, в котором нечисловые характеристики закодированы целыми числами;
* состояние объекта (индексы для кодирования) обновляется в момент очередного вызова `__call__` (т.е. все данные сразу никогда не передаются никакому методу объекта).
    
Продемонстрируйте работоспособность, создав объект `BankDataset` и передав при создании объект класса `OrdinalEncoderTransform`.

- [ ] Проверено на семинаре

In [None]:
class Transform:
    pass

In [None]:
from sklearn.preprocessing import OrdinalEncoder

class OrdinalEncoderTransform(Transform):
    def __init__(self, category_columns: list[str]) -> None:
        self.category_columns = category_columns
        self.encoders = {col: OrdinalEncoder(dtype=int) for col in self.category_columns}
        self.is_fitted = {col: False for col in self.category_columns}

    def __call__(self, x: pd.DataFrame) -> pd.DataFrame:
        for col in self.category_columns:
            # Если энкодер ещё не был обучен, обучаем его на текущем наборе данных
            if not self.is_fitted[col]:
                self.encoders[col].fit(x[[col]])
                self.is_fitted[col] = True
            x[col] = self.encoders[col].transform(x[[col]])
        return x

In [None]:
obj_2  = OrdinalEncoderTransform(['job','marital'])
obj_2(obj_1.X)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,4,1,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,9,2,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,2,1,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,1,1,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,11,2,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,9,1,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown
45207,71,5,0,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown
45208,72,5,1,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success
45209,57,1,1,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown


In [None]:
# obj_1.X

In [None]:
obj_3 = OrdinalEncoderTransform(['job','marital', 'education'])
obj_3(obj_1.X)

In [None]:
obj_1.X

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
0,58,4,1,2,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown
1,44,9,2,1,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown
2,33,2,1,1,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown
3,47,1,1,3,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown
4,33,11,2,3,no,1,no,no,unknown,5,may,198,1,-1,0,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,9,1,2,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown
45207,71,5,0,0,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown
45208,72,5,1,1,no,5715,no,no,cellular,17,nov,1127,5,184,3,success
45209,57,1,1,1,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown


<p class="task" id="4"></p>

4\. Опишите класс `LabelEncoderTransform`. Решение должно удовлетворять следующим критериям:

* класс реализует интерфейс `Callable` (`__call__`); метод `__call__` имеет один параметр (строку) и возвращает целое число, соответствующее этой строке;
* состояние объекта (индексы для кодирования) обновляется в момент очередного вызова `__call__` (т.е. все данные сразу никогда не передаются никакому методу объекта).
    
Продемонстрируйте работоспособность, создав объект `BankDataset` и передав при создании объекта в качестве аргумента `target_transform` объект класса `LabelEncoderTransform`.

- [ ] Проверено на семинаре

In [None]:
class Transform:
    pass

In [None]:
# class LabelEncoderTransform(Transform):
#     def __init__(self) -> None:
#         self.d_ = {}
#         self.current_index = 0

#     def __call__(self, x: str) -> int:
#         if x in self.d_:
#             return self.d_[x]
#         else:
#             self.d_[x] = self.current_index
#             self.current_index += 1
#             return self.d_[x]

class LabelEncoderTransform:
    def __init__(self) -> None:
        self.d_ = {}
        self.current_index = 0

    def __call__(self, x: pd.Series | str) -> pd.Series | int:
        if isinstance(x, pd.DataFrame):
            return x.apply(self._encode_column)
        if isinstance(x, pd.Series):
            return x.apply(self._encode)
        else:
            return self._encode(x)

    def _encode(self, value: str) -> int:
        if value in self.d_:
            return self.d_[value]
        else:
            self.d_[value] = self.current_index
            self.current_index += 1
            return self.d_[value]

    def _encode_column(self, column: pd.Series) -> pd.Series:
        if column.dtype == 'object':
            return column.apply(self._encode)
        return column


In [None]:
obj_1  = BankDataset(data, target_transform=LabelEncoderTransform())

In [None]:
set(obj_1.y) #работает

{0, 1}

<p class="task" id="5"></p>

5\. Опишите класс `ToTensor`.  Решение должно удовлетворять следующим критериям:
* класс реализует интерфейс `Callable` (`__call__`); метод `__call__` принимает на вход серию или фрейм и возвращает тензор.

Опишите класс `Compose`.  Решение должно удовлетворять следующим критериям:
* при создании объекта в конструктор передается список объектов `transforms`, каждый из которых имеет метод `__call__(x, y)`;
* класс реализует интерфейс `Callable` (`__call__`); метод `__call__` принимает имеет параметра (признаки и класс в числовом виде) и и возвращает кортеж, полученный путем последовательного вызова объектов из `transforms`.

Продемонстрируйте работоспособность, создав объект `BankDataset` и передав при создании преобразования `Compose` список из объектов LabelEncoderTransform и ToTensor.

- [ ] Проверено на семинаре

In [None]:
from typing import Callable

class BankDataset(Dataset
    # ...
):
    def __init__(
            self,
            data: pd.DataFrame,
            transform: Callable | None = None,
            target_transform: Callable | None = None
    ) -> None:
        super().__init__()
        self.y = data['y']
        self.X = data.drop(columns=['y'])

        if transform is not None:
            self.X = transform(self.X)
        if target_transform is not None:
            self.y = target_transform(self.y)

    def __getitem__(self, idx: int) -> tuple:
        # x - набор признаков из idx-й строки
        # y - набор признаков из idx-й строки
        # если при создании был передан transform
        # x, y = transform(x, y)
        x = self.X.iloc[idx]
        y = self.y.iloc[idx]

        return x,y

    def __len__(self) -> int:
        return len(self.X)

In [None]:
data = pd.read_csv('bank-full.csv')

In [None]:
import torch as th
from typing import Any
import pandas as pd

class ToTensor(Transform):
    def __call__(self, X: pd.Series | pd.DataFrame) -> th.Tensor:
        return th.tensor(X.values)

class Compose(Transform):
    def __init__(self, transforms: list[Transform]) -> None:
        self.transforms = transforms

    def __call__(self, X: Any) -> Any:
        for tr in self.transforms:
            X = tr(X)
        return X

In [None]:
obj_4  = BankDataset(data, target_transform=Compose([LabelEncoderTransform(), ToTensor()]),
                     transform=Compose([LabelEncoderTransform(), ToTensor()]))

In [None]:
obj_4.y[:10], type(obj_4.y)

(tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0]), torch.Tensor)

In [None]:
obj_4.X[:10], type(obj_4.X)

(tensor([[  58,    0,   12,   15,   18, 2143,   19,   18,    4,    5,   22,  261,
             1,   -1,    0,    4],
         [  44,    1,   13,   16,   18,   29,   19,   18,    4,    5,   22,  151,
             1,   -1,    0,    4],
         [  33,    2,   12,   16,   18,    2,   19,   19,    4,    5,   22,   76,
             1,   -1,    0,    4],
         [  47,    3,   12,    4,   18, 1506,   19,   18,    4,    5,   22,   92,
             1,   -1,    0,    4],
         [  33,    4,   13,    4,   18,    1,   18,   18,    4,    5,   22,  198,
             1,   -1,    0,    4],
         [  35,    0,   12,   15,   18,  231,   19,   18,    4,    5,   22,  139,
             1,   -1,    0,    4],
         [  28,    0,   13,   15,   18,  447,   19,   19,    4,    5,   22,  217,
             1,   -1,    0,    4],
         [  42,    2,   14,   15,   19,    2,   19,   18,    4,    5,   22,  380,
             1,   -1,    0,    4],
         [  58,    5,   12,   17,   18,  121,   19,   18,    4, 

<p class="task" id="6"></p>

6\. Разделите датасет из предыдущего задания на обучающую и тестовую выборку в соотношении 75% на 25%. Создайте объект `DataLoader` для получения пакетов размера 64, полученных из перемешанного обучающего датасета. Кастомизируйте `DataLoader` таким образом, чтобы пакет признаков был представлен в виде трехмерного тензора размера 64x2x8 (разделите 16 признаков на два тензора по 8). Получите один пакет и выведите на экран размерность тензоров пакета.

- [ ] Проверено на семинаре

In [None]:
obj_4.y.shape, obj_4.X.shape

(torch.Size([45211]), torch.Size([45211, 16]))

In [None]:
X = obj_4.X
y = obj_4.y

In [None]:
import torch as th
from torch.utils.data import DataLoader, random_split, TensorDataset

dataset = TensorDataset(X, y);

In [None]:
train, test = random_split(dataset, lengths=[0.75, 0.25])

#Стандартный Dataloader
train_loader = DataLoader(train, batch_size=64, shuffle=True)

for batch in train_loader:
    features, labels = batch
    print(features.shape)
    print(labels.shape)
    break

torch.Size([64, 16])
torch.Size([64])


In [None]:
#Dataloader с collate_fn

def custom_collate_fn(batch):
    features, labels = zip(*batch)
    features = th.stack(features)
    features = features.view(64, 2, 8)
    labels = th.tensor(labels)
    return features, labels

custom_train_loader = DataLoader(train, batch_size=64, shuffle=True, collate_fn=custom_collate_fn)

for batch in custom_train_loader:
    features, labels = batch
    print(features.shape)
    print(labels.shape)
    break

torch.Size([64, 2, 8])
torch.Size([64])
