# Тетрадь 1: Разделение данных

## Содержание

- [Введение](#Введение)
- [Код и примеры](#Код-и-примеры)
- [Задание](#Задание)

***

## Введение

### Предварительная обработка данных

**Предварительная обработка данных (Data Preprocessing)** в машинном обучении — это набор методов и 
техник, которые применяются к исходным данным перед их использованием для обучения модели. Цель 
предварительной обработки — подготовить данные к анализу, улучшить их качество и сделать их более 
пригодными для обучения моделей машинного обучения. Существует множество различных этапов 
предобработки, о которых более подробно речь пойдёт в следующей тетради. А пока остновимся на том, 
что одним из самых этапов является разделение данных на обучающую, тестовую и валидационную выборки.

### Разделение на обучающую и тестовую выборки

Схематически разделение на обучающую и тестовую выборки можно изобразить следующим образом:

<div style="text-align: center">
    <img src="images/train_test_pie.png" alt="Train Test Split">
</div>

Рассмотрим данную операцию более подробно.

**Цель.** Оценка обобщающей способности модели.

**Принцип.** Данные делятся на две части:
- Обучающая выборка (обычно 70-80%) — Используется для обучения модели.
- Тестовая выборка (обычно 20-30%) — Используется для оценки качества модели на новых данных, 
которые модель не видела во время обучения.

**Важность.** Если модель обучается и тестируется на одних и тех же данных, она может запомнить их, 
а не научиться обобщать. Тестовая выборка позволяет оценить, насколько хорошо модель будет работать 
на новых, неизвестных данных.

### Разделение на обучающую, валидационную и тестовую выборки

Так же схематично представим разделение на обучающую, валидационную и етстовую выборки:

<div style="text-align: center">
    <img src="images/train_test_valid_pie.png" alt="Train Test Valid Split">
</div>

Обсудим, чем этот метод отличается от предыдущего, более подробно.

**Цель.** Настройка гиперпараметров модели. Выбор лучшей модели.

**Принцип.** Данные делятся на три части:
- Обучающая выборка (обычно 60-70%) — Используется для обучения модели.
- Валидационная выборка (обычно 10-20%) — Используется для настройки гиперпараметров и выбора лучшей 
модели.
- Тестовая выборка (обычно 10-20%) — Используется для окончательной оценки качества выбранной 
модели.

**Важность.** Валидационная выборка позволяет: оценивать качество модели на данных, которые модель 
не видела во время обучения, но при этом не смешивается с тестовой выборкой; выбирать 
гиперпараметры, которые дают лучшие результаты на данных, не используемых для обучения; сравнивать 
разные модели и выбирать ту, которая показывает лучшие результаты на данных, не используемых для 
обучения.

Разделение данных на обучающую, тестовую и валидационную выборки является важным этапом 
предварительной обрабоки данных в машинном обучении и искусственном интеллекте. Оно позволяет
оценить обобщающую способность модели, предотвратить переобучение и настроить гиперпараметры.


***

## Код и примеры

In [None]:
from typing import Optional, Tuple

import numpy as np
from numpy import ndarray

Рассмотрим теперь некоторые элементарные примеры разделения данных. 

Допустим, имеется следующая случайная выборка из 10 чисел:

In [None]:
(n_samples, round_to) = (10, 3)
selection = np.round(np.random.standard_normal(n_samples), round_to)

print(selection)

### Разделение на обучающую и тестовую выборки

Рассмотрим случай, когда нужно выделить только обучающую и тестовую выборки. Наша задача в том, 
чтобы разделить эти данные в соотношении 70 (обучающая выборка) на 30 (тестовая выборка). Напишем 
для этого функцию и посмотрим, как будет выглядеть результат.

In [None]:
def split_data(data: ndarray, test_size: float) -> Tuple[ndarray, ndarray]:
    # Calculating the splitting index
    train_test_index = int(test_size * len(data))
    # Cutting off the training set
    train_data = data[train_test_index:]
    # Cutting off the testing set
    test_data = data[:train_test_index]

    splitted: Tuple[ndarray, ndarray] = (train_data, test_data)
    return splitted


data_splitted = split_data(selection, 0.3)

print(data_splitted)

### Разделение на обучающую, валидационную и тестовую выборки

Теперь посмотрим, как действовать, если помимо обучающей и тестовой имеется потребность выделить 
ещё и валидационную выборку. Дополним функцию из предыдущей секции. Теперь помимо параметра 
`test_size`, у нас будет `valid_size`, который обозначает часть тестовой выборки, что будет 
отсечена в валидационную. Оставим 70% для тренировочной выборки, а треть тестовой определим в 
валидационную.

In [None]:
def split_data_with_valid(
    data: ndarray, test_size: float, valid_size: Optional[float] = None
) -> Tuple[ndarray, ndarray, ndarray]:
    splitted: Tuple[ndarray, ndarray] = split_data(data, test_size)

    if valid_size is not None:
        (train_data, test_data) = (splitted[0], splitted[1])
        # Calculating the splitting index for the testing set
        test_valid_index = int(valid_size * len(test_data))
        # Split the testing set the same way as in `split_data()` funciton
        test_data = test_data[test_valid_index:]
        valid_data = test_data[:test_valid_index]
        splitted: Tuple[ndarray, ndarray, ndarray] = (
            train_data, test_data, valid_data
        )

    return splitted


data_splitted = split_data_with_valid(selection, 0.3, 0.4)

print(data_splitted)

Теперь, когда у нас уже имеется некоторое базовое представление о разделении данных на обучающую, 
тестовую и валидационную выборки, выполним небольшое задание для закрепления материала.

***

## Задание

В данном задании Вам нужно, пользуясь примерами выше, дополнить тела защищённых 
(тех, что начинаются с нижнего подчёркивания) функций классв `DataSplitter`. 

In [None]:
from typing import List, Union


Selections = Union[
    Tuple[ndarray, ndarray, ndarray, ndarray],
    Tuple[ndarray, ndarray, ndarray, ndarray, ndarray, ndarray],
]


class DataSplitter:

    def __init__(
        self, permute: bool = False, random_seed: Optional[int] = None
    ):
        self.random_seed = random_seed
        self.permute = permute
        self._selections: List[ndarray]

    def split_data(
        self,
        x: ndarray,
        y: ndarray,
        *,
        test_size: float,
        valid_size: Optional[float] = None,
    ) -> Selections:
        if self.random_seed:
            np.random.seed(self.random_seed)
        if self.permute:
            permutation = np.random.permutation(x.shape[0])
            x, y = x[permutation], y[permutation]

        self._set_standard(x, y, test_size)
        if valid_size:
            test_length = self._selections[1].shape[0]
            self._add_valid(test_length, x, y, valid_size)

        selections: Selections = tuple(
            self._selections  # pyright: ignore[reportAssignmentType]
        )
        return selections

    def _set_standard(self, x: ndarray, y: ndarray, test_size: float) -> None:
        # This method splits two multidimensional sets of data with equal
        # lengths (`x` и `y`) into training and testing selections.
        message = "Method `_set_standard()` must be implemented!"
        raise NotImplementedError(message)

    def _add_valid(
        self, test_length: int, x: ndarray, y: ndarray, valid_size: float
    ) -> None:
        # This method splits two multidimensional sets of data with equal
        # lengths (`x` и `y`) into testing and validation selections.
        messsage = "Method `_add_valid()` must be implemented!"
        raise NotImplementedError(messsage)

Когда реализуете все методы из ячейки выше, запускайте ячейку ниже и продемонстрируйте правильность 
выполнения задания.

In [None]:
(x_size, y_size) = ((10, 9), (10, 1))
(x, y) = (np.random.standard_normal(x_size), np.random.standard_normal(y_size))
data_splitter = DataSplitter(permute=True, random_seed=2024)
(test_size, valid_size) = (0.3, 0.4)

splitted = data_splitter.split_data(x, y, test_size=test_size)
names = ("X-train", "X-test", "y-train", "y-test")
for (spltd, name) in zip(splitted, names):
    print(f"{name}:\n{spltd}")

Если никаих ошибок не возникло, можете поэкспериментировать с кодом в задании или реализовать 
собственный интерфейс, а затем проверить его при помощи функции выше.

***

## Выводы

В настоящей тетради мы изучили: что такое разделение данных на обучающую, тестовую и валидационную 
выборки; как, а самое главное — для чего выполняется такое разделение. 

Если есть интерес, можете попробовать далее модифицровать код из секций выше. Также можете 
попробовать написать собственный интерфейс, который вам покажется более удобным.