# Тетрадь 1: Разделение данных

В настоящей тетради будут разобраны основные принципы разделения данных. Мы разберёмся, как и зачем 
делят данные на этапе предварительной обработки данных.

## Содержание

Можете пользоваться следующими гиперссылками для навигации:
- [Теория](#Теория)
- [Примеры](#Примеры)
- [Задание](#Задание)

Приступим теперь непосредственно к материалу

***


## Теория

### Предварительная обработка данных

**Предварительная обработка данных (Data Preprocessing)** в машинном обучении — это набор методов и 
техник, которые применяются к исходным данным перед их использованием для обучения модели. Цель 
предварительной обработки — подготовить данные к анализу, улучшить их качество и сделать их более 
пригодными для обучения моделей машинного обучения. Существует множество различных этапов 
предобработки, о которых более подробно речь пойдёт в следующей тетради. А пока остновимся на том, 
что одним из самых этапов является разделение данных на обучающую, тестовую и валидационную выборки.

### Разделение на обучающую и тестовую выборки

Схематически разделение на обучающую и тестовую выборки можно изобразить следующим образом:

<div style="text-align: center">
    <img src="../images/train_test.png" alt="Train Test Split" width=512 height=256>
</div>

Рассмотрим данную операцию более подробно.

**Цель.** Оценка обобщающей способности модели.

**Принцип.** Данные делятся на две части:
- Обучающая выборка (обычно 70-80%) — Используется для обучения модели.
- Тестовая выборка (обычно 20-30%) — Используется для оценки качества модели на новых данных, 
которые модель не видела во время обучения.

**Важность.** Если модель обучается и тестируется на одних и тех же данных, она может запомнить их, 
а не научиться обобщать. Тестовая выборка позволяет оценить, насколько хорошо модель будет работать 
на новых, неизвестных данных.

### Разделение на обучающую, валидационную и тестовую выборки

Так же схематично представим разделение на обучающую, валидационную и етстовую выборки:

<div style="text-align: center">
    <img src="../images/train_test_valid.png" alt="Train Test Valid Split" width=512 height=256>
</div>

Обсудим, чем этот метод отличается от предыдущего, более подробно.

**Цель.** Настройка гиперпараметров модели. Выбор лучшей модели.

**Принцип.** Данные делятся на три части:
- Обучающая выборка (обычно 60-70%) — Используется для обучения модели.
- Валидационная выборка (обычно 10-20%) — Используется для настройки гиперпараметров и выбора лучшей 
модели.
- Тестовая выборка (обычно 10-20%) — Используется для окончательной оценки качества выбранной 
модели.

**Важность.** Валидационная выборка позволяет: оценивать качество модели на данных, которые модель 
не видела во время обучения, но при этом не смешивается с тестовой выборкой; выбирать 
гиперпараметры, которые дают лучшие результаты на данных, не используемых для обучения; сравнивать 
разные модели и выбирать ту, которая показывает лучшие результаты на данных, не используемых для 
обучения.

Разделение данных на обучающую, тестовую и валидационную выборки является важным этапом 
предварительной обрабоки данных в машинном обучении и искусственном интеллекте. Оно позволяет
оценить обобщающую способность модели, предотвратить переобучение и настроить гиперпараметры.


***

## Примеры

Рассмотрим теперь некоторые элементарные примеры разделения данных. 

Допустим, имеется следующая случайная выборка из 10 чисел:

In [1]:
import numpy as np

(n_samples, round_to) = (10, 3)
selection = np.round(np.random.standard_normal(n_samples), round_to)

print(selection)

[ 2.08  -2.461  0.781  1.261  0.755 -0.206  0.516  0.853 -0.013 -0.464]


### Разделение на обучающую и тестовую выборки

Рассмотрим случай, когда нужно выделить только обучающую и тестовую выборки. Наша задача в том, 
чтобы разделить эти данные в соотношении 70 (обучающая выборка) на 30 (тестовая выборка). Напишем 
для этого функцию и посмотрим, как будет выглядеть результат.

In [16]:
from typing import Tuple

from numpy import ndarray

def split_data(data: ndarray, test_size: float) -> Tuple[ndarray, ndarray]:
    # Calculating the splitting index
    train_test_index = int(test_size * len(data))
    # Cutting off the training set
    train_data = data[train_test_index:] 
    # Cutting off the testing set
    test_data = data[:train_test_index]

    splitted: Tuple[ndarray, ndarray] = (train_data, test_data)
    return splitted


data_splitted = split_data(selection, 0.3)

print(data_splitted)

(array([ 1.261,  0.755, -0.206,  0.516,  0.853, -0.013, -0.464]), array([ 2.08 , -2.461,  0.781]))


### Разделение на обучающую, валидационную и тестовую выборки

Теперь посмотрим, как действовать, если помимо обучающей и тестовой имеется потребность выделить 
ещё и валидационную выборку. Дополним функцию из предыдущей секции. Теперь помимо параметра 
`test_size`, у нас будет `valid_size`, который обозначает часть тестовой выборки, что будет 
отсечена в валидационную. Оставим 70% для тренировочной выборки, а треть тестовой определим в 
валидационную.

In [15]:
from typing import Optional


def split_data_with_valid(
    data: ndarray, test_size: float, valid_size: Optional[float] = None
) -> Tuple[ndarray, ndarray, ndarray]:
    splitted: Tuple[ndarray, ndarray] = split_data(data, test_size)

    if valid_size is not None:
        (train_data, test_data) = (splitted[0], splitted[1])
        # Calculating the splitting index for the testing set
        test_valid_index = int(valid_size * len(test_data))
        # Split the testing set the same way as in `split_data()` funciton 
        test_data = test_data[test_valid_index:]
        valid_data = test_data[:test_valid_index]
        splitted: Tuple[ndarray, ndarray, ndarray] = (
            train_data, test_data, valid_data
        )

    return splitted


data_splitted = split_data_with_valid(selection, 0.3, 0.4)

print(data_splitted)

(array([ 1.261,  0.755, -0.206,  0.516,  0.853, -0.013, -0.464]), array([-2.461,  0.781]), array([-2.461]))


Теперь, когда у нас уже имеется некоторое базовое представление о разделении данных на обучающую, 
тестовую и валидационную выборки, можно выполнить небольшое задания для закрепления материала.

***

## Задание

В данном задании Вам нужно, пользуясь примерами выше, дополнить тела защищённых 
(тех, что начинаются с нижнего подчёркивания) функций классв `DataSplitter`. 

In [14]:
from typing import List, Union

Selections = Union[
    Tuple[ndarray, ndarray, ndarray, ndarray],
    Tuple[ndarray, ndarray, ndarray, ndarray, ndarray, ndarray],
]


class DataSplitter:

    def __init__(
        self, permute: bool = False, random_seed: Optional[int] = None
    ):
        self.random_seed = random_seed
        self.permute = permute
        self._selections: List[ndarray]

    def split_data(
        self,
        x: ndarray,
        y: ndarray,
        *,
        test_size: float,
        valid_size: Optional[float] = None,
    ) -> Selections:
        if self.random_seed:
            np.random.seed(self.random_seed)
        if self.permute:
            permutation = np.random.permutation(x.shape[0])
            x, y = x[permutation], y[permutation]

        self._set_standard(x, y, test_size)
        if valid_size:
            test_length = self._selections[1].shape[0]
            self._add_valid(test_length, x, y, valid_size)

        selections: Selections = tuple(
            self._selections  # pyright: ignore[reportAssignmentType]
        )
        return selections

    def _set_standard(self, x: ndarray, y: ndarray, test_size: float) -> None:
        """This method splits two multidimensional sets of data with equal  
        lengths (`x` и `y`) into training and testing selections.
        """
        raise NotImplementedError(
            "Method `_set_standard()` must be implemented!"
        )

    def _add_valid(
        self, test_length: int, x: ndarray, y: ndarray, valid_size: float
    ) -> None:
        """This method splits two multidimensional sets of data with equal  
        lengths (`x` и `y`) into testing and validation selections.
        """
        raise NotImplementedError(
            "Method `_add_valid()` must be implemented!"
        )


Все assertion'ы в следующей секции должны выполниться без ошибок!

### Проверка

Обязательно выполните следующую ячейку! В противном случае возникнет `ModuleNotFoundError` при 
попытке проверить правильность выполнения задания.

In [12]:
import sys

sys.path.append("../")

Запустите ячейку ниже, чтобы понять, правильно ли Вы выполнили задание.

In [13]:
from checkers.module_1 import check_notebook_1_task_1

check_notebook_1_task_1(DataSplitter)

NotImplementedError: Метод `_set_standard()` должен быть обязательно реализован!

Если никаих ошибок не возникло, можете поэкспериментировать с кодом в задании или реализовать 
собственный интерфейс, а затем проверить его при помощи функции выше.

***

## Выводы

В настоящей тетради мы изучили: что такое разделение данных на обучающую, тестовую и валидационную 
выборки; как, а самое главное — для чего выполняется такое разделение. 

Если есть интерес, можете попробовать далее модифицровать код из секций выше. Также можете 
попробовать написать собственный интерфейс, который вам покажется более удобным.