In [1]:
!pip install jupyter_black
import jupyter_black
jupyter_black.load()

import pandas as pd
import numpy as np

Collecting jupyter_black
  Downloading jupyter_black-0.4.0-py3-none-any.whl.metadata (7.8 kB)
Collecting black>=21 (from black[jupyter]>=21->jupyter_black)
  Downloading black-24.10.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.manylinux_2_28_x86_64.whl.metadata (79 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.2/79.2 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
Collecting packaging>=22.0 (from black>=21->black[jupyter]>=21->jupyter_black)
  Downloading packaging-24.1-py3-none-any.whl.metadata (3.2 kB)
Collecting pathspec>=0.9.0 (from black>=21->black[jupyter]>=21->jupyter_black)
  Downloading pathspec-0.12.1-py3-none-any.whl.metadata (21 kB)
Collecting tokenize-rt>=3.2.0 (from black[jupyter]>=21->jupyter_black)
  Downloading tokenize_rt-6.0.0-py2.py3-none-any.whl.metadata (4.1 kB)
Downloading jupyter_black-0.4.0-py3-none-any.whl (7.6 kB)
Downloading black-24.10.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.manylinux_2_28_x86_

## Задача 4: Split

Реализуйте разбиение датасета на train, test и val при помощи pandas и без использования циклов на Python. Разбиение должно быть стратифицировано по колонкам, данные должны быть перемешаны. Подробно объясните и/или прокомментируйте, почему ваш код делает то, что нужно.

In [2]:
df = pd.read_csv(
    "/kaggle/input/passenger-list-for-the-estonia-ferry-disaster/estonia-passenger-list.csv"
)

In [3]:
def split_stratified(df, stratify_columns, train_frac=0.6, val_frac=0.2):
    # Перемешиваем данные
    df = df.sample(frac=1, random_state=42).reset_index(drop=True)

    # Доля тестовой выборки
    test_frac = 1 - train_frac - val_frac

    # Группируем данные по колонкам для стратификации.
    # Таким образом, мы будем знать соотношение между числом значений признаков.
    # Например, группировка по ['Category', 'Survived'] даст нам таблицу, из которой
    # мы узнаем соотношение числа виживших ко всем поссажирам в C и P классах отдельно,
    # что позволит нам верно стратифицировать
    grouped = df.groupby(stratify_columns)

    # Создаем индексы для каждого элемента в каждой группе
    df["group_index"] = grouped.cumcount()

    # Считаем количество элементов в каждой группе
    group_sizes = grouped["group_index"].transform("max") + 1

    # Рассчитываем индексы разбиения для train, val и test
    train_index = (train_frac * group_sizes).astype(int)
    val_index = ((train_frac + val_frac) * group_sizes).astype(int)

    # Создаем отдельный столбец, где присваиваем каждой строке метку (train, val, test)
    # на основе её индекса
    df["split"] = np.where(
        df["group_index"] < train_index,
        "train",
        np.where(df["group_index"] < val_index, "val", "test"),
    )

    # Разбиваем датафрейм на три части по меткам, используя срез с условием
    train_df = df[df["split"] == "train"].drop(columns=["group_index", "split"])
    val_df = df[df["split"] == "val"].drop(columns=["group_index", "split"])
    test_df = df[df["split"] == "test"].drop(columns=["group_index", "split"])

    return train_df, val_df, test_df

In [4]:
train, val, test = split_stratified(df, ["Category", "Survived"])

Из таблиц ниже можно заметить, что мы разбили датасет на три части так, что соотношения категориальных значений признаков соблидается. Т.е. в целом датасете в категории C соотношение выживших равно 39/154=0.25. В частях, на которые мы разбили 23/92=8/31=8/31~0.25. Аналогично для категории P. Это доказывает стратифицированность данных.

In [5]:
df.groupby(["Category", "Survived"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Country,Firstname,Lastname,Sex,Age
Category,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
C,0,154,154,154,154,154,154
C,1,39,39,39,39,39,39
P,0,698,698,698,698,698,698
P,1,98,98,98,98,98,98


In [6]:
train.groupby(["Category", "Survived"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Country,Firstname,Lastname,Sex,Age
Category,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
C,0,92,92,92,92,92,92
C,1,23,23,23,23,23,23
P,0,418,418,418,418,418,418
P,1,58,58,58,58,58,58


In [7]:
val.groupby(["Category", "Survived"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Country,Firstname,Lastname,Sex,Age
Category,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
C,0,31,31,31,31,31,31
C,1,8,8,8,8,8,8
P,0,140,140,140,140,140,140
P,1,20,20,20,20,20,20


In [8]:
test.groupby(["Category", "Survived"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Country,Firstname,Lastname,Sex,Age
Category,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
C,0,31,31,31,31,31,31
C,1,8,8,8,8,8,8
P,0,140,140,140,140,140,140
P,1,20,20,20,20,20,20
