# Разделение данных на выборки

Лабораторная работа по разделению таблицы данных на различные подвыборки.


In [None]:
#  Активируем библиотеки

import numpy as np
import pandas as pd

import matplotlib
import matplotlib.pyplot as plt
#  matplotlib.style.use('ggplot')
#  Эта строчка нужна для того, чтобы картинки отображались в ячейках
%matplotlib inline

import random


In [None]:
#  Задаем зерно датчика для воспроизводимости результатов
random.seed(42)
np.random.seed(42)


In [None]:
#  Импорт данных

df = pd.read_csv("beverage_r.csv", sep=";", index_col='numb.obs')


In [None]:
#  Проверяем данные
print(f"Размер данных: {df.shape}")
print(f"\nПервые строки:")
df.head()


## Задача 1

Разделить таблицу данных так, чтобы в обучающую выборку попало 66% наблюдений, а в тестовую выборку 33% наблюдений.


In [None]:
#  Задача 1: Разделение на train (66%) и test (33%)
#  Способ 1: Использование pandas sample()

#  Вычисляем размеры выборок
n_total = len(df)
n_train = int(n_total * 0.66)
n_test = n_total - n_train

print(f"Всего наблюдений: {n_total}")
print(f"Обучающая выборка: {n_train} ({n_train/n_total*100:.1f}%)")
print(f"Тестовая выборка: {n_test} ({n_test/n_total*100:.1f}%)")


In [None]:
#  Способ 1.1: Использование pandas sample() для случайной выборки

#  Создаем случайную выборку для обучающей выборки
train_df_1 = df.sample(n=n_train, random_state=42)
#  Остальные наблюдения идут в тестовую выборку
test_df_1 = df.drop(train_df_1.index)

print("Обучающая выборка (способ 1.1):")
print(train_df_1)
print(f"\nРазмер: {len(train_df_1)}")
print("\nТестовая выборка (способ 1.1):")
print(test_df_1)
print(f"\nРазмер: {len(test_df_1)}")


In [None]:
#  Способ 1.2: Использование pandas sample() с параметром frac

#  frac - доля от общего числа наблюдений
train_df_2 = df.sample(frac=0.66, random_state=42)
test_df_2 = df.drop(train_df_2.index)

print("Обучающая выборка (способ 1.2):")
print(train_df_2)
print(f"\nРазмер: {len(train_df_2)}")
print("\nТестовая выборка (способ 1.2):")
print(test_df_2)
print(f"\nРазмер: {len(test_df_2)}")


In [None]:
#  Способ 1.3: Использование numpy random для создания индексов

#  Создаем случайную перестановку индексов
indices = np.random.permutation(df.index)
#  Разделяем индексы на train и test
train_indices = indices[:n_train]
test_indices = indices[n_train:]

train_df_3 = df.loc[train_indices]
test_df_3 = df.loc[test_indices]

print("Обучающая выборка (способ 1.3):")
print(train_df_3)
print(f"\nРазмер: {len(train_df_3)}")
print("\nТестовая выборка (способ 1.3):")
print(test_df_3)
print(f"\nРазмер: {len(test_df_3)}")


## Задача 2

Разделить таблицу данных на четыре одинаковых части.


In [None]:
#  Задача 2: Разделение на 4 равные части
#  Способ 1: Использование pandas iloc с вычислением границ

n_total = len(df)
n_per_part = n_total // 4
remainder = n_total % 4

print(f"Всего наблюдений: {n_total}")
print(f"Наблюдений в каждой части (примерно): {n_per_part}")
print(f"Остаток: {remainder}")

#  Вычисляем границы для каждой части
part1_end = n_per_part + (1 if remainder > 0 else 0)
part2_end = part1_end + n_per_part + (1 if remainder > 1 else 0)
part3_end = part2_end + n_per_part + (1 if remainder > 2 else 0)

print(f"\nГраницы частей:")
print(f"Часть 1: 0 - {part1_end}")
print(f"Часть 2: {part1_end} - {part2_end}")
print(f"Часть 3: {part2_end} - {part3_end}")
print(f"Часть 4: {part3_end} - {n_total}")


In [None]:
#  Способ 2.1: Разделение по порядку (без перемешивания)

part1_df = df.iloc[0:part1_end]
part2_df = df.iloc[part1_end:part2_end]
part3_df = df.iloc[part2_end:part3_end]
part4_df = df.iloc[part3_end:]

print("Часть 1:")
print(part1_df)
print(f"Размер: {len(part1_df)}\n")

print("Часть 2:")
print(part2_df)
print(f"Размер: {len(part2_df)}\n")

print("Часть 3:")
print(part3_df)
print(f"Размер: {len(part3_df)}\n")

print("Часть 4:")
print(part4_df)
print(f"Размер: {len(part4_df)}")


In [None]:
#  Способ 2.2: Случайное разделение на 4 равные части

#  Перемешиваем индексы
shuffled_indices = np.random.permutation(df.index)

#  Разделяем на 4 части
n_per_part = len(shuffled_indices) // 4
part1_indices = shuffled_indices[0:n_per_part]
part2_indices = shuffled_indices[n_per_part:2*n_per_part]
part3_indices = shuffled_indices[2*n_per_part:3*n_per_part]
part4_indices = shuffled_indices[3*n_per_part:]

part1_df_shuffled = df.loc[part1_indices]
part2_df_shuffled = df.loc[part2_indices]
part3_df_shuffled = df.loc[part3_indices]
part4_df_shuffled = df.loc[part4_indices]

print("Часть 1 (случайная):")
print(part1_df_shuffled)
print(f"Размер: {len(part1_df_shuffled)}\n")

print("Часть 2 (случайная):")
print(part2_df_shuffled)
print(f"Размер: {len(part2_df_shuffled)}\n")

print("Часть 3 (случайная):")
print(part3_df_shuffled)
print(f"Размер: {len(part3_df_shuffled)}\n")

print("Часть 4 (случайная):")
print(part4_df_shuffled)
print(f"Размер: {len(part4_df_shuffled)}")


In [None]:
#  Способ 2.3: Использование numpy array_split для автоматического разделения

#  array_split автоматически распределяет остаток по частям
parts_list = np.array_split(df, 4)

for i, part_df in enumerate(parts_list, 1):
    print(f"Часть {i}:")
    print(part_df)
    print(f"Размер: {len(part_df)}\n")


## Задача 3

Разделить таблицу данных на две стратифицированные подвыборки по переменным кока-кола (COKE) и минералка (TAB).


In [None]:
#  Задача 3: Стратифицированное разделение по COKE и TAB (минералка)
#  Проверяем распределение значений

print("Распределение COKE:")
print(df['COKE'].value_counts().sort_index())
print(f"\nРаспределение TAB (минералка):")
print(df['TAB'].value_counts().sort_index())

#  Создаем комбинацию значений COKE и TAB для стратификации
df['strata'] = df['COKE'].astype(str) + '_' + df['TAB'].astype(str)
print(f"\nКомбинации COKE и TAB (страты):")
print(df['strata'].value_counts().sort_index())


In [None]:
#  Способ 3.1: Стратифицированное разделение с использованием groupby и sample

#  Для каждой страты берем пропорциональную выборку
stratified_train_list = []
stratified_test_list = []

for stratum, group in df.groupby('strata'):
    n_stratum = len(group)
    n_train_stratum = int(n_stratum * 0.5)  # 50% в каждую выборку
    
    #  Случайная выборка из страты
    train_stratum = group.sample(n=n_train_stratum, random_state=42)
    test_stratum = group.drop(train_stratum.index)
    
    stratified_train_list.append(train_stratum)
    stratified_test_list.append(test_stratum)
    
    print(f"Страта {stratum}: всего {n_stratum}, train: {len(train_stratum)}, test: {len(test_stratum)}")

#  Объединяем все страты
stratified_train_df_1 = pd.concat(stratified_train_list)
stratified_test_df_1 = pd.concat(stratified_test_list)

print(f"\nИтого:")
print(f"Обучающая выборка: {len(stratified_train_df_1)}")
print(f"Тестовая выборка: {len(stratified_test_df_1)}")


In [None]:
#  Проверяем распределение страт в полученных выборках

print("Распределение страт в обучающей выборке:")
print(stratified_train_df_1['strata'].value_counts().sort_index())
print("\nРаспределение страт в тестовой выборке:")
print(stratified_test_df_1['strata'].value_counts().sort_index())

print("\nОбучающая выборка:")
print(stratified_train_df_1)
print("\nТестовая выборка:")
print(stratified_test_df_1)


In [None]:
#  Способ 3.2: Использование sklearn train_test_split со стратификацией

from sklearn.model_selection import train_test_split

#  Создаем стратификационную переменную (комбинация COKE и TAB)
stratify_var = df['COKE'].astype(str) + '_' + df['TAB'].astype(str)

#  Разделяем данные с сохранением пропорций страт
stratified_train_df_2, stratified_test_df_2 = train_test_split(
    df, 
    test_size=0.5, 
    random_state=42, 
    stratify=stratify_var
)

print("Обучающая выборка (способ 3.2):")
print(stratified_train_df_2)
print(f"\nРазмер: {len(stratified_train_df_2)}")
print("\nТестовая выборка (способ 3.2):")
print(stratified_test_df_2)
print(f"\nРазмер: {len(stratified_test_df_2)}")


In [None]:
#  Проверяем распределение страт в выборках (способ 3.2)

print("Распределение страт в обучающей выборке:")
print(stratified_train_df_2['strata'].value_counts().sort_index())
print("\nРаспределение страт в тестовой выборке:")
print(stratified_test_df_2['strata'].value_counts().sort_index())


In [None]:
#  Удаляем временный столбец 'strata' из исходного датафрейма (если нужно)
#  df = df.drop('strata', axis=1)
