# Работа с данными о напитках

В данном блокноте выполняется разбиение исходного набора данных на различные подвыборки для дальнейшего анализа.


In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Импорт исходных данных
data = pd.read_csv('beverage_r.csv', sep=';')
total_rows, total_cols = data.shape
print(f"Исходный датасет содержит {total_rows} строк и {total_cols} столбцов")
print("\nПросмотр начальных записей:")
data.head()


Исходный датасет содержит 34 строк и 9 столбцов

Просмотр начальных записей:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
0,1,1,0,0,0,1,1,0,1
1,2,1,0,0,0,1,0,0,0
2,3,1,0,0,0,1,0,0,0
3,4,0,1,0,1,0,0,1,0
4,5,1,0,0,0,1,0,0,0


## Первая задача: Создание обучающей и тестовой выборок

Требуется разделить данные в соотношении примерно 2:1 (обучающая выборка ~66%, тестовая ~33%).


In [2]:
# Формирование обучающей и тестовой выборок
# Используем параметр test_size для указания доли тестовой выборки
test_proportion = 0.33
seed_value = 42

training_set, testing_set = train_test_split(
    data, 
    test_size=test_proportion, 
    random_state=seed_value, 
    shuffle=True
)

train_count = training_set.shape[0]
test_count = testing_set.shape[0]
total_count = len(data)

print(f"Размер обучающей выборки: {train_count} записей ({train_count/total_count*100:.1f}%)")
print(f"Размер тестовой выборки: {test_count} записей ({test_count/total_count*100:.1f}%)")
print("\nНачало обучающей выборки:")
training_set.head()


Размер обучающей выборки: 22 записей (64.7%)
Размер тестовой выборки: 12 записей (35.3%)

Начало обучающей выборки:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
16,17,0,1,0,0,0,1,0,0
17,18,1,1,0,0,1,0,0,0
5,6,1,0,0,0,1,1,0,0
13,14,1,0,0,0,0,1,0,0
11,12,0,1,0,0,0,0,1,0


In [3]:
print("Начало тестовой выборки:")
testing_set.head()


Начало тестовой выборки:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
15,16,0,0,0,0,1,1,0,0
19,20,1,1,1,0,1,0,0,0
27,28,1,0,0,0,0,1,0,1
26,27,0,1,0,0,0,0,1,0
8,9,1,1,0,0,0,1,1,1


## Вторая задача: Разбиение на четыре части

Необходимо разделить весь набор данных на четыре примерно равные части.


In [4]:
# Подготовка к разбиению на четыре части
num_parts = 4
total_records = len(data)
records_per_part = total_records // num_parts

# Случайное перемешивание данных с фиксированным seed
np.random.seed(42)
shuffled_indices = np.random.permutation(data.index)
data_mixed = data.loc[shuffled_indices].reset_index(drop=True)

# Определение границ для каждой части
boundaries = [0, records_per_part, 2*records_per_part, 3*records_per_part, total_records]

# Создание четырех частей
segment_1 = data_mixed.iloc[boundaries[0]:boundaries[1]]
segment_2 = data_mixed.iloc[boundaries[1]:boundaries[2]]
segment_3 = data_mixed.iloc[boundaries[2]:boundaries[3]]
segment_4 = data_mixed.iloc[boundaries[3]:boundaries[4]]

print(f"Всего записей в исходных данных: {total_records}")
print(f"\nКоличество записей в каждой части:")
print(f"  Сегмент 1: {len(segment_1)}")
print(f"  Сегмент 2: {len(segment_2)}")
print(f"  Сегмент 3: {len(segment_3)}")
print(f"  Сегмент 4: {len(segment_4)}")

print("\nСодержимое первого сегмента:")
segment_1.head()


Всего записей в исходных данных: 34

Количество записей в каждой части:
  Сегмент 1: 8
  Сегмент 2: 8
  Сегмент 3: 8
  Сегмент 4: 10

Содержимое первого сегмента:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
0,16,0,0,0,0,1,1,0,0
1,20,1,1,1,0,1,0,0,0
2,28,1,0,0,0,0,1,0,1
3,27,0,1,0,0,0,0,1,0
4,9,1,1,0,0,0,1,1,1


In [5]:
print("Содержимое второго сегмента:")
segment_2.head()


Содержимое второго сегмента:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
8,33,1,0,0,0,1,0,0,1
9,10,1,0,0,0,1,0,0,1
10,1,1,0,0,0,1,1,0,1
11,5,1,0,0,0,1,0,0,0
12,17,0,1,0,0,0,1,0,0


In [6]:
print("Содержимое третьего сегмента:")
segment_3.head()


Содержимое третьего сегмента:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
16,12,0,1,0,0,0,0,1,0
17,2,1,0,0,0,1,0,0,0
18,3,1,0,0,0,1,0,0,0
19,31,1,0,0,0,1,0,0,1
20,4,0,1,0,1,0,0,1,0


In [7]:
print("Содержимое четвертого сегмента:")
segment_4.head()


Содержимое четвертого сегмента:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
24,23,0,1,0,1,0,0,1,0
25,19,1,0,0,0,0,0,0,1
26,26,0,1,0,1,0,0,1,0
27,7,0,1,1,1,0,0,1,0
28,21,1,0,0,0,1,0,0,0


## Третья задача: Стратифицированное разбиение

Требуется создать две подвыборки с сохранением пропорций по переменным COKE и TAB (минеральная вода).


In [8]:
# Анализ распределения категориальных переменных
coke_counts = data['COKE'].value_counts()
coke_total = len(data)
coke_ones = data['COKE'].sum()
coke_zeros = coke_total - coke_ones

print("Анализ переменной COKE:")
print(coke_counts)
print(f"Процент COKE=1: {coke_ones/coke_total*100:.1f}%")
print(f"Процент COKE=0: {coke_zeros/coke_total*100:.1f}%")

print("\n" + "-"*60)
tab_counts = data['TAB'].value_counts()
tab_ones = data['TAB'].sum()
tab_zeros = coke_total - tab_ones

print("Анализ переменной TAB (минеральная вода):")
print(tab_counts)
print(f"Процент TAB=1: {tab_ones/coke_total*100:.1f}%")
print(f"Процент TAB=0: {tab_zeros/coke_total*100:.1f}%")

print("\n" + "-"*60)
# Создание комбинированной переменной для стратификации
data['strata_label'] = data['COKE'].astype(str) + '_' + data['TAB'].astype(str)
strata_distribution = data['strata_label'].value_counts().sort_index()

print("Распределение комбинаций COKE и TAB:")
print(strata_distribution)


Анализ переменной COKE:
COKE
1    20
0    14
Name: count, dtype: int64
Процент COKE=1: 58.8%
Процент COKE=0: 41.2%

------------------------------------------------------------
Анализ переменной TAB (минеральная вода):
TAB
0    23
1    11
Name: count, dtype: int64
Процент TAB=1: 32.4%
Процент TAB=0: 67.6%

------------------------------------------------------------
Распределение комбинаций COKE и TAB:
strata_label
0_0     4
0_1    10
1_0    19
1_1     1
Name: count, dtype: int64


In [11]:
# Выполнение стратифицированного разбиения
# Используем стратификацию по COKE, так как комбинация 1_1 имеет только 1 элемент
# Это обеспечит сохранение пропорций COKE в обеих подвыборках
# Распределение TAB также будет проверено после разбиения
subset_1, subset_2 = train_test_split(
    data, 
    test_size=0.5, 
    random_state=42, 
    stratify=data['COKE']
)

size_1 = subset_1.shape[0]
size_2 = subset_2.shape[0]

print(f"Первая подвыборка: {size_1} записей")
print(f"Вторая подвыборка: {size_2} записей")

print("\n" + "="*60)
# Проверка распределения COKE в первой подвыборке
coke_dist_1 = subset_1['COKE'].value_counts()
coke_pct_1 = subset_1['COKE'].sum() / size_1 * 100
print("Распределение COKE в первой подвыборке:")
print(coke_dist_1)
print(f"Процент COKE=1: {coke_pct_1:.1f}%")

# Проверка распределения COKE во второй подвыборке
coke_dist_2 = subset_2['COKE'].value_counts()
coke_pct_2 = subset_2['COKE'].sum() / size_2 * 100
print("\nРаспределение COKE во второй подвыборке:")
print(coke_dist_2)
print(f"Процент COKE=1: {coke_pct_2:.1f}%")

print("\n" + "="*60)
# Проверка распределения TAB в первой подвыборке
tab_dist_1 = subset_1['TAB'].value_counts()
tab_pct_1 = subset_1['TAB'].sum() / size_1 * 100
print("Распределение TAB (минеральная вода) в первой подвыборке:")
print(tab_dist_1)
print(f"Процент TAB=1: {tab_pct_1:.1f}%")

# Проверка распределения TAB во второй подвыборке
tab_dist_2 = subset_2['TAB'].value_counts()
tab_pct_2 = subset_2['TAB'].sum() / size_2 * 100
print("\nРаспределение TAB (минеральная вода) во второй подвыборке:")
print(tab_dist_2)
print(f"Процент TAB=1: {tab_pct_2:.1f}%")

print("\n" + "="*60)
# Проверка комбинаций в обеих подвыборках
print("Комбинации COKE и TAB в первой подвыборке:")
print(subset_1['strata_label'].value_counts().sort_index())

print("\nКомбинации COKE и TAB во второй подвыборке:")
print(subset_2['strata_label'].value_counts().sort_index())


Первая подвыборка: 17 записей
Вторая подвыборка: 17 записей

Распределение COKE в первой подвыборке:
COKE
1    10
0     7
Name: count, dtype: int64
Процент COKE=1: 58.8%

Распределение COKE во второй подвыборке:
COKE
1    10
0     7
Name: count, dtype: int64
Процент COKE=1: 58.8%

Распределение TAB (минеральная вода) в первой подвыборке:
TAB
0    11
1     6
Name: count, dtype: int64
Процент TAB=1: 35.3%

Распределение TAB (минеральная вода) во второй подвыборке:
TAB
0    12
1     5
Name: count, dtype: int64
Процент TAB=1: 29.4%

Комбинации COKE и TAB в первой подвыборке:
strata_label
0_0    2
0_1    5
1_0    9
1_1    1
Name: count, dtype: int64

Комбинации COKE и TAB во второй подвыборке:
strata_label
0_0     2
0_1     5
1_0    10
Name: count, dtype: int64


In [12]:
print("Начало первой стратифицированной подвыборки:")
subset_1.head()


Начало первой стратифицированной подвыборки:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP,strata_label
13,14,1,0,0,0,0,1,0,0,1_0
29,30,0,1,1,0,0,0,1,0,0_1
24,25,0,1,1,1,0,0,0,0,0_0
25,26,0,1,0,1,0,0,1,0,0_1
30,31,1,0,0,0,1,0,0,1,1_0


In [13]:
print("Начало второй стратифицированной подвыборки:")
subset_2.head()


Начало второй стратифицированной подвыборки:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP,strata_label
28,29,1,0,0,0,0,1,0,0,1_0
0,1,1,0,0,0,1,1,0,1,1_0
6,7,0,1,1,1,0,0,1,0,0_1
14,15,0,1,1,0,0,0,1,0,0_1
12,13,0,0,1,1,0,1,0,1,0_0
