# Анализ данных о напитках

Этот блокнот содержит решения задач по разделению данных на выборки.


In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Загрузка данных
df = pd.read_csv('beverage_r.csv', sep=';')
print(f"Размер исходных данных: {df.shape}")
print(f"\nПервые строки данных:")
df.head()


Размер исходных данных: (34, 9)

Первые строки данных:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
0,1,1,0,0,0,1,1,0,1
1,2,1,0,0,0,1,0,0,0
2,3,1,0,0,0,1,0,0,0
3,4,0,1,0,1,0,0,1,0
4,5,1,0,0,0,1,0,0,0


## Задача 1: Разделение на обучающую (66%) и тестовую (33%) выборки


In [2]:
# Разделение данных на обучающую (66%) и тестовую (33%) выборки
train_data, test_data = train_test_split(df, test_size=0.33, random_state=42, shuffle=True)

print(f"Обучающая выборка: {train_data.shape[0]} наблюдений ({train_data.shape[0]/len(df)*100:.1f}%)")
print(f"Тестовая выборка: {test_data.shape[0]} наблюдений ({test_data.shape[0]/len(df)*100:.1f}%)")

print("\nПервые строки обучающей выборки:")
train_data.head()


Обучающая выборка: 22 наблюдений (64.7%)
Тестовая выборка: 12 наблюдений (35.3%)

Первые строки обучающей выборки:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
16,17,0,1,0,0,0,1,0,0
17,18,1,1,0,0,1,0,0,0
5,6,1,0,0,0,1,1,0,0
13,14,1,0,0,0,0,1,0,0
11,12,0,1,0,0,0,0,1,0


In [3]:
print("Первые строки тестовой выборки:")
test_data.head()


Первые строки тестовой выборки:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
15,16,0,0,0,0,1,1,0,0
19,20,1,1,1,0,1,0,0,0
27,28,1,0,0,0,0,1,0,1
26,27,0,1,0,0,0,0,1,0
8,9,1,1,0,0,0,1,1,1


## Задача 2: Разделение данных на четыре одинаковые части


In [4]:
# Разделение данных на 4 равные части
n = len(df)
part_size = n // 4

# Перемешиваем данные для случайного распределения
df_shuffled = df.sample(frac=1, random_state=42).reset_index(drop=True)

# Разделяем на 4 части
part1 = df_shuffled.iloc[0:part_size]
part2 = df_shuffled.iloc[part_size:2*part_size]
part3 = df_shuffled.iloc[2*part_size:3*part_size]
part4 = df_shuffled.iloc[3*part_size:]

print(f"Общее количество наблюдений: {n}")
print(f"\nЧасть 1: {len(part1)} наблюдений")
print(f"Часть 2: {len(part2)} наблюдений")
print(f"Часть 3: {len(part3)} наблюдений")
print(f"Часть 4: {len(part4)} наблюдений")

print("\nПервые строки части 1:")
part1.head()


Общее количество наблюдений: 34

Часть 1: 8 наблюдений
Часть 2: 8 наблюдений
Часть 3: 8 наблюдений
Часть 4: 10 наблюдений

Первые строки части 1:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
0,16,0,0,0,0,1,1,0,0
1,20,1,1,1,0,1,0,0,0
2,28,1,0,0,0,0,1,0,1
3,27,0,1,0,0,0,0,1,0
4,9,1,1,0,0,0,1,1,1


In [5]:
# Просмотр остальных частей
print("Часть 2:")
part2.head()


Часть 2:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
8,33,1,0,0,0,1,0,0,1
9,10,1,0,0,0,1,0,0,1
10,1,1,0,0,0,1,1,0,1
11,5,1,0,0,0,1,0,0,0
12,17,0,1,0,0,0,1,0,0


In [6]:
print("Часть 3:")
part3.head()


Часть 3:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
16,12,0,1,0,0,0,0,1,0
17,2,1,0,0,0,1,0,0,0
18,3,1,0,0,0,1,0,0,0
19,31,1,0,0,0,1,0,0,1
20,4,0,1,0,1,0,0,1,0


In [7]:
print("Часть 4:")
part4.head()


Часть 4:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
24,23,0,1,0,1,0,0,1,0
25,19,1,0,0,0,0,0,0,1
26,26,0,1,0,1,0,0,1,0
27,7,0,1,1,1,0,0,1,0
28,21,1,0,0,0,1,0,0,0


## Задача 3: Разделение на две стратифицированные подвыборки по переменным COKE и TAB (минералка)


In [None]:
# Проверяем распределение переменных COKE и TAB (минералка)
print("Распределение COKE:")
print(df['COKE'].value_counts())
print(f"\nДоля COKE=1: {df['COKE'].sum()/len(df)*100:.1f}%")
print(f"Доля COKE=0: {(len(df)-df['COKE'].sum())/len(df)*100:.1f}%")

print("\n" + "="*50)
print("Распределение TAB (минералка):")
print(df['TAB'].value_counts())
print(f"\nДоля TAB=1: {df['TAB'].sum()/len(df)*100:.1f}%")
print(f"Доля TAB=0: {(len(df)-df['TAB'].sum())/len(df)*100:.1f}%")

print("\n" + "="*50)
print("Комбинации COKE и TAB:")
df['COKE_TAB'] = df['COKE'].astype(str) + '_' + df['TAB'].astype(str)
print(df['COKE_TAB'].value_counts().sort_index())


Распределение COKE:
COKE
1    20
0    14
Name: count, dtype: int64

Доля COKE=1: 58.8%
Доля COKE=0: 41.2%


In [None]:
# Стратифицированное разделение на две подвыборки по COKE и TAB (минералка)
# Используем train_test_split с параметром stratify для сохранения пропорций
# Стратификация по комбинации COKE и TAB
stratified_sample1, stratified_sample2 = train_test_split(
    df, 
    test_size=0.5, 
    random_state=42, 
    stratify=df['COKE_TAB']
)

print(f"Подвыборка 1: {stratified_sample1.shape[0]} наблюдений")
print(f"Подвыборка 2: {stratified_sample2.shape[0]} наблюдений")

print("\n" + "="*50)
print("Распределение COKE в подвыборке 1:")
print(stratified_sample1['COKE'].value_counts())
print(f"Доля COKE=1: {stratified_sample1['COKE'].sum()/len(stratified_sample1)*100:.1f}%")

print("\nРаспределение COKE в подвыборке 2:")
print(stratified_sample2['COKE'].value_counts())
print(f"Доля COKE=1: {stratified_sample2['COKE'].sum()/len(stratified_sample2)*100:.1f}%")

print("\n" + "="*50)
print("Распределение TAB (минералка) в подвыборке 1:")
print(stratified_sample1['TAB'].value_counts())
print(f"Доля TAB=1: {stratified_sample1['TAB'].sum()/len(stratified_sample1)*100:.1f}%")

print("\nРаспределение TAB (минералка) в подвыборке 2:")
print(stratified_sample2['TAB'].value_counts())
print(f"Доля TAB=1: {stratified_sample2['TAB'].sum()/len(stratified_sample2)*100:.1f}%")

print("\n" + "="*50)
print("Комбинации COKE и TAB в подвыборке 1:")
print(stratified_sample1['COKE_TAB'].value_counts().sort_index())

print("\nКомбинации COKE и TAB в подвыборке 2:")
print(stratified_sample2['COKE_TAB'].value_counts().sort_index())


Подвыборка 1: 17 наблюдений
Подвыборка 2: 17 наблюдений

Распределение COKE в подвыборке 1:
COKE
1    10
0     7
Name: count, dtype: int64
Доля COKE=1: 58.8%

Распределение COKE в подвыборке 2:
COKE
1    10
0     7
Name: count, dtype: int64
Доля COKE=1: 58.8%


In [10]:
print("Первые строки стратифицированной подвыборки 1:")
stratified_sample1.head()


Первые строки стратифицированной подвыборки 1:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
13,14,1,0,0,0,0,1,0,0
29,30,0,1,1,0,0,0,1,0
24,25,0,1,1,1,0,0,0,0
25,26,0,1,0,1,0,0,1,0
30,31,1,0,0,0,1,0,0,1


In [11]:
print("Первые строки стратифицированной подвыборки 2:")
stratified_sample2.head()


Первые строки стратифицированной подвыборки 2:


Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
28,29,1,0,0,0,0,1,0,0
0,1,1,0,0,0,1,1,0,1
6,7,0,1,1,1,0,0,1,0
14,15,0,1,1,0,0,0,1,0
12,13,0,0,1,1,0,1,0,1
