In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('beverage_r.csv', sep=';')
df.head()

Unnamed: 0,numb.obs,COKE,D_COKE,D_PEPSI,D_7UP,PEPSI,SPRITE,TAB,SEVENUP
0,1,1,0,0,0,1,1,0,1
1,2,1,0,0,0,1,0,0,0
2,3,1,0,0,0,1,0,0,0
3,4,0,1,0,1,0,0,1,0
4,5,1,0,0,0,1,0,0,0


In [3]:
df.shape

(34, 9)

### Задача 1

Разделить таблицу данных так, чтобы в обучающую выборку попало 66% наблюдений, а в тестовую выборку 33% наблюдений.

#### Решение

In [4]:
def train_test_split(df, train_size=None, random_state=42):
    np.random.seed(random_state)
    indexs = list(df.index)
    np.random.shuffle(indexs)
    train_data = df.iloc[indexs[:int(len(indexs)* train_size)]]
    test_data = df.iloc[indexs[int(len(indexs)* train_size):]]
    return train_data, test_data
    
train_data, test_data = train_test_split(df, train_size=0.66)

In [152]:
print(f'Обучающая выборка:{len(train_data)/len(df)*100:.0f}%')
print(f'Тестовая выборка:{len(test_data)/len(df)*100:.0f}%')

Обучающая выборка:65%
Тестовая выборка:35%


### Задача 2

Разделить таблицу данных на четыре одинаковых части.

#### Решение

In [46]:
def same_parts_split(df, n_splits, random_state=42):
    np.random.seed(random_state)
    indexs = list(df.index)
    np.random.shuffle(indexs)
    
    part_sizes = np.array([len(indexs) // n_splits for _ in range(n_splits)])
    part_sizes[(len(indexs) % n_splits):] += 1

    same_parts = []
    start_index = 0
    for i in range(n_splits):
        end_index = start_index + part_sizes[i]
        same_parts.append(df.iloc[indexs[start_index:end_index]])
        start_index = part_sizes[i]
    return same_parts
        
parts = same_parts_split(df, 4)

In [47]:
[len(part) for part in parts]

[8, 8, 9, 9]

### Задача 3

Разделить таблицу данных на две стратифицированные подвыборки по переменным кока-кола и минералка.

#### Решение

In [48]:
def train_test_stratified_split(df, stratify_cols, random_state = 42):
    np.random.seed(random_state)
    train_indexs, test_indexs = [], []
    df_group = df.groupby(stratify_cols)
    for group, indexs in df_group.groups.items():
        indexs_list = list(indexs)
        np.random.shuffle(indexs_list)
        train_indexs.extend(indexs_list[:int(len(indexs_list)*0.5)])
        test_indexs.extend(indexs_list[int(len(indexs_list)*0.5):])
    train_data = df.iloc[train_indexs]
    test_data = df.iloc[test_indexs]
    return train_data, test_data
    
train_data, test_data = train_test_stratified_split(df, stratify_cols = ['COKE', 'TAB'])

In [40]:
df.value_counts(['COKE', 'TAB'], normalize=True)

COKE  TAB
1     0      0.558824
0     1      0.294118
      0      0.117647
1     1      0.029412
Name: proportion, dtype: float64

In [36]:
train_data.value_counts(['COKE', 'TAB'], normalize=True)

COKE  TAB
1     0      0.5625
0     1      0.3125
      0      0.1250
Name: proportion, dtype: float64

In [37]:
test_data.value_counts(['COKE', 'TAB'], normalize=True)

COKE  TAB
1     0      0.555556
0     1      0.277778
      0      0.111111
1     1      0.055556
Name: proportion, dtype: float64