In [42]:
import numpy as np
import pandas as pd
import random

In [None]:
    """Подбирает стратифицированные группы для эксперимента.

    data - pd.DataFrame, датафрейм с описанием объектов, содержит атрибуты для стратификации.
    strat_columns - List[str], список названий столбцов, по которым нужно стратифицировать.
    group_size - int, размеры групп.
    weights - dict, словарь весов страт {strat: weight}, где strat - либо tuple значений элементов страт,
        например, для strat_columns=['os', 'gender', 'birth_year'] будет ('ios', 'man', 1992), либо просто строка/число.
        Если None, определить веса пропорционально доле страт в датафрейме data.
    seed - int, исходное состояние генератора случайных чисел для воспроизводимости
        результатов. Если None, то состояние генератора не устанавливается.

    return (data_pilot, data_control) - два датафрейма того же формата, что и data
        c пилотной и контрольной группами.

In [88]:
def generate_weigths(data,strat_columns):
    #data_not_strat_cols = [i for i in data.columns if i not in strat_columns]
    lenght = data.shape[0]
    dt = data.groupby(strat_columns).agg(count=(strat_columns[0], 'count')).transpose().to_dict()
    for key, val in dt.items():
        dt[key]=dt[key]['count'] / lenght
    return dt

In [184]:
def get_indexes_dict(weights, data, strat_columns):
    if len(strat_columns)>1 :
        indexes_dict={}
        for key, value in weights.items():
            indexes = data.index
            for val, col in zip(key, strat_columns):
                indexes = data.loc[indexes][data[col] == val].index
            indexes_dict[key]= indexes
    else:
        indexes = data.index
        indexes_dict={}
        for val in data[strat_columns[0]].unique():
            indexes = data.loc[indexes][data[strat_columns] == val].index
            indexes_dict[strat_columns[0]]= indexes
    return indexes_dict

In [194]:
def get_group(indexes_dict, data, group_size, weights):
    if indexes_dict:
        inds = []
        for strat , indexes in indexes_dict.items():
            inds+=list(data.loc[indexes].sample(n = int(np.ceil(group_size * weights[strat]))).index)
        inds = random.sample(inds, group_size)
    else:
        inds = random.sample(list(data.index), group_size)
    return data.loc[inds]

In [195]:
def select_stratified_groups(data, strat_columns, group_size, weights=None, seed=None):
    if seed:
        np.random.seed(seed = seed)
    if not weights:
        weights = generate_weigths(data,strat_columns)
    
    if len(strat_columns)>1 :
        indexes_dict = get_indexes_dict(weights, data, strat_columns)
        data_pilot = get_group(indexes_dict, data, group_size, weights)
        data_control = get_group(indexes_dict, data, group_size, weights)
    else:
        data_pilot = get_group(None, data, group_size, weights)
        data_control = get_group(None, data, group_size, weights)
    return (data_pilot, data_control)

In [196]:
data = pd.DataFrame(np.random.choice([1,2],3*100).reshape(100,3), columns=[1,'b','c'])
strat_columns=[1]
weights = generate_weigths(data,strat_columns)
seed= 25
group_size = 80
index_dict = get_indexes_dict(weights, data, strat_columns)

In [197]:
if len(strat_columns)>1 :
    print(len(strat_columns), strat_columns)
else:
    print(len(strat_columns), strat_columns)

1 [1]


In [198]:
a,b = select_stratified_groups(data, strat_columns, group_size=22, weights=None, seed=None)
print(a.shape, b.shape)

(22, 3) (22, 3)


In [199]:
generate_weigths(data,strat_columns)

{1: 0.5, 2: 0.5}

In [200]:
generate_weigths(a,strat_columns),generate_weigths(b,strat_columns)

({1: 0.45454545454545453, 2: 0.5454545454545454},
 {1: 0.6363636363636364, 2: 0.36363636363636365})