In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split

def qcut_split(df, target_column='dose', *, n_bins=4, test_size=0.2, random_state=42):
    """
    Функция разбивает датафрейм на обучающий и тестовый наборы с учетом стратификации по квантильным значениям целевой переменной.

    Параметры:
    - df (pd.DataFrame): исходный датафрейм
    - target_column (str): имя целевого столбца, по которому будет осуществляться стратификация
    - n_bins (int): количество интервалов для разделения квантильных значений целевой переменной
    - test_size (float): доля данных, которая будет использоваться для тестового набора


    Возвращает:
    - train_df (pd.DataFrame): обучающий датафрейм
    - test_df (pd.DataFrame): тестовый датафрейм
    """

    # Классификация значений целевой переменной (target_column) по квантилям
    binned_target, bins = pd.qcut(df[target_column], q=n_bins, labels=False, duplicates='drop', retbins=True)

    # границы интервалов
    print("Границы интервалов: ", bins)


    # Разбивка индексов датафрейма на обучающую и тестовую выборки с учетом стратификации по квантильным интервалам целевой переменной
    train_idx, test_idx = train_test_split(df.index, test_size=test_size, stratify=binned_target, random_state=random_state)

    # Разбиение исходного датафрейма на обучающий и тестовый наборы на основе полученных индексов
    train_df = df.loc[train_idx]
    test_df = df.loc[test_idx]

    return train_df, test_df