In [1]:
!pip install sdv

Collecting sdv
  Downloading sdv-1.22.1-py3-none-any.whl.metadata (14 kB)
Collecting copulas>=0.12.1 (from sdv)
  Downloading copulas-0.12.2-py3-none-any.whl.metadata (9.4 kB)
Collecting ctgan>=0.11.0 (from sdv)
  Downloading ctgan-0.11.0-py3-none-any.whl.metadata (10 kB)
Collecting deepecho>=0.7.0 (from sdv)
  Downloading deepecho-0.7.0-py3-none-any.whl.metadata (10 kB)
Collecting rdt>=1.17.0 (from sdv)
  Downloading rdt-1.17.0-py3-none-any.whl.metadata (10 kB)
Collecting sdmetrics>=0.21.0 (from sdv)
  Downloading sdmetrics-0.21.0-py3-none-any.whl.metadata (9.4 kB)
Collecting Faker>=17 (from rdt>=1.17.0->sdv)
  Downloading faker-37.3.0-py3-none-any.whl.metadata (15 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=2.0.0->ctgan>=0.11.0->sdv)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=2.0.0->ctgan>=0.11.0->sdv)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_

In [2]:
!unrar x data.rar


UNRAR 6.11 beta 1 freeware      Copyright (c) 1993-2022 Alexander Roshal

Cannot open data.rar
No such file or directory
No files to extract


In [3]:
import pandas as pd
import numpy as np
import torch
import random
import warnings
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score, f1_score
from hyperopt import fmin, tpe, hp, Trials, STATUS_OK
from hyperopt import space_eval
from sdv.single_table import CTGANSynthesizer as CTGAN
from sdv.metadata import SingleTableMetadata
from xgboost import XGBClassifier
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import LabelEncoder
import tqdm
from sklearn.metrics import f1_score, r2_score
from xgboost import XGBClassifier, XGBRegressor

In [5]:
dir_datasets = '/kaggle/input/nir02-moons/data/'

# Загрузка реальных датасетов
real_data_1 = pd.read_csv(dir_datasets+'moons_dataset.csv')

# Словарь датасетов для удобства
datasets = {
    'two_moons': {
                    "data": real_data_1,
                    "task": "regression",
                    "target": "x2",
                    "num_columns":
                    ["x1"],
                    "cat_columns":
                    []
                },
}


for name, data in datasets.items():
    print(f" Информация о датасете {name}:")
    print(f" Количество строк: {data['data'].shape[0]}")
    print(f" Количество колонок: {data['data'].shape[1]}")
    print(f" Колонки: {list(data['data'].columns)}")
    print(f" Задача: {data['task']}")
    print(f" Целевая переменная: {data['target']}")
    print(f" Числовые признаки: {data['num_columns']}")
    print(f"Категориальные признаки: {data['cat_columns']}")
    print()

 Информация о датасете two_moons:
 Количество строк: 3000
 Количество колонок: 2
 Колонки: ['x1', 'x2']
 Задача: regression
 Целевая переменная: x2
 Числовые признаки: ['x1']
Категориальные признаки: []



In [6]:
RANDOM_SEED = 42

random.seed(RANDOM_SEED)
np.random.seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed(RANDOM_SEED)

In [7]:
def process_data(dataset, num_columns, cat_columns, transformation_num_type='None', transformation_cat_type='None'):

    df_processed = dataset.copy()

    # Обработка числовых признаков
    if transformation_num_type == 'CDF':
        # CDF трансформация: преобразует значения в их эмпирическую функцию распределения
        for col in num_columns:
            # Правильная формула для эмпирической CDF
            df_processed[col] = (df_processed[col].rank(method='average') - 0.5) / len(df_processed)

    elif transformation_num_type == 'PLE_CDF':
        # PLE_CDF (Probability Logit Envelope CDF) - более сложная трансформация
        for col in num_columns:
            # Сначала применяем CDF
            cdf_values = (df_processed[col].rank(method='average') - 0.5) / len(df_processed)

            # Затем применяем logit трансформацию с небольшим сглаживанием
            # Избегаем 0 и 1 для предотвращения бесконечности в logit
            epsilon = 1e-6
            cdf_values = np.clip(cdf_values, epsilon, 1 - epsilon)

            # Логит трансформация: ln(p/(1-p))
            df_processed[col] = np.log(cdf_values / (1 - cdf_values))

    # Обработка категориальных признаков
    if transformation_cat_type == 'OHE':
        # One Hot Encoding для категориальных признаков
        for col in cat_columns:
            # Создаем dummy переменные с префиксом имени колонки
            dummy_df = pd.get_dummies(df_processed[col], prefix=col, dtype=int)

            # Удаляем исходную категориальную колонку
            df_processed = df_processed.drop(columns=[col])

            # Добавляем новые dummy колонки
            df_processed = pd.concat([df_processed, dummy_df], axis=1)

    return df_processed

In [8]:
ctgan_space = {
    # Learning rates
    'discriminator_lr': hp.qloguniform('discriminator_lr',
                                                 np.log(5e-5), np.log(1e-2), 5e-5),
    'generator_lr': hp.qloguniform('generator_lr',
                                             np.log(5e-5), np.log(1e-2), 5e-5),

    # Batch size
    'batch_size': hp.choice('batch_size', [50, 100, 250, 500, 1000]),

    # Embedding dimensions
    'embedding_dim': hp.choice('embedding_dim', [32, 64, 128, 256]),

    # Network architecture
    'generator_dim': hp.choice('generator_dim', [[128, 128], [128, 128, 128], [128, 128, 128, 128],
                                                [256, 256], [256, 256, 256], [256, 256, 256, 256]]),
    'discriminator_dim': hp.choice('discriminator_dim', [[256, 256], [256, 256, 256],
                                                        [128, 128], [128, 128, 128]]),

    # Decay parameters
    'generator_decay': hp.qloguniform('generator_decay',
                                     np.log(1e-6), np.log(1e-5), 1e-6),
    'discriminator_decay': hp.qloguniform('discriminator_decay',
                                         np.log(1e-6), np.log(1e-5), 1e-6),

    # Frequency
    'log_frequency': hp.choice('log_frequency', [False, True]),
    'transformation_num_type': hp.choice('transformation_num_type', ['CDF', 'PLE_CDF']),
    'transformation_cat_type': hp.choice('transformation_cat_type', ['OHE']),
    'epochs': hp.choice('epochs', [400]),

}

In [9]:
def evaluate_ml_efficacy(real_train, synthetic_train, real_test, target_column, num_columns, cat_columns, task_type='classification'):
    """
    Вычисляет ML-Efficacy метрику

    Args:
        real_train: реальные тренировочные данные
        synthetic_train: синтетические тренировочные данные
        real_test: реальные тестовые данные
        target_column: название целевой колонки
        task_type: 'classification' или 'regression'

    Returns:
        ml_efficacy_score: отношение качества модели на синтетических данных к качеству на реальных
    """

    # Подготовка данных
    real_train_copy = real_train.copy()

    # Обработка синтетических данных (если это объект с методом dataframe)
    if hasattr(synthetic_train, "dataframe"):
        synthetic_train = synthetic_train.dataframe()
    synthetic_train_copy = synthetic_train.copy()

    real_test_copy = real_test.copy()

    # Определение категориальных колонок (исключая целевую)
    feature_columns = num_columns
    categorical_columns = cat_columns

    # Label Encoding для категориальных признаков
    label_encoders = {}
    for col in categorical_columns:
        le = LabelEncoder()
        # Обучаем на реальных данных
        combined_values = pd.concat([real_train_copy[col], real_test_copy[col]]).astype(str)
        le.fit(combined_values)
        label_encoders[col] = le

        # Применяем к реальным данным
        real_train_copy[col] = le.transform(real_train_copy[col].astype(str))
        real_test_copy[col] = le.transform(real_test_copy[col].astype(str))

        # Применяем к синтетическим данным, обрабатываем неизвестные значения
        synthetic_values = synthetic_train_copy[col].astype(str)
        known_values = set(le.classes_)
        synthetic_values = synthetic_values.apply(lambda x: x if x in known_values else le.classes_[0])
        synthetic_train_copy[col] = le.transform(synthetic_values)

    # Разделение на признаки и целевую переменную
    X_real_train = real_train_copy.drop(columns=[target_column])
    y_real_train = real_train_copy[target_column]

    X_synthetic_train = synthetic_train_copy.drop(columns=[target_column])
    y_synthetic_train = synthetic_train_copy[target_column]

    X_real_test = real_test_copy.drop(columns=[target_column])
    y_real_test = real_test_copy[target_column]

    # Выбор модели в зависимости от типа задачи
    if task_type == 'classification':
        model_real = XGBClassifier(random_state=42, eval_metric='logloss')
        model_synthetic = XGBClassifier(random_state=42, eval_metric='logloss')
        score_func = f1_score
        score_kwargs = {'average': 'weighted'} if len(np.unique(y_real_train)) > 2 else {'average': 'binary'}
    else:  # regression
        model_real = XGBRegressor(random_state=42)
        model_synthetic = XGBRegressor(random_state=42)
        score_func = r2_score
        score_kwargs = {}

    try:
        # Обучение модели на реальных данных
        model_real.fit(X_real_train, y_real_train)
        y_pred_real = model_real.predict(X_real_test)
        score_real = score_func(y_real_test, y_pred_real, **score_kwargs)

        # Обучение модели на синтетических данных
        model_synthetic.fit(X_synthetic_train, y_synthetic_train)
        y_pred_synthetic = model_synthetic.predict(X_real_test)
        score_synthetic = score_func(y_real_test, y_pred_synthetic, **score_kwargs)

        # Вычисление ML-Efficacy
        if score_real > 0:
            ml_efficacy = score_synthetic / score_real
        else:
            ml_efficacy = 0.0

        return ml_efficacy

    except Exception as e:
        print(f"Ошибка при вычислении ML-Efficacy: {e}")
        return 0.0

In [10]:
from sklearn.model_selection import KFold

def generate_and_evaluate_ml_efficacy(params, dataset_info, n_splits=3):
    warnings.filterwarnings("ignore", category=FutureWarning)
    warnings.filterwarnings("ignore", category=UserWarning)

    task_type = dataset_info['task']
    target_column = dataset_info['target']
    data = process_data(dataset_info['data'], dataset_info['num_columns'], dataset_info["cat_columns"], params['transformation_num_type'], params['transformation_cat_type'])

    kf = KFold(n_splits=n_splits, shuffle=False)
    ml_efficacy_scores = []

    for train_index, test_index in kf.split(data):
        train_data = data.iloc[train_index].reset_index(drop=True)
        test_data = data.iloc[test_index].reset_index(drop=True)

        metadata = SingleTableMetadata()
        metadata.detect_from_dataframe(data=train_data)

        # Создание и обучение CTGAN с заданными параметрами
        ctgan = CTGAN(
            metadata=metadata,
            discriminator_lr=params['discriminator_lr'],
            generator_lr=params['generator_lr'],
            batch_size=params['batch_size'],
            embedding_dim=params['embedding_dim'],
            generator_dim=params['generator_dim'],
            generator_decay=params['generator_decay'],
            discriminator_decay=params['discriminator_decay'],
            log_frequency=params['log_frequency'],
            epochs=params['epochs']
        )

        ctgan.fit(train_data)

        synthetic_data = ctgan.sample(len(test_data))

        # Вычисляем ML-Efficacy
        score = evaluate_ml_efficacy(
            real_train=train_data,
            synthetic_train=synthetic_data,
            real_test=test_data,
            target_column=target_column,
            num_columns = dataset_info["num_columns"],
            cat_columns = dataset_info["cat_columns"],
            task_type=task_type
        )
        ml_efficacy_scores.append(score)

    return np.mean(ml_efficacy_scores)

In [11]:
def optimize_dataset(dataset_name, dataset_info, max_evals=30):
    print(f"Оптимизация для датасета: {dataset_name}")

    # Создаем объект для хранения истории поиска
    trials = Trials()

    # Определяем целевую функцию для оптимизации
    def objective(params):
        print("="*50)
        ml_efficacy_score = generate_and_evaluate_ml_efficacy(params, dataset_info)

        print(f"ML-Efficacy: {ml_efficacy_score}")
        print(params)
        print("="*50)

        # Для ML-Efficacy мы хотим максимизировать метрику, поэтому возвращаем отрицательное значение
        return {
            'loss': -ml_efficacy_score,  # отрицательное для максимизации
            'status': STATUS_OK,
            'ml_efficacy_score': ml_efficacy_score
        }

    # Запускаем оптимизацию с помощью TPE алгоритма
    rng = np.random.default_rng(42)  # Используем фиксированный seed
    best = fmin(
        fn=objective,
        space=ctgan_space,
        algo=tpe.suggest,
        max_evals=max_evals,
        trials=trials,
        rstate=rng
    )

    # Автоматическое декодирование параметров
    best_params = space_eval(ctgan_space, best)


    # Находим лучший результат
    best_trial = min(trials.trials, key=lambda x: x['result']['loss'])
    best_ml_efficacy = best_trial['result'].get('ml_efficacy_score', None)

    results = {
        'best_params': best_params,
        'best_ml_efficacy': best_ml_efficacy,
        'ml_efficacy_diff_from_optimal': -best_trial['result']['loss']  # убираем минус для читаемости
    }

    print(f"Лучший ML-Efficacy для {dataset_name}: {best_ml_efficacy}")
    print(f"Лучшие параметры: {best_params}")
    print('-' * 50)

    return results

In [12]:
# Словарь для хранения результатов
all_results = {}

# Указываем количество итераций для каждого датасета
max_evals = 100

# Запускаем оптимизацию для каждого датасета
for dataset_name in datasets:
    data = datasets[dataset_name]
    all_results[dataset_name] = optimize_dataset(dataset_name, data, max_evals)

Оптимизация для датасета: two_moons
ML-Efficacy: -0.42761543183442985                      
{'batch_size': 50, 'discriminator_decay': 4.9999999999999996e-06, 'discriminator_dim': (128, 128, 128), 'discriminator_lr': 0.0029000000000000002, 'embedding_dim': 256, 'epochs': 400, 'generator_decay': 4e-06, 'generator_dim': (128, 128, 128, 128), 'generator_lr': 0.00135, 'log_frequency': True, 'transformation_cat_type': 'OHE', 'transformation_num_type': 'CDF'}
ML-Efficacy: 0.01841243010884735                                                      
{'batch_size': 50, 'discriminator_decay': 8e-06, 'discriminator_dim': (128, 128, 128), 'discriminator_lr': 0.001, 'embedding_dim': 256, 'epochs': 400, 'generator_decay': 1e-06, 'generator_dim': (256, 256, 256, 256), 'generator_lr': 0.00125, 'log_frequency': False, 'transformation_cat_type': 'OHE', 'transformation_num_type': 'PLE_CDF'}
ML-Efficacy: -0.40878577042036907                                                      
{'batch_size': 1000, 'discrimin

In [13]:
for dataset_name in datasets:
    print(dataset_name, all_results[dataset_name]['best_ml_efficacy'])

two_moons 0.40313686703598944
