In [1]:
import os
import random
import sys
from datetime import datetime
from pathlib import Path

import matplotlib.pyplot as plt
import pandas as pd

# Использовать только процессор.
os.environ['CUDA_VISIBLE_DEVICES'] = '-1'
# Изменить уровень отображения логов
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
import tensorflow as tf

# Корень проекта.
DIR_ROOT = Path.cwd().parent.parent
sys.path.append(str(DIR_ROOT))
import src.model_utils as mu
from src.logger import log_to_json, log_to_table

# Путь к удаленной директории с ресурсами: данные, модели и т.д.
DIR_REMOTE: Path | None = Path('/home/admin/cafa/resources')

if DIR_REMOTE is not None and DIR_REMOTE.exists():
    DIR_RESOURCE = DIR_REMOTE
else:
    DIR_RESOURCE = DIR_ROOT

# Путь к директории с подготовленными данными.
DIR_PREPARED_DATA = DIR_RESOURCE / 'data/prepared'
# Путь к файлу с оценкой моделей для различных экспериментов.
PATH_TO_EVAL_FILE = DIR_ROOT / 'experiments/eval.json'

# Утилиты

In [2]:
def print_shape_and_total_memory(df: pd.DataFrame, prefix: str = '') -> None:
    '''
    Вывод информации о форме и общем размере занятой памяти
    объектаpd.DataFrame
    '''
    print(
        prefix,
        f'Shape: {df.shape}',
        f'Total memory: {df.memory_usage().sum() / 1024**3:.1f} GB',
        '---',
        sep='\n',
    )


# Загрузка данных (признаков и целей)

In [3]:
PATH_TO_FEATURES = DIR_PREPARED_DATA / 'train_features.csv'
PATH_TO_LABELS = DIR_PREPARED_DATA / 'train_lbls_top1500_goterms.csv'
# Загрузка признаков.
x = pd.read_csv(PATH_TO_FEATURES)
# Загрузка целей.
y = pd.read_csv(PATH_TO_LABELS)
y = y.astype('int32')
print_shape_and_total_memory(x, 'x:')
print_shape_and_total_memory(y, 'y:')

x:
Shape: (142246, 1024)
Total memory: 1.1 GB
---
y:
Shape: (142246, 1500)
Total memory: 0.8 GB
---


# Оценка модели

## Оценка производительности модели
Оценка производительности модели через KFold кросс-валидацию при сочетании  
параметров: 

Структура слоев:  
- [512, 512, 512]  
- [1024, 512, 1024]  
- [512, 256, 512]  

Набор dropout:   
- {0.1, 0.3, 0.5}

In [5]:
ACTIVATION = 'relu'
BATCH_SIZE = 5000
# Список для создания `Сallbacks` объектов. 
CALLBACKS_PARAMS: list[mu.CallbackParams] = [
    {
        'callback': tf.keras.callbacks.EarlyStopping,
        'params': {
            'monitor': 'val_loss',
            'mode': 'min',
            'min_delta': 0.01,
            'patience': 10,
            'restore_best_weights': True,
        }
    },
]
# None или результат `mu.create_callbacks(CALLBACKS_PARAMS)`
CALLBACKS = mu.create_callbacks(CALLBACKS_PARAMS)
DROPOUT = 0.3
EPOCHS = 150
KERNEL_REGULARIZER = None
# Структура скрытых слоев в последовательной DNN.
LAYERS_STRCT = [512, 256, 512]
LEARNING_RATE = 0.001
# Число циклов с кросс-валидацией.
N_REPEATS = 1
# Число фолдов в кросс-валидации.
N_SPLITS = 5
# Список метрик, используемых для рассчета произовдительности модели.
METRICS = [mu.f1_score_micro,]
SHUFFLE = True
VALIDATION_SPLIT = 0.1
VERBOSE = 1


# Формирование фабрики скомпилированных моделей.
mfabric = mu.ModelCompileFabric(
    activation=ACTIVATION,
    kernel_regularizer=KERNEL_REGULARIZER,
    dropout=DROPOUT,
    layers_strct=LAYERS_STRCT,
    learning_rate=LEARNING_RATE,
)
# Создаем прокси для обучения моделей.
mproxy = mu.ProxyFitModel(
    mfabric,
    batch_size=BATCH_SIZE,
    callbacks=CALLBACKS,
    epochs=EPOCHS,
    shuffle=SHUFFLE,
    validation_split=VALIDATION_SPLIT,
    verbose=VERBOSE,
)
random_state = random.randint(0, 10_000)
# Оценка производительности модели через кросс-валидацию.
results = mu.evaluate_model(
    features=x.to_numpy(),
    lbls=y.to_numpy(),
    metrics=METRICS,  # type: ignore
    proxy_model=mproxy,
    n_repeats=N_REPEATS,
    n_splits=N_SPLITS,
    random_state=random_state,
)

Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoc

## Сохранение результатов
Сохранение результатов оценки производительности модели и сопутсвующих параметров. 

In [6]:
data_info_dict = {
    'file_name_features': PATH_TO_FEATURES.name,
    'file_name_labels': PATH_TO_LABELS.name,
}
model_params_dict = {
    'activation': ACTIVATION,
    'batch_size': BATCH_SIZE,
    'callbacks': (
        CALLBACKS if CALLBACKS is None
        else mu.create_callbacks_info(CALLBACKS_PARAMS)
    ),
    'dropout': DROPOUT,
    'epochs': EPOCHS,
    'kernel_regularizer': KERNEL_REGULARIZER,
    'layers_strct': LAYERS_STRCT,
    'learning_rate': LEARNING_RATE,
    'n_repeats': N_REPEATS,
    'n_splits': N_SPLITS,
    'random_state': random_state,
    'shuffle': SHUFFLE,
    'validation_split': VALIDATION_SPLIT,
}
# Формируем словарь с текущей оценкой производительности модели
# и сопутсвующими параметрами.
model_eval_params: mu.ModelEvalParams = {
    'data_info': data_info_dict,
    'model_params': model_params_dict,
    'scores': mu.get_scores_stats(results),
}
cur_datetime = datetime.now().strftime('%Y_%d%b%H_%M_%S')
# Записываем результаты текущей оценки производительности модели в файл.
log_to_json(
    log_file=DIR_ROOT / 'experiments/eval.json',
    params={f'dt{cur_datetime}': model_eval_params},
)

Файл был дополнен


In [7]:
log_to_table(DIR_ROOT / 'experiments/eval.json')

Unnamed: 0,model_name,kernel_regularizer,layers_strct,callback,dropout,mean_f1_score_micro,std_f1_score_micro
0,dt2023_10Aug00_51_32,,"[512, 512, 512]",,0.0,0.33,0.01
1,dt2023_10Aug01_02_16,,"[512, 512, 512]",,0.0,0.35,0.01
2,dt2023_10Aug01_27_45,,"[512, 512, 512]",EarlyStopping,0.0,0.36,0.01
3,dt2023_10Aug02_05_30,,"[512, 512, 512]",EarlyStopping,0.0,0.39,0.01
4,dt2023_10Aug02_48_17,,"[512, 512, 512]",,0.0,0.4,0.01
5,dt2023_10Aug11_23_28,,"[512, 512, 512]",,0.0,0.42,0.02
6,dt2023_10Aug15_30_51,l1,"[512, 512, 512]",,0.0,0.17,0.0
7,dt2023_10Aug16_01_52,l1,"[512, 512, 512]",EarlyStopping,0.1,0.16,0.01
8,dt2023_10Aug16_56_37,l1,"[512, 512, 512]",EarlyStopping,0.0,0.16,0.01
9,dt2023_10Aug17_30_38,,"[512, 512, 512]",EarlyStopping,0.0,0.38,0.02


### Выводы

1. наилучший результат показала модель с [1024, 512, 1024] и `dropuot` 0.1, но  
   превосходит другие не значительно, возможно погрешность.

2. применение регуляризации сильно снижает показатели ~ 0.15-0.17  
   по mean_f1_score_micro