In [28]:
import pandas as pd
import numpy as np
import os
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, BatchNormalization
from tensorflow.keras.optimizers import Adam
from sklearn.linear_model import LogisticRegression
import optuna
from sklearn.metrics import classification_report, accuracy_score, f1_score
import warnings
warnings.filterwarnings('ignore')
from collections import Counter
from imblearn.over_sampling import SMOTE

In [11]:
# Define the function to read OMG data from a CSV file
def read_omg_csv(path_palm_data: str, 
                 n_omg_channels: int, 
                 n_acc_channels: int = 0, 
                 n_gyr_channels: int = 0, 
                 n_mag_channels: int = 0, 
                 n_enc_channels: int = 0,
                 button_ch: bool = True, 
                 sync_ch: bool = True, 
                 timestamp_ch: bool = True) -> pd.DataFrame:
    
    df_raw = pd.read_csv(path_palm_data, sep=' ', 
                         header=None, 
                         skipfooter=1, 
                         skiprows=1, 
                         engine='python')
    columns = np.arange(n_omg_channels).astype('str').tolist()
    
    for label, label_count in zip(['ACC', 'GYR', 'MAG', 'ENC'], 
                                  [n_acc_channels, n_gyr_channels, n_mag_channels, n_enc_channels]):
        columns = columns + ['{}{}'.format(label, i) for i in range(label_count)]
        
    if button_ch:
        columns = columns + ['BUTTON']
        
    if sync_ch:
        columns = columns + ['SYNC']
        
    if timestamp_ch:
        columns = columns + ['ts']
        
    df_raw.columns = columns
    
    return df_raw

In [30]:
def prepare_training_data(path_palm_data, path_protocol_data, path_meta_data, 
                          n_omg_channels=50, n_acc_channels=3, n_gyr_channels=3, 
                          n_mag_channels=0, n_enc_channels=6, 
                          standardize=True, normalize=True,
                          DO_REPLACE_TO_MOVING_AVERAGE=True, 
                          DO_CALCULATE_DERIVATIVE=True,
                          DO_SHIFT_GESTURE=True,
                          selected_channels='ALL'):
    """
    Подготовка данных для обучения и тестирования из файлов данных palm, protocol и meta.
    
    Аргументы:
    path_palm_data (str): Путь к файлу данных palm.
    path_protocol_data (str): Путь к файлу данных protocol.
    path_meta_data (str): Путь к файлу данных meta.
    n_omg_channels, n_acc_channels, и т.д. (int): Количество каналов сенсоров.
    standardize (bool): Если True, стандартизирует признаки.
    normalize (bool): Если True, нормализует признаки.
    DO_REPLACE_TO_MOVING_AVERAGE (bool): Если True, применяет скользящее среднее к данным OMG.
    DO_CALCULATE_DERIVATIVE (bool): Если True, вычисляет производные данных OMG.
    DO_SHIFT_GESTURE (bool): Если True, смещает целевой признак на максимальный скачок в данных.
    selected_channels (str): Выбор каналов данных ('OMG', 'ACC_GYR', 'ALL').
    
    Возвращает:
    tuple: Кортеж, содержащий данные для обучения и тестирования.
    """
    # Чтение данных OMG
    omg_data = read_omg_csv(path_palm_data, n_omg_channels, n_acc_channels, n_gyr_channels, 
                            n_mag_channels, n_enc_channels)
    
    # Чтение данных протокола и кодирование жестов
    gestures_protocol = pd.read_csv(path_protocol_data)
    le = LabelEncoder()
    gestures_protocol['gesture'] = le.fit_transform(
        gestures_protocol[[
            "Thumb", "Index", "Middle", "Ring", "Pinky",
            'Thumb_stretch', 'Index_stretch', 'Middle_stretch', 'Ring_stretch', 'Pinky_stretch'
        ]].apply(lambda row: str(tuple(row)), axis=1)
    )
    
    # Чтение метаинформации
    df_meta = pd.read_csv(path_meta_data)
    palm_file = path_palm_data.split('/')[-1]
    last_train_idx = df_meta[df_meta['montage'] == palm_file].to_dict(orient='records')[0]['last_train_idx']
    
    # Синхронизация меток жестов с данными OMG, используя канал SYNC
    y_cmd = np.array([gestures_protocol['gesture'].loc[s] for s in omg_data['SYNC'].values])
    
    # Подготовка названий признаков для данных OMG
    OMG_CH = [str(i) for i in range(n_omg_channels)]
    ACC_CH = ['ACC0', 'ACC1', 'ACC2']
    GYR_CH = ['GYR0', 'GYR1', 'GYR2']
    ALL_CH = OMG_CH + ACC_CH + GYR_CH

    # Выбор каналов в соответствии с параметром selected_channels
    if selected_channels == 'OMG':
        selected_features = OMG_CH
    elif selected_channels == 'ACC_GYR':
        selected_features = ACC_CH + GYR_CH
    else:
        selected_features = ALL_CH
    
    if DO_REPLACE_TO_MOVING_AVERAGE:
        # Замена на скользящее среднее
        for col in selected_features:
            omg_data[col] = omg_data[col].rolling(window=5).mean().bfill()
    
    if DO_CALCULATE_DERIVATIVE:
        # Вычисление производных данных
        OMG_DERIV = [f'{col}_deriv' for col in OMG_CH]
        for col in OMG_CH:
            omg_data[f'{col}_next'] = omg_data[col].shift(-1).ffill()
            omg_data[f'{col}_deriv'] = omg_data[f'{col}_next'] - omg_data[col]
        selected_features += OMG_DERIV

    if DO_SHIFT_GESTURE:
        # Смещение целевого признака
        id_max = 0
        cur_gesture = 0
        for i in range(y_cmd.shape[0]):
            if i < id_max:  # Пропускаем все значения до id_max
                continue
            prev_gesture = cur_gesture  # предыдущий жест
            cur_gesture = y_cmd[i]  # текущий жест
            if cur_gesture != prev_gesture:  # Если сменился жест
                id_max = omg_data[OMG_DERIV][i:i+35].abs().sum(axis=1).idxmax()  # Нахождение максимального скачка
                y_cmd[i:id_max] = prev_gesture  # Замена всех значений до id_max на предыдущий жест
    
    # Разделение данных на обучающие и тестовые наборы
    X_train = omg_data[selected_features].iloc[:last_train_idx].values
    y_train = y_cmd[:last_train_idx]
    X_test = omg_data[selected_features].iloc[last_train_idx:].values
    y_test = y_cmd[last_train_idx:]
    
    # Стандартизация и нормализация
    if standardize:
        scaler = StandardScaler()
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.transform(X_test)
        
    if normalize:
        scaler = MinMaxScaler()
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.transform(X_test)
    
    return (X_train, y_train), (X_test, y_test)



In [43]:
base_path = 'data'

# Словарь с данными по экспериментам, содержащий даты и типы файлов
experiment_data = {
    'experiment1': ('2023-05-31_17-14-41', 'palm'),
    'experiment2': ('2023-05-05_17-57-30', 'palm'),
    'experiment3': ('2023-10-25_08-52-30', 'palm'),
    'experiment4': ('2023-10-18_11-16-21', 'palm'),
    'experiment5': ('2023-09-29_09-20-47', 'palm')
}

def build_and_train_model(X_train, y_train, X_test, y_test, trial):
    # Настройка параметров SMOTE в Optuna
    k_neighbors = trial.suggest_int('k_neighbors', 2, 10)
    sampling_strategy = trial.suggest_categorical('sampling_strategy', ['auto', 'minority', 'not majority', 'all'])
    smote = SMOTE(k_neighbors=k_neighbors, sampling_strategy=sampling_strategy, n_jobs=-1)
    X_resampled, y_resampled = smote.fit_resample(X_train, y_train)

    # Настройка параметров модели с помощью Optuna
    learning_rate = trial.suggest_loguniform('learning_rate', 1e-5, 1e-1)
    dropout_rate = trial.suggest_uniform('dropout_rate', 0.0, 0.7)
    batch_size = trial.suggest_categorical('batch_size', [32, 64, 128, 256])
    epochs = 100
    num_classes = len(np.unique(y_resampled))

    # Создание модели с динамически настроенными параметрами
    model = Sequential([
        Dense(128, activation='relu', input_shape=(X_resampled.shape[1],)),
        BatchNormalization(),
        Dropout(dropout_rate),
        Dense(128, activation='relu'),
        BatchNormalization(),
        Dropout(dropout_rate),
        Dense(num_classes, activation='softmax')
    ])
    model.compile(optimizer=Adam(learning_rate=learning_rate), loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    model.fit(X_resampled, y_resampled, epochs=epochs, batch_size=batch_size, validation_split=0.2, verbose=0)
    test_loss, test_accuracy = model.evaluate(X_test, y_test, verbose=0)
    return test_accuracy

def build_final_model(X_train, y_train, best_params):
    # Применение SMOTE с лучшими параметрами, найденными Optuna
    smote = SMOTE(k_neighbors=best_params['k_neighbors'], sampling_strategy=best_params['sampling_strategy'], n_jobs=-1)
    X_resampled, y_resampled = smote.fit_resample(X_train, y_train)

    # Построение финальной модели с использованием лучших параметров
    model = Sequential([
        Dense(128, activation='relu', input_shape=(X_resampled.shape[1],)),
        BatchNormalization(),
        Dropout(best_params['dropout_rate']),
        Dense(128, activation='relu'),
        BatchNormalization(),
        Dropout(best_params['dropout_rate']),
        Dense(len(np.unique(y_resampled)), activation='softmax')
    ])
    model.compile(optimizer=Adam(learning_rate=best_params['learning_rate']),
                  loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    model.fit(X_resampled, y_resampled, epochs=100, batch_size=best_params['batch_size'], validation_split=0.2, verbose=0)
    return model

def run_experiments(use_optuna=True):
    classification_reports = {}
    best_parameters = {}
    for experiment_name, (date_folder, file_suffix) in experiment_data.items():
        # Формирование путей доступа к данным для каждого эксперимента
        path_palm_data = f'{base_path}/{date_folder}.{file_suffix}'
        path_protocol_data = f'{base_path}/{date_folder}.{file_suffix}.protocol.csv'
        path_meta_data = f'{base_path}/meta_information.csv'

        # Загрузка и подготовка данных
        (X_train, y_train), (X_test, y_test) = prepare_training_data(path_palm_data, path_protocol_data, path_meta_data)
        print(f'--- Running {experiment_name} ---')
        print(f'Shapes of data: {X_train.shape}, {y_train.shape}, {X_test.shape}, {y_test.shape}')

        # Оптимизация параметров с помощью Optuna или использование предустановленных параметров
        if use_optuna:
            study = optuna.create_study(direction='maximize')
            objective = lambda trial: build_and_train_model(X_train, y_train, X_test, y_test, trial)
            study.optimize(objective, n_trials=50, n_jobs=-1)
            best_params = study.best_trial.params
        else:
            best_params = {
                'k_neighbors': 2, 
                'sampling_strategy': 'all', 
                'learning_rate': 0.00010322646860398609, 
                'dropout_rate': 0.2609382632562011, 
                'batch_size': 32
            }
        best_parameters[experiment_name] = best_params

        # Построение финальной модели и выполнение предсказаний
        final_model = build_final_model(X_train, y_train, best_params)
        y_pred = final_model.predict(X_test)
        y_pred_classes = np.argmax(y_pred, axis=1)

        # Сохранение и вывод результатов классификации
        classification_reports[experiment_name] = classification_report(y_test, y_pred_classes)

    # Вывод всех отчетов о классификации и лучших параметров
    for name, report in classification_reports.items():
        print(f'--- Classification Report for {name} ---')
        print(report)
    for name, params in best_parameters.items():
        print(f'--- Best Parameters for {name} ---')
        print(params)

run_experiments(use_optuna=False) # Установите `use_optuna=True`, чтобы использовать Optuna для оптимизации параметров

--- Running experiment1 ---
Shapes of data: (15679, 106), (15679,), (3889, 106), (3889,)
[1m122/122[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 850us/step
--- Running experiment2 ---
Shapes of data: (20756, 106), (20756,), (5892, 106), (5892,)
[1m185/185[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 701us/step
--- Running experiment3 ---
Shapes of data: (5674, 106), (5674,), (5494, 106), (5494,)
[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 666us/step
--- Running experiment4 ---
Shapes of data: (5677, 106), (5677,), (5497, 106), (5497,)
[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 756us/step
--- Running experiment5 ---
Shapes of data: (5690, 106), (5690,), (5505, 106), (5505,)
[1m173/173[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 704us/step
--- Classification Report for experiment1 ---
              precision    recall  f1-score   support

           0       0.98      0.95      0.96      2608
           1       0.

In [23]:
# if logistic_regression_optuna:
#     def objective(trial):
    
#         # Параметры для SMOTE
#         smote_k_neighbors = trial.suggest_int('smote_k_neighbors', 2, 15)
#         smote_sampling_strategy = trial.suggest_categorical('smote_sampling_strategy', ['auto', 'minority', 'not majority', 'all'])

#         # Параметры для логистической регрессии
#         C = trial.suggest_loguniform('C', 1e-5, 10)
#         max_iter = trial.suggest_int('max_iter', 1000, 10000)
#         penalty = trial.suggest_categorical('penalty', ['l1', 'l2', 'elasticnet'])
        
#         # Установка совместимого решателя в зависимости от выбранной регуляризации
#         if penalty == 'l1':
#             solver = 'liblinear' # liblinear поддерживает только l1 и l2
#         elif penalty == 'l2':
#             solver = trial.suggest_categorical('solver', ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'])
#         elif penalty == 'elasticnet':
#             solver = 'saga'  # saga - единственный, который поддерживает elasticnet

#         # Применение SMOTE
#         smote = SMOTE(k_neighbors=smote_k_neighbors, sampling_strategy=smote_sampling_strategy)
#         X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

#         # Обучение модели логистической регрессии
#         model = LogisticRegression(C=C, max_iter=max_iter, penalty=penalty, solver=solver, l1_ratio=0.5 if penalty == 'elasticnet' else None)
#         model.fit(X_train_resampled, y_train_resampled)

#         # Оценка модели
#         score = f1_score(
#             y_test, 
#             model.predict(X_test), 
#             average = 'micro'
#         )
#         return score

#     # Создание исследования
#     study = optuna.create_study(direction='maximize')
#     study.optimize(objective, n_trials=100, n_jobs=-1)

#     print("Лучшие параметры:", study.best_trial.params)    

In [15]:
# if logistic_regression_optuna:
#     # Извлечение лучших параметров
#     best_params = study.best_trial.params
#     print("Лучшие параметры:", best_params)

#     # Применение SMOTE с лучшими параметрами
#     smote = SMOTE(k_neighbors=best_params['smote_k_neighbors'], sampling_strategy=best_params['smote_sampling_strategy'])
#     X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

#     # Выбор решателя в зависимости от типа регуляризации
#     if best_params['penalty'] == 'elasticnet':
#         solver = 'saga'  # saga - единственный решатель, поддерживающий elasticnet
#     elif best_params['penalty'] == 'l1':
#         solver = 'liblinear'  # liblinear - оптимальный выбор для l1 регуляризации
#     elif best_params['penalty'] == 'l2':
#         solver = best_params['solver'] 
#     else:  # 'none'
#         solver = 'lbfgs'  # lbfgs хорошо подходит для отсутствия регуляризации

#     # Построение и обучение модели логистической регрессии
#     model = LogisticRegression(
#         C=best_params['C'],
#         max_iter=best_params['max_iter'],
#         penalty=best_params['penalty'],
#         solver=solver,
#         l1_ratio=0.5 if best_params['penalty'] == 'elasticnet' else None,
#         multi_class='auto',
#         class_weight={0: 1, 1: 1, 2: 1, 3: 3, 4: 1, 5: 1}
#     )

#     model.fit(X_train_resampled, y_train_resampled)

#     #Делаем предсказание класса
#     y_pred = model.predict(X_test)

#     print(f'Метрики на валидационной выборке \n\
#     {classification_report(y_test, y_pred)}')