In [17]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.metrics import recall_score, classification_report
from sklearn.model_selection import GroupShuffleSplit
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GroupShuffleSplit
import numpy as np
from fmri_processing.utils import draw_heat_map
from fmri_processing.functions import funcs
import os

In [69]:
# train_matrix  = '/home/aaanpilov/diploma/project/numpy_matrixes/average_stimulus/HC/max.npy'
# test_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/average_stimulus/test/max.npy'

# train_matrix, test_matrix = test_matrix, train_matrix
def draw_all_subjects(matrix):
    N = matrix.shape[0]  # Длина массива
    sub_num = N // 5

    subjects = np.array_split(matrix, sub_num)
    for idx, sub in enumerate(subjects):
        print(f'sub-{idx:02d}')
        draw_heat_map(subjects[idx])

In [70]:
import numpy as np

def z_score_matrix(matrix):
    shape = matrix.shape

    # 1. Разбиваем матрицу на группы по 5 элементов
    flattened = matrix.flatten()  # Преобразуем в 1D-массив
    num_groups = len(flattened) // 5
    groups = flattened[:num_groups * 5].reshape(-1, 5)  # Группы по 5 элементов

    # 2. Вычисляем z-показатели для каждой группы
    z_scores = np.zeros_like(groups)
    for i in range(groups.shape[0]):
        group = groups[i]
        mean = np.mean(group)
        std = np.std(group)
        if std != 0:
            z_scores[i] = (group - mean) / std
        else:
            z_scores[i] = 0  # Если все элементы одинаковые

    # 3. Собираем обратно в матрицу
    flattened_z = z_scores.flatten()
    # Если исходная длина не делилась на 5, добавляем оставшиеся элементы без изменений
    if len(flattened) % 5 != 0:
        remaining = flattened[num_groups * 5:]
        flattened_z = np.concatenate([flattened_z, remaining])

    # Преобразуем обратно в исходную размерность
    result_matrix = flattened_z.reshape(shape)
    return result_matrix

In [None]:
def prepare_data(train_matrix):
    matrix = np.load(train_matrix)
    N = matrix.shape[0]  # Длина массива
    sub_num = N // 5    # Количество испытуемых

    labels = np.zeros(N, dtype=int)  # Создаем массив из нулей
    labels[3::5] = 1  # Каждый 4-й элемен
    print(matrix.shape)

    X = matrix
    y = labels


    # Группы для разделения
    groups = np.repeat(np.arange(sub_num), 5)  # [0,0,0,0,0, 1,1,1,1,1,...]

    splitter = GroupShuffleSplit(n_splits=1, test_size=0.3, random_state=30)
    train_idx, test_idx = next(splitter.split(X, y, groups))

    X_train, X_test = X[train_idx], X[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]


In [18]:
def train_best_model_by_recall(train_matrix, target_class=1, test_size=0.3, random_state=42, verbose=True):
    """
    Обучает модели и возвращает лучшую по recall для указанного класса
    
    Параметры:
    X - признаки
    y - целевая переменная
    groups - группы для кросс-валидации
    target_class - класс, для которого оптимизируем recall (по умолчанию 1)
    test_size - доля тестовой выборки
    random_state - для воспроизводимости
    verbose - вывод информации о процессе обучения
    """
    
    matrix = np.load(train_matrix)
    N = matrix.shape[0]  # Длина массива
    sub_num = N // 5    # Количество испытуемых

    labels = np.zeros(N, dtype=int)  # Создаем массив из нулей
    labels[3::5] = 1  # Каждый 4-й элемен
    print(matrix.shape)

    X = matrix
    y = labels


    # Группы для разделения
    groups = np.repeat(np.arange(sub_num), 5)  # [0,0,0,0,0, 1,1,1,1,1,...]

    splitter = GroupShuffleSplit(n_splits=1, test_size=0.3, random_state=30)
    train_idx, test_idx = next(splitter.split(X, y, groups))

    X_train, X_test = X[train_idx], X[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]
    
    
    # 1. Разделение на train/test с сохранением групп
    splitter = GroupShuffleSplit(n_splits=1, test_size=test_size, random_state=random_state)
    train_idx, test_idx = next(splitter.split(X, y, groups))
    
    X_train, X_test = X[train_idx], X[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]
    groups_train = groups[train_idx]
    
    # 2. Инициализация моделей
    models = {
        "Logistic Regression": Pipeline([
            ('scaler', StandardScaler()),
            ('model', LogisticRegression(class_weight='balanced', 
                                       max_iter=1000, 
                                       random_state=random_state))
        ]),
        "Random Forest": RandomForestClassifier(class_weight='balanced_subsample', 
                                              random_state=random_state),
        "SVM": Pipeline([
            ('scaler', StandardScaler()),
            ('model', SVC(kernel='rbf', 
                         class_weight='balanced', 
                         probability=True, 
                         random_state=random_state))
        ]),
        "XGBoost": XGBClassifier(
            scale_pos_weight=4,  # Автоматический расчет
            random_state=random_state
        )
    }

    # 3. Кросс-валидация по группам
    gss = GroupShuffleSplit(n_splits=5, test_size=0.2, random_state=random_state)
    model_recalls = []

    for name, model in models.items():
        recall_scores = []
        
        for fold, (train_idx_fold, val_idx_fold) in enumerate(gss.split(X_train, y_train, groups_train)):
            model.fit(X_train[train_idx_fold], y_train[train_idx_fold])
            y_pred = model.predict(X_train[val_idx_fold])
            recall = recall_score(y_train[val_idx_fold], y_pred, pos_label=target_class)
            recall_scores.append(recall)
        
        print(recall_scores)
        mean_recall = np.mean(recall_scores)
        std_recall = np.std(recall_scores)
        model_recalls.append((name, mean_recall, std_recall, model))
        
        if verbose:
            print(f"{name:<20} | Recall (class {target_class}): {mean_recall:.3f} ± {std_recall:.3f}")

    # 4. Выбор лучшей модели
    best_name, best_recall, best_std, best_model = max(model_recalls, key=lambda x: x[1])
    
    # 5. Финальное обучение на полном train наборе
    best_model.fit(X_train, y_train)
    
    # 6. Оценка на тестовом наборе
    test_recall = recall_score(y_test, best_model.predict(X_test), pos_label=target_class)
    
    if verbose:
        print(f"\n{'='*50}")
        print(f"BEST MODEL: {best_name}")
        print(f"CV Recall (class {target_class}): {best_recall:.3f} ± {best_std:.3f}")
        print(f"Test Recall (class {target_class}): {test_recall:.3f}")
        print("="*50)

    return best_model

In [19]:
def train_and_predict_on_test(train_matrix, test_matrix):
    model = train_best_model_by_recall(train_matrix)
    matrix_test = np.load(test_matrix)
    N_test = matrix_test.shape[0]  # Длина массива
    sub_num_test = N_test // 5

    labels_test = np.zeros(N_test, dtype=int)  # Создаем массив из нулей
    labels_test[3::5] = 1  # Каждый 4-й элемен
    print(classification_report(labels_test, model.predict(matrix_test)))

In [None]:
proportional_train_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/proportional/raw_HC/auc.npy'
proportional_test_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/proportional/raw_test/auc.npy'

reduced_train_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/reduced_ranks/auc_raw_HC.npy'
reduced_test_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/reduced_ranks/auc_test.npy'

ranks_train_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/raw_HC/auc.npy'
ranks_test_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/raw_test/auc.npy'

# train_matrix  = '/home/aaanpilov/diploma/project/numpy_matrixes/average_stimulus/HC/max.npy'
# test_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/average_stimulus/test/max.npy'

train_matrix = proportional_train_matrix
test_matrix = proportional_test_matrix 

# train_matrix = ranks_train_matrix
# test_matrix = ranks_test_matrix

# train_matrix = reduced_train_matrix
# test_matrix = reduced_test_matrix

train_matrix, test_matrix = test_matrix, train_matrix

In [26]:
def train_different_params(train_matrix_base, test_matrix_base):
    for func_name in funcs.keys():
        train_matrix = os.path.join(train_matrix_base, func_name+'.npy')
        test_matrix = os.path.join(test_matrix_base, func_name + '.npy')

        print('-'*10 + func_name + '-'*10)
        train_and_predict_on_test(train_matrix, test_matrix)
        print('-' * 100, sep='\n\n\n\n\n\n')

        train_matrix, test_matrix = test_matrix, train_matrix

        print('TEST AND TRAIN DATA REVERT' * 10)
        print('-'*10 + func_name + '-'*10)
        train_and_predict_on_test(train_matrix, test_matrix)
        print('-' * 100, sep='\n\n\n\n\n')

# Пропорциональные баллы

In [27]:
train_matrix_base = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/proportional/raw_HC'
test_matrix_base = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/proportional/raw_test'

train_different_params(train_matrix_base, test_matrix_base)


----------auc----------
(85, 132)
[0.6666666666666666, 1.0, 1.0, 0.3333333333333333, 0.6666666666666666]
Logistic Regression  | Recall (class 1): 0.733 ± 0.249
[0.0, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333, 0.0]
Random Forest        | Recall (class 1): 0.200 ± 0.163
[0.3333333333333333, 0.0, 0.3333333333333333, 0.3333333333333333, 0.6666666666666666]
SVM                  | Recall (class 1): 0.333 ± 0.211
[0.0, 0.6666666666666666, 1.0, 0.3333333333333333, 0.3333333333333333]
XGBoost              | Recall (class 1): 0.467 ± 0.340

BEST MODEL: Logistic Regression
CV Recall (class 1): 0.733 ± 0.249
Test Recall (class 1): 0.167
              precision    recall  f1-score   support

           0       0.87      1.00      0.93        40
           1       1.00      0.40      0.57        10

    accuracy                           0.88        50
   macro avg       0.93      0.70      0.75        50
weighted avg       0.90      0.88      0.86        50

-----------------------

# Баллы по 1,2 

In [30]:
reduced_train_matrix_base = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/reduced_ranks/raw_HC'
reduced_test_matrix_base = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/reduced_ranks/raw_test'

train_different_params(reduced_train_matrix_base, reduced_test_matrix_base)

----------auc----------
(85, 132)
[1.0, 0.3333333333333333, 0.3333333333333333, 0.6666666666666666, 1.0]
Logistic Regression  | Recall (class 1): 0.667 ± 0.298
[0.0, 0.0, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333]
Random Forest        | Recall (class 1): 0.200 ± 0.163
[0.3333333333333333, 0.0, 0.0, 0.3333333333333333, 0.0]
SVM                  | Recall (class 1): 0.133 ± 0.163
[1.0, 0.3333333333333333, 1.0, 0.6666666666666666, 0.6666666666666666]
XGBoost              | Recall (class 1): 0.733 ± 0.249

BEST MODEL: XGBoost
CV Recall (class 1): 0.733 ± 0.249
Test Recall (class 1): 0.500
              precision    recall  f1-score   support

           0       0.80      0.90      0.85        40
           1       0.20      0.10      0.13        10

    accuracy                           0.74        50
   macro avg       0.50      0.50      0.49        50
weighted avg       0.68      0.74      0.70        50

-----------------------------------------------------------------

# Просто баллы

In [28]:
ranks_train_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/raw_HC'
ranks_test_matrix = '/home/aaanpilov/diploma/project/numpy_matrixes/ranks_matrix/raw_test'

train_different_params(ranks_train_matrix, ranks_test_matrix)

----------auc----------
(85, 132)
[1.0, 0.0, 0.3333333333333333, 0.6666666666666666, 1.0]
Logistic Regression  | Recall (class 1): 0.600 ± 0.389
[0.0, 0.0, 0.3333333333333333, 0.3333333333333333, 0.0]
Random Forest        | Recall (class 1): 0.133 ± 0.163
[1.0, 0.0, 0.3333333333333333, 0.6666666666666666, 0.6666666666666666]
SVM                  | Recall (class 1): 0.533 ± 0.340
[1.0, 0.3333333333333333, 0.6666666666666666, 0.6666666666666666, 0.6666666666666666]
XGBoost              | Recall (class 1): 0.667 ± 0.211

BEST MODEL: XGBoost
CV Recall (class 1): 0.667 ± 0.211
Test Recall (class 1): 0.833
              precision    recall  f1-score   support

           0       0.84      0.93      0.88        40
           1       0.50      0.30      0.37        10

    accuracy                           0.80        50
   macro avg       0.67      0.61      0.63        50
weighted avg       0.77      0.80      0.78        50

-----------------------------------------------------------------

In [29]:
train_matrix_base = '/home/aaanpilov/diploma/project/numpy_matrixes/average_stimulus/HC'
test_matrix_base = '/home/aaanpilov/diploma/project/numpy_matrixes/average_stimulus/test'

train_different_params(train_matrix_base, test_matrix_base)

----------auc----------
(85, 132)
[0.6666666666666666, 0.3333333333333333, 1.0, 0.6666666666666666, 0.6666666666666666]
Logistic Regression  | Recall (class 1): 0.667 ± 0.211
[0.3333333333333333, 0.0, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333]
Random Forest        | Recall (class 1): 0.267 ± 0.133
[0.0, 0.3333333333333333, 0.6666666666666666, 0.3333333333333333, 0.3333333333333333]
SVM                  | Recall (class 1): 0.333 ± 0.211
[0.3333333333333333, 0.3333333333333333, 1.0, 0.3333333333333333, 0.3333333333333333]
XGBoost              | Recall (class 1): 0.467 ± 0.267

BEST MODEL: Logistic Regression
CV Recall (class 1): 0.667 ± 0.211
Test Recall (class 1): 0.500
              precision    recall  f1-score   support

           0       0.86      0.95      0.90        40
           1       0.67      0.40      0.50        10

    accuracy                           0.84        50
   macro avg       0.77      0.68      0.70        50
weighted avg       0.82      0.84