# Imports

In [2]:
from IPython.display import clear_output
import subprocess

subprocess.run(["pip", "freeze"], check=True)
clear_output(wait=False)

In [3]:
import os
import sys

module_path = os.path.abspath(os.path.join(".."))
if module_path not in sys.path:
    sys.path.append(module_path)
import models
import matplotlib.pyplot as plt
import numpy as np
import torch
from fpdf import FPDF
import random
from datetime import datetime
import csv
from omegaconf import OmegaConf
import pyedflib
from scipy import signal, stats

import pandas as pd

from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
import umap
import seaborn as sns

# Functions

In [5]:
# === Функции ===
def edf_extractor(file_name):
    f = pyedflib.EdfReader(file_name)
    n = f.signals_in_file
    signal_labels = f.getSignalLabels()
    sigbufs = np.zeros((n, f.getNSamples()[0]))
    for i in np.arange(n):
        sigbufs[i, :] = f.readSignal(i)
    return sigbufs, signal_labels


def plot_time_series(wav, smpl_rate):
    plt.figure(figsize=(10, 3))
    plt.xticks(fontsize=20)
    plt.yticks(fontsize=20)
    plt.ylabel("Voltage (\u03bcV)", fontsize=25)
    plt.xticks(
        np.arange(0, len(wav) + 1, smpl_rate),
        [x / smpl_rate for x in np.arange(0, len(wav) + 1, smpl_rate)],
    )
    plt.xlabel("Time (s)", fontsize=25)
    plt.plot(wav)


def get_stft(x, fs, clip_fs=-1, normalizing=None, **kwargs):
    f, t, Zxx = signal.stft(x, fs, **kwargs)

    Zxx = Zxx[:clip_fs]
    f = f[:clip_fs]

    Zxx = np.abs(Zxx)
    clip = 5  # To handle boundary effects
    if normalizing == "zscore":
        Zxx = Zxx[:, clip:-clip]
        Zxx = stats.zscore(Zxx, axis=-1)
        t = t[clip:-clip]
    elif normalizing == "baselined":
        Zxx = baseline(Zxx[:, clip:-clip])
        t = t[clip:-clip]
    elif normalizing == "db":
        Zxx = np.log2(Zxx[:, clip:-clip])
        t = t[clip:-clip]

    if np.isnan(Zxx).any():
        import pdb

        pdb.set_trace()

    return f, t, Zxx


def plot_stft(wav, SamplingFrequency):
    f, t, linear = get_stft(
        wav,
        SamplingFrequency,
        clip_fs=40,
        nperseg=400,
        noverlap=350,
        normalizing="zscore",
        return_onesided=True,
    )  # TODO hardcode sampling rate
    plt.figure(figsize=(15, 3))
    g1 = plt.pcolormesh(t, f, linear, shading="gouraud", vmin=-3, vmax=5)

    cbar = plt.colorbar(g1)
    tick_font_size = 15
    cbar.ax.tick_params(labelsize=tick_font_size)
    cbar.ax.set_ylabel("Power (Arbitrary units)", fontsize=15)
    plt.xticks(fontsize=20)
    plt.ylabel("")
    plt.yticks(fontsize=20)
    plt.xlabel("Time (s)", fontsize=20)
    plt.ylabel("Frequency (Hz)", fontsize=20)


def build_model(cfg):
    ckpt_path = cfg.upstream_ckpt
    init_state = init_state = torch.load(ckpt_path, weights_only=False)
    upstream_cfg = init_state["model_cfg"]
    upstream = models.build_model(upstream_cfg)
    return upstream


def load_model_weights(model, states, multi_gpu):
    if multi_gpu:
        model.module.load_weights(states)
    else:
        model.load_weights(states)


def initialize_model(ckpt_path: str):
    """
    Инициализация модели с заданным путем к контрольной точке (checkpoint).

    Args:
        ckpt_path (str): Путь к файлу контрольной точки.

    Returns:
        model: Инициализированная модель.
    """

    # Создание конфигурации и загрузка модели
    cfg = OmegaConf.create({"upstream_ckpt": ckpt_path})
    model = build_model(cfg)
    model.to("cuda")

    # Загрузка весов модели
    init_state = torch.load(ckpt_path, weights_only=False)
    load_model_weights(model, init_state["model"], False)

    return model


def create_save_dir(base_path: str) -> str:
    """Создаёт директорию с именем, основанным на текущей дате и времени."""
    timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
    save_dir = os.path.join(base_path, timestamp)
    os.makedirs(save_dir, exist_ok=True)
    return save_dir


def read_intervals_from_csv(file_path: str):
    """Читает интервалы из CSV-файла."""
    intervals = []
    activities = []
    with open(file_path, mode="r", encoding="utf-8") as csv_file:
        csv_reader = csv.reader(csv_file)
        for row in csv_reader:
            activities.append(row[0])
            intervals.append((float(row[1]), float(row[2])))
    return activities, intervals


def extract_intervals(original_file_path):
    """
    Преобразует оригинальный TSV файл в переменные для дальнейшей работы: activities, intervals и activity_type.

    Args:
        original_file_path (str): Путь к оригинальному TSV файлу.

    Returns:
        tuple: Три списка - activities, intervals и activity_type.
    """
    import pandas as pd

    # Чтение оригинального TSV файла
    df = pd.read_csv(original_file_path, sep="\t")

    # Извлечение необходимых столбцов
    required_columns = [
        "onset",
        "duration",
        "item_name",
        "trial_type",
        "test",
        "answer",
    ]
    if not all(col in df.columns for col in required_columns):
        raise ValueError(
            f"Оригинальный файл должен содержать столбцы: {required_columns}"
        )

    # Формирование интервалов, где конец интервала это onset следующего элемента
    onset_list = df["onset"].tolist() + [0]  # Добавляем 0 в конец
    intervals = [(onset_list[i], onset_list[i + 1]) for i in range(len(onset_list) - 1)]

    # Формирование activity_type
    activity_type = df["trial_type"].tolist()

    # Формирование activities с условием для PROB
    activities = [
        f"{test} = {answer}" if trial_type == "PROB" else item_name
        for test, answer, trial_type, item_name in zip(
            df["test"], df["answer"], df["trial_type"], df["item_name"]
        )
    ]

    return activities, intervals, activity_type


def calculate_metrics(data: np.ndarray):
    """Вычисляет метрики для данных."""
    return {
        "mean": np.mean(data),
        "std": np.std(data),
        "median": np.median(data),
    }


# def generate_stft_data(recording, chosen_rec, intervals, fs):
#     """Генерирует данные STFT для каждого интервала."""
#     model_outputs = []
#     # Обработка интервалов
#     for start, end in intervals:
#         # Генерация STFT для всех каналов
#         stfts = []
#         for channel in range(recording[chosen_rec].shape[0]):
#             start_idx = int(start * fs)
#             end_idx = int(end * fs)
#             f, t, linear = get_stft(
#                 recording[chosen_rec][channel, start_idx:end_idx],
#                 fs,
#                 clip_fs=40,
#                 nperseg=400,
#                 noverlap=350,
#                 normalizing="zscore",
#             )
#             stfts.append(linear)
#         # Форматирование тензоров и инференс модели
#         inputs = torch.FloatTensor(np.stack(stfts)).transpose(1, 2).to("cuda")
#         mask = torch.zeros((inputs.shape[:2])).bool().to("cuda")

#         with torch.no_grad():
#             out = model.forward(inputs, mask, intermediate_rep=True)

#         model_outputs.append(out.cpu().numpy())
#     return model_outputs


# def save_interval_visualizations(intervals, model_outputs, activities, save_dir, num_electrodes, selected_electrodes):
#     """Генерирует и сохраняет визуализации для одного интервала."""
#     pdf = FPDF(orientation="L", unit="mm", format="A4")
#     for interval_idx, (start, end) in enumerate(intervals):
#         interval_output = model_outputs[interval_idx]
#         interval = intervals[interval_idx]
#         activity = activities[interval_idx]

#         # Расчёт средней активности на каждом электроде
#         median_activity = np.median(np.linalg.norm(interval_output, axis=2), axis=1)

#         # Выбор электродов с наибольшей и наименьшей активностью
#         most_active_electrodes = np.argsort(median_activity)[-num_electrodes:]  # наибольшая активность
#         least_active_electrodes = np.argsort(median_activity)[:num_electrodes]  # наименьшая активность

#         for category, electrodes in zip(
#             ["Наибольшая активность", "Наименьшая активность", "Избранное"],
#             [most_active_electrodes, least_active_electrodes, selected_electrodes],
#         ):
#             fig, axs = plt.subplots(2, 4, figsize=(16, 8), constrained_layout=True)
#             axs = axs.flatten()

#             for i, ax in enumerate(axs):
#                 if i >= len(electrodes):
#                     ax.axis("off")
#                     continue

#                 electrode = electrodes[i]
#                 electrode_data = interval_output[electrode]

#                 # Метрики
#                 metrics = calculate_metrics(electrode_data.flatten())
#                 mean, std, median = metrics["mean"], metrics["std"], metrics["median"]

#                 # Построение графика
#                 im = ax.imshow(electrode_data, aspect="auto", origin="lower", cmap="viridis")
#                 ax.set_title(f"Электрод {electrode}")
#                 ax.set_xlabel("Скрытое измерение")
#                 ax.set_ylabel("Временные шаги")
#                 fig.colorbar(im, ax=ax, label="Активность")

#                 # Метрики на графике
#                 ax.text(
#                     0.95,
#                     0.95,
#                     f"Mean: {mean:.2f}\nSTD: {std:.2f}\nMedian: {median:.2f}",
#                     transform=ax.transAxes,
#                     fontsize=8,
#                     va="top",
#                     ha="right",
#                     bbox=dict(boxstyle="round", facecolor="white", alpha=0.8),
#                 )

#             plt.suptitle(
#                 f"Интервал {start:.3f}-{end:.3f} сек, активность {activity}, {category}"
#             )

#             # Сохранение страницы
#             image_path = os.path.join(save_dir, f"interval_{interval_idx}_{category}.png")
#             plt.savefig(image_path, dpi=300)
#             plt.close()

#             pdf.add_page()
#             pdf.image(image_path, x=10, y=10, w=277)

#     pdf_output_path = os.path.join(save_dir, f"electrode_intervals.pdf")
#     pdf.output(pdf_output_path)


def generate_stft_data(recording, chosen_rec, interval, fs):
    """Генерирует данные STFT для одного указанного интервала записи."""
    num_channels = recording[chosen_rec].shape[0]
    start, end = interval
    start_idx = int(start * fs)
    end_idx = int(end * fs)

    full_stfts = []
    for channel in range(num_channels):
        f, t, linear = get_stft(
            recording[chosen_rec][channel, start_idx:end_idx],
            fs,
            clip_fs=40,
            nperseg=400,
            noverlap=350,
            normalizing="zscore",
        )
        full_stfts.append(linear)

    return np.stack(full_stfts), f, t


def get_model_outputs(stfts, model):
    # Форматирование тензоров и инференс модели
    inputs = torch.FloatTensor(np.stack(stfts)).transpose(1, 2).to("cuda")
    mask = torch.zeros((inputs.shape[:2])).bool().to("cuda")

    with torch.no_grad():
        out = model.forward(inputs, mask, intermediate_rep=True)
    return out


def save_visualizations(
    full_stfts,
    f,
    t,
    start,
    end,
    model_outputs,
    intervals,
    activities,
    save_dir,
    num_channels,
):
    """Генерирует визуализации для целой STFT и эмбеддингов с маркировкой активности."""
    os.makedirs(save_dir, exist_ok=True)
    # pdf = FPDF(orientation="L", unit="mm", format="A4")

    # Устанавливаем границы визуализации
    if start is None:
        start = t[0]
    if end is None:
        end = t[-1]

    # Перевод времени в бины
    start_bin = int((start - t[0]) / (t[1] - t[0]))
    end_bin = int((end - t[0]) / (t[1] - t[0]))

    # Вычисляем глобальный минимум и максимум для STFT
    stft_global_min = min(stft.min() for stft in full_stfts)
    stft_global_max = max(stft.max() for stft in full_stfts)

    # Визуализация STFT с интервалами
    for channel_idx in num_channels:
        fig, ax = plt.subplots(figsize=(16, 10), constrained_layout=True)
        im = ax.imshow(
            full_stfts[channel_idx],
            aspect="auto",
            origin="lower",
            extent=[start, end, f[0], f[-1]],  # Шкала по секундам
            cmap="viridis",
            vmin=stft_global_min,  # Фиксируем минимум
            vmax=stft_global_max,  # Фиксируем максимум
        )
        ax.set_title(f"Channel {channel_idx} - STFT with intervals")
        ax.set_xlabel("Time (bins)")
        ax.set_ylabel("Frequency (Hz)")
        fig.colorbar(im, ax=ax, label="Amplitude")

        # Добавляем интервалы и активности
        for (int_start, int_end), activity in zip(intervals, activities):
            if (
                int_start >= start and int_end <= end
            ):  # Ограничиваем по выбранному масштабу
                ax.axvline(int_start, color="red", linestyle="--")
                ax.axvline(int_end, color="blue", linestyle="--")
                ax.text(
                    (int_start + int_end) / 2,
                    f[0] - (f[-1] * 0.1),  # Разместить под координатной осью
                    activity,
                    color="black",
                    fontsize=8,
                    ha="center",
                    va="top",
                    rotation=90,  # Поворот текста против часовой стрелки
                    bbox=dict(boxstyle="round", facecolor="white", alpha=0.8),
                )

        image_path = os.path.join(save_dir, f"stft_channel_{channel_idx}.png")
        plt.savefig(image_path, dpi=300)
        plt.close()

        # pdf.add_page()
        # pdf.image(image_path, x=10, y=10, w=277)

    # Вычисляем глобальный минимум и максимум для эмбеддингов
    embeddings_global_min = min(
        model_outputs[channel_idx].min().item() for channel_idx in num_channels
    )
    embeddings_global_max = max(
        model_outputs[channel_idx].max().item() for channel_idx in num_channels
    )

    # Визуализация эмбеддингов
    for channel_idx in num_channels:
        fig, ax = plt.subplots(figsize=(16, 10), constrained_layout=True)
        channel_output = model_outputs[channel_idx].cpu().numpy()

        im = ax.imshow(
            channel_output.T,
            aspect="auto",
            origin="lower",
            extent=[start, end, 0, channel_output.shape[0]],  # Шкала времени в секундах
            cmap="viridis",
            vmin=embeddings_global_min,  # Фиксируем минимум
            vmax=embeddings_global_max,  # Фиксируем максимум
        )
        ax.set_title(f"Channel {channel_idx} - Embeddings with intervals")
        ax.set_xlabel("Time (bins)")
        ax.set_ylabel("Embedding")
        fig.colorbar(im, ax=ax, label="Activity")

        # Добавляем интервалы и активности
        for (int_start, int_end), activity in zip(intervals, activities):
            if (
                int_start >= start and int_end <= end
            ):  # Ограничиваем по выбранному масштабу
                ax.axvline(int_start, color="red", linestyle="--")
                ax.axvline(int_end, color="blue", linestyle="--")
                ax.text(
                    (int_start + int_end) / 2,
                    -channel_output.shape[0] * 0.1,  # Разместить под координатной осью
                    activity,
                    color="black",
                    fontsize=8,
                    ha="center",
                    va="top",
                    rotation=90,  # Поворот текста против часовой стрелки
                    bbox=dict(boxstyle="round", facecolor="white", alpha=0.8),
                )

        image_path = os.path.join(save_dir, f"embeddings_channel_{channel_idx}.png")
        plt.savefig(image_path, dpi=300)
        plt.close()

    #     pdf.add_page()
    #     pdf.image(image_path, x=10, y=10, w=277)

    # pdf_output_path = os.path.join(save_dir, "visualizations.pdf")
    # pdf.output(pdf_output_path)

In [6]:
# Нормализация временных интервалов
def normalize_intervals(intervals, t_bins, start):
    adjusted_t_bins = t_bins + start  # Учет смещения временного массива
    normalized_intervals = []
    for int_start, int_end in intervals:
        start_idx = np.searchsorted(adjusted_t_bins, int_start, side="left")
        end_idx = np.searchsorted(adjusted_t_bins, int_end, side="right")
        # Проверяем, что индекс начала меньше индекса конца
        if start_idx < end_idx:
            normalized_intervals.append((start_idx, end_idx))
        else:
            print(
                f"Invalid interval: ({int_start}, {int_end}) mapped to ({start_idx}, {end_idx})"
            )
    print(f"Normalized intervals: {normalized_intervals}")
    return normalized_intervals


# Усреднение данных в интервалах
def average_data_in_intervals(data, intervals):
    averaged_vectors = []
    for start_idx, end_idx in intervals:
        if start_idx < end_idx:
            interval_data = data[..., start_idx:end_idx]
            if np.isnan(interval_data).any():
                print(
                    f"NaN detected in interval {start_idx}-{end_idx}, data: {interval_data}"
                )
            averaged = np.nanmean(interval_data, axis=-1)  # Обработка NaN
            averaged_vectors.append(averaged)
        else:
            print(f"Skipping interval with invalid indices: {start_idx}-{end_idx}")
    averaged_vectors = np.array(averaged_vectors)
    print(f"Averaged data shape: {averaged_vectors.shape}")
    return averaged_vectors


def sovu_na_globus(intervals, t_bins, start, activity):
    """
    Назначает метки активности интервалам временного массива.

    Параметры:
    - intervals (list of tuples): Список интервалов (start, end).
    - t_bins (np.ndarray): Массив временных отметок (бинов).
    - start (float): Смещение временного массива.
    - activity (list): Список меток активности для каждого интервала.

    Возвращает:
    - bin_labels (np.ndarray): Массив меток активности для каждого бина.
    """
    # Учет смещения временного массива
    adjusted_t_bins = t_bins + start
    # Создаем массив с типом object для поддержки строковых меток
    bin_labels = np.zeros_like(adjusted_t_bins, dtype=object)

    # Присвоение активности интервалам
    for i, (int_start, int_end) in enumerate(intervals):
        start_idx = np.searchsorted(adjusted_t_bins, int_start, side="left")
        end_idx = np.searchsorted(adjusted_t_bins, int_end, side="right")

        # Проверяем корректность индексов и присваиваем метки
        if start_idx < end_idx:
            bin_labels[start_idx:end_idx] = activity[i]
        else:
            print(
                f"Invalid interval: ({int_start}, {int_end}) mapped to ({start_idx}, {end_idx})"
            )

    return bin_labels


def within_interval(test, left, right):
    if test >= left and test <= right:
        return 1
    else:
        return 0


def return_state(test1, test2, left, right):
    return f"{within_interval(test1, left, right)}{within_interval(test2, left, right)}"

In [7]:
def save_visualizations_with_projections(
    full_stfts,
    f,
    t,
    start,
    end,
    model_outputs,
    intervals,
    activities,
    activity_type,
    save_dir,
    num_channels,
    iteration,
    pca,
):
    """
    Генерирует визуализации STFT, эмбеддингов и их проекций (PCA, t-SNE, UMAP).
    """
    os.makedirs(save_dir, exist_ok=True)
    # pdf = FPDF(orientation="L", unit="mm", format="A4")

    # Цвета для activity_type
    unique_activity_types = list(set(activity_type))
    colors = plt.cm.tab10(np.linspace(0, 1, len(unique_activity_types)))
    activity_color_map = {
        atype: color for atype, color in zip(unique_activity_types, colors)
    }

    def plot_projections(averaged_data, activity_type, title, file_prefix, pca):
        avg_vector_1_list = []
        avg_vector_2_list = []
        activity_color_map_list = []
        """Рисует проекции PCA, t-SNE, UMAP для одного канала."""
        print(f"Processing {title}, data shape: {averaged_data.shape}")
        if averaged_data.shape[0] == 0:
            print(f"Пропущен канал для {title}, данные отсутствуют.")
            return

        # Проверка на минимальный размер выборки
        if averaged_data.shape[0] < 2:
            print(f"Недостаточно данных для проекций в {title}, пропущено.")
            return

        # Обработка NaN перед обучением моделей
        if np.isnan(averaged_data).any():
            print(f"Данные содержат NaN в {title}, пропущено.")
            return

        print(f"Averaged data before projection: {averaged_data}")
        if iteration == 0:
            pca = PCA(n_components=2).fit(averaged_data)
        proj = pca.transform(averaged_data)
        # tsne = TSNE(n_components=2, perplexity=min(30, averaged_data.shape[0] - 1), random_state=42).fit_transform(averaged_data)
        # umap_proj = umap.UMAP(n_components=2, random_state=42).fit_transform(averaged_data)

        fig, axs = plt.subplots(1, 3, figsize=(12, 4))
        plt.subplots_adjust(right=0.90)  # Оставляем 15% ширины для легенды
        # projections = [(pca, "PCA"), (tsne, "t-SNE"), (umap_proj, "UMAP")]
        projections = [(proj, "PCA")]
        for ax, (proj, method) in zip(axs, projections):
            print(f"Plotting {method} for {title}")
            # for avg_vector, activity, atype in zip(proj, activities, activity_type):
            for avg_vector, atype in zip(proj, activity_type):
                if atype not in activity_color_map:
                    print(f"Missing color for activity type: {atype}")
                # ax.scatter(avg_vector[0], avg_vector[1], label=activity, color=activity_color_map[atype], edgecolor="k")
                ax.scatter(
                    avg_vector[0],
                    avg_vector[1],
                    color=activity_color_map[atype],
                    edgecolor="k",
                )
                avg_vector_1_list.append(avg_vector[0])
                avg_vector_2_list.append(avg_vector[1])
                activity_color_map_list.append(activity_color_map[atype])
                # ax.text(
                #     avg_vector[0], avg_vector[1], activity,
                #     fontsize=8, ha="center", va="bottom",
                #     bbox=dict(boxstyle="round,pad=0.3", edgecolor="none", facecolor="white", alpha=0.8)
                # )
            ax.set_title(f"{method} - {title}")
            ax.set_xlabel("Component 1")
            ax.set_ylabel("Component 2")

        # # Создаем легенду с элементами для всех типов активности
        # handles = [
        #     plt.Line2D([0], [0], marker='o', color='w', label=atype,
        #                markerfacecolor=color, markersize=10)
        #     for atype, color in activity_color_map.items()
        # ]

        # # Проверяем, что handles не пустой
        # if handles:
        #     fig.legend(
        #         handles=handles,
        #         title="Activity Type",
        #         loc="center left",             # Привязываем к левому краю области для легенды
        #         bbox_to_anchor=(0.90, 0.5),     # Центрируем вертикально
        #         borderaxespad=0.0,             # Убираем лишние отступы
        #         frameon=False                  # Убираем рамку вокруг легенды
        #     )
        # else:
        #     print("Warning: No handles for legend. Check activity_color_map and activity_type.")

        # output_path = os.path.join(save_dir, f"{file_prefix}_projections.png")
        # plt.savefig(output_path, dpi=300)
        # plt.close()

        # pdf.add_page()
        # pdf.image(output_path, x=10, y=10, w=277)
        return pca, avg_vector_1_list, avg_vector_2_list, activity_color_map_list

    model_outputs = np.transpose(model_outputs.cpu().numpy(), (0, 1, 2))
    full_stfts = np.transpose(full_stfts, (0, 2, 1))

    # # Проекции STFT
    # for channel_idx in num_channels:
    #     print(f"Processing STFT for channel {channel_idx}")
    #     if channel_idx >= len(full_stfts):
    #         print(f"Канал {channel_idx} выходит за пределы full_stfts.")
    #         continue
    #     # normalized_intervals = normalize_intervals(intervals, t, start)
    #     normalized_intervals = sovu_na_globus(intervals, t, start, activity_type)
    #     channel_data = full_stfts[channel_idx]
    #     print(f"Raw STFT data for channel {channel_idx}:\n{channel_data}")
    #     # averaged_data = average_data_in_intervals(channel_data, normalized_intervals)
    #     # plot_projections(
    #     #     averaged_data, activities, activity_type,
    #     plot_projections(
    #         channel_data, normalized_intervals,
    #         title=f"STFT Channel {channel_idx}", file_prefix=f"stft_channel_{channel_idx}"
    #     )

    # Проекции эмбеддингов
    for channel_idx in num_channels:
        print(f"Processing embeddings for channel {channel_idx}")
        if channel_idx >= len(model_outputs):
            print(f"Канал {channel_idx} выходит за пределы model_outputs.")
            continue
        normalized_intervals = sovu_na_globus(intervals, t, start, activity_type)
        channel_output = model_outputs[channel_idx]
        print(f"Raw embeddings data for channel {channel_idx}:\n{channel_output}")

        # averaged_data = average_data_in_intervals(channel_output, normalized_intervals)
        # plot_projections(
        #     averaged_data, activities, activity_type,
        return plot_projections(
            channel_output,
            normalized_intervals,
            title=f"Embeddings Channel {channel_idx}",
            file_prefix=f"embeddings_channel_{channel_idx}",
            pca=pca,
        )

    # pdf_output_path = os.path.join(save_dir, "visualizations_with_projections.pdf")
    # pdf.output(pdf_output_path)

# Main launchers

In [None]:
# === Параметры ===
# Пути к данным и моделям
ckpt_path = "/trinity/home/asma.benachour/BERT_init_weights/stft_large_pretrained.pth"
path_to = "/trinity/home/asma.benachour/Haydn Free recall/sub-R1001P/ses-0/ieeg/"
# csv_file_path = "/beegfs/home/g.soghoyan/George/BERT-intervals/first_intervalR1001P.csv"
tsv_file_path = "/trinity/home/asma.benachour/Haydn Free recall/sub-R1001P/ses-0/ieeg/sub-R1001P_ses-0_task-FR1_events.tsv"
pdf_output_dir = "/trinity/home/asma.benachour/PDF/"

os.makedirs(pdf_output_dir, exist_ok=True)

In [8]:
# Инициализация модели
model = initialize_model(ckpt_path)



In [9]:
# Создание директории для сохранения
save_dir = create_save_dir(pdf_output_dir)

In [10]:
path_to = "/trinity/home/asma.benachour/Haydn Free recall/sub-R1001P/ses-0/ieeg/"
left_suff = "sub-R1001P_ses-0_task-FR1_acq-"
right_suff = "_ieeg.edf"
signal_types = ["monopolar", "bipolar"]
file_name = {}
recording = {}
signal_labels = {}
for s_type in signal_types:
    file_name[s_type] = f"{path_to}{left_suff}{s_type}{right_suff}"
    recording[s_type], signal_labels[s_type] = edf_extractor(file_name[s_type])
SamplingFrequency = 500
chosen_rec = "bipolar"
framecap = 50000

In [11]:
# 1. Загрузка поведенческого документа.
# Предполагается, что файл имеет разделитель табуляция, если другой – измените sep.
behavior_df = pd.read_csv(tsv_file_path, sep="\t")

# 2. Фильтрация строк с маркером начала трайала.
# Здесь предполагается, что начало трайала отмечено в столбце "trial_type" значением "TRIAL".
trial_df = behavior_df[behavior_df["trial_type"] == "TRIAL"].reset_index(drop=True)

# 3. Исключаем первый трайал, если требуется (например, он может быть служебным).
trial_df = trial_df.iloc[1:]  # Если нужно исключить первый трайал

# 4. Создаем интервалы: для каждой строки берем время начала текущего трайала и время начала следующего.
trial_df["next_onset"] = trial_df["onset"].shift(-1)
# Убираем последнюю строку, у которой нет следующего onset (т.е. не образует интервал)
trial_df = trial_df.dropna(subset=["next_onset"])

# Преобразуем интервалы в список пар (start, end)
trials = trial_df[["onset", "next_onset"]].values.tolist()
print("Извлечённые интервалы трайалов:", trials)

Извлечённые интервалы трайалов: [[308.201, 407.853], [407.853, 507.522], [507.522, 615.209], [615.209, 711.377], [711.377, 1071.861], [1071.861, 1184.266], [1184.266, 1308.922], [1308.922, 1420.81], [1420.81, 1533.248], [1533.248, 1646.853], [1646.853, 1759.907], [1759.907, 1873.912], [1873.912, 1974.314], [1974.314, 2079.917], [2079.917, 2569.459], [2569.459, 2669.645], [2669.645, 2774.398], [2774.398, 2878.034], [2878.034, 2997.34], [2997.34, 3113.845], [3113.845, 3221.466], [3221.466, 3327.852], [3327.852, 3433.139]]


In [12]:
# Чтение интервалов
# activities, intervals = read_intervals_from_csv(csv_file_path)
activities, intervals, activity_type = extract_intervals(tsv_file_path)
print(
    f"Размерность intervals:{len(intervals)} на {len(intervals[0])}; Размерность activity_type:{len(activity_type)} на 1; Размерность activities:{len(activities)} на 1"
)

# 6. Выбор одного случайного электродного канала (один рандомный электрод)
num_electrodes = 1
num_channels = random.sample(range(72), num_electrodes)

Размерность intervals:756 на 2; Размерность activity_type:756 на 1; Размерность activities:756 на 1


In [13]:
# 5. Фильтрация интервалов по длительности (минимум 400 сэмплов)
filtered_idx = []
for i, d in enumerate(intervals):
    if (d[1] - d[0]) * SamplingFrequency >= 400:
        filtered_idx.append(i)
threshold_intervals = [intervals[i] for i in filtered_idx]
threshold_activities = [activities[i] for i in filtered_idx]
threshold_activity_type = [activity_type[i] for i in filtered_idx]

In [14]:
all_models = []
all_intervals = []
for trial_idx, (start, end) in enumerate(trials):
    try:
        filtered_int_index = []
        new_intervals = []
        for i, intr in enumerate(intervals):
            if return_state(intr[0], intr[1], start, end) == "11":
                filtered_int_index.append(i)
                new_intervals.append((intr[0], intr[1]))
            elif return_state(intr[0], intr[1], start, end) == "10":
                filtered_int_index.append(i)
                new_intervals.append((intr[0], end))
            elif return_state(intr[0], intr[1], start, end) == "01":
                filtered_int_index.append(i)
                new_intervals.append((start, intr[1]))

        # Теперь filtered_digit содержит только те позиции, которые удовлетворяют условию
        fit_intervals = new_intervals
        fit_activities = [activities[i] for i in filtered_int_index]
        fit_activity_type = [activity_type[i] for i in filtered_int_index]
        stft_data_array, f, t = generate_stft_data(
            recording, chosen_rec, (start, end), SamplingFrequency
        )
        with torch.no_grad():
            model_outputs = get_model_outputs(stft_data_array, model)
            all_models.append(model_outputs[num_channels[0]].cpu().numpy())
            torch.cuda.empty_cache()
        all_intervals.append(sovu_na_globus(fit_intervals, t, start, fit_activity_type))
    except RuntimeError as e:
        print(f"| WARNING: ran out of memory, retrying batch \n {e}")
        torch.cuda.empty_cache()

Invalid interval: (308.201, 308.201) mapped to (0, 0)
Invalid interval: (308.201, 308.201) mapped to (0, 0)
Invalid interval: (318.629, 318.636) mapped to (100, 100)
Invalid interval: (350.376, 350.377) mapped to (417, 417)
Invalid interval: (350.377, 350.392) mapped to (417, 417)
Invalid interval: (373.802, 373.813) mapped to (652, 652)
Invalid interval: (407.853, 407.853) mapped to (988, 988)
Invalid interval: (407.853, 407.853) mapped to (988, 988)
Invalid interval: (407.853, 407.853) mapped to (0, 0)
Invalid interval: (407.853, 407.853) mapped to (0, 0)
Invalid interval: (418.281, 418.288) mapped to (100, 100)
Invalid interval: (450.411, 450.412) mapped to (421, 421)
Invalid interval: (450.412, 450.428) mapped to (421, 421)
Invalid interval: (470.562, 470.581) mapped to (623, 623)
Invalid interval: (507.522, 507.522) mapped to (988, 988)
Invalid interval: (507.522, 507.522) mapped to (988, 988)
Invalid interval: (507.522, 507.522) mapped to (0, 0)
Invalid interval: (507.522, 507.52

In [15]:
pca = PCA(n_components=2).fit(all_models[0])
fig, ax = plt.subplots(1, 1, figsize=(12, 12))
plt.subplots_adjust(right=0.90)  # Оставляем 15% ширины для легенды

# Цвета для activity_type
unique_activity_types = list(set(activity_type))
colors = sns.husl_palette(len(unique_activity_types))
activity_color_map = {
    atype: color for atype, color in zip(unique_activity_types, colors)
}


for averaged_data, activity_t in zip(all_models, all_intervals):
    proj = pca.transform(averaged_data)
    col = [activity_color_map[atype] for atype in activity_t]
    ax.minorticks_on()
    ax.grid(True, which="minor", linestyle=":", linewidth=0.9, color="gray", alpha=0.5)
    ax.grid(True, which="major", linestyle="-", linewidth=0.5, color="gray", alpha=0.7)
    ax.scatter(proj[:, 0], proj[:, 1], color=col, s=10, edgecolor="k", alpha=0.5)


# Создаем легенду с элементами для всех типов активности
handles = [
    plt.Line2D(
        [0],
        [0],
        marker="o",
        color="w",
        label=atype,
        markerfacecolor=color,
        markersize=10,
    )
    for atype, color in activity_color_map.items()
]

# Проверяем, что handles не пустой
if handles:
    fig.legend(
        handles=handles,
        title="Activity Type",
        loc="center left",  # Привязываем к левому краю области для легенды
        bbox_to_anchor=(0.90, 0.5),  # Центрируем вертикально
        borderaxespad=0.0,  # Убираем лишние отступы
        frameon=False,  # Убираем рамку вокруг легенды
    )

plt.show()

In [16]:
pca = PCA(n_components=2).fit(all_models[0])
fig, axs = plt.subplots(5, 5, figsize=(12, 12))
plt.subplots_adjust(right=0.90)  # Оставляем 15% ширины для легенды

# Цвета для activity_type
unique_activity_types = list(set(activity_type))
colors = sns.husl_palette(len(unique_activity_types))
activity_color_map = {
    atype: color for atype, color in zip(unique_activity_types, colors)
}

act_alignment = {}

for ax, atype in zip(axs.flatten(), unique_activity_types):
    ax.set_title(atype)
    ax.set_xlim(-23, 20)
    ax.set_ylim(-22, 19)

    ax.minorticks_on()
    ax.grid(True, which="minor", linestyle=":", linewidth=0.9, color="gray", alpha=0.5)
    ax.grid(True, which="major", linestyle="-", linewidth=0.5, color="gray", alpha=0.7)

    ax.spines["top"].set_visible(False)
    ax.spines["right"].set_visible(False)
    ax.spines["bottom"].set_visible(False)
    ax.spines["left"].set_visible(False)

    ax.tick_params(axis="both", which="both", length=0)
    ax.set_xticklabels([])
    ax.set_yticklabels([])

    act_alignment[atype] = ax

points_by_activity = {atype: [] for atype in unique_activity_types}
for averaged_data, activity_t in zip(all_models, all_intervals):
    proj = pca.transform(averaged_data)
    for point, atype in zip(proj, activity_t):
        points_by_activity[atype].append(point)

for atype, ax in act_alignment.items():
    pts = np.array(points_by_activity[atype])
    if pts.size > 0:
        ax.scatter(
            pts[:, 0],
            pts[:, 1],
            s=10,
            color=activity_color_map[atype],
            edgecolor="k",
            alpha=0.25,
        )

# Создаем легенду с элементами для всех типов активности
handles = [
    plt.Line2D(
        [0],
        [0],
        marker="o",
        color="w",
        label=atype,
        markerfacecolor=color,
        markersize=10,
    )
    for atype, color in activity_color_map.items()
]

# Проверяем, что handles не пустой
if handles:
    fig.legend(
        handles=handles,
        title="Activity Type",
        loc="center left",  # Привязываем к левому краю области для легенды
        bbox_to_anchor=(0.90, 0.5),  # Центрируем вертикально
        borderaxespad=0.0,  # Убираем лишние отступы
        frameon=False,  # Убираем рамку вокруг легенды
    )

plt.show()