In [17]:
import torch
import matplotlib.pyplot as plt
import numpy as np
from collections import Counter
from sklearn.model_selection import train_test_split
from torch_geometric.data import DataLoader
import networkx as nx
from torch_geometric.utils import to_networkx

ModuleNotFoundError: No module named 'torch_scatter'

In [None]:
# Загрузка датасета
dataset = torch.load("my_eeg_dataset.pt")
print(f"Загружено объектов Data: {len(dataset)}")

In [None]:
# Проверка уникальных меток и их распределения
labels = [int(data.y.item()) for data in dataset]
unique_classes = set(labels)
print("Уникальные метки:", unique_classes)

counter = Counter(labels)
print("Распределение графов по классам:", counter)

In [None]:
# Визуализация распределения числа узлов в графах
node_counts = [data.x.shape[0] for data in dataset]
plt.figure(figsize=(8, 6))
plt.hist(node_counts, bins=20, color='skyblue', edgecolor='black')
plt.title("Распределение числа узлов в графах")
plt.xlabel("Число узлов")
plt.ylabel("Количество графов")
plt.show()

In [None]:
# Визуализация структуры одного примера графа с использованием networkx
sample_data = dataset[0]
G = to_networkx(sample_data, to_undirected=True)
plt.figure(figsize=(8, 6))
nx.draw(G, with_labels=True, node_color='lightgreen', node_size=500, edge_color='gray')
plt.title("Структура примера графа")
plt.show()

In [None]:
# Разбиение данных на train, validation и test
# Сначала разбиваем на train+val и test (80% / 20%), затем из train+val выделяем validation (примерно 25% от train+val)
train_val_data, test_data = train_test_split(
    dataset, test_size=0.2, shuffle=True, stratify=labels, random_state=42
)
train_val_labels = [int(d.y.item()) for d in train_val_data]
train_data, val_data = train_test_split(
    train_val_data, test_size=0.25, shuffle=True, stratify=train_val_labels, random_state=42
)

print(f"Train size: {len(train_data)}")
print(f"Validation size: {len(val_data)}")
print(f"Test size: {len(test_data)}")

In [None]:
# Вывод распределения классов для каждого набора
train_labels = [int(d.y.item()) for d in train_data]
val_labels = [int(d.y.item()) for d in val_data]
test_labels = [int(d.y.item()) for d in test_data]

print("Train class distribution:", Counter(train_labels))
print("Validation class distribution:", Counter(val_labels))
print("Test class distribution:", Counter(test_labels))
