In [1]:
import numpy as np
from sklearn.metrics.pairwise import cosine_distances
from sklearn.preprocessing import MinMaxScaler

def build_matrix(
    candidates_path='data/embeddings/candidates_train_text_embeddings.npy',
    ocean_path='data/embeddings/OCEAN_embeddings.npy',
    vacancies_path='data/embeddings/vacancies_embeddings.npy'
):
  
    candidates = np.load(candidates_path)
    print(candidates.shape)
    ocean = np.load(ocean_path)
    print(ocean.shape)
    vacancies = np.load(vacancies_path)
    print(vacancies.shape)

    C = cosine_distances(candidates, ocean)
    P = cosine_distances(vacancies, ocean)

    final_matrix = C.dot(P.T) + (1 - C).dot(1 - P.T)
    
    return final_matrix, C, P

def filter_matrix(final_matrix, threshold=0.7):

    normalized_matrix = final_matrix.copy()
    
    row_min = normalized_matrix.min(axis=1).reshape(-1, 1)
    row_max = normalized_matrix.max(axis=1).reshape(-1, 1)
    
    denominator = row_max - row_min
    denominator[denominator == 0] = 1
    
    normalized_matrix = (normalized_matrix - row_min) / denominator
    
    normalized_matrix[normalized_matrix < threshold] = 0
    
    return normalized_matrix

a, C, P = build_matrix()
b = filter_matrix(a)

(6000, 384)
(5, 384)
(2277, 384)


In [2]:
import os
import torch
import torch.nn.functional as F
import numpy as np
from tqdm import tqdm
from sklearn.metrics.pairwise import cosine_similarity
from torch_geometric.data import Data
from torch_geometric.nn import SAGEConv
import faiss
import matplotlib.pyplot as plt
import seaborn as sns
import gc

if torch.cuda.is_available():
    device = torch.device('cuda')
    print(f"Используется устройство: {torch.cuda.get_device_name(device)}")
else:
    device = torch.device('cpu')
    print("GPU не доступен. Используется CPU.")

Используется устройство: Tesla V100-SXM3-32GB


In [3]:
def load_embeddings(embeddings_path):
    embeddings = np.load(embeddings_path)
    embeddings = torch.tensor(embeddings, dtype=torch.float32)
    return embeddings

def load_candidates_embeddings(data_folder, max_users=2277):
    candidates_train_path = os.path.join(data_folder, 'embeddings', 'candidates_train_text_embeddings.npy')
    candidates_val_path = os.path.join(data_folder, 'embeddings', 'candidates_val_text_embeddings.npy')
    
    candidates_train = load_embeddings(candidates_train_path)
    candidates_val = load_embeddings(candidates_val_path)
    
    # Объединяем обучающие и валидационные эмбеддинги
    candidates = torch.cat([candidates_train, candidates_val], dim=0)
    
    # Ограничиваем количество пользователей до max_users
    if candidates.shape[0] > max_users:
        candidates = candidates[:max_users]
    
    return candidates

def load_jobs_embeddings(data_folder):
    jobs_path = os.path.join(data_folder, 'embeddings', 'vacancies_embeddings.npy')
    jobs_embeddings = load_embeddings(jobs_path)
    return jobs_embeddings

def load_ocean_embeddings(data_folder):
    ocean_path = os.path.join(data_folder, 'embeddings', 'OCEAN_embeddings.npy')
    ocean_embeddings = load_embeddings(ocean_path)
    return ocean_embeddings


In [4]:
# Путь к папке с данными
data_folder = 'data'

# Загрузка эмбеддингов
print("Загрузка эмбеддингов пользователей...")
candidates = load_candidates_embeddings(data_folder)
print(f"Эмбеддинги пользователей загружены: {candidates.shape}")

print("Загрузка эмбеддингов OCEAN типов личности...")
ocean = load_ocean_embeddings(data_folder)
print(f"Эмбеддинги OCEAN загружены: {ocean.shape}")

print("Загрузка эмбеддингов вакансий...")
jobs = load_jobs_embeddings(data_folder)
print(f"Эмбеддинги вакансий загружены: {jobs.shape}")

Загрузка эмбеддингов пользователей...
Эмбеддинги пользователей загружены: torch.Size([2277, 384])
Загрузка эмбеддингов OCEAN типов личности...
Эмбеддинги OCEAN загружены: torch.Size([5, 384])
Загрузка эмбеддингов вакансий...
Эмбеддинги вакансий загружены: torch.Size([2277, 384])


In [5]:
import os
import sys
import torch
import torch.nn.functional as F
import numpy as np
from tqdm import tqdm
from sklearn.metrics.pairwise import cosine_similarity
from torch_geometric.data import Data
from torch_geometric.nn import SAGEConv
import faiss
import matplotlib.pyplot as plt
import seaborn as sns

def build_graph(candidates, ocean, jobs):
    num_candidates = candidates.shape[0]
    num_ocean = ocean.shape[0]
    num_jobs = jobs.shape[0]
    
    # Объединяем все эмбеддинги в один
    x = torch.cat([candidates, ocean, jobs], dim=0)
    
    # Создаём рёбра
    edge_index = []
    edge_attr = []
    
    # Пользователи ↔ OCEAN
    for user_idx in range(num_candidates):
        for ocean_idx in range(num_ocean):
            src = user_idx
            dst = num_candidates + ocean_idx
            edge_index.append([src, dst])
            # Вычисляем косинусное расстояние
            distance = 1 - cosine_similarity(candidates[user_idx].unsqueeze(0), ocean[ocean_idx].unsqueeze(0))[0][0]
            edge_attr.append(distance)
            # Добавляем обратное ребро
            edge_index.append([dst, src])
            edge_attr.append(distance)
    
    # Вакансии ↔ OCEAN
    for job_idx in range(num_jobs):
        for ocean_idx in range(num_ocean):
            src = num_candidates + ocean_idx
            dst = num_candidates + num_ocean + job_idx
            edge_index.append([src, dst])
            distance = 1 - cosine_similarity(jobs[job_idx].unsqueeze(0), ocean[ocean_idx].unsqueeze(0))[0][0]
            edge_attr.append(distance)
            # Добавляем обратное ребро
            edge_index.append([dst, src])
            edge_attr.append(distance)
    
    # Пользователи ↔ Вакансии (без весов)
    for user_idx in range(num_candidates):
        for job_idx in range(num_jobs):
            src = user_idx
            dst = num_candidates + num_ocean + job_idx
            edge_index.append([src, dst])
            edge_attr.append(0.0)  # Вес 0 для отсутствующих весов
            # Добавляем обратное ребро
            edge_index.append([dst, src])
            edge_attr.append(0.0)
    
    edge_index = torch.tensor(edge_index, dtype=torch.long).t().contiguous()
    edge_attr = torch.tensor(edge_attr, dtype=torch.float32)
    
    data = Data(x=x, edge_index=edge_index, edge_attr=edge_attr)
    return data

In [6]:
print("Построение графа...")
data = build_graph(candidates, ocean, jobs)
print(f"Граф создан: {data}")

Построение графа...
Граф создан: Data(x=[4559, 384], edge_index=[2, 10414998], edge_attr=[10414998])


In [7]:
class GraphSAGEModel(torch.nn.Module):
    def __init__(self, in_channels, hidden_channels, out_channels, num_layers=2):
        super(GraphSAGEModel, self).__init__()
        self.convs = torch.nn.ModuleList()
        self.convs.append(SAGEConv(in_channels, hidden_channels))
        for _ in range(num_layers - 2):
            self.convs.append(SAGEConv(hidden_channels, hidden_channels))
        self.convs.append(SAGEConv(hidden_channels, out_channels))
        
    def forward(self, x, edge_index, edge_attr):
        for conv in self.convs[:-1]:
            x = conv(x, edge_index)
            x = F.relu(x)
        x = self.convs[-1](x, edge_index)
        return x

In [8]:
from torch_geometric.utils import negative_sampling

def get_link_labels(edge_index, num_nodes, num_neg_samples=10000):

    #Генерирует положительные и отрицательные примеры для задачи предсказания рёбер.
    #Мы будем использовать задачу Link Prediction для предсказания существования рёбер между пользователями и вакансиями.
    
    pos_edge_index = edge_index
    neg_edge_index = negative_sampling(
        edge_index=pos_edge_index,
        num_nodes=num_nodes,
        num_neg_samples=num_neg_samples
    )
    return pos_edge_index, neg_edge_index


In [9]:
from torch.utils.data import DataLoader

class LinkPredictionDataset(torch.utils.data.Dataset):
    def __init__(self, data, num_neg_samples=10000):
        self.data = data
        self.num_neg_samples = num_neg_samples
        self.pos_edge_index, self.neg_edge_index = get_link_labels(
            data.edge_index,
            num_nodes=data.num_nodes,
            num_neg_samples=num_neg_samples
        )
        # Перемещаем рёбра на GPU
        self.pos_edge_index = self.pos_edge_index.to(device)
        self.neg_edge_index = self.neg_edge_index.to(device)
    
    def __len__(self):
        return 1  # В данном случае весь граф обучается за один раз
    
    def __getitem__(self, idx):
        return self.pos_edge_index, self.neg_edge_index


In [10]:
def train(model, optimizer, data, pos_edge_index, neg_edge_index):
    model.train()
    optimizer.zero_grad()
    
    out = model(data.x, data.edge_index, data.edge_attr)
    print(f"out device: {out.device}")
    
    pos_pred = (out[pos_edge_index[0]] * out[pos_edge_index[1]]).sum(dim=1)
    print(f"pos_pred device: {pos_pred.device}")
    
    neg_pred = (out[neg_edge_index[0]] * out[neg_edge_index[1]]).sum(dim=1)
    print(f"neg_pred device: {neg_pred.device}")
    
    # Логистическая регрессия
    pos_loss = F.binary_cross_entropy_with_logits(pos_pred, torch.ones(pos_pred.size(0), device=device))
    neg_loss = F.binary_cross_entropy_with_logits(neg_pred, torch.zeros(neg_pred.size(0), device=device))
    print(f"pos_loss device: {pos_loss.device}")
    print(f"neg_loss device: {neg_loss.device}")
    
    loss = pos_loss + neg_loss
    loss.backward()
    optimizer.step()
    
    return loss.item()


def test(model, data, pos_edge_index, neg_edge_index):
    model.eval()
    with torch.no_grad():
        out = model(data.x, data.edge_index, data.edge_attr)
        pos_pred = (out[pos_edge_index[0]] * out[pos_edge_index[1]]).sum(dim=1)
        neg_pred = (out[neg_edge_index[0]] * out[neg_edge_index[1]]).sum(dim=1)
        
        print(f"pos_pred device: {pos_pred.device}")
        print(f"neg_pred device: {neg_pred.device}")
        
        preds = torch.cat([pos_pred, neg_pred], dim=0)
        labels = torch.cat([torch.ones(pos_pred.size(0), device=device), torch.zeros(neg_pred.size(0), device=device)], dim=0)
        
        print(f"preds device: {preds.device}")
        print(f"labels device: {labels.device}")
        
        preds = torch.sigmoid(preds)
        preds = preds.cpu().numpy()
        labels = labels.cpu().numpy()
        
        from sklearn.metrics import roc_auc_score
        auc = roc_auc_score(labels, preds)
    
    return auc



In [11]:
def main_training_loop():
    # Создание графа
    print("Построение графа...")
    data = build_graph(candidates, ocean, jobs)
    print(f"Граф создан: {data}")
    
    num_nodes = data.num_nodes
    
    # Создание датасета и загрузчика данных
    dataset = LinkPredictionDataset(data, num_neg_samples=10000)
    dataloader = DataLoader(dataset, batch_size=1, shuffle=True)
    
    # Определение модели
    in_channels = data.x.shape[1]
    hidden_channels = 64  # Уменьшение числа скрытых каналов
    out_channels = 64
    num_layers = 2
    model = GraphSAGEModel(in_channels, hidden_channels, out_channels, num_layers).to(device)
    
    # Перевод данных в float16 и перемещение на GPU
    data.x = data.x.to(device)
    data.edge_attr = data.edge_attr.to(device)
    data.edge_index = data.edge_index.to(device)  # Перемещение edge_index на GPU

    print(f"data.x device: {data.x.device}")
    print(f"data.edge_attr device: {data.edge_attr.device}")
    print(f"data.edge_index device: {data.edge_index.device}")
    # Оптимизатор
    optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
    
    # Очистка памяти
    torch.cuda.empty_cache()
    gc.collect()
    
    # Обучение
    epochs = 100
    for epoch in range(1, epochs + 1):
        for pos_edge, neg_edge in dataloader:
            pos_edge = pos_edge[0].to(device)
            neg_edge = neg_edge[0].to(device)
            loss = train(model, optimizer, data, pos_edge, neg_edge)
        if epoch % 10 == 0:
            auc = test(model, data, pos_edge, neg_edge)
            print(f'Epoch {epoch}, Loss: {loss:.4f}, AUC: {auc:.4f}')
    
    # Сохранение модели
    model_save_path = 'graphsage_model.pth'
    torch.save(model.state_dict(), model_save_path)
    print(f"Модель сохранена по пути: {model_save_path}")
    
    return model, data


In [12]:
print(f"data.x device: {data.x.device}")
print(f"data.edge_attr device: {data.edge_attr.device}")
print(f"data.edge_index device: {data.edge_index.device}")


data.x device: cpu
data.edge_attr device: cpu
data.edge_index device: cpu


In [None]:
model, data = main_training_loop()

Построение графа...
Граф создан: Data(x=[4559, 384], edge_index=[2, 10414998], edge_attr=[10414998])
data.x device: cuda:0
data.edge_attr device: cuda:0
data.edge_index device: cuda:0
out device: cuda:0
pos_pred device: cuda:0
neg_pred device: cuda:0
pos_loss device: cuda:0
neg_loss device: cuda:0
out device: cuda:0
pos_pred device: cuda:0
neg_pred device: cuda:0
pos_loss device: cuda:0
neg_loss device: cuda:0
out device: cuda:0
pos_pred device: cuda:0
neg_pred device: cuda:0
pos_loss device: cuda:0
neg_loss device: cuda:0
out device: cuda:0
pos_pred device: cuda:0
neg_pred device: cuda:0
pos_loss device: cuda:0
neg_loss device: cuda:0
out device: cuda:0
pos_pred device: cuda:0
neg_pred device: cuda:0
pos_loss device: cuda:0
neg_loss device: cuda:0
out device: cuda:0
pos_pred device: cuda:0
neg_pred device: cuda:0
pos_loss device: cuda:0
neg_loss device: cuda:0
out device: cuda:0
pos_pred device: cuda:0
neg_pred device: cuda:0
pos_loss device: cuda:0
neg_loss device: cuda:0
out device:

In [None]:
import faiss

def generate_weight_matrix(model, data, num_candidates, num_jobs, top_k=None):
    """
    Генерирует матрицу весов между пользователями и вакансиями.
    
    Параметры:
    - model (torch.nn.Module): Обученная модель GraphSAGE.
    - data (torch_geometric.data.Data): Объект данных графа.
    - num_candidates (int): Количество пользователей.
    - num_jobs (int): Количество вакансий.
    - top_k (int или None): Если задано, возвращает только топ-k вакансий для каждого пользователя.
    
    Возвращает:
    - weight_matrix (np.ndarray): Матрица весов размерности (num_candidates, num_jobs).
    """
    model.eval()
    with torch.no_grad():
        out = model(data.x, data.edge_index, data.edge_attr)
    
    # Извлечение эмбеддингов пользователей и вакансий
    user_embeddings = out[:num_candidates].cpu().numpy()
    job_embeddings = out[num_candidates + 5:num_candidates + 5 + num_jobs].cpu().numpy()  # 5 OCEAN типов
    
    # Нормализация эмбеддингов для вычисления косинусного сходства
    user_norm = np.linalg.norm(user_embeddings, axis=1, keepdims=True)
    job_norm = np.linalg.norm(job_embeddings, axis=1, keepdims=True)
    user_embeddings_norm = user_embeddings / (user_norm + 1e-10)
    job_embeddings_norm = job_embeddings / (job_norm + 1e-10)
    
    # Вычисление матрицы косинусного сходства
    weight_matrix = np.dot(user_embeddings_norm, job_embeddings_norm.T)
    
    if top_k is not None:
        # Ограничение до топ_k вакансий для каждого пользователя
        indices = np.argsort(weight_matrix, axis=1)[:, -top_k:]
        sorted_indices = np.argsort(indices, axis=1)
        top_weights = np.take_along_axis(weight_matrix, indices, axis=1)
        weight_matrix_top_k = np.zeros_like(weight_matrix)
        for i in range(num_candidates):
            weight_matrix_top_k[i, indices[i]] = weight_matrix[i, indices[i]]
        return weight_matrix_top_k
    else:
        return weight_matrix


In [None]:
import numpy as np

# Загрузка эмбеддингов
user_embeddings = np.load('data/embeddings/candidates_train_text_embeddings.npy')  # (6000, 384)
ocean_embeddings = np.load('data/embeddings/OCEAN_embeddings.npy')  # (5, 384)
vacancy_embeddings = np.load('data/embeddings/vacancies_embeddings.npy')  # (2277, 384)
test_user_embeddings = np.load('data/embeddings/candidates_val_text_embeddings.npy')  # форма зависит от данных
selected_user_embeddings = user_embeddings[:2277]  # (2277, 384)


In [None]:
num_users = 2277
num_ocean = 5
num_vacancies = 2277
total_nodes = num_users + num_ocean + num_vacancies

# Индексы узлов
user_indices = torch.arange(0, num_users, dtype=torch.long)
ocean_indices = torch.arange(num_users, num_users + num_ocean, dtype=torch.long)
vacancy_indices = torch.arange(num_users + num_ocean, total_nodes, dtype=torch.long)


In [None]:
import numpy as np
import torch
import torch.nn.functional as F
from torch_geometric.data import Data
from torch_geometric.nn import MessagePassing
from sklearn.preprocessing import normalize
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.metrics.pairwise import cosine_similarity

# Шаг 1: Загрузка и нормализация эмбеддингов
def load_and_normalize_embeddings():
    user_embeddings = np.load('data/embeddings/candidates_train_text_embeddings.npy')[:2277]  # (2277, 384)
    ocean_embeddings = np.load('data/embeddings/OCEAN_embeddings.npy')  # (5, 384)
    vacancy_embeddings = np.load('data/embeddings/vacancies_embeddings.npy')  # (2277, 384)
    test_user_embeddings = np.load('data/embeddings/candidates_val_text_embeddings.npy')  # (N_test, 384)
    print(test_user_embeddings.shape)
    # Нормализация эмбеддингов по строкам
    user_embeddings = normalize(user_embeddings, axis=1)
    ocean_embeddings = normalize(ocean_embeddings, axis=1)
    vacancy_embeddings = normalize(vacancy_embeddings, axis=1)
    test_user_embeddings = normalize(test_user_embeddings, axis=1)
    
    return user_embeddings, ocean_embeddings, vacancy_embeddings, test_user_embeddings

# Шаг 2: Присвоение индексов узлам
def assign_node_indices(num_users, num_ocean, num_vacancies):
    total_nodes = num_users + num_ocean + num_vacancies
    return total_nodes

# Шаг 3: Построение рёбер
def build_edges(user_embeddings, ocean_embeddings, vacancy_embeddings, num_users, num_ocean, num_vacancies):
    # 3.1. Пользователи ↔ OCEAN
    user_ocean_sim = cosine_similarity(user_embeddings, ocean_embeddings)  # (2277, 5)
    source = []
    target = []
    edge_weights = []
    
    for u in range(num_users):
        for o in range(num_ocean):
            sim = user_ocean_sim[u, o]
            source.append(u)
            target.append(num_users + o)
            edge_weights.append(sim)
            # Обратные рёбра
            source.append(num_users + o)
            target.append(u)
            edge_weights.append(sim)
    
    edge_index_user_ocean = torch.tensor([source, target], dtype=torch.long)
    edge_weight_user_ocean = torch.tensor(edge_weights, dtype=torch.float)
    
    # 3.2. Вакансии ↔ OCEAN
    vacancy_ocean_sim = cosine_similarity(vacancy_embeddings, ocean_embeddings)  # (2277, 5)
    vacancy_ocean_dist = 1 - vacancy_ocean_sim  # (2277, 5)
    source = []
    target = []
    edge_weights_vacancy_ocean = []
    
    for v in range(num_vacancies):
        for o in range(num_ocean):
            dist = vacancy_ocean_dist[v, o]
            source.append(num_users + num_ocean + v)
            target.append(num_users + o)
            edge_weights_vacancy_ocean.append(dist)
            # Обратные рёбра
            source.append(num_users + o)
            target.append(num_users + num_ocean + v)
            edge_weights_vacancy_ocean.append(dist)
    
    edge_index_vacancy_ocean = torch.tensor([source, target], dtype=torch.long)
    edge_weight_vacancy_ocean = torch.tensor(edge_weights_vacancy_ocean, dtype=torch.float)
    
    # 3.3. Пользователи ↔ Вакансии (все связи)
    source = []
    target = []
    edge_weights_user_vacancy = []
    
    for u in range(num_users):
        for v in range(num_vacancies):
            source.append(u)
            target.append(num_users + num_ocean + v)
            edge_weights_user_vacancy.append(1.0)  # Вес по умолчанию
            # Обратные рёбра
            source.append(num_users + num_ocean + v)
            target.append(u)
            edge_weights_user_vacancy.append(1.0)
    
    edge_index_user_vacancy = torch.tensor([source, target], dtype=torch.long)
    edge_weight_user_vacancy = torch.tensor(edge_weights_user_vacancy, dtype=torch.float)
    
    # Очистка памяти (опционально)
    del source, target, edge_weights, edge_weights_vacancy_ocean, edge_weights_user_vacancy
    
    # 3.4. Объединение всех рёбер
    edge_index = torch.cat([edge_index_user_ocean, edge_index_vacancy_ocean, edge_index_user_vacancy], dim=1)
    edge_weight = torch.cat([edge_weight_user_ocean, edge_weight_vacancy_ocean, edge_weight_user_vacancy], dim=0)
    
    return edge_index, edge_weight

# Шаг 4: Создание объекта Data для PyG
def create_pyg_data(edge_index, edge_weight, user_embeddings, ocean_embeddings, vacancy_embeddings):
    all_embeddings = np.concatenate([user_embeddings, ocean_embeddings, vacancy_embeddings], axis=0)  # (4559, 384)
    data = Data(edge_index=edge_index, edge_attr=edge_weight, x=torch.tensor(all_embeddings, dtype=torch.float))
    return data

# Шаг 5: Определение кастомного слоя GraphSAGE с учётом весов рёбер
class SAGEConvWithEdgeWeight(MessagePassing):
    def __init__(self, in_channels, out_channels, aggr='mean'):
        super(SAGEConvWithEdgeWeight, self).__init__(aggr=aggr)  # "Add", "Mean", "Max"
        self.lin = torch.nn.Linear(in_channels, out_channels)
        self.edge_lin = torch.nn.Linear(1, out_channels, bias=False)
        self.activation = torch.nn.ReLU()
        
    def forward(self, x, edge_index, edge_weight=None):
        # x: [N, in_channels]
        # edge_index: [2, E]
        # edge_weight: [E]
        if edge_weight is None:
            edge_weight = torch.ones((edge_index.size(1),), device=x.device)
        
        # Reshape edge_weight to [E, 1]
        edge_weight = edge_weight.view(-1, 1)
        
        # Линейное преобразование весов рёбер
        edge_weight = self.edge_lin(edge_weight)  # [E, out_channels]
        
        # Преобразование признаков узлов
        x = self.lin(x)  # [N, out_channels]
        
        return self.propagate(edge_index, x=x, edge_weight=edge_weight)
    
    def message(self, x_j, edge_weight):
        # x_j: [E, out_channels]
        # edge_weight: [E, out_channels]
        return x_j * edge_weight  # [E, out_channels]
    
    def update(self, aggr_out):
        return self.activation(aggr_out)

# Шаг 6: Определение модели GraphSAGE
class GraphSAGEModel(torch.nn.Module):
    def __init__(self, in_channels, hidden_channels, out_channels, dropout=0.5):
        super(GraphSAGEModel, self).__init__()
        self.conv1 = SAGEConvWithEdgeWeight(in_channels, hidden_channels)
        self.conv2 = SAGEConvWithEdgeWeight(hidden_channels, hidden_channels)
        self.conv3 = SAGEConvWithEdgeWeight(hidden_channels, out_channels)
        self.dropout = dropout

    def forward(self, x, edge_index, edge_weight=None):
        x = self.conv1(x, edge_index, edge_weight=edge_weight)
        x = F.relu(x)
        x = F.dropout(x, p=self.dropout, training=self.training)
        x = self.conv2(x, edge_index, edge_weight=edge_weight)
        x = F.relu(x)
        x = F.dropout(x, p=self.dropout, training=self.training)
        x = self.conv3(x, edge_index, edge_weight=edge_weight)
        return x

# Шаг 7: Создание меток и подготовка датасета
def prepare_labels_and_dataset(num_users, num_vacancies):
    # Создание меток (используйте реальные данные вместо случайных)
    labels = torch.randint(0, 2, (num_users, num_vacancies)).float()
    
    # Создание списков пар пользователь-вакансия
    user_ids = []
    vacancy_ids = []
    train_labels = []
    
    for u in range(num_users):
        for v in range(num_vacancies):
            user_ids.append(u)
            vacancy_ids.append(v)
            train_labels.append(labels[u, v])
    
    user_ids = torch.tensor(user_ids, dtype=torch.long)
    vacancy_ids = torch.tensor(vacancy_ids, dtype=torch.long)
    train_labels = torch.tensor(train_labels, dtype=torch.float)
    
    # Разделение на тренировочную и валидационную выборки
    train_u, val_u, train_v, val_v, y_train, y_val = train_test_split(
        user_ids, vacancy_ids, train_labels, test_size=0.2, random_state=42
    )
    
    return train_u, val_u, train_v, val_v, y_train, y_val, labels

# Шаг 8: Инициализация модели, оптимизатора и функции потерь
def initialize_model_and_optimizer(in_channels, hidden_channels, out_channels, dropout, device):
    model = GraphSAGEModel(in_channels, hidden_channels, out_channels, dropout).to(device)
    return model

# Шаг 9: Обучающий цикл
def train_model(model, data, train_u, train_v, y_train, optimizer, criterion, device, num_epochs=100, batch_size=64):
    model.train()
    
    for epoch in range(1, num_epochs + 1):
        model.train()
        epoch_loss = 0

        permutation = torch.randperm(len(train_u))
        
        for i in range(0, len(train_u), batch_size):
            indices = permutation[i:i+batch_size]
            batch_u = train_u[indices].to(device)
            batch_v = train_v[indices].to(device)
            batch_y = y_train[indices].to(device)

            optimizer.zero_grad()
            out = model(data.x, data.edge_index, edge_weight=data.edge_attr)

            # Получение эмбеддингов пользователей и вакансий
            user_emb = out[batch_u]  # [batch_size, out_channels]
            vacancy_emb = out[num_users + num_ocean + batch_v]  # [batch_size, out_channels]

            # Предсказание соответствия через скалярное произведение
            scores = (user_emb * vacancy_emb).sum(dim=1)  # [batch_size]

            loss = criterion(scores, batch_y)
            loss.backward()
            optimizer.step()

            epoch_loss += loss.item()

        avg_loss = epoch_loss / (len(train_u) / batch_size)
        print(f'Epoch {epoch}/{num_epochs}, Loss: {avg_loss:.4f}')

        # Валидация каждые 10 эпох или в первой эпохе
        if epoch % 10 == 0 or epoch == 1:
            model.eval()
            with torch.no_grad():
                out = model(data.x, data.edge_index, edge_weight=data.edge_attr)
                user_emb_val = out[val_u].to(device)
                vacancy_emb_val = out[num_users + num_ocean + val_v].to(device)
                scores_val = (user_emb_val * vacancy_emb_val).sum(dim=1)
                preds_val = torch.sigmoid(scores_val).cpu()
                auc = roc_auc_score(y_val.cpu(), preds_val.cpu())
                print(f'Validation AUC: {auc:.4f}')

# Шаг 10: Предсказание и построение матрицы соответствий
def predict_suitability_matrix(model, data, num_users, num_ocean, device):
    model.eval()
    with torch.no_grad():
        out = model(data.x, data.edge_index, edge_weight=data.edge_attr)
        user_emb = out[:num_users]  # [num_users, out_channels]
        vacancy_emb = out[num_users + num_ocean:]  # [num_vacancies, out_channels]

        # Нормализация эмбеддингов для косинусного сходства
        user_emb = F.normalize(user_emb, p=2, dim=1)
        vacancy_emb = F.normalize(vacancy_emb, p=2, dim=1)

        # Вычисление матрицы соответствий
        suitability_matrix = torch.matmul(user_emb, vacancy_emb.T)  # [num_users, num_vacancies]
        suitability_matrix = torch.sigmoid(suitability_matrix)
        suitability_matrix = suitability_matrix.cpu().numpy()
    
    return suitability_matrix

# Шаг 11: Оценка модели с помощью Precision@K
def precision_at_k(suitability_matrix, true_labels, k=10):
    num_users = suitability_matrix.shape[0]
    precision = 0.0
    for u in range(num_users):
        top_k = np.argsort(suitability_matrix[u])[::-1][:k]
        true_positives = np.sum(true_labels[u, top_k])
        precision += true_positives / k
    return precision / num_users

# Шаг 12: Предсказание на тестовом наборе данных
def predict_test_set(model, data, test_user_embeddings, ocean_embeddings, num_users, num_ocean, num_vacancies, device):
    # Добавление тестовых пользователей в граф
    test_num_users = test_user_embeddings.size(0)
    test_total_nodes = total_nodes + test_num_users
    
    # Обновление эмбеддингов узлов
    all_embeddings = torch.cat([data.x, test_user_embeddings.cpu()], dim=0).to(device)
    
    # Создание новых рёбер для тестовых пользователей ↔ OCEAN
    source = []
    target = []
    edge_weights_test_user_ocean = []
    
    for u in range(test_num_users):
        global_u = total_nodes + u
        for o in range(num_ocean):
            # Вычисление косинусного сходства
            cosine_sim = cosine_similarity(test_user_embeddings[u].cpu().numpy().reshape(1, -1), ocean_embeddings)[0, o]
            source.append(global_u)
            target.append(num_users + o)
            edge_weights_test_user_ocean.append(cosine_sim)
            # Обратные рёбра
            source.append(num_users + o)
            target.append(global_u)
            edge_weights_test_user_ocean.append(cosine_sim)
    
    edge_index_test_user_ocean = torch.tensor([source, target], dtype=torch.long)
    edge_weight_test_user_ocean = torch.tensor(edge_weights_test_user_ocean, dtype=torch.float)
    
    # Создание рёбер тестовых пользователей ↔ Вакансии
    source = []
    target = []
    edge_weights_test_user_vacancy = []
    
    for u in range(test_num_users):
        global_u = total_nodes + u
        for v in range(num_vacancies):
            source.append(global_u)
            target.append(num_users + num_ocean + v)
            edge_weights_test_user_vacancy.append(1.0)  # Вес по умолчанию
            # Обратные рёбра
            source.append(num_users + num_ocean + v)
            target.append(global_u)
            edge_weights_test_user_vacancy.append(1.0)
    
    edge_index_test_user_vacancy = torch.tensor([source, target], dtype=torch.long)
    edge_weight_test_user_vacancy = torch.tensor(edge_weights_test_user_vacancy, dtype=torch.float)
    
    # Очистка памяти (опционально)
    del source, target, edge_weights_test_user_ocean, edge_weights_test_user_vacancy
    
    # Объединение новых рёбер
    new_edge_index = torch.cat([edge_index_test_user_ocean, edge_index_test_user_vacancy], dim=1)
    new_edge_weight = torch.cat([edge_weight_test_user_ocean, edge_weight_test_user_vacancy], dim=0)
    
    # Объединение с существующими рёбрами
    edge_index_extended = torch.cat([data.edge_index, new_edge_index], dim=1)
    edge_weight_extended = torch.cat([data.edge_attr, new_edge_weight], dim=0)
    
    # Создание обновленного графа
    test_data = Data(edge_index=edge_index_extended, edge_attr=edge_weight_extended, x=all_embeddings)
    test_data = test_data.to(device)
    
    # Предсказание
    model.eval()
    with torch.no_grad():
        out = model(test_data.x, test_data.edge_index, edge_weight=test_data.edge_attr)
    
        # Эмбеддинги тестовых пользователей находятся в последних test_num_users узлах
        test_user_emb = out[-test_num_users:]  # [N_test, out_channels]
        vacancy_emb = out[num_users + num_ocean:]  # [num_vacancies, out_channels]
    
        # Нормализация эмбеддингов
        test_user_emb = F.normalize(test_user_emb, p=2, dim=1)
        vacancy_emb = F.normalize(vacancy_emb, p=2, dim=1)
    
        # Вычисление матрицы соответствий
        suitability_matrix_test = torch.matmul(test_user_emb, vacancy_emb.T)  # [N_test, num_vacancies]
        suitability_matrix_test = torch.sigmoid(suitability_matrix_test)
        suitability_matrix_test = suitability_matrix_test.cpu().numpy()
    
    return suitability_matrix_test

# Основная функция для выполнения всех шагов
if __name__ == "__main__":
    # Параметры
    num_users = 2277
    num_ocean = 5
    num_vacancies = 2277
    total_nodes = assign_node_indices(num_users, num_ocean, num_vacancies)
    
    # Шаг 1: Загрузка и нормализация эмбеддингов
    user_embeddings, ocean_embeddings, vacancy_embeddings, test_user_embeddings = load_and_normalize_embeddings()
    
    # Шаг 3: Построение рёбер
    edge_index, edge_weight = build_edges(user_embeddings, ocean_embeddings, vacancy_embeddings, num_users, num_ocean, num_vacancies)
    
    # Шаг 4: Создание объекта Data для PyG
    data = create_pyg_data(edge_index, edge_weight, user_embeddings, ocean_embeddings, vacancy_embeddings)
    
    # Шаг 5: Определение кастомного слоя GraphSAGE с учётом весов рёбер (определено ранее)
    
    # Шаг 6: Определение модели GraphSAGE
    in_channels = 384
    hidden_channels = 128
    out_channels = 128
    dropout = 0.5
    
    # Шаг 7: Создание меток и подготовка датасета
    train_u, val_u, train_v, val_v, y_train, y_val, labels = prepare_labels_and_dataset(num_users, num_vacancies)
    
    # Шаг 8: Инициализация модели, оптимизатора и функции потерь
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    print(f'Используемый устройство: {device}')
    
    model = initialize_model_and_optimizer(in_channels, hidden_channels, out_channels, dropout, device)
    optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)
    criterion = torch.nn.BCEWithLogitsLoss()
    
    # Перемещение данных на устройство (GPU)
    data = data.to(device)
    train_u = train_u.to(device)
    train_v = train_v.to(device)
    y_train = y_train.to(device)
    val_u = val_u.to(device)
    val_v = val_v.to(device)
    y_val = y_val.to(device)
    
    # Шаг 9: Обучающий цикл
    train_model(model, data, train_u, train_v, y_train, optimizer, criterion, device, num_epochs=100, batch_size=64)
    
    # Шаг 10: Предсказание и построение матрицы соответствий
    suitability_matrix = predict_suitability_matrix(model, data, num_users, num_ocean, device)
    
    # Шаг 11: Оценка модели с помощью Precision@K
    precision_k = precision_at_k(suitability_matrix, labels.cpu().numpy(), k=10)
    print(f'Precision@10: {precision_k:.4f}')
    
    # Шаг 12: Предсказание на тестовом наборе данных
    suitability_matrix_test = predict_test_set(model, data, test_user_embeddings, ocean_embeddings, num_users, num_ocean, num_vacancies, device)
    
    # suitability_matrix_test теперь содержит значения соответствия пользователей и вакансий в диапазоне [0, 1]
    # Вы можете сохранить эту матрицу или использовать её для дальнейших рекомендаций
    # Например, сохранение:
    # np.save('suitability_matrix_test.npy', suitability_matrix_test)
