**КОСИНУСОМ**

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_distances
from sklearn.preprocessing import MinMaxScaler

def build_matrix(
    candidates_path='data/embeddings/candidates_train_text_embeddings.npy',
    ocean_path='data/embeddings/OCEAN_embeddings.npy',
    vacancies_path='data/embeddings/vacancies_embeddings.npy'
):
  
    candidates = np.load(candidates_path)
    print(candidates.shape)
    ocean = np.load(ocean_path)
    print(ocean.shape)
    vacancies = np.load(vacancies_path)
    print(vacancies.shape)

    C = cosine_distances(candidates, ocean)
    P = cosine_distances(vacancies, ocean)

    final_matrix = C.dot(P.T) + (1 - C).dot(1 - P.T)
    
    return final_matrix, C, P

def filter_matrix(final_matrix, threshold=0.7):

    normalized_matrix = final_matrix.copy()
    
    row_min = normalized_matrix.min(axis=1).reshape(-1, 1)
    row_max = normalized_matrix.max(axis=1).reshape(-1, 1)
    
    denominator = row_max - row_min
    denominator[denominator == 0] = 1
    
    normalized_matrix = (normalized_matrix - row_min) / denominator
    
    normalized_matrix[normalized_matrix < threshold] = 0
    
    return normalized_matrix

a, C, P = build_matrix()
b = filter_matrix(a)

In [None]:
import os
import torch
import torch.nn.functional as F
import numpy as np
from tqdm import tqdm
from sklearn.metrics.pairwise import cosine_similarity
from torch_geometric.data import Data
from torch_geometric.nn import SAGEConv
import faiss
import matplotlib.pyplot as plt
import seaborn as sns
import gc

if torch.cuda.is_available():
    device = torch.device('cuda')
    print(f"Используется устройство: {torch.cuda.get_device_name(device)}")
else:
    device = torch.device('cpu')
    print("GPU не доступен. Используется CPU.")

In [None]:
def load_embeddings(embeddings_path):
    embeddings = np.load(embeddings_path)
    embeddings = torch.tensor(embeddings, dtype=torch.float32)
    return embeddings

def load_candidates_embeddings(data_folder, max_users=1500):
    candidates_train_path = os.path.join(data_folder, 'embeddings', 'candidates_train_text_embeddings.npy')
    candidates_val_path = os.path.join(data_folder, 'embeddings', 'candidates_val_text_embeddings.npy')
    
    candidates_train = load_embeddings(candidates_train_path)
    candidates_val = load_embeddings(candidates_val_path)
    
    # Объединяем обучающие и валидационные эмбеддинги
    candidates = torch.cat([candidates_train, candidates_val], dim=0)
    
    # Ограничиваем количество пользователей до max_users
    if candidates.shape[0] > max_users:
        candidates = candidates[:max_users]
    
    return candidates

def load_jobs_embeddings(data_folder):
    jobs_path = os.path.join(data_folder, 'embeddings', 'vacancies_embeddings.npy')
    jobs_embeddings = load_embeddings(jobs_path)
    return jobs_embeddings

def load_ocean_embeddings(data_folder):
    ocean_path = os.path.join(data_folder, 'embeddings', 'OCEAN_embeddings.npy')
    ocean_embeddings = load_embeddings(ocean_path)
    return ocean_embeddings


In [None]:
candidates_video_emb = []
for i in os.listdir('data/validation/video_embeddings/'):
    emb = np.load(f'data/validation/video_embeddings/{i}')
    candidates_video_emb.append(emb[0])
candidates_video_emb = np.array(candidates_video_emb)

candidates_text_emb = []
for i in os.listdir('data/validation/text_embeddings/'):
    emb = np.load(f'data/validation/text_embeddings/{i}')
    candidates_text_emb.append(emb)
candidates_text_emb = np.array(candidates_text_emb)
types_emb = np.load('data/embeddings/OCEAN_embeddings.npy')
candidates_video_emb_norm = candidates_video_emb / np.linalg.norm(candidates_video_emb, axis=1, keepdims=True)
candidates_text_emb_norm = candidates_text_emb / np.linalg.norm(candidates_text_emb, axis=1, keepdims=True)
types_emb_norm = types_emb / np.linalg.norm(types_emb, axis=1, keepdims=True)

candidates_emb = (candidates_video_emb_norm + candidates_text_emb_norm) / 2


In [None]:
# Путь к папке с данными
data_folder = 'data'

# Загрузка эмбеддингов
print("Загрузка эмбеддингов пользователей...")
candidates = torch.tensor(candidates_emb, dtype=torch.float32)
#candidates = load_candidates_embeddings(data_folder)
print(f"Эмбеддинги пользователей загружены: {candidates.shape}")

print("Загрузка эмбеддингов OCEAN типов личности...")
ocean = load_ocean_embeddings(data_folder)
print(f"Эмбеддинги OCEAN загружены: {ocean.shape}")

print("Загрузка эмбеддингов вакансий...")
jobs = load_jobs_embeddings(data_folder)
print(f"Эмбеддинги вакансий загружены: {jobs.shape}")

In [None]:
import os
import sys
import torch
import torch.nn.functional as F
import numpy as np
from tqdm import tqdm
from sklearn.metrics.pairwise import cosine_similarity
from torch_geometric.data import Data
from torch_geometric.nn import SAGEConv
import faiss
import matplotlib.pyplot as plt
import seaborn as sns

def build_graph(candidates, ocean, jobs):
    num_candidates = candidates.shape[0]
    num_ocean = ocean.shape[0]
    num_jobs = jobs.shape[0]
    
    # Объединяем все эмбеддинги в один
    x = torch.cat([candidates, ocean, jobs], dim=0)
    
    # Создаём рёбра
    edge_index = []
    edge_attr = []
    
    # Пользователи ↔ OCEAN
    for user_idx in range(num_candidates):
        for ocean_idx in range(num_ocean):
            src = user_idx
            dst = num_candidates + ocean_idx
            edge_index.append([src, dst])
            # Вычисляем косинусное расстояние
            distance = 1 - cosine_similarity(candidates[user_idx].unsqueeze(0), ocean[ocean_idx].unsqueeze(0))[0][0]
            edge_attr.append(distance)
            # Добавляем обратное ребро
            edge_index.append([dst, src])
            edge_attr.append(distance)
    
    # Вакансии ↔ OCEAN
    for job_idx in range(num_jobs):
        for ocean_idx in range(num_ocean):
            src = num_candidates + ocean_idx
            dst = num_candidates + num_ocean + job_idx
            edge_index.append([src, dst])
            distance = 1 - cosine_similarity(jobs[job_idx].unsqueeze(0), ocean[ocean_idx].unsqueeze(0))[0][0]
            edge_attr.append(distance)
            # Добавляем обратное ребро
            edge_index.append([dst, src])
            edge_attr.append(distance)
    
    # Пользователи ↔ Вакансии (без весов)
    for user_idx in range(num_candidates):
        for job_idx in range(num_jobs):
            src = user_idx
            dst = num_candidates + num_ocean + job_idx
            edge_index.append([src, dst])
            edge_attr.append(0.0)  # Вес 0 для отсутствующих весов
            # Добавляем обратное ребро
            edge_index.append([dst, src])
            edge_attr.append(0.0)
    
    edge_index = torch.tensor(edge_index, dtype=torch.long).t().contiguous()
    edge_attr = torch.tensor(edge_attr, dtype=torch.float32)
    
    data = Data(x=x, edge_index=edge_index, edge_attr=edge_attr)
    return data

In [None]:
print("Построение графа...")
data = build_graph(candidates, ocean, jobs)
print(f"Граф создан: {data}")

In [None]:
import torch.nn.functional as F
import torch.nn as nn
from torch_geometric.nn import SAGEConv

class GraphSAGEModel(torch.nn.Module):
    def __init__(self, in_channels, hidden_channels, out_channels, num_layers=3, dropout_prob=0.2):
        super(GraphSAGEModel, self).__init__()
        self.convs = torch.nn.ModuleList()
        self.convs.append(SAGEConv(in_channels, hidden_channels[0]))
        self.convs.append(SAGEConv(hidden_channels[0], hidden_channels[1]))
        self.dropout = nn.Dropout(dropout_prob)
        self.convs.append(SAGEConv(hidden_channels[1], hidden_channels[2]))
        self.convs.append(SAGEConv(hidden_channels[2], out_channels))

        
    def forward(self, x, edge_index, edge_attr):
        for conv in self.convs[:-1]:
            x = conv(x, edge_index)
            x = F.relu(x)
            x = self.dropout(x)
        x = self.convs[-1](x, edge_index)
        return x


In [None]:
from torch_geometric.utils import negative_sampling

def get_link_labels(edge_index, num_nodes, num_neg_samples=4000000):

    #Генерирует положительные и отрицательные примеры для задачи предсказания рёбер.
    #Мы будем использовать задачу Link Prediction для предсказания существования рёбер между пользователями и вакансиями.
    
    pos_edge_index = edge_index
    neg_edge_index = negative_sampling(
        edge_index=pos_edge_index,
        num_nodes=num_nodes,
        num_neg_samples=num_neg_samples
    )
    return pos_edge_index, neg_edge_index


In [None]:
from torch.utils.data import DataLoader

class LinkPredictionDataset(torch.utils.data.Dataset):
    def __init__(self, data, num_neg_samples=4000000):
        self.data = data
        self.num_neg_samples = num_neg_samples
        self.pos_edge_index, self.neg_edge_index = get_link_labels(
            data.edge_index,
            num_nodes=data.num_nodes,
            num_neg_samples=num_neg_samples
        )
        # Перемещаем рёбра на GPU
        self.pos_edge_index = self.pos_edge_index.to(device)
        self.neg_edge_index = self.neg_edge_index.to(device)
    
    def __len__(self):
        return 1  # В данном случае весь граф обучается за один раз
    
    def __getitem__(self, idx):
        return self.pos_edge_index, self.neg_edge_index


In [None]:
def train(model, optimizer, data, pos_edge_index, neg_edge_index):
    model.train()
    optimizer.zero_grad()
    
    out = model(data.x, data.edge_index, data.edge_attr)

    pos_pred = (out[pos_edge_index[0]] * out[pos_edge_index[1]]).sum(dim=1)

    neg_pred = (out[neg_edge_index[0]] * out[neg_edge_index[1]]).sum(dim=1)

    
    # Логистическая регрессия
    pos_loss = F.binary_cross_entropy_with_logits(pos_pred, torch.ones(pos_pred.size(0), device=device))
    neg_loss = F.binary_cross_entropy_with_logits(neg_pred, torch.zeros(neg_pred.size(0), device=device))

    
    loss = pos_loss + neg_loss
    loss.backward()
    optimizer.step()
    
    return loss.item()

from sklearn.metrics import roc_auc_score, average_precision_score, f1_score

def test(model, data, pos_edge_index, neg_edge_index):
    model.eval()
    with torch.no_grad():
        out = model(data.x, data.edge_index, data.edge_attr)
        
        # Предсказания для положительных и отрицательных рёбер
        pos_pred = (out[pos_edge_index[0]] * out[pos_edge_index[1]]).sum(dim=1)
        neg_pred = (out[neg_edge_index[0]] * out[neg_edge_index[1]]).sum(dim=1)
        
        # Объединяем предсказания и метки
        preds = torch.cat([pos_pred, neg_pred], dim=0)
        labels = torch.cat([torch.ones(pos_pred.size(0), device=device), torch.zeros(neg_pred.size(0), device=device)], dim=0)
        
        # Применяем сигмоиду для перевода предсказаний в диапазон [0, 1]
        preds = torch.sigmoid(preds)
        preds = preds.cpu().numpy()
        labels = labels.cpu().numpy()
        
        # Вычисление AUC
        auc = roc_auc_score(labels, preds)
        
    return auc


In [None]:
import gc

def main_training_loop():
    # Создание графа
    #print("Построение графа...")
    #data = build_graph(candidates, ocean, jobs)
    #print(f"Граф создан: {data}")
    
    num_nodes = data.num_nodes
    
    # Создание датасета и загрузчика данных
    dataset = LinkPredictionDataset(data, num_neg_samples=4000000)  # Увеличиваем отрицательные примеры
    dataloader = DataLoader(dataset, batch_size=1, shuffle=True)
    
    # Определение модели
    in_channels = data.x.shape[1]
    hidden_channels = [384, 256, 128]  # Указанные размеры для скрытых слоев
    out_channels = 64  # Размерность выхода
    model = GraphSAGEModel(in_channels, hidden_channels, out_channels, dropout_prob=0.2).to(device)
    
    # Перевод данных на GPU
    data.x = data.x.to(device)
    data.edge_attr = data.edge_attr.to(device)
    data.edge_index = data.edge_index.to(device)

    # Оптимизатор и планировщик
    optimizer = torch.optim.Adam(model.parameters(), lr=0.1)
    scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=20, gamma=0.1)  # Уменьшаем lr каждые 20 эпох

    # Очистка памяти
    torch.cuda.empty_cache()
    gc.collect()
    
    # Обучение
    epochs = 200
    for epoch in range(1, epochs + 1):
        for pos_edge, neg_edge in dataloader:
            pos_edge = pos_edge[0].to(device)
            neg_edge = neg_edge[0].to(device)
            loss = train(model, optimizer, data, pos_edge, neg_edge)
        
        # Обновление планировщика
        scheduler.step()
        
        # Оценка модели каждые 10 эпох
        if epoch % 10 == 0:
            auc = test(model, data, pos_edge, neg_edge)
            print(f'Epoch {epoch}, Loss: {loss:.4f}, AUC: {auc:.4f}')
    
    # Сохранение модели
    model_save_path = 'graphsage_model1.pth'
    torch.save(model.state_dict(), model_save_path)
    print(f"Модель сохранена по пути: {model_save_path}")
    
    return model, data


In [None]:
print(f"data.x device: {data.x.device}")
print(f"data.edge_attr device: {data.edge_attr.device}")
print(f"data.edge_index device: {data.edge_index.device}")


In [None]:
model, data = main_training_loop()

In [None]:
import faiss

def generate_weight_matrix(model, data, num_candidates, num_jobs, top_k=None):
    """
    Генерирует матрицу весов между пользователями и вакансиями.
    
    Параметры:
    - model (torch.nn.Module): Обученная модель GraphSAGE.
    - data (torch_geometric.data.Data): Объект данных графа.
    - num_candidates (int): Количество пользователей.
    - num_jobs (int): Количество вакансий.
    - top_k (int или None): Если задано, возвращает только топ-k вакансий для каждого пользователя.
    
    Возвращает:
    - weight_matrix (np.ndarray): Матрица весов размерности (num_candidates, num_jobs).
    """
    model.eval()
    with torch.no_grad():
        out = model(data.x, data.edge_index, data.edge_attr)
    
    # Извлечение эмбеддингов пользователей и вакансий
    user_embeddings = out[:num_candidates].cpu().numpy()
    job_embeddings = out[num_candidates + 5:num_candidates + 5 + num_jobs].cpu().numpy()  # 5 OCEAN типов
    
    # Нормализация эмбеддингов для вычисления косинусного сходства
    user_norm = np.linalg.norm(user_embeddings, axis=1, keepdims=True)
    job_norm = np.linalg.norm(job_embeddings, axis=1, keepdims=True)
    user_embeddings_norm = user_embeddings / (user_norm + 1e-10)
    job_embeddings_norm = job_embeddings / (job_norm + 1e-10)
    
    # Вычисление матрицы косинусного сходства
    weight_matrix = np.dot(user_embeddings_norm, job_embeddings_norm.T)
    
    if top_k is not None:
        # Ограничение до топ_k вакансий для каждого пользователя
        indices = np.argsort(weight_matrix, axis=1)[:, -top_k:]
        sorted_indices = np.argsort(indices, axis=1)
        top_weights = np.take_along_axis(weight_matrix, indices, axis=1)
        weight_matrix_top_k = np.zeros_like(weight_matrix)
        for i in range(num_candidates):
            weight_matrix_top_k[i, indices[i]] = weight_matrix[i, indices[i]]
        return weight_matrix_top_k
    else:
        return weight_matrix


In [28]:
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch_geometric.data import Data
from torch_geometric.nn import SAGEConv
from sklearn.metrics.pairwise import cosine_similarity
def load_embeddings(embeddings_path):
    embeddings = np.load(embeddings_path)
    embeddings = torch.tensor(embeddings, dtype=torch.float32)
    return embeddings

def load_candidates_embeddings(data_folder, max_users=1500):
    candidates_train_path = os.path.join(data_folder, 'embeddings', 'candidates_train_text_embeddings.npy')
    candidates_val_path = os.path.join(data_folder, 'embeddings', 'candidates_val_text_embeddings.npy')
    
    candidates_train = load_embeddings(candidates_train_path)
    candidates_val = load_embeddings(candidates_val_path)
    
    # Объединяем обучающие и валидационные эмбеддинги
    candidates = torch.cat([candidates_train, candidates_val], dim=0)
    
    # Ограничиваем количество пользователей до max_users
    if candidates.shape[0] > max_users:
        candidates = candidates[:max_users]
    
    return candidates

def load_jobs_embeddings(data_folder):
    jobs_path = os.path.join(data_folder, 'embeddings', 'vacancies_embeddings.npy')
    jobs_embeddings = load_embeddings(jobs_path)
    return jobs_embeddings

def load_ocean_embeddings(data_folder):
    ocean_path = os.path.join(data_folder, 'embeddings', 'OCEAN_embeddings.npy')
    ocean_embeddings = load_embeddings(ocean_path)
    return ocean_embeddings
    
candidates_video_emb = []
for i in os.listdir('data/validation/video_embeddings/'):
    emb = np.load(f'data/validation/video_embeddings/{i}')
    candidates_video_emb.append(emb[0])
candidates_video_emb = np.array(candidates_video_emb)

candidates_text_emb = []
for i in os.listdir('data/validation/text_embeddings/'):
    emb = np.load(f'data/validation/text_embeddings/{i}')
    candidates_text_emb.append(emb)
candidates_text_emb = np.array(candidates_text_emb)
types_emb = np.load('data/embeddings/OCEAN_embeddings.npy')
candidates_video_emb_norm = candidates_video_emb / np.linalg.norm(candidates_video_emb, axis=1, keepdims=True)
candidates_text_emb_norm = candidates_text_emb / np.linalg.norm(candidates_text_emb, axis=1, keepdims=True)
types_emb_norm = types_emb / np.linalg.norm(types_emb, axis=1, keepdims=True)

candidates_emb = (candidates_video_emb_norm + candidates_text_emb_norm) / 2


# Путь к папке с данными
data_folder = 'data'

# Загрузка эмбеддингов
print("Загрузка эмбеддингов пользователей...")
user_embeddings = torch.tensor(candidates_emb, dtype=torch.float32)
#candidates = load_candidates_embeddings(data_folder)
print(f"Эмбеддинги пользователей загружены: {user_embeddings.shape}")

print("Загрузка эмбеддингов OCEAN типов личности...")
ocean_embeddings = load_ocean_embeddings(data_folder)
print(f"Эмбеддинги OCEAN загружены: {ocean_embeddings.shape}")

print("Загрузка эмбеддингов вакансий...")
vacancy_embeddings = load_jobs_embeddings(data_folder)
print(f"Эмбеддинги вакансий загружены: {vacancy_embeddings.shape}")



Загрузка эмбеддингов пользователей...
Эмбеддинги пользователей загружены: torch.Size([2000, 384])
Загрузка эмбеддингов OCEAN типов личности...
Эмбеддинги OCEAN загружены: torch.Size([5, 384])
Загрузка эмбеддингов вакансий...
Эмбеддинги вакансий загружены: torch.Size([2277, 384])


In [29]:
from sklearn.metrics.pairwise import cosine_similarity

num_users = user_embeddings.shape[0]
num_ocean = ocean_embeddings.shape[0]
num_vacancies = vacancy_embeddings.shape[0]

# Создаем список всех вершин
num_nodes = num_users + num_ocean + num_vacancies

# Создаем ребра
edge_index = []
edge_weight = []

# Пользователь ↔ OCEAN
user_ocean_sim = cosine_similarity(user_embeddings, ocean_embeddings)
for user in range(num_users):
    for ocean in range(num_ocean):
        edge_index.append([user, num_users + ocean])
        edge_weight.append(user_ocean_sim[user, ocean])

# Вакансия ↔ OCEAN
vacancy_ocean_sim = cosine_similarity(vacancy_embeddings, ocean_embeddings)  # (2277, 5)
for vacancy in range(num_vacancies):
    for ocean in range(num_ocean):
        edge_index.append([num_users + ocean, num_users + num_ocean + vacancy])
        edge_weight.append(1 - vacancy_ocean_sim[vacancy, ocean])  # Косинусное расстояние

# Пользователь ↔ Вакансия (без весов или с начальными весами)
# Для примера, создадим полносвязные связи (можно использовать более эффективный подход)
# Но из-за большого количества связей это может быть неэффективно
# Альтернативно, можно использовать выборку или другие методы для создания связей

# Здесь для примера ограничимся связями только через OCEAN

edge_index = torch.tensor(edge_index, dtype=torch.long).t().contiguous()
edge_weight = torch.tensor(edge_weight, dtype=torch.float)

# Создание графа
data = Data(x=torch.tensor(np.vstack([user_embeddings, ocean_embeddings, vacancy_embeddings]), dtype=torch.float),
            edge_index=edge_index,
            edge_attr=edge_weight)


In [30]:
class GraphSAGEModel(nn.Module):
    def __init__(self, in_channels, hidden_channels, out_channels):
        super(GraphSAGEModel, self).__init__()
        self.conv1 = SAGEConv(in_channels, hidden_channels[0])
        self.conv2 = SAGEConv(hidden_channels[0], hidden_channels[1])
        self.conv3 = SAGEConv(hidden_channels[1], out_channels)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(p=0.2)
    
    def forward(self, x, edge_index, edge_weight=None):
        x = self.conv1(x, edge_index)
        x = self.relu(x)
        x = self.dropout(x)
        x = self.conv2(x, edge_index)
        x = self.relu(x)
        x = self.dropout(x)
        x = self.conv3(x, edge_index)
        return x

model = GraphSAGEModel(in_channels=384, hidden_channels=[256, 128], out_channels=64)

In [31]:
class GraphSAGEModel(nn.Module):
    def __init__(self, in_channels, hidden_channels, out_channels):
        super(GraphSAGEModel, self).__init__()
        self.conv1 = SAGEConv(in_channels, hidden_channels)
        self.conv2 = SAGEConv(hidden_channels, out_channels)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(p=0.2)
    
    def forward(self, x, edge_index, edge_weight=None):
        x = self.conv1(x, edge_index)
        x = self.relu(x)
        x = self.dropout(x)
        x = self.conv2(x, edge_index)
        return x

model = GraphSAGEModel(in_channels=384, hidden_channels=128, out_channels=64)

In [32]:
# Получение эмбеддингов после прохождения через GraphSAGE
model.train()
optimizer = optim.Adam(model.parameters(), lr=0.05)
#scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=20, gamma=0.1)
criterion = nn.MSELoss()

for epoch in range(200):
    optimizer.zero_grad()
    out = model(data.x, data.edge_index, edge_weight=data.edge_attr)
    
    # Извлекаем эмбеддинги пользователей и вакансий
    user_out = out[:num_users]
    vacancy_out = out[num_users + num_ocean:]
    
    # Вычисляем косинусное сходство между пользователями и вакансиями
    similarity = torch.mm(user_out, vacancy_out.t())  # (1000, 2277)
    similarity = similarity / (user_out.norm(dim=1).unsqueeze(1) * vacancy_out.norm(dim=1).unsqueeze(0))
    similarity = similarity.clamp(0, 1)
    
    # Поскольку у нас нет явных меток, можно использовать косинусное сходство эмбеддингов как целевую
    target = torch.tensor(cosine_similarity(user_embeddings, vacancy_embeddings), dtype=torch.float)
    
    loss = criterion(similarity, target)
    loss.backward()
    optimizer.step()
    #scheduler.step()
    
    if epoch % 10 == 0:
        print(f'Epoch {epoch}, Loss: {loss.item()}')


Epoch 0, Loss: 0.7390886545181274
Epoch 10, Loss: 0.005078461021184921
Epoch 20, Loss: 0.005078461021184921
Epoch 30, Loss: 0.005078461021184921
Epoch 40, Loss: 0.005078461021184921


KeyboardInterrupt: 

In [None]:
model.eval()
with torch.no_grad():
    out = model(data.x, data.edge_index, edge_weight=data.edge_attr)
    user_out = out[:num_users]
    vacancy_out = out[num_users + num_ocean:]
    
    # Нормализация эмбеддингов
    user_norm = user_out / user_out.norm(dim=1, keepdim=True)
    vacancy_norm = vacancy_out / vacancy_out.norm(dim=1, keepdim=True)
    
    # Косинусное сходство
    similarity_matrix = torch.mm(user_norm, vacancy_norm.t())  # (1000, 2277)
    similarity_matrix = similarity_matrix.clamp(0, 1)
    
    # Преобразование в numpy
    similarity_matrix = similarity_matrix.cpu().numpy()

similarity_matrix

In [None]:
def filter_matrix(final_matrix, threshold=0.5):

    normalized_matrix = final_matrix.copy()
    
    row_min = normalized_matrix.min(axis=1).reshape(-1, 1)
    row_max = normalized_matrix.max(axis=1).reshape(-1, 1)
    
    denominator = row_max - row_min
    denominator[denominator == 0] = 1
    
    normalized_matrix = (normalized_matrix - row_min) / denominator
    
    normalized_matrix[normalized_matrix < threshold] = 0
    
    return normalized_matrix
a = filter_matrix(similarity_matrix)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

def plot_cosine_distances_first_n_candidates(matrix, n=10):

    n = min(n, matrix.shape[0])  # Убедимся, что n не превышает количество кандидатов
    num_vacancies = matrix.shape[1]
    
    # Определяем сетку подграфиков (например, 2 строки по 5 столбцов для 10 графиков)
    rows = 5
    cols = 2
    fig, axes = plt.subplots(rows, cols, figsize=(25, 20))
    axes = axes.flatten()  # Преобразуем массив осей в одномерный для удобства итерации
    
    for i in range(n):
        ax = axes[i]
        candidate_distances = matrix[i, :]
        vacancies = np.arange(1, num_vacancies + 1)  # Индексы вакансий
        
        ax.bar(vacancies, candidate_distances, color='skyblue')
        ax.set_title(f'Кандидат {i+1}', fontsize=14)
        ax.set_xlabel('Вакансии', fontsize=12)
        ax.set_ylabel('Косинусное расстояние', fontsize=12)
        ax.set_ylim(0, 1)  # Поскольку матрица нормализована
        ax.tick_params(axis='x', which='both', bottom=False, top=False, labelbottom=False)  # Скрываем метки по оси X для чистоты графика
    
    # Если количество графиков меньше 10, удаляем лишние подграфики
    for j in range(n, rows * cols):
        fig.delaxes(axes[j])
    
    plt.tight_layout()
    plt.show()
    
plot_cosine_distances_first_n_candidates(a)

In [2]:
import numpy as np
import os
import torch
import torch.nn as nn
import torch.optim as optim
from torch_geometric.data import Data
from torch_geometric.nn import SAGEConv
from sklearn.metrics.pairwise import cosine_similarity


def load_embeddings(embeddings_path):
    embeddings = np.load(embeddings_path)
    embeddings = torch.tensor(embeddings, dtype=torch.float32)
    return embeddings

def load_candidates_embeddings(data_folder, max_users=1500):
    candidates_train_path = os.path.join(data_folder, 'embeddings', 'candidates_train_text_embeddings.npy')
    candidates_val_path = os.path.join(data_folder, 'embeddings', 'candidates_val_text_embeddings.npy')
    
    candidates_train = load_embeddings(candidates_train_path)
    candidates_val = load_embeddings(candidates_val_path)
    
    # Объединяем обучающие и валидационные эмбеддинги
    candidates = torch.cat([candidates_train, candidates_val], dim=0)
    
    # Ограничиваем количество пользователей до max_users
    if candidates.shape[0] > max_users:
        candidates = candidates[:max_users]
    
    return candidates

def load_jobs_embeddings(data_folder):
    jobs_path = os.path.join(data_folder, 'embeddings', 'vacancies_embeddings.npy')
    jobs_embeddings = load_embeddings(jobs_path)
    return jobs_embeddings

def load_ocean_embeddings(data_folder):
    ocean_path = os.path.join(data_folder, 'embeddings', 'OCEAN_embeddings.npy')
    ocean_embeddings = load_embeddings(ocean_path)
    return ocean_embeddings
    
candidates_video_emb = []
for i in os.listdir('data/validation/video_embeddings/'):
    emb = np.load(f'data/validation/video_embeddings/{i}')
    candidates_video_emb.append(emb[0])
candidates_video_emb = np.array(candidates_video_emb)

candidates_text_emb = []
for i in os.listdir('data/validation/text_embeddings/'):
    emb = np.load(f'data/validation/text_embeddings/{i}')
    candidates_text_emb.append(emb)
candidates_text_emb = np.array(candidates_text_emb)
types_emb = np.load('data/embeddings/OCEAN_embeddings.npy')
candidates_video_emb_norm = candidates_video_emb / np.linalg.norm(candidates_video_emb, axis=1, keepdims=True)
candidates_text_emb_norm = candidates_text_emb / np.linalg.norm(candidates_text_emb, axis=1, keepdims=True)
types_emb_norm = types_emb / np.linalg.norm(types_emb, axis=1, keepdims=True)

candidates_emb = (candidates_video_emb_norm + candidates_text_emb_norm) / 2


# Путь к папке с данными
data_folder = 'data'

# Загрузка эмбеддингов
print("Загрузка эмбеддингов пользователей...")
user_embeddings  = torch.tensor(candidates_emb, dtype=torch.float32)
#candidates = load_candidates_embeddings(data_folder)
print(f"Эмбеддинги пользователей загружены: {user_embeddings.shape}")

print("Загрузка эмбеддингов OCEAN типов личности...")
ocean_embeddings  = load_ocean_embeddings(data_folder)
print(f"Эмбеддинги OCEAN загружены: {ocean_embeddings.shape}")

print("Загрузка эмбеддингов вакансий...")
vacancy_embeddings  = load_jobs_embeddings(data_folder)
print(f"Эмбеддинги вакансий загружены: {vacancy_embeddings.shape}")



Загрузка эмбеддингов пользователей...
Эмбеддинги пользователей загружены: torch.Size([2000, 384])
Загрузка эмбеддингов OCEAN типов личности...
Эмбеддинги OCEAN загружены: torch.Size([5, 384])
Загрузка эмбеддингов вакансий...
Эмбеддинги вакансий загружены: torch.Size([2277, 384])


In [28]:
import numpy as np
import os
import torch
import torch.nn as nn
import torch.optim as optim
from torch_geometric.data import Data
from torch_geometric.nn import SAGEConv
from sklearn.metrics.pairwise import cosine_similarity

def load_embeddings(embeddings_path):
    embeddings = np.load(embeddings_path)
    embeddings = torch.tensor(embeddings, dtype=torch.float32)
    return embeddings

def load_candidates_embeddings(data_folder, max_users=1500):
    candidates_train_path = os.path.join(data_folder, 'embeddings', 'candidates_train_text_embeddings.npy')
    candidates_val_path = os.path.join(data_folder, 'embeddings', 'candidates_val_text_embeddings.npy')
    
    candidates_train = load_embeddings(candidates_train_path)
    candidates_val = load_embeddings(candidates_val_path)
    
    # Объединяем обучающие и валидационные эмбеддинги
    candidates = torch.cat([candidates_train, candidates_val], dim=0)
    
    # Ограничиваем количество пользователей до max_users
    if candidates.shape[0] > max_users:
        candidates = candidates[:max_users]
    
    return candidates

def load_jobs_embeddings(data_folder):
    jobs_path = os.path.join(data_folder, 'embeddings', 'vacancies_embeddings.npy')
    jobs_embeddings = load_embeddings(jobs_path)
    return jobs_embeddings

def load_ocean_embeddings(data_folder):
    ocean_path = os.path.join(data_folder, 'embeddings', 'OCEAN_embeddings.npy')
    ocean_embeddings = load_embeddings(ocean_path)
    return ocean_embeddings
    
candidates_video_emb = []
for i in os.listdir('data/validation/video_embeddings/'):
    emb = np.load(f'data/validation/video_embeddings/{i}')
    candidates_video_emb.append(emb[0])
candidates_video_emb = np.array(candidates_video_emb)

candidates_text_emb = []
for i in os.listdir('data/validation/text_embeddings/'):
    emb = np.load(f'data/validation/text_embeddings/{i}')
    candidates_text_emb.append(emb)
candidates_text_emb = np.array(candidates_text_emb)
types_emb = np.load('data/embeddings/OCEAN_embeddings.npy')
candidates_video_emb_norm = candidates_video_emb / np.linalg.norm(candidates_video_emb, axis=1, keepdims=True)
candidates_text_emb_norm = candidates_text_emb / np.linalg.norm(candidates_text_emb, axis=1, keepdims=True)
types_emb_norm = types_emb / np.linalg.norm(types_emb, axis=1, keepdims=True)

candidates_emb = (candidates_video_emb_norm + candidates_text_emb_norm) / 2


# Путь к папке с данными
data_folder = 'data'

# Загрузка эмбеддингов
print("Загрузка эмбеддингов пользователей...")
user_embeddings = torch.tensor(candidates_emb, dtype=torch.float32)
#candidates = load_candidates_embeddings(data_folder)
print(f"Эмбеддинги пользователей загружены: {user_embeddings.shape}")

print("Загрузка эмбеддингов OCEAN типов личности...")
ocean_embeddings = load_ocean_embeddings(data_folder)
print(f"Эмбеддинги OCEAN загружены: {ocean_embeddings.shape}")

print("Загрузка эмбеддингов вакансий...")
vacancy_embeddings = load_jobs_embeddings(data_folder)
print(f"Эмбеддинги вакансий загружены: {vacancy_embeddings.shape}")

import numpy as np
import torch
from torch_geometric.data import Data
from sklearn.preprocessing import normalize
from torch_geometric.transforms import RandomLinkSplit
import torch.nn.functional as F

def safe_normalize(tensor, dim=1, eps=1e-10):
    return tensor / (tensor.norm(p=2, dim=dim, keepdim=True) + eps)
# Нормализация эмбеддингов для вычисления косинусного сходства
user_embeddings = safe_normalize(user_embeddings)
ocean_embeddings = safe_normalize(ocean_embeddings)
vacancy_embeddings = safe_normalize(vacancy_embeddings)

# Создание индексов вершин
num_users = user_embeddings.shape[0]
num_ocean = ocean_embeddings.shape[0]
num_vacancies = vacancy_embeddings.shape[0]

total_nodes = num_users + num_ocean + num_vacancies

# Индексация:
# Пользователи: 0 - 1999
# OCEAN: 2000 - 2004
# Вакансии: 2005 - 4281

# Создание списка ребер
edge_index = []
edge_weights = []

# Связи между пользователями и OCEAN

for user_idx in range(num_users):
    for ocean_idx in range(num_ocean):
        global_user_idx = user_idx
        global_ocean_idx = num_users + ocean_idx
        edge_index.append([global_user_idx, global_ocean_idx])
        # Косинусное сходство нормализовано до [0,1]
        similarity = float((torch.dot(user_embeddings[user_idx], ocean_embeddings[ocean_idx]) + 1) / 2)
        edge_weights.append(similarity)

# Связи между вакансиями и OCEAN
for vacancy_idx in range(num_vacancies):
    for ocean_idx in range(num_ocean):
        global_vacancy_idx = num_users + num_ocean + vacancy_idx
        global_ocean_idx = num_users + ocean_idx
        edge_index.append([global_vacancy_idx, global_ocean_idx])
        similarity = float((torch.dot(vacancy_embeddings[vacancy_idx], ocean_embeddings[ocean_idx]) + 1) / 2)
        edge_weights.append(similarity)


edge_index = torch.tensor(edge_index, dtype=torch.long).t().contiguous()
edge_weight = torch.tensor(edge_weights, dtype=torch.float)

# Создание признаков узлов
x = torch.tensor(
    np.vstack([user_embeddings, ocean_embeddings, vacancy_embeddings]),
    dtype=torch.float
)

# Создание графа
data = Data(x=x, edge_index=edge_index, edge_attr=edge_weight)

from torch_geometric.transforms import RandomLinkSplit

# Инициализация трансформера
transform = RandomLinkSplit(
    num_val=0.15,      # 5% ребер для валидации
    num_test=0.15,      # 10% ребер для тестирования
    is_undirected=True, # Граф неориентированный
    add_negative_train_samples=True, # Не добавляем отрицательные примеры в обучающую выборку
    split_labels=True
)

# Применение трансформации
train_data, val_data, test_data = transform(data)
print("Train Data:")
print(train_data)
print("\nValidation Data:")
print(val_data)
print("\nTest Data:")
print(test_data)

Загрузка эмбеддингов пользователей...
Эмбеддинги пользователей загружены: torch.Size([2000, 384])
Загрузка эмбеддингов OCEAN типов личности...
Эмбеддинги OCEAN загружены: torch.Size([5, 384])
Загрузка эмбеддингов вакансий...
Эмбеддинги вакансий загружены: torch.Size([2277, 384])
Train Data:
Data(x=[4282, 384], edge_index=[2, 14000], edge_attr=[14000], pos_edge_label=[7000], pos_edge_label_index=[2, 7000], neg_edge_label=[7000], neg_edge_label_index=[2, 7000])

Validation Data:
Data(x=[4282, 384], edge_index=[2, 14000], edge_attr=[14000], pos_edge_label=[1500], pos_edge_label_index=[2, 1500], neg_edge_label=[1500], neg_edge_label_index=[2, 1500])

Test Data:
Data(x=[4282, 384], edge_index=[2, 17000], edge_attr=[17000], pos_edge_label=[1500], pos_edge_label_index=[2, 1500], neg_edge_label=[1500], neg_edge_label_index=[2, 1500])


In [30]:
def check_edge_weights(edge_weight):
    if torch.isnan(edge_weight).any():
        print("NaN detected in edge weights")
    elif torch.isinf(edge_weight).any():
        print("Infinite value detected in edge weights")
    else:
        print("Edge weights are clean")

check_edge_weights(edge_weight)

Edge weights are clean


In [32]:
from torch_geometric.nn import GCNConv
from torch_geometric.utils import negative_sampling
from sklearn.metrics import roc_auc_score

class GAEModel(nn.Module):
    def __init__(self, in_channels, hidden_channels, out_channels, dropout=0.2):
        super(GAEModel, self).__init__()
        self.conv1 = GCNConv(in_channels, hidden_channels)
        self.dropout = nn.Dropout(p=dropout)
        self.conv2 = GCNConv(hidden_channels, out_channels)
        
    def encode(self, x, edge_index, edge_weight=None):
        x = self.conv1(x, edge_index, edge_weight=edge_weight)
        x = F.relu(x)
        x = self.dropout(x)
        x = self.conv2(x, edge_index, edge_weight=edge_weight)
        return x
    
    def decode(self, z, edge_index):
        src, dest = edge_index
        return (z[src] * z[dest]).sum(dim=1)
    
    def forward(self, data):
        z = self.encode(data.x, data.edge_index, data.edge_attr)
        return z

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = GAEModel(in_channels=384, hidden_channels=128, out_channels=64).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
criterion = nn.BCEWithLogitsLoss()

# Перенос данных на устройство
train_data = train_data.to(device)
val_data = val_data.to(device)
test_data = test_data.to(device)

def train():
    model.train()
    optimizer.zero_grad()
    
    # Кодирование с использованием всех тренировочных ребер
    z = model.encode(train_data.x, train_data.edge_index, train_data.edge_attr)
    
    # Предсказание на положительных ребрах
    pos_edge_index = train_data.pos_edge_label_index
    pos_pred = model.decode(z, pos_edge_index)
    pos_label = torch.ones(pos_pred.size(0), device=device)
    
    if torch.isnan(pos_pred).any():
        print("NaN detected in pos_pred")
    # Генерация отрицательных ребер с помощью negative_sampling
    neg_edge_index = negative_sampling(
        edge_index=train_data.edge_index,
        num_nodes=train_data.num_nodes,
        num_neg_samples=pos_edge_index.size(1),
        method='sparse'
    )
    neg_pred = model.decode(z, neg_edge_index)
    neg_label = torch.zeros(neg_pred.size(0), device=device)
    
    # Объединение предсказаний и меток
    pred = torch.cat([pos_pred, neg_pred], dim=0)
    label = torch.cat([pos_label, neg_label], dim=0)
    
    # Вычисление потерь
    loss = criterion(pred, label)
    loss.backward()
    optimizer.step()
    return loss.item()

def test(data_split):
    model.eval()
    with torch.no_grad():
        # Кодирование с использованием всех тренировочных ребер
        z = model.encode(data_split.x, data_split.edge_index, data_split.edge_attr)
        
        # Предсказание на положительных ребрах
        pos_edge_index = data_split.pos_edge_label_index
        pos_pred = model.decode(z, pos_edge_index)
        
        # Предсказание на отрицательных ребрах
        neg_edge_index = data_split.neg_edge_label_index
        neg_pred = model.decode(z, neg_edge_index)
        
        # Объединение предсказаний и меток
        preds = torch.cat([pos_pred, neg_pred], dim=0).cpu().numpy()
        labels = torch.cat([
            torch.ones(pos_pred.size(0), device=device),
            torch.zeros(neg_pred.size(0), device=device)
        ], dim=0).cpu().numpy()
        
        # Вычисление AUC
        auc = roc_auc_score(labels, preds)
        return auc

# Обучение модели
epochs = 500
for epoch in range(1, epochs + 1):
    loss = train()
    if epoch % 10 == 0:
        val_auc = test(val_data)
        print(f'Epoch: {epoch}, Loss: {loss:.4f}, Val AUC: {val_auc:.4f}')

Epoch: 10, Loss: 0.3739, Val AUC: 0.9994
Epoch: 20, Loss: 0.3585, Val AUC: 0.9994
Epoch: 30, Loss: 0.3547, Val AUC: 0.9995
Epoch: 40, Loss: 0.3556, Val AUC: 0.9995
Epoch: 50, Loss: 0.3520, Val AUC: 0.9996
Epoch: 60, Loss: 0.3501, Val AUC: 0.9996
Epoch: 70, Loss: 0.3517, Val AUC: 0.9997
Epoch: 80, Loss: 0.3527, Val AUC: 0.9997
Epoch: 90, Loss: 0.3495, Val AUC: 0.9997
Epoch: 100, Loss: 0.3505, Val AUC: 0.9998
Epoch: 110, Loss: 0.3542, Val AUC: 0.9998
Epoch: 120, Loss: 0.3493, Val AUC: 0.9998
Epoch: 130, Loss: 0.3500, Val AUC: 0.9998
Epoch: 140, Loss: 0.3490, Val AUC: 0.9998
Epoch: 150, Loss: 0.3506, Val AUC: 0.9998
Epoch: 160, Loss: 0.3515, Val AUC: 0.9998
Epoch: 170, Loss: 0.3497, Val AUC: 0.9998
Epoch: 180, Loss: 0.3743, Val AUC: 0.9998
Epoch: 190, Loss: 0.3498, Val AUC: 0.9998
Epoch: 200, Loss: 0.3506, Val AUC: 0.9998
Epoch: 210, Loss: 0.3485, Val AUC: 0.9999
Epoch: 220, Loss: 0.3490, Val AUC: 0.9999
Epoch: 230, Loss: 0.3521, Val AUC: 0.9999
Epoch: 240, Loss: 0.3519, Val AUC: 0.9999
E