# Лабораторная работа 4

Солодкая М.А. P4240

Полежаева Е.И. P4240

## Графовые нейронные сети (GNNs)

Графовые нейронные сети представляют собой класс нейронных сетей, специально разработанный для работы с графовыми структурами данных. Они могут моделировать зависимости и взаимодействия между сущностями в графе, позволяя учитывать контекст и структуру данных при выполнении задач.

В GNN каждая вершина графа обновляется на основе её соседей, что позволяет модели учить представления вершин, учитывая их окружение. Такие модели широко применяются в задачах, связанных с анализом социальных сетей, биологических сетей, рекомендательных систем и графовых знаний.

## Graph embedding
Эмбеддинги в контексте графовых нейронных сетей представляют собой векторные представления вершин графа. Они извлекаются из GNN и представляют сущности в пространстве низкой размерности. Эти векторы обладают свойством сохранять структурную информацию о графе и могут использоваться для различных задач, таких как предсказание отношений или классификация вершин.

## Тестирование и Валидация

Тестирование и валидация важны для оценки работы графовых нейронных сетей.

Тестирование позволяет оценить обобщающую способность модели на новых данных, которые не участвовали в обучении. Это важно для проверки, насколько хорошо модель обобщает свои знания на новые сценарии.

Валидация используется для подбора оптимальных гиперпараметров модели. Настройка параметров происходит на основе производительности модели на отложенной валидационной выборке.

### Установка зависимостей

Для работы с графовыми нейронными сетями будем использовать [Pykeen](https://pykeen.readthedocs.io/en/stable/). Необходимо импортировать соответствующую библиотеку. В данном шаге мы устанавливаем Pykeen. Этот шаг включает установку библиотеки Pykeen с использованием команды !pip install pykeen. Pykeen предоставляет реализацию различных моделей графовых знаний и инструменты для работы с ними.

In [38]:
# Установка Pykeen
!pip install pykeen



Далее, мы импортируем библиотеку Pykeen для использования её функциональности в нашем коде.

In [39]:
import pykeen

После выполнения этого шага, мы готовы к использованию Pykeen для создания, обучения и оценки моделей графовых знаний.

## Взаимодействие с графовым датасетом и описание данных

В данной работе мы будем использовать графовый датасет Countries.

Импорт необходимого модуля Pykeen. Мы импортируем модуль datasets из Pykeen для работы с графовыми датасетами.

In [40]:
from pykeen.datasets import Countries

Загружаем графовый датасет Countries из Pykeen. В результате выполнения этой команды будет создан объект, представляющий графовый датасет.

In [41]:
# Загрузка графового датасета Countries
countries_dataset = Countries()

Мы можем вывести описание датасета, чтобы получить информацию о количестве сущностей, отношений и других характеристиках.

In [42]:
# Просмотр описания датасета
print(countries_dataset)

Countries(training_path="/root/.data/pykeen/datasets/countries/train.txt", testing_path="/root/.data/pykeen/datasets/countries/test.txt", validation_path="/root/.data/pykeen/datasets/countries/valid.txt")


#### Получение тренировочных данных
Мы можем получить тренировочные факты, представленные в виде троек сущность-отношение-сущность.
Таким образом, после выполнения этих шагов, у нас есть загруженный графовый датасет, и мы можем использовать его для обучения и тестирования моделей графовых знаний в Pykeen.

In [43]:
# Получение тренировочных фактов (троек сущность-отношение-сущность)
training_data = countries_dataset.training.mapped_triples
print(training_data[:5])

tensor([[  0,   0,  13],
        [  0,   0, 223],
        [  0,   1,  50],
        [  0,   1, 108],
        [  0,   1, 178]])


## Описание базовой задачи

В данном контексте базовой задачей является предсказание отношений между сущностями в графовом датасете. Каждая тройка в графе представляет отношение между двумя сущностями. Например, в социальной сети, где сущности - пользователи и страницы, отношения могут быть "пользователь подписан на страницу".

In [44]:
# Импорт необходимых модулей Pykeen
from pykeen.pipeline import pipeline


#### Выбор модели
Мы выбираем модель для решения задачи предсказания отношений. В данном случае, мы используем модель [TransE](https://paperswithcode.com/method/transe), одну из популярных моделей для этой задачи.

#### Выбор датасета
Мы указываем графовый датасет, с которым будем работать. В данном примере - nations_dataset, который содержит данные о связях в между странами.

#### Количество эпох обучения
Задаем количество эпох обучения (итераций по всему датасету).

In [45]:
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

Using device: cpu


In [46]:
# Задаем параметры для pipeline
pipeline_results = pipeline(
    model="TransE",      # Выбираем модель (TransE - одна из моделей для предсказания отношений)
    dataset=countries_dataset,     # Выбираем графовый датасет (Nations)
    training_kwargs=dict(num_epochs=20),   # Количество эпох обучения
    device=device
)

INFO:pykeen.pipeline.api:Using device: cpu


Training epochs on cpu:   0%|          | 0/20 [00:00<?, ?epoch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

Training batches on cpu:   0%|          | 0/5 [00:00<?, ?batch/s]

INFO:pykeen.evaluation.evaluator:Currently automatic memory optimization only supports GPUs, but you're using a CPU. Therefore, the batch_size will be set to the default value.
INFO:pykeen.evaluation.evaluator:No evaluation batch_size provided. Setting batch_size to '32'.


Evaluating on cpu:   0%|          | 0.00/24.0 [00:00<?, ?triple/s]

INFO:pykeen.evaluation.evaluator:Evaluation took 0.15s seconds



Этот код инициирует обучение модели на выбранном датасете, используя выбранную архитектуру (TransE) и указанные параметры. После завершения обучения, результаты выводятся, и можно провести анализ производительности модели.


Печатаем результаты, которые могут включать в себя метрики производительности, потери на тренировочных данных, а также результаты на тестовом и валидационном наборах данных.

In [47]:
# Выводим результаты
print(pipeline_results)

PipelineResult(random_seed=3184618638, model=TransE(
  (loss): MarginRankingLoss(
    (margin_activation): ReLU()
  )
  (interaction): TransEInteraction()
  (entity_representations): ModuleList(
    (0): Embedding(
      (_embeddings): Embedding(271, 50)
    )
  )
  (relation_representations): ModuleList(
    (0): Embedding(
      (_embeddings): Embedding(2, 50)
    )
  )
  (weight_regularizers): ModuleList()
), training=TriplesFactory(num_entities=271, num_relations=2, create_inverse_triples=False, num_triples=1110, path="/root/.data/pykeen/datasets/countries/train.txt"), training_loop=<pykeen.training.slcwa.SLCWATrainingLoop object at 0x7fbcd90afd00>, losses=[1.0747390151023866, 1.02235689163208, 1.0267130255699157, 0.9614090085029602, 0.9665833592414856, 0.8825156092643738, 0.8820963621139526, 0.8583819985389709, 0.7801462650299072, 0.801759660243988, 0.7758161067962647, 0.7499815821647644, 0.7129224896430969, 0.6894047021865845, 0.6649666786193847, 0.6311133861541748, 0.61762895584

### Triple Scoring

Импортируем [predict_triples](https://pykeen.readthedocs.io/en/stable/api/pykeen.predict.predict_triples.html)

In [48]:
from pykeen.predict import predict_triples

Рассчитаем оценки для всех validation троек из набора данных, на котором мы обучали модель.

In [49]:
pack = predict_triples(model=pipeline_results.model, triples=countries_dataset.validation)
df = pack.process(factory=pipeline_results.training).df



In [50]:
df.nlargest(n=5, columns="score")

Unnamed: 0,head_id,head_label,relation_id,relation_label,tail_id,tail_label,score
23,239,timor-leste,0,locatedin,13,asia,-7.081938
22,221,south_sudan,0,locatedin,1,africa,-7.873084
5,53,colombia,0,locatedin,5,americas,-8.028869
9,102,honduras,0,locatedin,5,americas,-8.06848
17,191,qatar,0,locatedin,13,asia,-8.090032
