# Тестовое задание по графовым базам данных от MindSet
## DEADLINE: 07.03.23

**Выполнила:** Дарья Минина

**Telegram:** @daschok_770

1. [x] Установить 2 графовые базы из списка DB-Engines Ranking
2. [x] Предпочтительные - neo4j, nebula, arangodb
3. [x] Предпочтительный язык запросов cypher
4. [x] Создать ipynb ноутбук в котором:
- [x]  Считать данные из источника Yandex
- [x] Внести данные из таблицы в графовую БД
7. [x] Построить графовое представление в БД, осуществить несколько запросов на языке запросов к графовой БД
8. [x] Найти взаимосвязи визуально и с помощью алгоритмов (алгоритмы на ваше усмотрение)
9. [x] Написать rest сервис на python к графовой БД в котором на вход поступает ФИО, на выходе graphml или json
10. [ ] Результаты представить на гитхаб и в виде кода + небольшой презентации
11. [ ] Прислать ссылку на решение и резюме в телеграм @frankshikhaliev
12. [ ] Также надо будет заполнить форму
13. [ ] Срок выполнения задания - около 10 дней, если вы не успеваете можете взять больше времени

## [Neo4j](https://neo4j.com)

**Работаем с [Neo4j Desktop](https://neo4j.com/download/)**

- Считываем данные из источника Yandex, предварительно скачав файл на локальный носитель.

Для начала выделим узлы под события:

```
LOAD CSV WITH HEADERS FROM 'file:///data_test_com.csv' AS row
WITH row WHERE row.`id события` IS NOT NULL
MERGE (c:Event {eventId: row.`id события`});
```

Создадим ограничение на то, чтобы имя участника события было уникальным:

```
CREATE CONSTRAINT participant_name FOR (p:Participant) REQUIRE p.name IS UNIQUE
```

Каждый участник события БЫЛ на мероприятии, значит, наложим такую связь между узлом с лейблом `Event` и узлом с лейблом `Patricipant`
Выделим узлы под участников события и создадим связь:

```
LOAD CSV WITH HEADERS FROM 'file:///data_test_com.csv' AS row
MATCH (e:Event {eventId : row.`id события`})
MERGE (p:Participant {name: row.`ФИО участника события 1`})
CREATE (p) -[:HAS_BEEN]-> (e)
```

```
LOAD CSV WITH HEADERS FROM 'file:///data_test_com.csv' AS row
MATCH (e:Event {eventId : row.`id события`})
MERGE (p:Participant {name: row.`ФИО участника события 2`})
CREATE (p) -[:HAS_BEEN]-> (e)
```

Создадим связь между двумя людьми, которые ходили на одно событие:

```
LOAD CSV WITH HEADERS FROM 'file:///data_test_com.csv' AS row
MATCH (p1:Participant {name: row.`ФИО участника события 1`})
MATCH (p2:Participant {name: row.`ФИО участника события 2`})
CREATE (p1) -[:WITH]-> (p2)
```

В БД только 15 событий, в которых участвовало 4 человека (в остальных 2). Выведем эти события и этих людей:

```
MATCH (n:Participant) - [r:HAS_BEEN] -> (e:Event)
RETURN e, COLLECT(n) as p
ORDER BY SIZE(p) DESC LIMIT 15
```

![Граф](img/graph.png)

Найдем самого "популярного" человека из первого столбца и из второго столбца.

Из первого столбца:

```
MATCH (p1:Participant) - [r:WITH] -> (p2:Participant)
RETURN p1, COLLECT(p2) as p
ORDER BY SIZE(p) DESC LIMIT 5
```

![Граф](img/anna.png)

ТОП-5:
1. Ахромеева Алина Ивановна - 49 человек
2. Башнина Антонина Глебовна - 14 человек
3. Диомидов Игорь Ильдарович - 5 человек
4. Зимнухова Карина Даниловна - 4 человека
5. Шолохов Игорь Робертович - 2 человека

Из второго столбца:

```
MATCH (p1:Participant) - [r:WITH] -> (p2:Participant)
RETURN p2, COLLECT(p1) as p
ORDER BY SIZE(p) DESC LIMIT 5
```

![Граф](img/daria.png)

ТОП-5:
1. Медведева Дарья Алексеевна - 5 человек
2. Шолохов Игорь Робертович - 2 человекa
3. Двигубская Валентина Геннадьевна - 2 человекa
4. Чемодуров Дамир Русланович - 1 человек
5. Щербатенко Ольга Робертовна - 1 человек

В этом блокноте мы создаем простой API, который rest сервис на python к графовой БД, в котором на вход поступает ФИО, на выходе graphml или json. В конечном итоге мы должны получить что-то вроде этого:

```
$ curl -X POST http://127.0.0.1:8889/graph
   -H 'Content-Type: application/json'
   -d '{"name":"Шолохов Игорь Робертович"}'
```

**json-ответ** отображает id-событий, на которых был посетитель:

```
{
    "headers": {
        "Content-Type": "application/json"
    },
    "status": 200,
    "body": {
        "id событий": [
            "750824",
            "829652",
            "875321",
            "218462"
        ]
    }
}
```

Сначала необходимо установить пакет `jupyter_kernel_gateway` (строка ниже для использования):

In [66]:
# !pip3 install jupyter_kernel_gateway

Необходимо также установить [`Neo4j Python Driver 5.5`](https://neo4j.com/docs/api/python-driver/current/):

In [67]:
# python3.10 -m pip install neo4j

In [68]:
import json
import neo4j

# REQUEST is the http request sent to the endpoints,
# it's initialized to prevent error in running the notebook
REQUEST = json.dumps({
    "body" : {},
    "path" : {},
})

In [69]:
from neo4j import GraphDatabase


URI = "bolt://localhost:7687"
AUTH = ("neo4j", "password")

def get_events(tx, name):
    events = []
    result = tx.run("MATCH (n:Participant) - [r:HAS_BEEN] -> (e:Event) "
                    "WHERE n.name = $name "
                    "RETURN e.eventId AS event", name=name)
    for record in result:
        events.append(record["event"])
    return events

In [70]:
# POST /graph
req = json.loads(REQUEST)
body = json.dumps(req['body'])

if "name" not in body:
    print(json.dumps({"name": None}))
else:
    name = str(json.loads(body)['name'])
    events = []
    with GraphDatabase.driver(URI, auth=AUTH) as driver:
        with driver.session() as session:
            events = session.execute_read(get_events, name)
    print(json.dumps({
    "headers" : {
    "Content-Type" : "application/json"
    },
    "status" : 200,
    "body": {"id событий" : events},
    }))

{"name": null}


**В терминале необходимо запустить:**

```
$ jupyter kernelgateway  --KernelGatewayApp.api='kernel_gateway.notebook_http'  --KernelGatewayApp.seed_uri='./list1.ipynb'
```

![json-ответ](img/json-response.png)

## [Memgraph](https://memgraph.com)

Используем docker-образ и [Memgraph Lab](https://memgraph.com/docs/memgraph-lab/)

Проблема!

![Проблема](img/problem.png)

С восприятием кириллицы у `Memgraph` возникли какие-то непонятные проблемы, поэтому воспользуемся импортом всей графовой БД из __Neo4j__ в __Memgraph__ . Для этого используем плагин [APOC](https://neo4j.com/labs/apoc/4.3/installation/).

В `neo4j.conf` предварительно необходимо добавить 2 строки:
```
apoc.import.file.enabled =true
apoc.export.file.enabled =true
```

Импортируем все данные из БД в Neo4j в файл `events.csv`:
```
CALL apoc.export.csv.all("events.csv", {})
```
_Прим._: эта команда вызывается там же, где запускались `Cypher`-запросы в Neo4j Desktop.

Для того, чтобы работать с данными `.csv` необходимо скопировать их в созданный контейнер. Для этого воспользуемся командой:

```
docker cp ./events.csv <CONTAINER ID>:/events.csv
```

Приступаем к парсингу данных из `events.csv`:

```
LOAD CSV FROM "/events.csv" WITH HEADER as row
WITH row WHERE row._labels = ":Event"
CREATE (:Event {id: row._id, eventId: row.eventId});
```
```
LOAD CSV FROM "/events.csv" WITH HEADER as row
WITH row WHERE row._labels = ":Participant"
CREATE (:Participant {id: row._id, name: row.name});
```
```
LOAD CSV FROM "/events.csv" WITH HEADER as row
WITH row WHERE row._type = "HAS_BEEN"
MATCH (s {id: row._start}), (e {id: row._end})
CREATE (s) - [:HAS_BEEN] -> (e);
```
```
LOAD CSV FROM "/events.csv" WITH HEADER as row
WITH row WHERE row._type = "WITH"
MATCH (s {id: row._start}), (e {id: row._end})
CREATE (s) - [:WITH] -> (e);
```

Отображение событий, на которых присутствовало 4 человека:

```
MATCH (n:Participant) - [r:HAS_BEEN] -> (e:Event)
RETURN e, COLLECT(n) as p, collect(r) as rr
ORDER BY SIZE(p) DESC LIMIT 15;
```

![Мемграф](img/memgraph.png)

![Мемграф2](img/memgraph_4.png)

Так как данные те же, что и в Neo4j, соответственно, результаты работы дальнейших запросов остаются такими же.
