### Тестовое задание по графовым базам данных:

- [ ] Установить 2 графовые базы из списка DB-Engines Ranking  
    - [ ] Предпочтительные:  
        - [X] neo4j  
        - [ ] nebula  
        - [ ] arangodb  
    - [X] Предпочтительный язык запросов cypher
- [ ] Создать ipynb ноутбук в котором:
    - [X] Считать данные из источника https://disk.yandex.ru/d/s6wWqd8Ol_5IvQ
    - [X] Внести данные из таблицы в графовую БД
    - [ ] Построить графовое представление в БД, осуществить несколько запросов на языке запросов к графовой БД
    - [ ] Найти взаимосвязи визуально и с помощью алгоритмов (алгоритмы на ваше усмотрение)
    - [ ] Написать rest сервис на python к графовой БД в котором на вход поступает ФИО, на выходе graphml или json
- [ ] Результаты представить на гитхаб и в виде кода + небольшой презентации

In [153]:
# Загружаем модуль для расчета времени затраченного на операцию 
import time

# Загружаем данные с которыми будет работать 
start = time.time()

import requests
import urllib
import json

try:
    folder_url = 'https://disk.yandex.ru/d/s6wWqd8Ol_5IvQ'  # ссылка на папку с файлами 
    file_name = 'data_test.csv'  # название файла который необходимо получить
    url = 'https://cloud-api.yandex.net/v1/disk/public/resources/download' + '?public_key=' + urllib.parse.quote(folder_url) + '&path=/' + urllib.parse.quote(file_name)
    request = requests.get(url)  # запрос ссылки на скачивание
    file = json.loads(request.text)['href']  # 'парсинг' ссылки на скачивание
    print(f'Загрузка даных прошла успешно\nВремя затраченное на операцию: {round(time.time()-start, 2)}\n')
except Exception as e:
    print(f'Ошибка загрузки данных:\n{e}\n')

start = time.time()
try:
    # Записываем полученые файлы в датафрейм pandas
    import pandas as pd

    df = pd.read_csv(file, sep=';')

    # Загружаем инструмент для работы с графовыми базами данных
    from neo4j import GraphDatabase

    # Прописываем класс через который будем работать с базой
    class Neo4jConnection:
        def __init__(self, uri, user, password):
            self.driver = GraphDatabase.driver(uri, auth=(user, password))

        def close(self):
            if self.driver is not None:
                self.driver.close()

    # Метод, который передает запрос в БД
        def query(self, query, db=None):
            assert self.driver is not None, "Драйвер не инициализирован!"
            session = None
            response = None
            try:
                session = self.driver.session(database=db) if db is not None else self.driver.session()
                response = list(session.run(query))
            except Exception as e:
                print("Запрос не выполнен:", e)
            finally:
                if session is not None:
                    session.close()
            return 'Запрос выполнен' if len(response)==0 else response


    # Метод полной отчистки переданой БД    
    def cleaning_database(database):
        result = conn.query("match (a) -[r] -> () delete a, r", db=database)
        result = conn.query("match (a) delete a", db=database)
        if len(result) == 0:
            print(f"{database} была полностью отчищена")
        else:
            print(result)
    
    # Метод отрисовки прогресса операции
    import sys
    def progres_animation(number, total):
        animation_percent = [round(i*0.1, 1) for i in range(11)]
        animation_image = ['[ ' + ('■ ' * i) + ('□ ' * (10-i)) + ']' for i in range(11)]
        percent_index = animation_percent.index(round(number/total, 1))
        sys.stdout.write('\r' + 'Прогресс операции: ' + animation_image[percent_index])
        sys.stdout.flush()
            
    print(f'Все инструменты для работы загружены без ошибок\nВремя затраченное на операцию: {round(time.time()-start, 2)}\n')
except Exception as e:
    print(f'При загрузке необходимых инструментов возникла ошибка:\n{e}\n')


Загрузка даных прошла успешно
Время затраченное на операцию: 3.17

Все инструменты для работы загружены без ошибок
Время затраченное на операцию: 4.71



In [163]:
# Загружаем пространство в которм будем работать
conn = Neo4jConnection(uri="bolt://localhost:7687", user="sergey", password="password")

try:    
    # Создаем базу данных 
    # 'CREATE' по умолчанию завершается ошибкой, если база данных уже существует. 
    # Добавление 'IF NOT EXISTS' к команде гарантирует, что ошибка не будет возвращена и ничего не произойдет, 
    #  если база данных уже существует.
    # В нашем случаем добавляем 'OR REPLACE' в команду, что приведет к удалению любой существующей базы данных 
    #  и созданию новой.
    
    db = 'mydb'
    answer = conn.query(f"CREATE OR REPLACE DATABASE {db};")
    print(f'Создание базы данных: {answer}')
    
    # Добавляем небольшую задержку выполнения скрипта, чтобы созданая база успела загрузиться
    time.sleep(1)
    
    start = time.time()
    
    # Создаем список со всеми ФИО из полученого файла и убираем дубли оставляя всех в единичном значении
    person_list = []
    for i in [1, 2]:
        person_list += df[df.columns[i]].tolist()
    person_list = list(set(person_list))
    print(f'\nСоздан список уникальных значений')

    # Пишем cypher запрос на создание узлов с получеными ФИО
    print(f'Передаем запрос на создание {len(person_list)} узлов')
    for i, value in enumerate(person_list):
        progres_animation(i, len(person_list))
        name = value.split(' ')
        query_string = "CREATE (:Person {name: '" + f'{name[0]} {name[1][0]}.{name[2][0]}.' + "', фамилия: '" + name[0] + "', имя: '" + name[1] + "', отчество: '" + name[2] + "'});"
        answer = conn.query(query_string, db=db)  

    print(f'\nВремя затраченное на операцию: {round(time.time()-start, 2)}\n')
    
    start = time.time()
    
    # Пишем cypher запрос на создание связей между точками, за имя принимаем ID события 
    print(f'Прописываем {len(df)} связей')
    for i in df.index:
        progres_animation(i, len(df))
        name_1_1, name_1_2, name_1_3 = df.loc[i, df.columns[1]].split(' ')
        name_2_1, name_2_2, name_2_3 = df.loc[i, df.columns[2]].split(' ')
        event_id = df.loc[i, df.columns[0]]

        query_string = '''
        MATCH
          (a:Person),
          (b:Person)
        WHERE 
            a.`фамилия` = "''' + name_1_1 + '''" AND b.`фамилия` = "''' + name_2_1 + '''" AND
            a.`имя` = "''' + name_1_2 + '''" AND b.`имя` = "''' + name_2_2 + '''" AND
            a.`отчество` = "''' + name_1_3 + '''" AND b.`отчество` = "''' + name_2_3 + '''"
        CREATE (a)-[r:RELATIONSHIP {name: "''' + str(event_id) + '''"}]->(b)
        '''
        conn.query(query_string, db=db)
    print(f'\nВремя затраченное на операцию: {round(time.time()-start, 2)}\n')
except Exception as e:
    print(f'\nВозникла ошибка:\n{e}')

Создание базы данных: Запрос выполнен

Создан список уникальных значений
Передаем запрос на создание 9899 узлов
Прогресс операции: [ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ]
Время затраченное на операцию: 83.15

Прописываем 5000 связей
Прогресс операции: [ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ]
Время затраченное на операцию: 169.97



In [161]:
df[df.columns[0]].value_counts()

850472    2
358194    2
70049     2
117280    2
523688    2
         ..
333793    1
333694    1
333678    1
333635    1
999878    1
Name: id события, Length: 4985, dtype: int64