# Графовая база данных Neo4J

Для написания запросов используется язык [Cypher](https://neo4j.com/developer/cypher/intro-cypher/). Толковое введение на русском есть [здесь](https://habr.com/ru/post/482418/).

Для того, чтобы не играть на локальной машине, не мучиться с docker или установкой, можно использовать [песочницу Neo4J](https://sandbox.neo4j.com/). В ней уже имеются некоторые интересные наборы данных, с которыми можно поиграть, но при желании можно создать пустой проект и самостоятельно положить у него данные.

При создании базы очень важно скопировать информацию о подключении, так как потом ее сложно добыть обратно.

Для работы с Neo4J из Python необходимо установить соответствующую библиотеку: `pip install neo4j-driver`. Мы подключаемся используя базовую аутентификацию, но при желании ее можно отключить вовсе (если ваша база находится во внутренней сети и вы ничего не боитесь).

Подключимся к базе, используя установленную библиотеку.


In [1]:
# pip install neo4j-driver

from neo4j import GraphDatabase, basic_auth

driver = GraphDatabase.driver(
    "bolt://54.237.90.173:33444", 
    auth=basic_auth("neo4j", "lockers-label-soldiers"))
session = driver.session()

Теперь при помощи объекта session мы можем отправить к базе данных запрос. Пусть мы хотим посмотреть метки первых десяти вершин в базе.

In [3]:
cypher_query = '''
MATCH (n)
RETURN labels(n) AS id
LIMIT 10
'''

results = session.run(cypher_query,
  parameters={})

for record in results:
  print(record['id'])

['User', 'Troll']
['User', 'Troll']
['User', 'Troll']
['User', 'Troll']
['User', 'Troll']
['User', 'Troll']
['User', 'Troll']
['User', 'Troll']
['User', 'Troll']
['User', 'Troll']


Посмотрим на связи, которые хранятся в базе.

In [23]:
cypher_query = '''
MATCH (n)-[r]-(n2)
RETURN n, r, n2
LIMIT 50
'''

results = session.run(cypher_query,
  parameters={})

for record in results:
  print(record["n2"]["name"], record["r"])


#Ezekiel2517✨... <Relationship id=200464 nodes=(<Node id=0 labels=frozenset({'Troll', 'User'}) properties={'friends_count': 1055, 'listed_count': 35, 'favourites_count': 2774, 'verified': False, 'description': 'CELEBRITY TRAINER ✨#424W147th✨ #CrossfitCoach #NSCA #IRepresentIntellectualViolence...Robinson Cano,Ice T,Missy Elliott, #EaglesDontFlyInFlocks...', 'created_at': 'Tue Dec 29 23:15:22 +0000 2009', 'user_key': 'scottgohard', 'time_zone': '', 'screen_name': 'SCOTTGOHARD', 'statuses_count': 31858, 'followers_count': 1053, 'name': '#Ezekiel2517✨...', 'location': 'still ⬆️Block⤵️Corner⬇️street', 'id': '100345056', 'lang': 'en'}>, <Node id=200713 labels=frozenset({'Tweet'}) properties={'created_at': 1471031840000, 'favorite_count': 0, 'text': 'Salute brother @iJesseWilliams  https://t.co/7GLK7tZ95m', 'created_str': '2016-08-12 19:57:20', 'id': '764189043152199680', 'retweet_count': 0, 'retweeted': False}>) type='POSTED' properties={}>
#Ezekiel2517✨... <Relationship id=196310 nodes=(<N

In [169]:
_=curSession.run("create (a:person {name:'Jane'})-[l:friendOf {sinceOf:'2000'}]->(b:person:technision {name:'Jack'})")

In [148]:
res2=curSession.run("match (a:person) return a")
res=[r for r in res2]

In [149]:
for r in res:
    print(r)

<Record a=<Node id=2 labels={'person'} properties={'name': 'Jane'}>>
<Record a=<Node id=3 labels={'technision', 'person'} properties={'name': 'Jack'}>>


In [150]:
for r in res:
    print(r['a'])

<Node id=2 labels={'person'} properties={'name': 'Jane'}>
<Node id=3 labels={'technision', 'person'} properties={'name': 'Jack'}>


In [151]:
for r in res:
    print(r['a'].keys())

dict_keys(['name'])
dict_keys(['name'])


In [152]:
for r in res:
    print(r['a'].id, r['a'].labels) 

2 frozenset({'person'})
3 frozenset({'technision', 'person'})


In [154]:
for r in res:
    print(r['a']['name']) 

Jane
Jack


In [155]:
res2=curSession.run("match (a:technision) return a")
res=[r for r in res2]
for r in res:
    print(r['a']['name']) 

Jack


In [157]:
res2=curSession.run("match (a:technision) set a.secondname='Second' return a")
res=[r for r in res2]
for r in res:
    print(r['a']) 

<Node id=3 labels={'technision', 'person'} properties={'secondname': 'Second', 'name': 'Jack'}>


In [159]:
res2=curSession.run("match (a:person) return a")
res=[r for r in res2]
for r in res:
    print(r['a']) 

<Node id=2 labels={'person'} properties={'name': 'Jane'}>
<Node id=3 labels={'technision', 'person'} properties={'secondname': 'Second', 'name': 'Jack'}>


In [165]:
res2=curSession.run("match (a:person) where not exists(a.secondname) set a.secondname='James' return a")
res=[r for r in res2]
for r in res:
    print(r['a']) 

<Node id=2 labels={'person'} properties={'secondname': 'James', 'name': 'Jane'}>


In [170]:
res2=curSession.run("match (a:person) return a")
res=[r for r in res2]
for r in res:
    print(r['a']) 

<Node id=0 labels={'technision', 'person'} properties={'name': 'Jack'}>
<Node id=20 labels={'person'} properties={'name': 'Jane'}>


In [179]:
res2=curSession.run("match ()-[r]-(a) return a, r")
res=[r for r in res2]
for r in res:
    print(r)

<Record a=<Node id=0 labels={'technision', 'person'} properties={'name': 'Jack'}> r=<Relationship id=20 nodes=(<Node id=20 labels={'person'} properties={'name': 'Jane'}>, <Node id=0 labels={'technision', 'person'} properties={'name': 'Jack'}>) type='friendOf' properties={'sinceOf': '2000'}>>
<Record a=<Node id=20 labels={'person'} properties={'name': 'Jane'}> r=<Relationship id=20 nodes=(<Node id=20 labels={'person'} properties={'name': 'Jane'}>, <Node id=0 labels={'technision', 'person'} properties={'name': 'Jack'}>) type='friendOf' properties={'sinceOf': '2000'}>>


In [168]:
res2=curSession.run('match ()-[r]-() delete r')
res2=curSession.run('match (p) delete p')
res2=curSession.run("match (a) return a")
res=[r for r in res2]
for r in res:
    print(r['a']) 

In [181]:
res2=curSession.run("match ()-[r]-() return r")
res=[r for r in res2]
for r in res:
    curSession.run("match ()-[r]-() where id(r)={} delete r".format(r['r'].id))

res2=curSession.run("match (a) return a")
res=[r for r in res2]
for r in res:
    curSession.run("match (a) where id(a)={} delete a".format(r['a'].id))

In [11]:
fairytale = {"persons":
 [{"id":1, "name":"Zelda", "labels":["princess"], "xp":10, "hp":100}, 
  {"id":2, "name":"Foegelchen", "labels":['king'], 'xp': 10, 'hp': 100, 'king_of': 'Fairy Country' } 
 ],
 "buildings":
 [{"labels":['castle', 'building'], 'name': 'Neuschwanstein', 'strong': 1000, "owner":1, "owned_since":1235},
  {"labels":['cabin', 'building'], 'strong': 100, 'lat': 40.5675, 'long': 20.5234, "owner":2, "owned_since":1700},
  {"labels":['cabin', 'building'], 'strong': 100, 'lat': 40.6751, 'long': 20.5232, "owner":2, "owned_since":1700}     
 ]
}

In [12]:
from tqdm import tqdm

In [13]:
%%time
#req = "match (n) detach delete n"
#results = session.run(req)

for j in tqdm(range(100)):
    
    for i, pers in enumerate(fairytale["persons"]):
        label = ":".join(pers["labels"])
        features = f'id:{pers["id"]}, name:"{pers["name"]}", xp:{pers["xp"]}, hp:{pers["hp"]}'
        req="CREATE (:"+label+" {"+features+"})"
        #print(req)
        results = session.run(req)


100%|██████████| 100/100 [00:05<00:00, 19.55it/s]

CPU times: user 220 ms, sys: 32.1 ms, total: 252 ms
Wall time: 5.15 s





Попробуем подключиться к локальной базе и рассказать сказку. Запустим ее, например, при помощи  
`docker run --publish=7474:7474 --publish=7687:7687 --volume=$HOME/neo4j/data:/data neo4j` .  
По умолчанию Neo4j создает пользователя с именем neo4j и паролем neo4j. Но при первом подключении он просит сменить пароль у этого пользователя.

Если к этой команде в середину добавить  
`--env=NEO4J_AUTH=none` ,  
то можно будет обойтись без логина.



In [17]:
#driver = GraphDatabase.driver("bolt://localhost:7687/db/GameDev/")
#driver = GraphDatabase.driver("bolt://localhost:7687/db/Syntax/")
#driver = GraphDatabase.driver("bolt://localhost:7687/db/neo4j/", auth=('neo4j', 'ANewPassword'))
#driver = GraphDatabase.driver("bolt://0.0.0.0:7687/", auth=("neo4j", "neo4j2"))
driver = GraphDatabase.driver("bolt://0.0.0.0:7687/", auth=basic_auth("neo4j", "neo4j2"))
session = driver.session()

In [18]:
cypher_query = '''
MATCH (n)
RETURN n
'''
# cypher_query = '''
# create (a:person)
# RETURN a
# '''

results = session.run(cypher_query, parameters={})

for record in results:
  print(record)


<Record n=<Node id=0 labels=frozenset({'princess'}) properties={'name': 'Zelda', 'xp': 10, 'hp': 100, 'id': 1}>>
<Record n=<Node id=1 labels=frozenset({'king'}) properties={'name': 'Foegelchen', 'xp': 10, 'hp': 100, 'id': 2}>>
<Record n=<Node id=2 labels=frozenset({'princess'}) properties={'name': 'Zelda', 'xp': 10, 'hp': 100, 'id': 1}>>
<Record n=<Node id=3 labels=frozenset({'king'}) properties={'name': 'Foegelchen', 'xp': 10, 'hp': 100, 'id': 2}>>
<Record n=<Node id=4 labels=frozenset({'princess'}) properties={'name': 'Zelda', 'xp': 10, 'hp': 100, 'id': 1}>>
<Record n=<Node id=5 labels=frozenset({'king'}) properties={'name': 'Foegelchen', 'xp': 10, 'hp': 100, 'id': 2}>>
<Record n=<Node id=6 labels=frozenset({'princess'}) properties={'name': 'Zelda', 'xp': 10, 'hp': 100, 'id': 1}>>
<Record n=<Node id=7 labels=frozenset({'king'}) properties={'name': 'Foegelchen', 'xp': 10, 'hp': 100, 'id': 2}>>
<Record n=<Node id=8 labels=frozenset({'princess'}) properties={'name': 'Zelda', 'xp': 10, '

Как ставить написано в [документации](https://neo4j.com/docs/operations-manual/current/installation/windows/) и [документации](https://neo4j.com/docs/operations-manual/current/installation/osx/).

Предварительно проверьте, что у вас установлена Java 11.

`neo4j-admin set-initial-password ANewPassword`

В файле Neo4J.conf необходимо раскомментировать следующий ключ.
`dbms.security.auth_enabled=false`
Перезапускаем СУБД.

В противном случае вам придется сопрягать СУБД с SSL и самостоятельно налаживать аутентификацию.
**Предлагаемое решение является дыркой в безопасности, теперь кто угодно может писать и читать эту базу**. Но нас ведь это не смущало у Redis?

Теперь заходим в админку базы данных.
http://127.0.0.1:7474/


ca-sertificates-java


In [19]:
driver = GraphDatabase.driver("bolt://0.0.0.0:7687/db/Syntax/", auth=basic_auth("neo4j", "neo4j2"))
session = driver.session()

In [20]:
cypher_query = 'MATCH (n) RETURN n'
results = session.run(cypher_query, parameters={})

print("Current records:")
for record in results:
    print(record)


Current records:
<Record n=<Node id=0 labels=frozenset({'princess'}) properties={'name': 'Zelda', 'xp': 10, 'hp': 100, 'id': 1}>>
<Record n=<Node id=1 labels=frozenset({'king'}) properties={'name': 'Foegelchen', 'xp': 10, 'hp': 100, 'id': 2}>>
<Record n=<Node id=2 labels=frozenset({'princess'}) properties={'name': 'Zelda', 'xp': 10, 'hp': 100, 'id': 1}>>
<Record n=<Node id=3 labels=frozenset({'king'}) properties={'name': 'Foegelchen', 'xp': 10, 'hp': 100, 'id': 2}>>
<Record n=<Node id=4 labels=frozenset({'princess'}) properties={'name': 'Zelda', 'xp': 10, 'hp': 100, 'id': 1}>>
<Record n=<Node id=5 labels=frozenset({'king'}) properties={'name': 'Foegelchen', 'xp': 10, 'hp': 100, 'id': 2}>>
<Record n=<Node id=6 labels=frozenset({'princess'}) properties={'name': 'Zelda', 'xp': 10, 'hp': 100, 'id': 1}>>
<Record n=<Node id=7 labels=frozenset({'king'}) properties={'name': 'Foegelchen', 'xp': 10, 'hp': 100, 'id': 2}>>
<Record n=<Node id=8 labels=frozenset({'princess'}) properties={'name': 'Ze

In [40]:
#results = session.run("match (n) detach delete n")


Добавляем все предложения в базу - это занимает полчаса!

In [22]:
#with open("/home/edward/projects/Alien_bases/Universal Dependencies/ud-treebanks-v2.3/UD_Russian-SynTagRus/ru_syntagrus-ud-train.conllu") as infile:
#with open("/home/edward/projects/Alien_bases/Universal Dependencies/ud-treebanks-v2.3/UD_Russian-SynTagRus/ru_syntagrus-ud-test.conllu") as infile:
with open("/home/edward/projects/Alien_bases/Universal Dependencies/ud-treebanks-v2.3/UD_Russian-SynTagRus/ru_syntagrus-ud-dev.conllu") as infile:
    lines=infile.readlines()

In [23]:
def readSentence(lines, pos):
    #print("pos=",pos, "line=", lines[pos])
    sent=[]
    while pos<len(lines) and lines[pos]!="\n":
        if lines[pos][0]!='\n' and lines[pos][0]!='#':
            sent.append(lines[pos][:-2].split("\t"))
        pos+=1
    pos+=1
    return sent, pos
        
def putSentence2Neo4J(tx, sent):
    data=[]
    rels=[]
    for word in sent:
        if '.' in word[0]:
            continue
            
        req="MERGE (a:lemma {lemma:'"+word[2].replace("'", "\\\'")+"', PoS:'"+word[3]+"'})\n \
             ON CREATE set a.freq=1 \
             ON MATCH set a.freq=a.freq+1\n \
             MERGE (b:token {token:'"+word[1].replace("'", "\\\'")+"', tag:'"+word[5]+"'})\n \
             ON CREATE set b.freq=1 \
             ON MATCH set b.freq=b.freq+1\n \
             MERGE (b)-[c: is_token]->(a)"
        #print(req)
        tx.run(req)
        req="MATCH (a:lemma {lemma:'"+word[2].replace("'", "\\\'")+"', PoS:'"+word[3]+"'})\n \
             MATCH (b:lemma {lemma:'"+sent[int(word[6])-1][2].replace("'", "\\\'")+"', PoS:'"+sent[int(word[6])-1][3]+"'})\n \
             MERGE (b)-[c:conn {type:'"+word[7]+"'}]->(a) \
             ON CREATE set c.freq=1 \
             ON MATCH set c.freq=c.freq+1"
        #print(req)
        tx.run(req)
        

In [31]:
driver.session().run("CREATE INDEX ON :lemma(lemma, PoS)")
driver.session().run("CREATE INDEX ON :token(token, tag)")

<neo4j.work.result.Result at 0x7fcbf9fb0438>

In [32]:
#driver = GraphDatabase.driver("bolt://localhost:7687/db/Syntax/")
driver.session().run("match ()-[b]-() delete b")
driver.session().run("match (a) delete a")


<neo4j.work.result.Result at 0x7fcbefd1cef0>

In [33]:
%%time
#driver = GraphDatabase.driver("bolt://localhost:7687/db/Syntax/")
#driver.session().run("match ()-[b]-() delete b")
#driver.session().run("match (a) delete a")
tx = driver.session().begin_transaction()

sent_no=1
pos=0
while pos<len(lines):
    print(sent_no, end="\r")
    sent, pos=readSentence(lines, pos)
    try:
        putSentence2Neo4J(tx, sent)
    except:
        driver = GraphDatabase.driver("bolt://0.0.0.0:7687/")
        print("exception!")
    sent_no+=1
    
    if sent_no%100==0:
        tx.commit()
        tx = driver.session().begin_transaction()


CPU times: user 1min 36s, sys: 9.56 s, total: 1min 46s
Wall time: 23min 21s


In [34]:
tx.commit()

'FB:kcwQ+Q/qTvriSUG+U2biyQp4IskBLZA='

In [35]:
pos

138443

In [36]:
res=driver.session().run("MATCH (a:lemma) return count(*) as cnt")
#for r in res:
#    print(r["cnt"])

In [37]:
res.value()

[13727]

In [38]:
req="""match (a:lemma)-[r]->(b:lemma) 
where r.freq>2 AND a.PoS<>'PUNCT' AND b.PoS<>'PUNCT'
return a.lemma, a.freq, b.lemma, b.freq, r.freq
order by r.freq desc
limit 100"""
res=driver.session().run(req)

In [39]:
res.values()

[['год', 611, 'в', 3393, 212],
 ['мочь', 326, 'не', 1598, 75],
 ['только', 231, 'не', 1598, 71],
 ['тот', 338, 'же', 315, 68],
 ['время', 274, 'в', 3393, 59],
 ['случай', 87, 'в', 3393, 57],
 ['то', 432, 'быть', 306, 48],
 ['быть', 306, 'не', 1598, 48],
 ['то', 432, 'о', 441, 47],
 ['время', 274, 'тот', 338, 46],
 ['страна', 134, 'в', 3393, 40],
 ['то', 432, 'в', 3393, 40],
 ['но', 521, 'и', 518, 39],
 ['Россия', 87, 'в', 3393, 39],
 ['это', 653, 'весь', 310, 39],
 ['мочь', 326, 'быть', 306, 37],
 ['мы', 358, 'у', 294, 37],
 ['вершина', 76, 'на', 1449, 35],
 ['потому', 81, 'что', 913, 35],
 ['в', 3393, 'в', 3393, 33],
 ['который', 494, 'в', 3393, 32],
 ['результат', 84, 'в', 3393, 31],
 ['город', 60, 'в', 3393, 30],
 ['в', 3393, 'частность', 30, 30],
 ['это', 653, 'при', 195, 30],
 ['в', 3393, 'качество', 50, 30],
 ['он', 1086, 'у', 294, 28],
 ['а', 684, 'также', 28, 28],
 ['условие', 55, 'в', 3393, 27],
 ['во', 30, 'время', 274, 27],
 ['год', 611, 'за', 307, 27],
 ['основа', 49, 'на',

In [None]:
match (n:lemma)<-[r]-(m:lemma) 
WHERE r.freq>2 AND n.PoS<>'PUNCT' AND m.PoS<>'PUNCT'
WITH n, count(m) as ncnt
WHERE ncnt>3
return n, ncnt
order by ncnt desc

In [None]:
match (n:lemma)<-[r]-(m:lemma) 
WHERE r.freq>2 AND n.PoS<>'PUNCT' AND m.PoS<>'PUNCT'
WITH n, count(m) as ncnt
WHERE ncnt>3
WITH n
MATCH (n)<-[r]-(m:lemma)
WHERE r.freq>2 AND n.PoS<>'PUNCT' AND m.PoS<>'PUNCT'
return n, collect(m), collect(r.freq)
order by n ascending

---

In [110]:
driver.session().run("create (a:person {name:'Jane2'})-[l:link {kind:10}]->(b:person {name: 'Jack2'})")

<neo4j.BoltStatementResult at 0x7f7d7a9b8ef0>

In [116]:
res=driver.session().run("match (a) return a")
for r in res:
    print(r)

In [8]:
driver = GraphDatabase.driver("bolt://localhost:11004", scheme= 'Graph22')

AuthError: Unsupported authentication token, missing key `scheme`: { user_agent='neobolt/1.7.4 Python/3.6.7-final-0 (linux)' }

---

---

https://medium.com/neo4j/nxneo4j-networkx-api-for-neo4j-a-new-chapter-9fc65ddab222