# Lab 3.1 Knowledge Graph

Il seguente esercizio prevede la costruzione di un grafo memorizzato su Neo4j e una semplice implementazione per visualizzarne i dati:
    
Il grafo sarà costruito come segue: a partire da un testo verranno estratte tutte le triple Soggetto - Verbo - Oggetto, per ogni componente della tripla saranno estratti i synset di Wordnet e verranno usati come nodi del nostro grafo.

### Il documento di partenza

Usiamo come documento lo stesso dell'esercizio 2.1 che era stato creando mescolando due testi: uno sulla guerra e uno sul cucinare.

In [1]:
from pprint import pprint
import nltk

title_document = 'input_ex_2_1-Copy1.TXT'

with open(title_document, 'r') as file:
    input_document = file.read()

input_document = nltk.sent_tokenize(input_document)

### Metodo: Extract SVO

Il seguente metodo, data una frase in input, restituisce una lista di triple Soggetto - Verbo - Oggetto trovate in essa.

Per questa fase si utilizza la libreria di spacy in fase di parsing e un modulo importato per l'estrazione delle triple `findSVOs`

Per via dell'ambiguità delle frasi possono essere individuati più soggetti e oggetti quindi il metodo restituirà una lista.

In [2]:
import spacy
from subject_object_extraction import findSVOs
nlp = spacy.load("en_core_web_sm")

def extract_svo(input_sentence):
    doc = nlp(input_sentence)
    return findSVOs(doc)

# Example 
print(extract_svo("The dog eat an apple"))

[('dog', 'eat', 'apple')]


### I Synset di worndet

Per l'estrazione dei synset sarà utilizzato l'algoritmo di disambiguazione delle librerie nltk `Lesk`

In [3]:
from nltk.corpus import wordnet as wn
from nltk.wsd import lesk

def extract_synset_noun(word, sent):
    return lesk(sent, word, 'n')

def extract_synset_verb(word, sent):
    return lesk(sent, word, 'v')

# Example
print(extract_synset_noun('dog', "The dog eat an apple"))
print(extract_synset_noun('apple', "The dog eat an apple"))
print(extract_synset_verb('eat', "The dog eat an apple"))

Synset('pawl.n.01')
Synset('apple.n.02')
Synset('eat.v.04')


### Neo4j

Definiamo seguentemente i metodi per connettersi e costruire le nostre query nel database `neo4j` installato in locale.

In [4]:
from neo4j import GraphDatabase
from neo4j.exceptions import ServiceUnavailable

uri = 'bolt://localhost:7687'
driver = GraphDatabase.driver(uri)

def create_synset(tx, synset_id):
    return tx.run("CREATE (:Synset {syn_id: $id})", id=synset_id)

# l'uso di merge permette di creare il nodo qual'ora non esistesse
def create_relationship_sub_verb(tx, syn1, syn2):
    s1_lemmas = [l.name() for l in syn1.lemmas()]
    s2_lemmas = [l.name() for l in syn2.lemmas()]
    tx.run("MERGE (s1:Synset {syn_id: $s1_id, lemmas: $s1_lemmas, definition: $s1_def}) "
               "MERGE (s2:Synset  {syn_id: $s2_id, lemmas: $s2_lemmas, definition: $s2_def}) "
               "MERGE (s1)-[:SUBJ_OF]->(s2)",
               s1_id=syn1.offset(), s2_id=syn2.offset(),
                s1_lemmas=s1_lemmas, s2_lemmas=s2_lemmas,
                s1_def= syn1.definition(), s2_def=syn2.definition())

    
def create_relationship_verb_obj(tx, syn1, syn2):
    s1_lemmas = [l.name() for l in syn1.lemmas()]
    s2_lemmas = [l.name() for l in syn2.lemmas()]
    tx.run("MERGE (s1:Synset {syn_id: $s1_id, lemmas: $s1_lemmas, definition: $s1_def}) "
               "MERGE (s2:Synset  {syn_id: $s2_id, lemmas: $s2_lemmas, definition: $s2_def}) "
               "MERGE (s1)-[:HAS_OBJ]->(s2)",
               s1_id=syn1.offset(), s2_id=syn2.offset(),
                s1_lemmas=s1_lemmas, s2_lemmas=s2_lemmas,
                s1_def= syn1.definition(), s2_def=syn2.definition())

# metodo per resettare il database 'tln'
def reset():
    try:
        with driver.session(database='tln') as session:
            session.write_transaction(lambda tx: tx.run("MATCH (n) DETACH DELETE n"))
        return True
    except ServiceUnavailable:
        return False
    

# metodo per memorizzare le relazioni:
# sog - subj of - verb / verb - has obj - obj
def save_triple(subj, verb, obj):
    try:
        with driver.session(database='tln') as session:
            session.write_transaction(lambda tx: create_relationship_sub_verb(tx, subj, verb))
            session.write_transaction(lambda tx: create_relationship_verb_obj(tx, verb, obj))
        return True
    except ServiceUnavailable:
        return False

### Riempiamo il database

In [5]:
#reset()

# Per ogni frase
for sent in input_document:
    triples = extract_svo(sent)
    
    # Per ogni tripla estratta -> creo le relazioni in db
    for t in triples:
        sub = extract_synset_noun(t[0],sent)
        verb = extract_synset_verb(t[1],sent)
        obj =extract_synset_noun(t[2], sent)
        save_triple(sub, verb, obj)


### Visualizzazione 

Usiamo la libreria `graphistry`, la quale sfrutta un server online per creare una visualizzazione diretta di `neo4j`

In [6]:
import graphistry
import pandas as pd
NEO4J = {
    'uri':uri,
    'database':'tln'
}
graphistry.register(bolt=GraphDatabase.driver(**NEO4J), api=3, protocol="https", server="hub.graphistry.com", token="eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VybmFtZSI6InBlcDEyMyIsImlhdCI6MTYzMDQ0ODI3MSwiZXhwIjoxNjMwNDUxODcxLCJqdGkiOiJiMDM0ZDQ0OC0zNzM5LTRkZWEtYmRiYS0zYjkzMDc0YjcwOWQiLCJ1c2VyX2lkIjo1NTg2LCJvcmlnX2lhdCI6MTYzMDQ0ODI3MX0._31L6p_l6Sa8LJIDIK-yWMqYWuMygNS0WkU4wM0ldHw") 


ValueError: Failed to refresh token: Must call login() first

In [73]:
# query soggetto - subj of - verbo
SUBJ_OF = 'MATCH (a)-[r:SUBJ_OF]->(b)  RETURN a, r, b'
# query verbo - has obj - oggetto
HAS_OBJ = 'MATCH (a)-[r:HAS_OBJ]->(b)  RETURN a, r, b'
# query all in
ALL = 'MATCH (a)-[r]->(b)  RETURN a, r, b'

g = graphistry.cypher(ALL)
g.plot()

Failed memoization speedup attempt due to Pandas internal hash function failing. Continuing without memoization speedups.
