<center>Progetto realizzato da Elena Curti (matr. 185431)

# Ricette
</center>

## Introduzione


## Requisiti
Questo progetto è stato realizzato con Python 3.11 e Neo4j. E' necessaria l'installazione dei seguenti pacchetti:

In [1]:
# %pip install py2neo neo4j-driver

## Operazioni iniziali
Per il corretto funzionamento del progetto proposto, è necessario:
- Creare un nuovo progetto Neo4j 
- Creare all'interno del progetto un DMBS (scegliendo come nome "neo4j", come password "pass" e come versione 5.2.0)
- Aggiungere il plugin APOC.
- Premere su Start.
<!-- 
Da Neo4j creare un nuovo progetto. Scegliere una tra le seguenti alternative:
- Dal progetto appena creato, aggiungere al progetto il file [neo4j.dump](data/neo4j.dump). Creare poi un nuovo DBMS dal file dump (scegliendo come nome "neo4j", come password "pass" e come versione 5.2.0). Aggiungere il plugin APOC. Premere su Start.
- Dal progetto appena creato, aggiungere un DBMS locale (scegliendo come nome, password e versione i valori indicati al punto sopra). Aggiungere il plugin APOC. Premere su Start e poi su Open. Eseguire tutti i comandi riportati nel file [import_commands.txt](data/import_commands.txt).
<br>-->
Eseguire poi le celle di codice, nell'ordine proposto 

## Connessione e autenticazione
Per effettuare la connessione al database, eseguire il seguente script:

In [1]:
from py2neo import Graph
graph = Graph("bolt://localhost:7687",  auth=("neo4j", "pass"))

print("Connessione al database eseguita correttamente!")

Connessione al database eseguita correttamente!


# Schema e dati originali
Lo use case originale è stato trovato sul sito [Recipes Neo4j](https://neo4j.com/graphgists/dd3dedcf-c377-4575-84f4-4d0d30b2a4c5/). Ha la seguente struttura iniziale:
```
    call db.schema.visualization()
```

![schema](img/db_schema2.png)

I nodi Ingredient, Author, Collection, DietType, Keyword hanno un solo campo "name" che ne rappresenta il nome. <br>
Il nodo Recipe ha le seguenti proprietà:
<ul>
    <li>id: campo che identifica univocamente la ricetta </li>
    <li>cookingTime: tempo di cottura </li>
    <li>description: descrizione della ricetta </li>
    <li>name: nome della ricetta </li>
    <li>preparationTime: tempo di preparazione </li>
    <li>skillLevel: difficoltà </li>
</ul>
Gli archi non hanno proprietà. <br><br>

Per importare i dati e aggiungere gli indici ho usato il seguente script. <br>
Lo usecase originale ha previsto i seguenti indici per migliorare la performance delle cypher query:
    <ul>
        <li><i>id</i> su Recipe</li>
        <li><i>name</i> su Ingredient</li>
        <li><i>name</i> su Keyword</li>
        <li><i>name</i> su DietType</li>
        <li><i>name</i> su Author</li>
        <li><i>name</i> su Collection</li>
    </ul>
Il comando ```CREATE INDEX IF NOT EXISTS FOR (n:Recipe) ON (n.id)``` è equivalente a ```CREATE INDEX IF NOT EXISTS ON :Recipe(id)```. Il primo, però, è compatibile con la versione 5.2.0 di Neo4j.

In [16]:
print("Inserimento dei dati in corso... ")

# Ricette
graph.run(""" 
CALL apoc.load.json('https://raw.githubusercontent.com/neo4j-examples/graphgists/master/browser-guides/data/stream_clean.json') YIELD value
WITH value.page.article.id AS id,
       value.page.title AS title,
       value.page.article.description AS description,
       value.page.recipe.cooking_time AS cookingTime,
       value.page.recipe.prep_time AS preparationTime,
       value.page.recipe.skill_level AS skillLevel
MERGE (r:Recipe {id: id})
SET r.cookingTime = cookingTime,
    r.preparationTime = preparationTime,
    r.name = title,
    r.description = description,
    r.skillLevel = skillLevel;
""")
graph.run(""" CREATE INDEX IF NOT EXISTS FOR (n:Recipe) ON (n.id);        // CREATE INDEX IF NOT EXISTS ON :Recipe(id)  """)

# Autori
graph.run("""
//import authors and connect to recipes
CALL apoc.load.json('https://raw.githubusercontent.com/neo4j-examples/graphgists/master/browser-guides/data/stream_clean.json') YIELD value
WITH value.page.article.id AS id,
       value.page.article.author AS author
MERGE (a:Author {name: author})
WITH a,id
MATCH (r:Recipe {id:id})
MERGE (a)-[:WROTE]->(r);
""")
graph.run("""CREATE INDEX IF NOT EXISTS FOR (n:Author) ON (n.name);""" )

# Ingredienti
graph.run("""//import ingredients and connect to recipes
CALL apoc.load.json('https://raw.githubusercontent.com/neo4j-examples/graphgists/master/browser-guides/data/stream_clean.json') YIELD value
WITH value.page.article.id AS id,
       value.page.recipe.ingredients AS ingredients
MATCH (r:Recipe {id:id})
FOREACH (ingredient IN ingredients |
  MERGE (i:Ingredient {name: ingredient})
  MERGE (r)-[:CONTAINS_INGREDIENT]->(i)
);""" )
graph.run("""CREATE INDEX IF NOT EXISTS FOR (n:Ingredient) ON (n.name);""" )

# DietType
graph.run("""//import dietTypes and connect to recipes
CALL apoc.load.json('https://raw.githubusercontent.com/neo4j-examples/graphgists/master/browser-guides/data/stream_clean.json') YIELD value
WITH value.page.article.id AS id,
       value.page.recipe.diet_types AS dietTypes
MATCH (r:Recipe {id:id})
FOREACH (dietType IN dietTypes |
  MERGE (d:DietType {name: dietType})
  MERGE (r)-[:DIET_TYPE]->(d)
);""" )
graph.run("""CREATE INDEX IF NOT EXISTS FOR (n:DietType) ON (n.name);""" )

# Collections
graph.run("""//import collections and connect to recipes
CALL apoc.load.json('https://raw.githubusercontent.com/neo4j-examples/graphgists/master/browser-guides/data/stream_clean.json') YIELD value
WITH value.page.article.id AS id,
       value.page.recipe.collections AS collections
MATCH (r:Recipe {id:id})
FOREACH (collection IN collections |
  MERGE (c:Collection {name: collection})
  MERGE (r)-[:COLLECTION]->(c)
);""" )
graph.run("""CREATE INDEX IF NOT EXISTS FOR (n:Collection) ON (n.name);""" )

# Keyword
cq = """//import keywords and connect to recipes
CALL apoc.load.json('https://raw.githubusercontent.com/neo4j-examples/graphgists/master/browser-guides/data/stream_clean.json') YIELD value
WITH value.page.article.id AS id,
       value.page.recipe.keywords AS keywords
MATCH (r:Recipe {id:id})
FOREACH (keyword IN keywords |
  MERGE (k:Keyword {name: keyword})
  MERGE (r)-[:KEYWORD]->(k)
);"""
# graph.run(cq)
cq = """CREATE INDEX IF NOT EXISTS FOR (n:Keyword) ON (n.name);""" 
# graph.run(cq)


print("Tutti i dati sono stati importati correttamente!")

Inserimento dei dati in corso... 
Tutti i dati sono stati importati correttamente!


## Modifiche effettuate
Per arricchire il progetto ho deciso di aggiungere dei dati presi da Kaggle e di eseguire alcune modifiche allo schema originale. 
<br>
<mark>TODOaggiunti altri campi dal file originale  <br>



In [14]:
# Definisco un'eccezione usata nel seguito
class MiaStopExecution(Exception):
    """Il raise di questa classe provoca l'interruzione dell'esecizione della cella, senza interrompere il kernel"""
    def _render_traceback_(self):
        pass

# Prima di effettuare le modifiche, copio i file necessari nella cartella "import" del DBMS, mediante il seguente script:
import os 
import shutil

DATA_FOLDER ="data"+os.path.sep
cq ="""CALL dbms.listConfig() YIELD name, value
WHERE name="server.directories.import"
RETURN value"""
dir_import = graph.run(cq).evaluate()
print("Cartella import del DMBS: " + dir_import)

for file_name in ["FoodData.csv", "gz_recipe.csv"]:#os.listdir(DATA_FOLDER):
    source = DATA_FOLDER + file_name
    destination = dir_import + os.path.sep + file_name
    shutil.copy(source, destination)

Cartella import del DMBS: D:\Elena\_Elena\Shared\Universita\Magistrale\Big_data\Anno_22_23\TO_DEL_QUANDO_ESAME_DATO\Neo4J\relate-data\dbmss\dbms-b3e0a01c-d1be-4257-8d27-97054bc0e187\import


### 1. Rimozione di Keyword
Ho deciso di rimuovere il nodo Keyword. Ho quindi evitato di eseguire le ultime due cypher query nello script precedente. Alternativamente, avrei potuto anche usare il seguente comando: 

In [56]:
graph.run("MATCH (n:Keyword) DETACH DELETE n")

### 2. Aggiunta di altre ricette
Per arricchire il dataset, ho deciso di inserire altre ricette al database. Ho quindi scaricato il file [gz_recipe.csv](data/gz_recipe.csv) da https://www.kaggle.com/datasets/edoardoscarpaci/italian-food-recipes, contenente delle ricette estratte dal sito [GialloZafferano](https://www.giallozafferano.it/). <br>
Il file scaricato contiene i seguenti campi:
- id: id che identifica univocamente la ricetta (intero da 0 a 5938).
- Nome: nome del piatto
- Categoria: categoria della ricetta (Primi, Secondi, ...)
- Link: link della ricetta
- Persone/Pezzi: numero di persone o pezzi della ricetta
- Ingredienti: lista di ingredienti e relative quantità. Ad esempio: [['Mascarpone', '750g'], ['Uova', '260g']]
- Steps: contenuto della ricetta

Per i inserire questi dati ho deciso di:
- Aggiungere a Recipe le proprietà 
    - "fonte" che avrà il valore "GialloZafferano" o "BBC GoodFood"
    - "persone_pezzi" per indicare il numero di persone o pezzi
- Aggiungere a CONTAINS_INGREDIENTS una proprietà "quantita", contenente la quantità di un ingrediente in una ricetta

Come precedentemente spiegato, il campo id di Recipe è univoco nelle ricette già inserite. Aggiungendo i dati da un altra sorgente, si potrebbero avere dei record con lo stesso id. Prima di inserire le nuove ricette, quindi, controllo che gli id delle nuove ricette siano tutti diversi da quelli delle ricette già inserite. In questo caso, per fortuna, non ci sono conflitti sugli id e si può procedere con gli inserimenti. 

In [15]:
# Aggiungo le ricette di GialloZafferano. 

# Controllo che non ci siano già ricette con gli id
cq="""
LOAD CSV WITH HEADERS FROM 'file:///gz_recipe.csv' AS value
MATCH (r:Recipe {id:value["id"]})
WHERE r.fonte IS NULL OR r.fonte<>"GialloZafferano"
return count(r)
"""
if graph.run(cq).evaluate() != 0:
    print("Le ricette di BBC e quelle di GialloZafferano hanno degli id in comune!")
    raise(MiaStopExecution)

# Inserisco le ricette
cq="""
LOAD CSV WITH HEADERS FROM 'file:///gz_recipe.csv' AS value
MERGE (r:Recipe {id: value["id"]})
SET r.name = value["Nome"],
    r.description = value["Steps"],
    r.persone_pezzi = value["Persone/Pezzi"],
    r.fonte = "GialloZafferano"
"""
graph.run(cq)

cq="""MATCH (r:Recipe) WHERE r.fonte IS NULL SET r.fonte="BBC GoodFood" """
graph.run(cq)

# Inserisco gli ingredienti
cq="""
LOAD CSV WITH HEADERS FROM 'file:///gz_recipe.csv' AS value
WITH value["id"] AS id, replace(value["Ingredienti"], '"', "") AS ris1
WITH id, replace(ris1, "[[", "") AS ris2
WITH id,replace(ris2, "]]", "") AS ris3
WITH id,split(ris3, "], [") AS ingrs_list
MATCH (r:Recipe {id:id})
WHERE ingrs_list[0]<>"[]"   // Alcune ricette non hanno ingredienti nè descrizione (es. Churros red velvet), quindi le rimuovo
FOREACH (ingr_quantita_string IN ingrs_list |
    MERGE (i:Ingredient {name: split(ingr_quantita_string, ", ")[0]})
    MERGE (r)-[:CONTAINS_INGREDIENT {quantita: split(ingr_quantita_string, ", ")[1]}]->(i)
)
""" 
graph.run(cq)


# Creo le categorie 
cq="""
LOAD CSV WITH HEADERS FROM 'file:///gz_recipe.csv' AS value
MATCH (r:Recipe {id:value["id"]})
WHERE value["Categoria"] IS NOT NULL
MERGE (c:Collection {name: value["Categoria"]})
MERGE (r)-[:COLLECTION]->(c)
"""
graph.run(cq)



### 3. Inserimento degli allergeni
Ho aggiunto un campo "is_allergene" al nodo Ingredient. Ho inizialmente scaricato da https://www.kaggle.com/datasets/boltcutters/food-allergens-and-allergies un file ([FoodData.csv](data/FoodData.csv)) con l'elenco degli allergeni. Ho quindi impostato gli ingredienti del database contenuti nel file con is_allergene=True. Ho invece settato is_allergene=False per i restanti ingredienti. 

In [4]:
# Setto gli allergeni
cq="""LOAD CSV WITH HEADERS FROM 'file:///FoodData.csv' AS value
MATCH (i:Ingredient)
WHERE toLower(i.name) CONTAINS toLower(value["Food"]) 
SET i.is_allergene=True;"""
graph.run(cq)

# Setto i restanti ingredienti come non allergeni
cq="""
MATCH (i:Ingredient)
WHERE i.is_allergene IS NULL
SET i.is_allergene=False; """
graph.run(cq)


### 4. Nuovo indice
Per velocizzare in futuro la ricerca dei nomi delle ricette, ho deciso di inserire un nuovo indice sulla proprietà name di Recipe.

In [17]:
graph.run(" CREATE INDEX IF NOT EXISTS FOR (n:Recipe) ON (n.name);")

### Schema finale
Dopo le modifiche, lo schema finale è il seguente:

![schema](img/db_schema_finale.png)

In [79]:
def print_full_table(query):
    # Stampo l'intestazione
    intestazione=graph.run(query).keys()
    [print(f"{i:25}", end="") for i in intestazione]
    print()
    [print("-", end="") for _ in range(25) for _ in range(len(intestazione))]
    print()

    # Stampo i dati
    data = graph.run(query).data()
    for d in data: 
        for k,v in d.items():
            print(f"{str(v):25}", end="")
        print()

print_full_table("CALL db.schema.nodeTypeProperties")

nodeType                 nodeLabels               propertyName             propertyTypes            mandatory                
-----------------------------------------------------------------------------------------------------------------------------
:`Author`                ['Author']               name                     ['String']               True                     
:`Ingredient`            ['Ingredient']           name                     ['String']               True                     
:`DietType`              ['DietType']             name                     ['String']               True                     
:`Collection`            ['Collection']           name                     ['String']               True                     
:`Recipe`                ['Recipe']               id                       ['String']               True                     
:`Recipe`                ['Recipe']               cookingTime              ['Long']                 False             

In [80]:
print_full_table("CALL db.schema.relTypeProperties")

relType                  propertyName             propertyTypes            mandatory                
----------------------------------------------------------------------------------------------------
:`WROTE`                 None                     None                     False                    
:`CONTAINS_INGREDIENT`   quantita                 ['String']               False                    
:`DIET_TYPE`             None                     None                     False                    
:`COLLECTION`            None                     None                     False                    


## Interrogazioni

## Inserimenti


## Modifiche

## Cancellazioni
