# Notebook 6: **DATA INTEGRATION**

Dopo le fasi di Data Cleaning e Assessment della Data Quality si passa alla fase di Data Integration. Si ricorda che per la prima fonte dati (API) si ha un database documentale in formato json contenente dati riguardanti 13765 film, mentre per la seconda fonte dati (scraping) si ha un database relazionale in formato csv contenente 6525 recensioni. Si integrano i due database in un nuovo database documentale in formato json che verrà immagazzinato su MongoDB


In [None]:
import json

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
path = "/content/drive/MyDrive/Progetto Data Management/MongoDB/mongodb_db/DBFINALE_SISTEMATO.json"

In [None]:
with open(path) as f: 
    db_finale_sistemato = json.load(f)   # IMDB dataset

In [None]:
import pandas as pd
reviews_finale = pd.read_csv("/content/drive/MyDrive/Progetto Data Management/SCRAPING/reviews.csv", encoding = 'utf-8')   # reviews dataset

Si crea una lista contenente i titoli della colonna 'Title' del dataset 'reviews_finale'

In [None]:
lista = reviews_finale['Title'].tolist()   

In [None]:
len(lista)

6525

In [None]:
reviews_finale_index = reviews_finale.set_index('Title')   # creo un nuovo dataset dove la colonna 'Title' diventa l'indice

Per fare l'integrazione si cerca il **match tra i titoli** nei documenti e i titoli presenti nella lista creata. <br>
Se ciò avviene si aggiunge la chiave '*recensione*' ai documenti con la relativa recensione.

In [None]:
cont=0
for documento in db_finale_sistemato:
  if documento['title'] in lista:
    cont+=1
    documento['recensione'] = reviews_finale_index.loc[documento['title']].Review
print("Il numero di documenti integrati è " + str(cont))

Il numero di documenti integrati è 232


In [None]:
db_finale_sistemato[63]  # esempio di un documento integrato

{'actorList': [{'asCharacter': 'Agent Ann Kuharik', 'name': 'Ruth Martin'},
  {'asCharacter': 'Lauren Stevens', 'name': 'Erin Waterhouse'},
  {'asCharacter': 'Professor Mehmet', 'name': 'Mickey Breitenstein'},
  {'asCharacter': 'Kendal Lawrence', 'name': 'Nicole Haddad'},
  {'asCharacter': 'Maria Rosetti', 'name': 'Lezlie Dana'},
  {'asCharacter': 'Detective Emerson', 'name': 'Michael F. Hayes'},
  {'asCharacter': 'Jeanette Ballard', 'name': 'Mary Darcy'},
  {'asCharacter': 'Chauffeur', 'name': 'Sheraz Bhatti'},
  {'asCharacter': 'Emam Abdul', 'name': 'Zeshan Bhatti'},
  {'asCharacter': 'French Hospital Announcer', 'name': 'Stephane Boileau'},
  {'asCharacter': 'Police Officer', 'name': 'Anthony Bucci'},
  {'asCharacter': 'Agent Lori McCord', 'name': 'Kathleen Carey'},
  {'asCharacter': 'Grad Student', 'name': 'Nelson Curtis'},
  {'asCharacter': 'Homeland Security Officer', 'name': 'Joe Delorenzo'},
  {'asCharacter': 'Rookie Cop', 'name': 'Scott Delorenzo'},
  {'asCharacter': 'Ekfram M

In [None]:
# salvo il dataset integrato da usare per l'exploration
with open("/content/drive/MyDrive/Progetto Data Management/MongoDB/mongodb_db/DB_INTEGRATO.json", "w") as final:
    json.dump(db_finale_sistemato, final)