# Valutazione della Qualità: **Completezza** e **Consistenza**

Dopo la fase di Data Cleaning e prima di procedere alla fase di Data Integration, si decide di eseguire la fase di Data Quality. Nel primo caso si valuta la dimensione di qualità della completezza relativa ai **dati mancanti**. <br>
Come seconda dimensione di qualità si decide di valutare la consistenza.  


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import json
path = "/content/drive/MyDrive/Progetto Data Management/MongoDB/mongodb_db/DBFINALE_SISTEMATO.json"

In [None]:
with open(path) as f: 
    db_finale_sistemato = json.load(f)

## 1. **Completezza**

Nella valutazione della completezza si vuole verificare la presenza di dati mancanti. Questa fase di assessment è importante perchè in sviluppi futuri si può valutare di rendere il dataset più completo andando a trovare le informazioni che al momento sono mancanti.

In [None]:
len(db_finale_sistemato)  # dopo la parte di data cleaning abbiamo sempre 13762 documenti in totale

13762

In [None]:
# Dati mancanti per chiave

lista_chiavi = ['title', 'plot', 'year', 'releaseDate', 'runtimeMins', 'awards', 'directors', 'writers', 'fullcast', 'ratings', 'actorList', 'genres', 'companies', 
                'countries', 'languages', 'contentRating', 'imDbRating', 'metacriticRating', 'boxOffice', 'keywordList', 'similars']
cont=0
for chiave in lista_chiavi:  
  for documento in db_finale_sistemato:
    if chiave in documento.keys():
      cont+=1
  print("La chiave '" + chiave + "' è mancante nel " + str(round(float(((13762-cont)/13762)*100),2)) + "% dei documenti")
  cont=0

# calcolo per ogni chiave la percentuale di dati mancanti, cioè quante volte la chiave non compare nei documenti del dataset
# Si osserva che per ratings e fullcast abbiamo il 100% di dati mancanti, perciò in totale i documenti possono contenere 19 chiavi anzichè 21

La chiave 'title' è mancante nel 0.0% dei documenti
La chiave 'plot' è mancante nel 32.39% dei documenti
La chiave 'year' è mancante nel 0.0% dei documenti
La chiave 'releaseDate' è mancante nel 18.35% dei documenti
La chiave 'runtimeMins' è mancante nel 42.73% dei documenti
La chiave 'awards' è mancante nel 95.44% dei documenti
La chiave 'directors' è mancante nel 7.43% dei documenti
La chiave 'writers' è mancante nel 20.02% dei documenti
La chiave 'fullcast' è mancante nel 100.0% dei documenti
La chiave 'ratings' è mancante nel 100.0% dei documenti
La chiave 'actorList' è mancante nel 11.34% dei documenti
La chiave 'genres' è mancante nel 6.24% dei documenti
La chiave 'companies' è mancante nel 39.66% dei documenti
La chiave 'countries' è mancante nel 0.27% dei documenti
La chiave 'languages' è mancante nel 3.34% dei documenti
La chiave 'contentRating' è mancante nel 97.3% dei documenti
La chiave 'imDbRating' è mancante nel 83.89% dei documenti
La chiave 'metacriticRating' è mancante

In [None]:
# Dati mancanti per documento

cont=0
for i in range(3, 17):
  for documento in db_finale_sistemato:
    if len(documento) == i:
      cont+=1
  print("Il " + str(round(float((cont/13762)*100),1)) + "% dei documenti contiene " + str(i) + " chiavi su 19")
  cont=0
  
# calcolo per ogni documento quante chiavi sono presenti e quante ne mancano 
# in output si mostra la distribuzione delle chiavi nei documenti

Il 0.2% dei documenti contiene 3 chiavi su 19
Il 0.1% dei documenti contiene 4 chiavi su 19
Il 0.2% dei documenti contiene 5 chiavi su 19
Il 1.1% dei documenti contiene 6 chiavi su 19
Il 2.5% dei documenti contiene 7 chiavi su 19
Il 5.3% dei documenti contiene 8 chiavi su 19
Il 8.6% dei documenti contiene 9 chiavi su 19
Il 15.9% dei documenti contiene 10 chiavi su 19
Il 18.9% dei documenti contiene 11 chiavi su 19
Il 18.4% dei documenti contiene 12 chiavi su 19
Il 14.1% dei documenti contiene 13 chiavi su 19
Il 9.7% dei documenti contiene 14 chiavi su 19
Il 4.1% dei documenti contiene 15 chiavi su 19
Il 0.8% dei documenti contiene 16 chiavi su 19


## 2. **Consistenza**

Nella valutazione della consistenza si vuole valutare se diversi attributi presentano valori consistenti. Si sono fatte diverse prove che si presentano nella sezione sottostante.

### 1. Film prodotti con Budget minore 10000 dollari

In questa sezione si vuole vedere quanti e quali film hanno un budget molto basso e minore di 10000 dollari. Un budget così basso potrebbe destare qualche sospetto sul film e la sua natura. 

In [None]:
lista_FilmLowBudget = []
for documento in db_finale_sistemato:
   if 'boxOffice' in documento.keys():
     doc_boxOffice = documento['boxOffice']
     if 'budget($)' in doc_boxOffice.keys():
       budget = documento['boxOffice']['budget($)']
       if budget < 10000:
         lista_FilmLowBudget.append(documento)
     

In [None]:
len(lista_FilmLowBudget)

2868

In [None]:
print('Il totale dei film prodotti con un budget inferiore ai 10000 dollari sono: ' + str(len(lista_FilmLowBudget)))

Il totale dei film prodotti con un budget inferiore ai 10000 dollari sono: 2868


In [None]:
lista_FilmLowBudget[0]

{'actorList': [{'asCharacter': 'Claire', 'name': 'Morgane Bussiere'},
  {'asCharacter': 'Jim', 'name': 'Phillipe Dupraz'},
  {'asCharacter': 'Anne-Sophie', 'name': 'Audrey Epeche'},
  {'asCharacter': 'American Tourist', 'name': 'Melanie Green'},
  {'asCharacter': "American Tourist's Husband", 'name': 'Jeff McGary'},
  {'asCharacter': 'Claude', 'name': 'Francis Ressort'},
  {'asCharacter': 'Une Pasante', 'name': 'Melina Sabeur'},
  {'asCharacter': 'Valerie', 'name': 'Sabhrina Sabeur'}],
 'boxOffice': {'budget($)': 1500},
 'companies': ['Food Stamp Films'],
 'countries': ['USA', ' France'],
 'directors': ['Jeff McGary'],
 'genres': ['Comedy', ' Drama', ' Romance'],
 'languages': ['English'],
 'plot': 'An American leaves his wife and child and flies to Paris where he falls for a neurotic tour guide.',
 'runtimeMins': 93,
 'title': 'Postcard Days',
 'writers': ['Jeff McGary'],
 'year': 2010}

In [None]:
lista_FilmLowBudget[1000]

{'actorList': [{'asCharacter': 'the Didge Maestro', 'name': 'Alejandro'},
  {'asCharacter': '00 Russo Roulette', 'name': 'Russel Chartrand'},
  {'asCharacter': 'Wesley Pentz', 'name': 'Diplo'},
  {'asCharacter': 'Air', 'name': 'Arrielle Goldschlager'},
  {'asCharacter': 'Ruby', 'name': 'Sara Grievé'},
  {'name': 'Jamie Janover'},
  {'name': 'Paul Oakenfold'},
  {'asCharacter': 'Mercury darwin', 'name': 'Joseph G. Quinn'},
  {'asCharacter': 'Volaire Abrcita', 'name': 'Tosca Rivola'},
  {'asCharacter': 'Woolf man', 'name': 'Andrew Tunks'}],
 'boxOffice': {'budget($)': 666},
 'companies': ['Feel Good FIlms', ' Good Feel Films', ' Reel Intellect'],
 'countries': ['USA'],
 'directors': ['Joseph G. Quinn'],
 'genres': ['Western'],
 'languages': ['English'],
 'releaseDate': '2014-04-01',
 'title': 'Burning Man: Bable',
 'year': 2014}

### 2. Cosistenza sugli attributi di boxOffice: 

'openingWeekendUSA' < 'grossUSA' < 'cumulativeWorldwideGross'

In questa sezione della consistenza si vuole verificare che i valori degli attributi: 

* openingWeekendUSA
* grossUSA
* cumulativeWorldwideGross

Siano coerenti con il loro significato.

Ciò significa che devono essere rispettate queste disuglianze:  openingWeekendUSA < grossUSA < cumulativeWorldwideGross.

Dal momento che non tutti i film presentano valore non mancante per gli attributi precedentemente citati, si verifica la consistenza anche a coppie di attributi.

#### Caso 1: Film che hanno 'cumulativeWorldwideGross' e 'grossUSA' 

I dati sono inconsistenti se hanno *GrossUSA* > *cumulativeWorldwideGross*

In [None]:
lista_noconsistency_GrossUSA_cumWWG = []

for documento in db_finale_sistemato:
   if 'boxOffice' in documento.keys():
     doc_boxOffice = documento['boxOffice']
     if ('cumulativeWorldwideGross($)' in doc_boxOffice.keys()) and ('grossUSA($)' in doc_boxOffice.keys()):
       cumWWG = documento['boxOffice']['cumulativeWorldwideGross($)']
       grossUSA = documento['boxOffice']['grossUSA($)']
       if grossUSA > cumWWG: 
         lista_noconsistency_GrossUSA_cumWWG.append(documento)

In [None]:
print('I film che hanno un guadagno totale negli USA maggiore del guadagno in tutto il mondo sono: ' + str(len(lista_noconsistency_GrossUSA_cumWWG)))

I film che hanno un guadagno totale negli USA maggiore del guadagno in tutto il mondo sono: 0


#### Caso 2: Film che hanno 'openingWeekendUSA' e 'grossUSA' 

I dati sono inconsistenti se hanno *openingWeekendUSA* > *grossUSA*

In [None]:
lista_noconsistency_owUSA_GrossUSA = []

for documento in db_finale_sistemato:
   if 'boxOffice' in documento.keys():
     doc_boxOffice = documento['boxOffice']
     if ('grossUSA($)' in doc_boxOffice.keys()) and ('openingWeekendUSA($)' in doc_boxOffice.keys()):
       owUSA = documento['boxOffice']['openingWeekendUSA($)']
       grossUSA = documento['boxOffice']['grossUSA($)']
       if owUSA > grossUSA: 
         lista_noconsistency_owUSA_GrossUSA.append(documento)

In [None]:
print('I film che hanno un guadagno totale ottenuto nel weekend di apertura in USA maggiore del guadagno totale in USA sono: ' + str(len(lista_noconsistency_owUSA_GrossUSA)))

I film che hanno un guadagno totale ottenuto nel weekend di apertura in USA maggiore del guadagno totale in USA sono: 0


#### Caso 3: Film che hanno 'openingWeekendUSA' e 'cumulativeWorldwideGross' 

I dati sono inconsistenti se hanno *openingWeekendUSA* > *cumulativeWorldwideGross*

In [None]:
lista_noconsistency_owUSA_cumWWG = []

for documento in db_finale_sistemato:
   if 'boxOffice' in documento.keys():
     doc_boxOffice = documento['boxOffice']
     if ('cumulativeWorldwideGross($)' in doc_boxOffice.keys()) and ('openingWeekendUSA($)' in doc_boxOffice.keys()):
       owUSA = documento['boxOffice']['openingWeekendUSA($)']
       cumWWG = documento['boxOffice']['cumulativeWorldwideGross($)']
       if owUSA > cumWWG: 
         lista_noconsistency_owUSA_cumWWG.append(documento)

In [None]:
print('I film che hanno un guadagno totale ottenuto nel weekend di apertura in USA maggiore del guadagno totale in tutto il mondo sono: ' + str(len(lista_noconsistency_owUSA_cumWWG)))

I film che hanno un guadagno totale ottenuto nel weekend di apertura in USA maggiore del guadagno totale in tutto il mondo sono: 0


Dalle verifiche fatte si deduce che non c'è nessun film che ha 'openingWeekendUSA' > 'grossUSA' > 'cumulativeWorldwideGross'

### 3: Consistenza sugli attributi 'year' e 'releaseDate'

In questa sezione si vuole verificare che l'attributo 'year' relativo all'anno di uscita del film sia uguale all'anno presente nell'attributo 'releaseDate' relativo alla data di rilascio del film. 

In [None]:
lista_noconsistency_year_ReleaseDate = []

for documento in db_finale_sistemato:
   if ('year' in documento.keys()) and ('releaseDate' in documento.keys()):
     releaseDate = documento['releaseDate']
     anno_release = int(releaseDate[0:4])
     anno = int(documento['year'])
     if anno_release != anno:
       lista_noconsistency_year_ReleaseDate.append(documento)
     

In [None]:
print('I film che hanno attributo year diverso dall anno dell attributo data di rilascio sono: ' + str(len(lista_noconsistency_year_ReleaseDate)))

I film che hanno attributo year diverso dall anno dell attributo data di rilascio sono: 109


In [None]:
lista_noconsistency_year_ReleaseDate[0]

{'actorList': [{'asCharacter': 'Charlotte', 'name': 'Sabina Kurz'},
  {'asCharacter': 'Henry', 'name': 'Aylam Orian'}],
 'boxOffice': {'budget($)': 4000},
 'companies': ['Anibas Films', ' Bravo', ' Flike!'],
 'countries': ['USA'],
 'directors': ['Sabina Kurz'],
 'genres': ['Drama'],
 'languages': ['English'],
 'plot': 'The gradual awakening of a married woman and her life of unfulfilled dreams. As she succumbs to the lure of passion with a caretaker of a vacated house, she is confronted with the vulnerability of her existence.',
 'releaseDate': '2011-11-17',
 'runtimeMins': 70,
 'title': 'Encounters',
 'writers': ['Sabina Kurz'],
 'year': 2010}

In [None]:
lista_noconsistency_year_ReleaseDate[1]

{'actorList': [{'asCharacter': 'Robin', 'name': 'Peter Lewis'},
  {'asCharacter': 'Redford', 'name': 'Kevin Scott Martin'},
  {'asCharacter': 'Ronald', 'name': 'Montetré'}],
 'companies': ["A Men We'll Break 3"],
 'countries': ['USA'],
 'directors': ['Montetré'],
 'genres': ['Comedy'],
 'languages': ['English'],
 'plot': 'The short tales of three, misfit knights banished to the haunted woods.',
 'releaseDate': '2013-06-12',
 'runtimeMins': 71,
 'title': "K'Nights: The Trees Move",
 'writers': ['Montetré'],
 'year': 2011}

### 4. Consistenza attributo 'releaseDate'

In questa sezione verifichiamo la consistenza dell'attributo 'releaseDate' relativo alla data di rilascio del film. La data è codificata nel seguente formato: YYYY-MM-DD. Per quanto riguarda la consistenza, si vuole verificare che *year* sia compreso tra 2010 e 2021 (perchè i dati sono stati scaricati in questo arco temporale), che *month* sia compreso da 01 e 12 e che *day* sia compreso tra 1 e 31. 

In [None]:
lista_noconsistency_ReleaseDate = []

for documento in db_finale_sistemato:
   if 'releaseDate' in documento.keys():
     releaseDate = documento['releaseDate']
     year = int(releaseDate[0:4])
     month = int(releaseDate[5:7])
     day =  int(releaseDate[8:10])
     if (year < 2010) or (year > 2021) or (month < 1) or (month > 12) or (day < 1) or (day > 31):
       lista_noconsistency_ReleaseDate.append(documento)

In [None]:
print('I documenti che presentano un inconsistenza relativa alla data di rilascio sono: ' + str(len(lista_noconsistency_ReleaseDate)))

I documenti che presentano un inconsistenza relativa alla data di rilascio sono: 2


In [None]:
for film in lista_noconsistency_ReleaseDate:
  releaseDate = film['releaseDate']
  print(releaseDate)

2022-01-01
2022-01-01


Questi due film prensentano un'inconsistenza nell'attributo 'releaseDate' perchè sono stati rilasciati nell'anno 2022. Questo in teoria non dovrebbe accadere perchè sono stati scaricati film fino al 31-12-2021.

### 5. Consistenza punteggio attributo imDbRating

In questa sezione si vuole verificare che l'attributo 'imDbRating' relativo al punteggio dato al film da IMDB. Ci aspettiamo che il punteggio sia compreso tra 0 e 10. 

In [None]:
lista_noconsistency_imDbRating = []

for documento in db_finale_sistemato:
  if 'imDbRating' in documento.keys():
    if (documento['imDbRating']) < 0 or (documento['imDbRating']) > 10:
      lista_noconsistency_imDbRating.append(documento)

In [None]:
print('I film che hanno punteggio dato da IMDB non compreso tra 0 e 10 sono: ' + str(len(lista_noconsistency_imDbRating)))

I film che hanno punteggio dato da IMDB non compreso tra 0 e 10 sono: 0


### 6. Consistenza punteggio imDbRating attributo Similars

In questa sezione si vuole verificare che il punteggio di similarità tra due film sia compreso tra 0 e 10. 

In [None]:
lista_noconsistency_imDbRating_similars = []

for documento in db_finale_sistemato:
  if 'similars' in documento.keys():
    for diz in documento['similars']:
      if 'imDbRating' in diz.keys():
        if diz['imDbRating'] < 0 or diz['imDbRating'] > 10:
          lista_noconsistency_imDbRating_similars.append(documento)

In [None]:
print('I film che hanno punteggio punteggio di similarità tra due film non compreso tra 0 e 10 sono: ' + str(len(lista_noconsistency_imDbRating_similars)))

I film che hanno punteggio punteggio di similarità tra due film non compreso tra 0 e 10 sono: 0


### 7. Film che hanno una durata minore di 40 minuti

In questa sezione si vuole vedere quanti e quali film hanno una durata minore di 40 minuti. Una durata così bassa potrebbe destare qualche sospetto sul film e la sua natura. 

In [None]:
lista_Film_poca_durata = []

for documento in db_finale_sistemato:
   if 'runtimeMins' in documento.keys():
     runtimeMins = documento['runtimeMins']
     if runtimeMins < 40:
       lista_Film_poca_durata.append(documento)

In [None]:
print('Il numero di film che ha una durata minore ai 40 minuti è: ' + str(len(lista_Film_poca_durata)))

Il numero di film che ha una durata minore ai 40 minuti è: 49


In [None]:
lista_Film_poca_durata[0]

{'actorList': [{'asCharacter': 'Simon', 'name': 'S. Peace Nistades'}],
 'countries': ['USA'],
 'directors': ['Guy Longstreet'],
 'genres': ['Drama'],
 'keywordList': ['life'],
 'languages': ['English'],
 'plot': 'A meditation on death and the alienation experienced in grief. Hollow follows Simon as he takes a dreamy walk. Exploring themes of denial, anger, and ultimately, surrender.',
 'runtimeMins': 28,
 'similars': [{'title': 'The Cup'},
  {'imDbRating': 6.5, 'title': 'Black Jade'}],
 'title': 'Hollow',
 'writers': ['Guy Longstreet'],
 'year': 2017}

In [None]:
lista_Film_poca_durata[30]

{'actorList': [{'asCharacter': 'Matt', 'name': 'Matthew Jehle'}],
 'companies': ['ADARA Entertainment'],
 'countries': ['USA'],
 'genres': ['Comedy'],
 'keywordList': ['tv mini series'],
 'languages': ['English'],
 'plot': "Many men dribble urine shortly after they have finished using the toilet and the bladder feels empty. Even waiting a moment and shaking the penis before zipping up won't stop it. The medical term for this is post-micturition dribb...",
 'releaseDate': '2021-03-03',
 'runtimeMins': 3,
 'title': 'Drip',
 'year': 2021}