# Esercizio 2

Accedere a https://www.kaggle.com/rounakbanik/the-movies-dataset#movies_metadata.csv e scaricare il dataset `movies_metadata.csv.zip`. Tale dataset è in formato csv e contiene le informazioni sui film in *record* di 24 campi.

Considerando solo i primi 1000 record, si richiede di:
- elencare i 10 paesi che hanno prodotto più film, ordinandoli per numero decrescente di film prodotti. Di ciascun paese specificare il numero di film prodotti
- fornire per ognuno dei generi cinematografici presenti:
    - la classifica degli n (parametro) film più popolari ordinandoli per popolarità decrescente e specificando per ognuno di essi titolo originale e tagline
    - l'insieme delle lingue originali che sono coinvolte nella classifica precedente

***

I campi del file csv che occorrono per risolvere l'esercizio sono:

- `genres`: stringa che rappresenta il letterale di una lista di dizionari con due chiavi (`id` e `name`) che forniscono ciascuno un genere

        [{'id': 16, 'name': 'Animation'}, {'id': 35, 'name': 'Comedy'}, {'id': 10751, 'name': 'Family'}]

- `original_title` (stringa)
- `popularity` (decimale)
- `id` (ID)
- `tagline` (stringa)
- `original_language` (stringa a due caratteri)
- `production_countries`: stringa che rappresenta il letterale di una lista di dizionari con due chiavi (`iso_3166_1` e `name`) che forniscono ciascuno un paese di origine

        [{'iso_3166_1': 'DE', 'name': 'Germany'}, {'iso_3166_1': 'US', 'name': 'United States of America'}]

***

Requisiti generali:

- si richiede la definizione di una funzione `get_items()` che prenda in input uno qualsiasi tra i due campi `genres`e `production_countries` ed estragga la lista dei generi nel caso di `genres` (ad esempio `['Animation', 'Comedy', 'Family']` nel caso dell'esempio precedente)  e la lista dei paesi di produzione nel caso di `production_countries` (ad esempio `['Germany', 'United States of America']` nel caso dell'esempio precedente).

Produrre l'output richiesto nelle seguenti variabili:

- `country_rank_list`: lista di 10 tuple di tipo *(nome di paese, numero di film prodotti)* contenente i primi 10 paesi che hanno prodotto più film (ordinati per numero decrescente di film prodotti)
- `pop_rank_dict`: dizionario delle classifiche per genere dei primi n film ordinati per popolarità decrescente:
    - *chiave*: genere di un film
    - *valore*: lista contenente n liste di tipo *[titolo originale, tagline]* con i primi n film ordinati per popolarità decrescente
- `language_set_dict`: dizionario degli insiemi delle lingue coinvolte in ciascuna delle classifiche presenti in `pop_rank_dict`:
    - *chiave*: genere di un film
    - *valore*: insieme delle lingue


**NOTA BENE**: scartare i record del dataset che hanno un valore del campo `popularity` che non è un decimale oppure non hanno proprio un valore.

***

## Soluzione

### Parametri in input

In [1]:
input_file_name = './movies_metadata.csv.zip'
n = 15

Importazione dei moduli `pandas`, `ast` e `numpy`.

### Definizione della funzione `get_items()`

La funzione `get_items()` estrae la lista dei generi/paesi dai campi `genres`/`production_countries` del dataset.

### Lettura del dataset nel *dataframe* `movies_df`

Leggere il dataset e tenere solo le prime 1000 righe.

Visualizzare le prime righe del *dataframe* con il metodo `head()`.

### Costruzione delle strutture dati di base

- `info_dict`: dizionario delle informazioni sui film:
    - *chiave*: identificativo dei film (campo `id` del dataset)
    - *valore*: tupla *(titolo originale, tagline, lingua originale)*
- `country_list`: lista dei paesi che hanno prodotto un film (ciascun paese deve essere presente nella lista esattamente il numero di volte in cui ha prodotto un film).
- `pop_dict`: dizionario delle popolarità:
    - *chiave*: genere cinematografico
    - *valore*: lista dei film associati al genere (ognuno dei film è presente come lista annidata *[popolarità, identificativo del film]*)

Inizializzare le strutture vuote di base.

Attraversare i *record* del dataframe `movies_df` per riempire `info_dict`, `country_list`, e `pop_dict`.

**NOTA BENE**: per ogni record effettuare il controllo del valore del campo `popularity` che deve essere un numero decimale (altrimenti il record non è da considerare).

In [8]:
info_dict

{'862': ('Toy Story', nan, 'en'),
 '8844': ('Jumanji', 'Roll the dice and unleash the excitement!', 'en'),
 '15602': ('Grumpier Old Men',
  'Still Yelling. Still Fighting. Still Ready for Love.',
  'en'),
 '31357': ('Waiting to Exhale',
  'Friends are the people who let you be yourself... and never let you forget it.',
  'en'),
 '11862': ('Father of the Bride Part II',
  "Just When His World Is Back To Normal... He's In For The Surprise Of His Life!",
  'en'),
 '949': ('Heat', 'A Los Angeles Crime Saga', 'en'),
 '11860': ('Sabrina',
  'You are cordially invited to the most surprising merger of the year.',
  'en'),
 '45325': ('Tom and Huck', 'The Original Bad Boys.', 'en'),
 '9091': ('Sudden Death', 'Terror goes into overtime.', 'en'),
 '710': ('GoldenEye', 'No limits. No fears. No substitutes.', 'en'),
 '9087': ('The American President',
  "Why can't the most powerful man in the world have the one thing he wants most?",
  'en'),
 '12110': ('Dracula: Dead and Loving It', nan, 'en'),
 '2

In [9]:
country_list

['United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'Germany',
 'United States of America',
 'United States of America',
 'United States of America',
 'United Kingdom',
 'United States of America',
 'United States of America',
 'France',
 'United States of America',
 'United States of America',
 'United States of America',
 'France',
 'Germany',
 'Italy',
 'United States of America',
 'France',
 'United States of America',
 'United Kingdom',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'France',
 'United States of America',
 'United States of America',
 'United States of America',
 'Italy',
 'United States of America',
 'United Kingdom',
 'France',
 'France',
 'Germany',
 'Spain',
 'China',
 'France',
 'United States of America',
 'Unite

In [10]:
pop_dict

{'Animation': [[21.946943, '862'],
  [12.140733, '21032'],
  [13.280069000000001, '10530'],
  [10.177977, '15789'],
  [0.090452, '43475'],
  [8.910461999999999, '22586'],
  [21.605760999999998, '8587'],
  [0.381704, '18242'],
  [17.730913, '9479'],
  [7.436000999999999, '15139'],
  [16.357419, '812'],
  [16.263878, '408'],
  [23.433511, '10020'],
  [14.202283999999999, '10895'],
  [7.640072999999999, '11827'],
  [9.834047, '10112'],
  [5.028897, '19042'],
  [13.217623000000001, '10539'],
  [11.054250999999999, '2300'],
  [10.813578999999999, '12233'],
  [0.543042, '40651'],
  [10.686166, '9323'],
  [6.796858, '532'],
  [13.553999, '10545'],
  [7.523528, '18975'],
  [6.3724419999999995, '19004'],
  [14.436857999999999, '11224'],
  [1.054814, '81310'],
  [8.702472, '15947'],
  [10.636458, '9078'],
  [0.901443, '29682']],
 'Comedy': [[21.946943, '862'],
  [11.7129, '15602'],
  [3.859495, '31357'],
  [8.387519000000001, '11862'],
  [6.677277, '11860'],
  [6.318445, '9087'],
  [5.430331, '1

### Estrazione dei 10 paesi che hanno prodotto più film

Costruire la lista `country_rank_list` dei primi 10 paesi che hanno prodotto più film, ordinandoli per numero decrescente di film.
Ogni paese deve essere presente come tupla *(nome del paese, numero di film prodotti)*.

In [12]:
country_rank_list

[('United States of America', 742),
 ('United Kingdom', 102),
 ('France', 96),
 ('Germany', 45),
 ('Canada', 30),
 ('Italy', 29),
 ('Japan', 21),
 ('Australia', 12),
 ('Hong Kong', 12),
 ('Ireland', 11)]

### Estrazione per ogni genere degli n film più popolari ordinandoli per popolarità descrescente, ed estrazione delle lingue coinvolte per ciascuno dei generi

Estrarre dal dizionario `pop_dict` il dizionario `pop_rank_dict_temp` con la stessa struttura:
- *chiave*: genere cinematografico
- *valore*: lista dei film associati al genere (ogni film presente come lista annidata *[popolarità, identificativo]*)

con la differenza che il *valore* relativo a una chiave genere è la lista degli n film più popolari ordinati per popolarità decrescente.

**NOYA BENE**: i valori di `pop_rank_dict_temp` sono le liste di `pop_dict` ordinate per popolarità decrescente e troncate ai primi n elementi.

Costruire prima la lista `key_tuple_list` delle tuple *(chiave, valore)* di `pop_rank_dict_temp` e in seguito costruire il dizionario con la funzione `dict()` a cui viene passata `key_tuple_list` come argomento.

In [20]:
pop_rank_dict_temp

{'Animation': [[23.433511, '10020'],
  [21.946943, '862'],
  [21.605760999999998, '8587'],
  [17.730913, '9479'],
  [16.357419, '812'],
  [16.263878, '408'],
  [14.436857999999999, '11224'],
  [14.202283999999999, '10895'],
  [13.553999, '10545'],
  [13.280069000000001, '10530'],
  [13.217623000000001, '10539'],
  [12.140733, '21032'],
  [11.054250999999999, '2300'],
  [10.813578999999999, '12233'],
  [10.686166, '9323']],
 'Comedy': [[48.307194, '13'],
  [21.946943, '862'],
  [17.555909, '2758'],
  [17.136672, '8005'],
  [16.357419, '812'],
  [16.236745000000003, '10525'],
  [15.899134, '11448'],
  [15.783615, '2064'],
  [15.534707000000001, '31586'],
  [15.11549, '433'],
  [15.050326, '9359'],
  [15.019585999999999, '888'],
  [14.657754, '25059'],
  [14.644772, '11853'],
  [14.587894, '11902']],
 'Family': [[23.433511, '10020'],
  [22.064932000000002, '630'],
  [21.946943, '862'],
  [21.605760999999998, '8587'],
  [17.730913, '9479'],
  [17.555909, '2758'],
  [17.015539, '8844'],
  [

Estrarre da `pop_rank_dict_temp` il dizionario `pop_rank_dict`:
- *chiave*: genere cinematografico
- *valore*: lista degli n film più popolari, dove ogni film è presente come lista annidata di tipo *[titolo originale, tagline]*

Costruire prima la lista `key_tuple_list` delle tuple *(chiave, valore)* di `pop_rank_dict` e in seguito costruire il dizionario con la funzione `dict()` a cui viene passata `key_tuple_list` come argomento.

In [22]:
pop_rank_dict

{'Animation': [['Beauty and the Beast',
   'The most beautiful love story ever told.'],
  ['Toy Story', nan],
  ['The Lion King',
   "Life's greatest adventure is finding your place in the Circle of Life."],
  ['The Nightmare Before Christmas',
   'A ghoulish tale with wicked humor & stunning animation.'],
  ['Aladdin', 'Wish granted!'],
  ['Snow White and the Seven Dwarfs',
   'The Happiest, Dopiest, Grumpiest, Sneeziest movie of the year.'],
  ['Cinderella', 'The greatest love story ever told.'],
  ['Pinocchio', 'For anyone who has ever wished upon a star.'],
  ['The Hunchback of Notre Dame', nan],
  ['Pocahontas', 'An American legend comes to life.'],
  ['James and the Giant Peach', "Adventures this big don't grow on trees."],
  ['Balto', 'Part Dog. Part Wolf. All Hero.'],
  ['Space Jam', 'Get ready to jam.'],
  ['Oliver & Company', 'The first Disney movie with attitude.'],
  ['GHOST IN THE SHELL', 'It found a voice... Now it needs a body.']],
 'Comedy': [['Forrest Gump',
   "The wo

Estrarre da `pop_rank_dict_temp` il dizionario `language_set_dict` degli insiemi delle lingue coinvolte in ciascuna delle classifiche (per genere) degli n film ordinati per popolarità descrescente:
- *chiave*: genere cinematografico
- *valore*: insieme delle lingue originali coinvolte (oggetto di tipo `set`)

Costruire prima la lista `key_tuple_list` delle tuple *(chiave, valore)* di `language_set_dict` e in seguito costruire il dizionario con la funzione `dict()` a cui viene passata `key_tuple_list` come argomento.

In [24]:
language_set_dict

{'Animation': {'en', 'ja'},
 'Comedy': {'en', 'sr'},
 'Family': {'en'},
 'Adventure': {'en'},
 'Fantasy': {'en'},
 'Romance': {'en'},
 'Drama': {'en', 'fr'},
 'Action': {'en'},
 'Crime': {'en', 'fr'},
 'Thriller': {'en', 'fr'},
 'Horror': {'en', 'fr'},
 'History': {'de', 'en', 'fr'},
 'Science Fiction': {'en'},
 'Mystery': {'en'},
 'War': {'de', 'en', 'sr', 'zh'},
 'Foreign': {'cn', 'de', 'en', 'es', 'he', 'it'},
 'Music': {'en', 'fr'},
 'Documentary': {'de', 'en', 'pt'},
 'Western': {'en'},
 'TV Movie': {'en'}}