# Esercizio 2

Considerare il file `movies.csv` ottenuto estraendo i primi 1000 record del dataset scaricabile all'indirizzo https://www.kaggle.com/rounakbanik/the-movies-dataset#movies_metadata.csv.
Tale dataset è in formato csv e contiene, in *record* di 24 campi separati da virgola, le informazioni su film.

Il file `movies.csv` contiene solo un subset dei campi del dataset originale.

--- 

I campi del file csv che occorrono per risolvere l'esercizio sono:

- `id`: indice progressivo
- `genres`: stringa che rappresenta il letterale di una lista di dizionari con chiavi `id` e `name` che forniscono ciascuno un genere

        [{'id': 16, 'name': 'Animation'}, {'id': 35, 'name': 'Comedy'}]
        
- `original_title`: titolo originale
- `popularity`: valore di popolarità
- `tagline`: tagline del film
- `original_language`: lingua originale
- `production_countries`: stringa che rappresenta il letterale di una lista di dizionari con chiavi `iso_3166_1` e `name` che forniscono ciascuno un paese di origine

         [{'iso_3166_1': 'DE', 'name': 'Germany'}, {'iso_3166_1': 'US', 'name': 'United States of America'}]

***

Si richiede di:
- elencare i 10 paesi che hanno prodotto più film, ordinandoli per numero decrescente di film prodotti, specificando per ognuno il numero di film prodotti
- fornire per ognuno dei generi cinematografici presenti nel dataset la classifica degli N (parametro in input) film più popolari (per quel genere) ordinandoli per popolarità decrescente e specificando per ognuno di essi il titolo originale e la tagline
- l'insieme delle lingue originali che sono coinvolte nella classifica precedente

---

Parametri di input:
- dataset dei film
- parametro N

---

Requisiti generali:

- definire una funzione `get_items()` che prenda in input uno qualsiasi tra i due campi `genres`e `production_countries` (indifferentemente) ed estragga
    - la lista dei generi nel caso si passi come argomento il valore di un campo `genres`
    - la lista dei paesi di produzione nel caso si passi come argomento il valore di un campo `production_countries`

Produrre l'output nelle seguenti variabili:

- lista di 10 tuple di due elementi `(nome di paese, numero di film prodotti)` contenenti i primi 10 paesi che hanno prodotto più film, ordinate per numero decrescente di film prodotti
- dizionario delle classifiche per genere dei primi N film ordinati per popolarità decrescente:
    - *chiave*: genere di un film
    - *valore*: lista di N liste di due elementi `[titolo originale, tagline]` con i primi N film ordinati per popolarità decrescente
- dizionario degli insiemi delle lingue coinvolte in ciascuna delle classifiche precedenti per genere:
    - *chiave*: genere di un film
    - *valore*: insieme delle lingue originali coinvolte

***

## Soluzione

Parametri di input

In [6]:
input_file_name = './movies.csv'
n_most_popular = 15  # Parametro N

Importazione dei moduli `pandas` e `ast` e `numpy`.

In [7]:
import pandas as pd
import ast
import numpy as np

### 1) Definizione della funzione `get_items()`

La funzione `get_items()` prende in input un valore di campo `genres`|`production_countries` e restituisce la lista dei generi|paesi di produzione.

In [10]:
def get_items(arg_string):
    return [d['name'] for d in ast.literal_eval(arg_string)]

#get_items("[{'iso_3166_1': 'DE', 'name': 'Germany'}, {'iso_3166_1': 'US', 'name': 'United States of America'}]")

### 2) Lettura del file csv con Pandas

In [12]:
df = pd.read_csv('movies.csv')
#df

### 3) Costruzione delle tre strutture dati di base

a) Dizionario delle informazioni sui film:
- *chiave*: `id` dei film
- *valore*: tupla `(titolo originale, tagline, lingua originale)`

In [14]:
info_dict = {}

In [15]:
for (index, record) in df.iterrows():
    info_dict[index] = (record['original_title'], record['tagline'], record['original_language'])

In [16]:
info_dict

{0: ('Toy Story', nan, 'en'),
 1: ('Jumanji', 'Roll the dice and unleash the excitement!', 'en'),
 2: ('Grumpier Old Men',
  'Still Yelling. Still Fighting. Still Ready for Love.',
  'en'),
 3: ('Waiting to Exhale',
  'Friends are the people who let you be yourself... and never let you forget it.',
  'en'),
 4: ('Father of the Bride Part II',
  "Just When His World Is Back To Normal... He's In For The Surprise Of His Life!",
  'en'),
 5: ('Heat', 'A Los Angeles Crime Saga', 'en'),
 6: ('Sabrina',
  'You are cordially invited to the most surprising merger of the year.',
  'en'),
 7: ('Tom and Huck', 'The Original Bad Boys.', 'en'),
 8: ('Sudden Death', 'Terror goes into overtime.', 'en'),
 9: ('GoldenEye', 'No limits. No fears. No substitutes.', 'en'),
 10: ('The American President',
  "Why can't the most powerful man in the world have the one thing he wants most?",
  'en'),
 11: ('Dracula: Dead and Loving It', nan, 'en'),
 12: ('Balto', 'Part Dog. Part Wolf. All Hero.', 'en'),
 13: ('N

b) Lista dei paesi che hanno prodotto almeno un film (ciascun paese deve essere presente nella lista esattamente il numero di volte in cui ha prodotto un film).

In [18]:
country_list = []

In [19]:
for (index, record) in df.iterrows():
    country_list.extend(get_items(record['production_countries']))

In [20]:
country_list

['United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'Germany',
 'United States of America',
 'United States of America',
 'United States of America',
 'United Kingdom',
 'United States of America',
 'United States of America',
 'France',
 'United States of America',
 'United States of America',
 'United States of America',
 'France',
 'Germany',
 'Italy',
 'United States of America',
 'France',
 'United States of America',
 'United Kingdom',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'United States of America',
 'France',
 'United States of America',
 'United States of America',
 'United States of America',
 'Italy',
 'United States of America',
 'United Kingdom',
 'France',
 'France',
 'Germany',
 'Spain',
 'China',
 'France',
 'United States of America',
 'Unite

c) Dizionario delle popolarità:
- *chiave*: genere cinematografico
- *valore*: lista dei film associati al genere (ognuno dei film deve essere rappresentato come lista annidata `[popolarità, id]`)

**NB**: controllare che il campo `popularity` sia diverso da `NaN` (Not a Number).

In [22]:
pop_dict = {}

In [23]:
for (index, record) in df.iterrows():
    if np.isnan(record['popularity']) == False:
        for gen in get_items(record['genres']):
            value = pop_dict.get(gen, [])
            value.append([record['popularity'], index])
            pop_dict[gen] = value

In [24]:
pop_dict

{'Animation': [[21.946943, 0],
  [12.140733, 12],
  [13.280069, 47],
  [10.177977, 235],
  [0.090452, 240],
  [8.910461999999997, 309],
  [21.605761, 359],
  [0.381704, 387],
  [17.730913, 546],
  [7.436000999999999, 552],
  [16.357419, 581],
  [16.263878, 587],
  [23.433511, 588],
  [14.202284, 589],
  [7.640072999999999, 602],
  [9.834047, 608],
  [5.028897, 622],
  [13.217623, 651],
  [11.054251, 662],
  [10.813579, 695],
  [0.543042, 713],
  [10.686166, 723],
  [6.796858, 727],
  [13.553999, 763],
  [7.523528, 804],
  [6.372442, 861],
  [14.436858, 993],
  [1.054814, 994],
  [8.702472, 995],
  [10.636458, 996],
  [0.901443, 997]],
 'Comedy': [[21.946943, 0],
  [11.7129, 2],
  [3.859495, 3],
  [8.387519000000001, 4],
  [6.677277, 6],
  [6.318445, 10],
  [5.430331, 11],
  [9.026586, 17],
  [8.205447999999999, 18],
  [7.3379059999999985, 19],
  [12.669608, 20],
  [8.681325, 26],
  [14.404764000000002, 33],
  [7.777735000000002, 37],
  [9.882383, 38],
  [10.448481, 44],
  [15.899134, 5

### 4) Estrazione dei 10 paesi che hanno prodotto più film

Costruire la lista (**primo output**) dei primi 10 paesi che hanno prodotto più film, ordinandoli per numero decrescente di film. Ogni paese deve essere rappresentato come tupla `(nome del paese, numero di film prodotti)`.

In [147]:
country_rank_list

[('United States of America', 742),
 ('United Kingdom', 102),
 ('France', 96),
 ('Germany', 45),
 ('Canada', 30),
 ('Italy', 29),
 ('Japan', 21),
 ('Australia', 12),
 ('Hong Kong', 12),
 ('Ireland', 11)]

### 5) Estrazione, per ogni genere, degli `n_most_popular` film più popolari ordinati per popolarità descrescente, ed estrazione delle lingue coinvolte per ciascuno dei generi

a) Derivare dal dizionario delle popolarità il dizionario che ha la stessa struttura di chiavi e valori, con la differenza che il *valore* relativo a una chiave (genere) è la lista degli `n_most_popular` film più popolari ordinati per popolarità decrescente.

**NOYA BENE**: i valori di questo dizionario sono le liste del dizionario delle popolarità ordinate per popolarità decrescente e troncate ai primi `n_most_popular` elementi.

Costruire la lista delle tuple chiave-valore e in seguito costruire il dizionario passando alla funzione `dict()` tale lista.

In [149]:
pop_rank_dict

{'Animation': [[23.433511, 588],
  [21.946943, 0],
  [21.605761, 359],
  [17.730913, 546],
  [16.357419, 581],
  [16.263878, 587],
  [14.436858, 993],
  [14.202284, 589],
  [13.553999, 763],
  [13.280069, 47],
  [13.217623, 651],
  [12.140733, 12],
  [11.054251, 662],
  [10.813579, 695],
  [10.686166, 723]],
 'Comedy': [[48.307194, 351],
  [21.946943, 0],
  [17.555909, 405],
  [17.136672, 515],
  [16.357419, 581],
  [16.236745000000006, 233],
  [15.899134, 51],
  [15.783615, 334],
  [15.534707, 500],
  [15.11549, 999],
  [15.050326, 363],
  [15.019586, 350],
  [14.657754, 601],
  [14.644772, 411],
  [14.587894, 655]],
 'Family': [[23.433511, 588],
  [22.064932, 892],
  [21.946943, 0],
  [21.605761, 359],
  [17.730913, 546],
  [17.555909, 405],
  [17.015539, 1],
  [16.357419, 581],
  [16.263878, 587],
  [15.534707, 500],
  [15.11549, 999],
  [15.031588, 926],
  [15.019586, 350],
  [14.657754, 601],
  [14.436858, 993]],
 'Adventure': [[42.149697, 256],
  [22.494622, 897],
  [22.064932, 8

b) Derivare dal dizionario precedente il dizionario con la stessa struttura in cui le liste `[popolarità, id]` sono sostituite dalle liste `[titolo originale, tagline]` (**secondo output**). 

Costruire la lista delle tuple chiave-valore e in seguito costruire il dizionario passando alla funzione `dict()` tale lista.

In [151]:
pop_rank_dict_out

{'Animation': [['Beauty and the Beast',
   'The most beautiful love story ever told.'],
  ['Toy Story', nan],
  ['The Lion King',
   "Life's greatest adventure is finding your place in the Circle of Life."],
  ['The Nightmare Before Christmas',
   'A ghoulish tale with wicked humor & stunning animation.'],
  ['Aladdin', 'Wish granted!'],
  ['Snow White and the Seven Dwarfs',
   'The Happiest, Dopiest, Grumpiest, Sneeziest movie of the year.'],
  ['Cinderella', 'The greatest love story ever told.'],
  ['Pinocchio', 'For anyone who has ever wished upon a star.'],
  ['The Hunchback of Notre Dame', nan],
  ['Pocahontas', 'An American legend comes to life.'],
  ['James and the Giant Peach', "Adventures this big don't grow on trees."],
  ['Balto', 'Part Dog. Part Wolf. All Hero.'],
  ['Space Jam', 'Get ready to jam.'],
  ['Oliver & Company', 'The first Disney movie with attitude.'],
  ['GHOST IN THE SHELL', 'It found a voice... Now it needs a body.']],
 'Comedy': [['Forrest Gump',
   "The wo

c) Estrarre dal dizionario del punto 5a il dizionario degli insiemi delle lingue originali coinvolte:
- *chiave*: genere cinematografico
- *valore*: insieme delle lingue originali coinvolte (oggetto di tipo `set`)

Costruire la lista delle tuple chiave-valore e in seguito costruire il dizionario passando alla funzione `dict()` tale lista.

In [154]:
language_set_dict

{'Animation': {'en', 'ja'},
 'Comedy': {'en', 'sr'},
 'Family': {'en'},
 'Adventure': {'en'},
 'Fantasy': {'en'},
 'Romance': {'en'},
 'Drama': {'en', 'fr'},
 'Action': {'en'},
 'Crime': {'en', 'fr'},
 'Thriller': {'en', 'fr'},
 'Horror': {'en', 'fr'},
 'History': {'de', 'en', 'fr'},
 'Science Fiction': {'en'},
 'Mystery': {'en'},
 'War': {'de', 'en', 'sr', 'zh'},
 'Foreign': {'cn', 'de', 'en', 'es', 'he', 'it'},
 'Music': {'en', 'fr'},
 'Documentary': {'de', 'en', 'pt'},
 'Western': {'en'},
 'TV Movie': {'en'}}