# Esercizio 2

Considerare il file `movies.csv` ottenuto estraendo i primi 1000 record del dataset scaricabile all'indirizzo https://www.kaggle.com/rounakbanik/the-movies-dataset#movies_metadata.csv.
Tale dataset è in formato csv e contiene, in *record* di 24 campi separati da virgola, le informazioni su film.

Il file `movies.csv` contiene solo un subset dei campi del dataset originale.

--- 

I campi del file csv che occorrono per risolvere l'esercizio sono:

- `id`: indice progressivo
- `genres`: stringa che rappresenta il letterale di una lista di dizionari con chiavi `id` e `name` che forniscono ciascuno un genere

        [{'id': 16, 'name': 'Animation'}, {'id': 35, 'name': 'Comedy'}]
        
- `original_title`: titolo originale
- `popularity`: valore di popolarità
- `tagline`: tagline del film
- `original_language`: lingua originale
- `production_countries`: stringa che rappresenta il letterale di una lista di dizionari con chiavi `iso_3166_1` e `name` che forniscono ciascuno un paese di origine

         [{'iso_3166_1': 'DE', 'name': 'Germany'}, {'iso_3166_1': 'US', 'name': 'United States of America'}]

***

Si richiede di:
- elencare i 10 paesi che hanno prodotto più film, ordinandoli per numero decrescente di film prodotti, specificando per ognuno il numero di film prodotti
- fornire per ognuno dei generi cinematografici presenti nel dataset la classifica degli N (parametro in input) film più popolari (per quel genere) ordinandoli per popolarità decrescente e specificando per ognuno di essi il titolo originale e la tagline
- l'insieme delle lingue originali che sono coinvolte nella classifica precedente

---

Parametri di input:
- dataset dei film
- parametro N

---

Requisiti generali:

- definire una funzione `get_items()` che prenda in input uno qualsiasi tra i due campi `genres`e `production_countries` (indifferentemente) ed estragga
    - la lista dei generi nel caso si passi come argomento il valore di un campo `genres`
    - la lista dei paesi di produzione nel caso si passi come argomento il valore di un campo `production_countries`

Produrre l'output nelle seguenti variabili:

- lista di 10 tuple di due elementi `(nome di paese, numero di film prodotti)` contenenti i primi 10 paesi che hanno prodotto più film, ordinate per numero decrescente di film prodotti
- dizionario delle classifiche per genere dei primi N film ordinati per popolarità decrescente:
    - *chiave*: genere di un film
    - *valore*: lista di N liste di due elementi `[titolo originale, tagline]` con i primi N film ordinati per popolarità decrescente
- dizionario degli insiemi delle lingue coinvolte in ciascuna delle classifiche precedenti per genere:
    - *chiave*: genere di un film
    - *valore*: insieme delle lingue originali coinvolte

***

### 1) Come leggere un file csv

Il modulo `pandas` permette di leggere un file in formato csv (anche zippato) tramite la funzione `read_csv()`, che prende come argomento il nome del file da leggere.

L'oggetto restituito è un oggetto di tipo `DataFrame` (un *data frame*), cioé una tabella organizzata in righe (*record*) e colonne intestate.

Il codice seguente

    import pandas as pd
    df = pd.read_csv(input_file_name)
        
legge il file `input_file_name` e lo restituisce in un oggetto di tipo `DataFrame`.

In [1]:
import pandas as pd
df = pd.read_csv('movies.csv')
df

Unnamed: 0,id,genres,original_title,popularity,tagline,original_language,production_countries
0,0,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",Toy Story,21.946943,,en,"[{'iso_3166_1': 'US', 'name': 'United States o..."
1,1,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",Jumanji,17.015539,Roll the dice and unleash the excitement!,en,"[{'iso_3166_1': 'US', 'name': 'United States o..."
2,2,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",Grumpier Old Men,11.712900,Still Yelling. Still Fighting. Still Ready for...,en,"[{'iso_3166_1': 'US', 'name': 'United States o..."
3,3,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",Waiting to Exhale,3.859495,Friends are the people who let you be yourself...,en,"[{'iso_3166_1': 'US', 'name': 'United States o..."
4,4,"[{'id': 35, 'name': 'Comedy'}]",Father of the Bride Part II,8.387519,Just When His World Is Back To Normal... He's ...,en,"[{'iso_3166_1': 'US', 'name': 'United States o..."
5,5,"[{'id': 28, 'name': 'Action'}, {'id': 80, 'nam...",Heat,17.924927,A Los Angeles Crime Saga,en,"[{'iso_3166_1': 'US', 'name': 'United States o..."
6,6,"[{'id': 35, 'name': 'Comedy'}, {'id': 10749, '...",Sabrina,6.677277,You are cordially invited to the most surprisi...,en,"[{'iso_3166_1': 'DE', 'name': 'Germany'}, {'is..."
7,7,"[{'id': 28, 'name': 'Action'}, {'id': 12, 'nam...",Tom and Huck,2.561161,The Original Bad Boys.,en,"[{'iso_3166_1': 'US', 'name': 'United States o..."
8,8,"[{'id': 28, 'name': 'Action'}, {'id': 12, 'nam...",Sudden Death,5.231580,Terror goes into overtime.,en,"[{'iso_3166_1': 'US', 'name': 'United States o..."
9,9,"[{'id': 12, 'name': 'Adventure'}, {'id': 28, '...",GoldenEye,14.686036,No limits. No fears. No substitutes.,en,"[{'iso_3166_1': 'GB', 'name': 'United Kingdom'..."


Per iterare lungo i record del *data frame* basta invocare il metodo `iterrows()` che restituisce un oggetto di tipo `generator` da usare in un ciclo `for` di scansione.

    for (index, record) in df.iterrows():
        do_something

Ogni elemento fornito dell'iteratore è una tupla di due elementi:
- `index`: indice progressivo del record (valore intero)
- `record`: oggetto di tipo `Series` che contiene i campi del *record*

L'accesso al campo relativo alla colonna con nome `column_name` del *record* `record` avviene usando la seguente sintassi:

    record[column_name]
    
**NOTA BENE**: il valore restituito da `record[column_name]` rispetta il tipo della colonna `column_name` nel file csv in input. Ad esempio se il campo nel dataset csv è un valore decimale allora il valore di `record[column_name]` sarà di tipo `float`.

In [2]:
for (index, record) in df.iterrows():
    print(record['popularity'])

21.946943
17.015539
11.7129
3.859495
8.387519000000001
17.924927
6.677277
2.561161
5.23158
14.686035999999998
6.318445
5.430331
12.140733
5.092
7.284477000000001
10.137389
10.673167
9.026586
8.205447999999999
7.3379059999999985
12.669608
10.701801
11.065939
12.133094
10.332025
1.845899
8.681325
2.228434
9.822423
1.100915
9.481338
12.297305
0.745542
14.404764000000002
1.4933610000000002
6.891317
0.114469
7.777735000000002
9.882383
0.894647
4.561387
9.87957
10.979269
10.870138
10.448481
4.485958
18.45743
13.280069
3.302524
16.302466
0.595949
15.899134
1.361286
5.982764
4.093443
0.307075
8.416802
10.168437
0.120789
10.673296
4.733526
7.137117
11.700115
2.174487
6.387469
2.49535
4.046208
2.518051
14.56965
15.339153
5.912223
3.3672760000000004
1.4794459999999998
10.412194
2.936443
12.758848
0.133893
5.756462
6.010579
1.196256
4.486179
2.030174
0.252287
0.531159
2.15166
9.568604
4.814825
8.963037
6.848591000000001
0.411424
12.866139
9.071127
4.670562
14.957626
0.5133909999999999
12.108196
2.

3.998494
4.040945
5.4973589999999986
7.1516910000000005
10.091707
4.914603
12.887829
5.807074
3.254308
7.186506
3.404213
4.623089
2.8036790000000003
8.722406
8.307210000000001
10.892812
14.436858
1.054814
8.702472
10.636458
0.901443
10.639244
15.11549


### 2) Come interpretare *letteralmente* una stringa 

La funzione `literal_eval()` del modulo `ast`  prende come argomento una stringa e restituice l'oggetto rappresentato *letteralmente* dalla stringa.

In [3]:
import ast

ast.literal_eval("[1,2,3]")

[1, 2, 3]

### 3) Come testare se un valore è NaN (Not a Number)

La funzione `isnan()` del modulo `numpy` restituisce il valore `True` se il valore passato come argomento è NaN.

In [4]:
import numpy

numpy.isnan(10)

False

### 4) Funzioni/Metodi suggeriti

- la funzione `sorted()` prende come argomento un oggetto iterabile e restituisce la lista dei valori ordinati in senso crescente.

In [5]:
lista = [(11.02, 3), (10.2, 1), (11.02, 2), (2.34, 10)]
sorted(lista)

[(2.34, 10), (10.2, 1), (11.02, 2), (11.02, 3)]

- Il metodo `append()` degli oggetti di tipo `list` aggiunge in coda alla lista invocante il valore passato come argomento

In [6]:
lista = [1,2,3,4]
lista.append([5, 6])
lista

[1, 2, 3, 4, [5, 6]]

- Il metodo `extend()` degli oggetti di tipo `list` estende in coda la lista invocante con i valori contenuti nell'argomento passato

In [22]:
lista = [1,2,3,4]
lista.extend([5, 6])
lista

[1, 2, 3, 4, 5, 6]

- il metodo `get` degli oggetti di tipo `dict` permette di ottenere il valore relativo alla chiave passata come primo argomento e di restituire il secondo argomento (valore di default) se la chiave non è presente nel dizionario. 

In [7]:
my_dict = {'due': 2, 'quattro': 4, 'sei': 6}

In [8]:
my_dict.get('due', -1)

2

In [9]:
my_dict.get('cinque', -1)

-1