# Esercizio 2

Accedere a https://www.kaggle.com/rounakbanik/the-movies-dataset#movies_metadata.csv e scaricare il dataset `movies_metadata.csv.zip`. Tale dataset è in formato csv e contiene le informazioni sui film in *record* di 24 campi.

Considerando solo i primi 1000 record, si richiede di:
- elencare i 10 paesi che hanno prodotto più film, ordinandoli per numero decrescente di film prodotti. Di ciascun paese specificare il numero di film prodotti
- fornire per ognuno dei generi cinematografici presenti:
    - la classifica degli n (parametro) film più popolari ordinandoli per popolarità decrescente e specificando per ognuno di essi titolo originale e tagline
    - l'insieme delle lingue originali che sono coinvolte nella classifica precedente

***

I campi del file csv che occorrono per risolvere l'esercizio sono:

- `genres`: stringa che rappresenta il letterale di una lista di dizionari con due chiavi (`id` e `name`) che forniscono ciascuno un genere

        [{'id': 16, 'name': 'Animation'}, {'id': 35, 'name': 'Comedy'}, {'id': 10751, 'name': 'Family'}]

- `original_title` (stringa)
- `popularity` (decimale)
- `id` (ID)
- `tagline` (stringa)
- `original_language` (stringa a due caratteri)
- `production_countries`: stringa che rappresenta il letterale di una lista di dizionari con due chiavi (`iso_3166_1` e `name`) che forniscono ciascuno un paese di origine

        [{'iso_3166_1': 'DE', 'name': 'Germany'}, {'iso_3166_1': 'US', 'name': 'United States of America'}]

***

Requisiti generali:

- si richiede la definizione di una funzione `get_items()` che prenda in input uno qualsiasi tra i due campi `genres`e `production_countries` ed estragga la lista dei generi nel caso di `genres` (ad esempio `['Animation', 'Comedy', 'Family']` nel caso dell'esempio precedente)  e la lista dei paesi di produzione nel caso di `production_countries` (ad esempio `['Germany', 'United States of America']` nel caso dell'esempio precedente).

Produrre l'output richiesto nelle seguenti variabili:

- `country_rank_list`: lista di 10 tuple di tipo *(nome di paese, numero di film prodotti)* contenente i primi 10 paesi che hanno prodotto più film (ordinati per numero decrescente di film prodotti)
- `pop_rank_dict`: dizionario delle classifiche per genere dei primi n film ordinati per popolarità decrescente:
    - *chiave*: genere di un film
    - *valore*: lista contenente n liste di tipo *[titolo originale, tagline]* con i primi n film ordinati per popolarità decrescente
- `language_set_dict`: dizionario degli insiemi delle lingue coinvolte in ciascuna delle classifiche presenti in `pop_rank_dict`:
    - *chiave*: genere di un film
    - *valore*: insieme delle lingue


**NOTA BENE**: scartare i record del dataset che hanno un valore del campo `popularity` che non è un decimale oppure non hanno proprio un valore.

***

### Come leggere un file csv con Pandas

Il modulo `pandas` permette di leggere un file in formato csv (anche zippato) tramite la funzione `read_csv()`, che prende come argomento il nome del file da leggere.

L'oggetto restituito è un oggetto di tipo `DataFrame` (un *data frame*), cioé una tabella organizzata in righe (*record*) e colonne intestate.

Il codice seguente

    import pandas as pd
    df = pd.read_csv(input_file_name)
        
legge il file `input_file_name` e lo restituisce in un oggetto di tipo `DataFrame`.

Per recuperare solo le prime `n` righe di un *dataframe* si usa una sintassi di *slicing*:

    df[0:n]
    df[:n]
    
Il metodo `head()` restituisce un nuovo *dataframe* con i primi record del *dataframe* invocante:

     df.head()

Per iterare lungo le righe del *data frame* basta invocare il metodo `iterrows()` che restituisce un oggetto di tipo `generator` da usare in un ciclo `for` di scansione.

    for (index, row) in df.iterrows():
        do_something_with_row

Ogni elemento fornito dell'iteratore è una tupla di due elementi:
- `index`: indice di riga (valore intero)
- `row`: oggetto di tipo `Series` che contiene i campi del *record*

L'accesso al campo relativo alla colonna con nome `column_name` del *record* `row` avviene usando la seguente sintassi:

    row[column_name]
    
**NOTA BENE**: il valore restituito da `row[column_name]` rispetta il tipo della colonna `column_name` nel file csv in input. Ad esempio se il campo nel dataset csv è un valore intero allora il valore di `row[column_name]` sarà di tipo `int`.

### Come interpretare *letteralmente* una stringa 

La funzione `literal_eval()` del modulo `ast`  prende come argomento una stringa e restituice l'oggetto rappresentato *letteralmente* dalla stringa.

In [2]:
import ast

ast.literal_eval("[1,2,3]")

[1, 2, 3]

### Come testare il tipo di un oggetto

La funzione `isinstance()` restituisce il valore `True` se l'oggetto passato come primo argomento è del tipo specificato come secondo argomento.

In [13]:
isinstance(10, int)

True

### Come testare se un valore è NaN (Not a Number)

La funzione `isnan()` del modulo `numpy` restituisce il valore `True` se il valore passato come argomento è NaN.

In [11]:
import numpy

numpy.isnan(10)

False

### Funzioni/Metodi suggeriti

- la funzione `sorted()` prende come argomento un oggetto iterabile e restituisce la lista dei valori ordinati in senso crescente. Ad esempio la seguente istruzione ordina una lista di tuple prima per il primo elemento e poi per il secondo.

In [16]:
sorted([(11.02, 3), (10.2, 1), (11.02, 2), (2.34, 10)])

[(2.34, 10), (10.2, 1), (11.02, 2), (11.02, 3)]

- Il metodo `append()` degli oggetti di tipo `list` aggiunge in coda alla lista invocante il valore passato come argomento

In [17]:
lista = [1,2,3,4]
lista.append([5, 6])

In [18]:
lista

[1, 2, 3, 4, [5, 6]]

- Il metodo `extend()` degli oggetti di tipo `list` estende in coda la lista invocante con i valori contenuti nell'argomento passato

In [27]:
lista = [1,2,3,4]
lista.extend([5, 6])

In [28]:
lista

[1, 2, 3, 4, 5, 6]

- il metodo `get` degli oggetti di tipo `dict` permette di ottenere il valore relativo alla chiave passata come primo argomento e di restituire il secondo argomento (valore di default) nel caso la chiave non fosse presente nel dizionario. 

In [1]:
my_dict = {'due': 2, 'quattro': 4, 'sei': 6}

In [5]:
my_dict.get('due', -1)

2

In [6]:
my_dict.get('cinque', -1)

-1