# Progetto Data and Web Mining 2020
### Ferrari Simone, Trolese Giulio

## Introduzione
Il progetto di quest’anno si basa su una **competizione Kaggle**, in particolare la **TMDB Box Office Prediction**.  
Ci vengono forniti dati su oltre 7000 film del passato presi dal **The Movie Database** con lo scopo di predirre il loro incasso. 

## Fase preliminare
Come prima cosa, dobbiamo preparare l'ambiente di lavoro. 
In particolare, eseguiamo:
- Il caricamento delle librerie
- La lettura dei dati

Inoltre, di seguito sono raccolte tutte le funzioni di uso generale.

### Caricamento delle librerie

In [1]:
import pandas as pd    # Pandas
import numpy as np     # Numpy

from sklearn.model_selection import train_test_split    # Splitting dataframe in Train / Test
from sklearn.decomposition import PCA                   # One Hot Encoding delle featuers
from sklearn.preprocessing import MultiLabelBinarizer   # 
from sklearn.metrics import accuracy_score              # Calcolo dell'accuracy 
from sklearn import tree                                # Modelli con alberi


import matplotlib.pyplot as plt                         # Creare plot
import seaborn as sns                                   # Creare plot
from collections import Counter                         # Contare le frequenze
import json                                             
import ast                                              # Convertire stringa in dizionario

### Funzioni utili utilizzate in seguito

In [2]:
# Colonne del dataframe che sono in formato stringa e devono essere convertite in dizionari
columnsToChange = ['belongs_to_collection', 'genres', 'production_companies', 'production_countries', 'spoken_languages', 'Keywords', 'cast', 'crew']

# Funzione che, preso un dataframe, lo maneggia e cambia le columnsToChange da stringhe a liste di dizionari
def stringToDictionary(dataFrame): 
    for column in columnsToChange:                                 # per ogni colonna indicata in columnsToChange
        dataFrame[column] = dataFrame[column].apply(               # Modifica la colonna come segue 
            lambda x: {} if pd.isna(x) else ast.literal_eval(x))   # Dizionario vuoto se l'elemento è NaN, altrimenti converte la stringa
    return dataFrame                                               # Ritorna il dataframe modificato

In [3]:
# Funzione che, presa una lista, ritorna una nuova lista contenente solo l'elemento name di ogni elemento nella colonna selezionata
def convert(in_list):
    output = []                       # Crea una lista vuota
    for elem in in_list:              # Per ogni elemento nella colonna
        output.append(elem["name"])   # Inserisce, in ordine, solo il name degli elementi presenti nella colonna
    return output                     # Ritorna la nuova lista

### Lettura dei dati

In [4]:
# lettura del file train.csv
train = pd.read_csv("train.csv")

In [5]:
# Conversione delle colonne di tipo String in colonne di tipo Lista di Dizionario
train = stringToDictionary(train)

## Prima analisi del dataframe

Di seguito andremo ad **analizzare nel suo insieme il dataframe**, valutando **quali features possono essere utili** per il nostro scopo e quali, invece, possono essere rimosse. 

In [6]:
pd.set_option('display.max_columns', None) # Visualizza tutte le colonne del dataframe
train.head()

Unnamed: 0,id,belongs_to_collection,budget,genres,homepage,imdb_id,original_language,original_title,overview,popularity,poster_path,production_companies,production_countries,release_date,runtime,spoken_languages,status,tagline,title,Keywords,cast,crew,revenue
0,1,"[{'id': 313576, 'name': 'Hot Tub Time Machine ...",14000000,"[{'id': 35, 'name': 'Comedy'}]",,tt2637294,en,Hot Tub Time Machine 2,"When Lou, who has become the ""father of the In...",6.575393,/tQtWuwvMf0hCc2QR2tkolwl7c3c.jpg,"[{'name': 'Paramount Pictures', 'id': 4}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",2/20/15,93.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,The Laws of Space and Time are About to be Vio...,Hot Tub Time Machine 2,"[{'id': 4379, 'name': 'time travel'}, {'id': 9...","[{'cast_id': 4, 'character': 'Lou', 'credit_id...","[{'credit_id': '59ac067c92514107af02c8c8', 'de...",12314651
1,2,"[{'id': 107674, 'name': 'The Princess Diaries ...",40000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,tt0368933,en,The Princess Diaries 2: Royal Engagement,Mia Thermopolis is now a college graduate and ...,8.248895,/w9Z7A0GHEhIp7etpj0vyKOeU1Wx.jpg,"[{'name': 'Walt Disney Pictures', 'id': 2}]","[{'iso_3166_1': 'US', 'name': 'United States o...",8/6/04,113.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,It can take a lifetime to find true love; she'...,The Princess Diaries 2: Royal Engagement,"[{'id': 2505, 'name': 'coronation'}, {'id': 42...","[{'cast_id': 1, 'character': 'Mia Thermopolis'...","[{'credit_id': '52fe43fe9251416c7502563d', 'de...",95149435
2,3,{},3300000,"[{'id': 18, 'name': 'Drama'}]",http://sonyclassics.com/whiplash/,tt2582802,en,Whiplash,"Under the direction of a ruthless instructor, ...",64.29999,/lIv1QinFqz4dlp5U4lQ6HaiskOZ.jpg,"[{'name': 'Bold Films', 'id': 2266}, {'name': ...","[{'iso_3166_1': 'US', 'name': 'United States o...",10/10/14,105.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,The road to greatness can take you to the edge.,Whiplash,"[{'id': 1416, 'name': 'jazz'}, {'id': 1523, 'n...","[{'cast_id': 5, 'character': 'Andrew Neimann',...","[{'credit_id': '54d5356ec3a3683ba0000039', 'de...",13092000
3,4,{},1200000,"[{'id': 53, 'name': 'Thriller'}, {'id': 18, 'n...",http://kahaanithefilm.com/,tt1821480,hi,Kahaani,Vidya Bagchi (Vidya Balan) arrives in Kolkata ...,3.174936,/aTXRaPrWSinhcmCrcfJK17urp3F.jpg,{},"[{'iso_3166_1': 'IN', 'name': 'India'}]",3/9/12,122.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,,Kahaani,"[{'id': 10092, 'name': 'mystery'}, {'id': 1054...","[{'cast_id': 1, 'character': 'Vidya Bagchi', '...","[{'credit_id': '52fe48779251416c9108d6eb', 'de...",16000000
4,5,{},0,"[{'id': 28, 'name': 'Action'}, {'id': 53, 'nam...",,tt1380152,ko,마린보이,Marine Boy is the story of a former national s...,1.14807,/m22s7zvkVFDU9ir56PiiqIEWFdT.jpg,{},"[{'iso_3166_1': 'KR', 'name': 'South Korea'}]",2/5/09,118.0,"[{'iso_639_1': 'ko', 'name': '한국어/조선말'}]",Released,,Marine Boy,{},"[{'cast_id': 3, 'character': 'Chun-soo', 'cred...","[{'credit_id': '52fe464b9251416c75073b43', 'de...",3923970


**Osservazioni**: 
- Il dataframe compende 23 colonne (features), di cui alcune sembrano poco utili ano nostro scopo... successivamente approfondiremo. 
- Alcune features sono dati strutturati, comprendendo più informazioni all'interno della stessa colonna. Esempi sono `belongs to collection`, `genres`, ...

In [7]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 23 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     3000 non-null   int64  
 1   belongs_to_collection  3000 non-null   object 
 2   budget                 3000 non-null   int64  
 3   genres                 3000 non-null   object 
 4   homepage               946 non-null    object 
 5   imdb_id                3000 non-null   object 
 6   original_language      3000 non-null   object 
 7   original_title         3000 non-null   object 
 8   overview               2992 non-null   object 
 9   popularity             3000 non-null   float64
 10  poster_path            2999 non-null   object 
 11  production_companies   3000 non-null   object 
 12  production_countries   3000 non-null   object 
 13  release_date           3000 non-null   object 
 14  runtime                2998 non-null   float64
 15  spok

**Osservazioni**: 
- Alcune features hanno valori nulli: sarà materia di successive indagini. 

In [8]:
train.describe(include='all')

Unnamed: 0,id,belongs_to_collection,budget,genres,homepage,imdb_id,original_language,original_title,overview,popularity,poster_path,production_companies,production_countries,release_date,runtime,spoken_languages,status,tagline,title,Keywords,cast,crew,revenue
count,3000.0,3000,3000.0,3000,946,3000,3000,3000,2992,3000.0,2999,3000,3000,3000,2998.0,3000,3000,2403,3000,3000,3000,3000,3000.0
unique,,423,,873,941,3000,36,2975,2992,,2999,2384,322,2398,,402,2,2400,2969,2649,2976,2985,
top,,{},,"[{'id': 18, 'name': 'Drama'}]",http://www.transformersmovie.com/,tt0083169,en,The Other Woman,Peter Klaven is a successful real estate agent...,,/xGhDPrBz9mJN8CsIjA23jQSd3sc.jpg,{},"[{'iso_3166_1': 'US', 'name': 'United States o...",9/10/10,,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Based on a true story.,Superbad,{},{},{},
freq,,2396,,266,4,1,2575,2,1,,1,156,1752,5,,1817,2996,3,2,276,13,16,
mean,1500.5,,22531330.0,,,,,,,8.463274,,,,,107.856571,,,,,,,,66725850.0
std,866.169729,,37026090.0,,,,,,,12.104,,,,,22.086434,,,,,,,,137532300.0
min,1.0,,0.0,,,,,,,1e-06,,,,,0.0,,,,,,,,1.0
25%,750.75,,0.0,,,,,,,4.018053,,,,,94.0,,,,,,,,2379808.0
50%,1500.5,,8000000.0,,,,,,,7.374861,,,,,104.0,,,,,,,,16807070.0
75%,2250.25,,29000000.0,,,,,,,10.890983,,,,,118.0,,,,,,,,68919200.0


**Osservazioni**: 
- Alcuni valori sono sospetti, ad esempio: 
    - Il minimo `budget` è pari a 0... ma un film può avere budget 0? Poco probabile.
    - Il minimo di `runtime` è pari, nuovamente, a 0... anche in questo caso, è poco probabile, in quanto un film sicuramente dura più di 0 minuti!
- Osserviamo che `status` ha solo due possibili valori
- Si osserva invece che `id` e `imdb_id` hanno valori univoci

## Manipolazione del dataframe

Dalle **analisi** eseguite ai punti **precedenti**, **abbiamo appreso** le seguenti informazioni:
- Abbiamo features che, molto probabilemnte, sono poco utili ai nosti scopi
- Abbiamo features strutturate che si potrebbero semplificare
- Abbiamo features utili che presentano dati mancanti
- Abbiamo features utili che presentano dei valori strani e necessitano di controlli

Procediamo, quindi, manipolando i dati in modo da renderli più maneggevoli e corretti.

In [9]:
# Rinomina della colonna Keywords, per puri motivi di coerenza con uso di maiuscole. 
train.rename(columns={'Keywords': 'keywords'}, inplace=True)

### Rimozione delle features poco utili

#### ID e IMDB_ID
Come detto, `id` e `imdb_id` hanno **valori univoci**, per cui possono essere rimossi in quanto non hanno rilevanza nella predizione. 

In [10]:
# Rimozione delle colonne id e imdb_id dal dataframe train
train.drop(['id','imdb_id'], axis='columns', inplace=True)

#### Titoli dei film
Gli `original_title` e `title`, nella maggior parte dei casi, sono **valori univoci** (`2975/3000 e 2969/3000`), mentre quei **pochi titoli duplicati** sono molto probabilmente **incorrelati** tra di loro.  
Possiamo quindi rimuoverli dal nostro dataframe.  

In [11]:
# Rimozione delle colonne original_title e title dal dataframe train
train.drop(labels=['original_title','title'], axis='columns', inplace=True)

#### Homepage, PosterPath e Status
Le `homepage` e i `poster_path` risultano essere features da cui è **difficile estrapolare informazioni utili**. Possiamo quindi rimuoverle. 

In [12]:
# Rimozione delle colonne homepage, poster_path e status dal dataframe train
train.drop(labels=['homepage','poster_path', 'status'], axis='columns', inplace=True)

#### Lingua originale
L'`original_language` la riteniamo **poco utile** ai fini di predirre la revenue, in quanto sono molto più d'interesse le lingue in cui un film è stato tradotto: contenute in `spoken_languages`

In [13]:
# Rimozione della colonna original_language dal dataframe train
train.drop(labels=['original_language'], axis='columns', inplace=True)

#### Overview e Tagline
Le features `overview` e `tagline` sono di tipo testuale e sono **complesse da analizzare**.  
Per ora le rimuoviamo, in quanto, per i nostri scopi, l'insieme delle `keywords` sicuramente ci può essere di **sufficiente** aiuto. 

In [14]:
# Rimozione delle colonne overview e tagline dal dataframe train
train.drop(labels=['overview', 'tagline'], axis='columns', inplace=True)

#### Cast & Crew
Le features `cast` e `crew` sono features che, *per il momento*, ignoreremo.  
Le analizzeremo nel seguito. 

In [15]:
# Rimozione delle colonne cast e crew dal dataframe train
train_with_cast_crew = train # Salvo un backup per poterlo utilizzare successivamente
train.drop(labels=["cast", "crew"], axis='columns', inplace=True)

#### Rivalutare il dataframe
Arrivati a questo punto, abbiamo rimosso 11 features e **il nostro dataframe appare nel seguente modo:**

In [16]:
pd.set_option('display.max_columns', None) # Visualizza tutte le colonne del dataframe
train.head()

Unnamed: 0,belongs_to_collection,budget,genres,popularity,production_companies,production_countries,release_date,runtime,spoken_languages,keywords,revenue
0,"[{'id': 313576, 'name': 'Hot Tub Time Machine ...",14000000,"[{'id': 35, 'name': 'Comedy'}]",6.575393,"[{'name': 'Paramount Pictures', 'id': 4}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",2/20/15,93.0,"[{'iso_639_1': 'en', 'name': 'English'}]","[{'id': 4379, 'name': 'time travel'}, {'id': 9...",12314651
1,"[{'id': 107674, 'name': 'The Princess Diaries ...",40000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",8.248895,"[{'name': 'Walt Disney Pictures', 'id': 2}]","[{'iso_3166_1': 'US', 'name': 'United States o...",8/6/04,113.0,"[{'iso_639_1': 'en', 'name': 'English'}]","[{'id': 2505, 'name': 'coronation'}, {'id': 42...",95149435
2,{},3300000,"[{'id': 18, 'name': 'Drama'}]",64.29999,"[{'name': 'Bold Films', 'id': 2266}, {'name': ...","[{'iso_3166_1': 'US', 'name': 'United States o...",10/10/14,105.0,"[{'iso_639_1': 'en', 'name': 'English'}]","[{'id': 1416, 'name': 'jazz'}, {'id': 1523, 'n...",13092000
3,{},1200000,"[{'id': 53, 'name': 'Thriller'}, {'id': 18, 'n...",3.174936,{},"[{'iso_3166_1': 'IN', 'name': 'India'}]",3/9/12,122.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...","[{'id': 10092, 'name': 'mystery'}, {'id': 1054...",16000000
4,{},0,"[{'id': 28, 'name': 'Action'}, {'id': 53, 'nam...",1.14807,{},"[{'iso_3166_1': 'KR', 'name': 'South Korea'}]",2/5/09,118.0,"[{'iso_639_1': 'ko', 'name': '한국어/조선말'}]",{},3923970


In [17]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 11 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   belongs_to_collection  3000 non-null   object 
 1   budget                 3000 non-null   int64  
 2   genres                 3000 non-null   object 
 3   popularity             3000 non-null   float64
 4   production_companies   3000 non-null   object 
 5   production_countries   3000 non-null   object 
 6   release_date           3000 non-null   object 
 7   runtime                2998 non-null   float64
 8   spoken_languages       3000 non-null   object 
 9   keywords               3000 non-null   object 
 10  revenue                3000 non-null   int64  
dtypes: float64(2), int64(2), object(7)
memory usage: 257.9+ KB


In [18]:
train.describe(include='all')

Unnamed: 0,belongs_to_collection,budget,genres,popularity,production_companies,production_countries,release_date,runtime,spoken_languages,keywords,revenue
count,3000,3000.0,3000,3000.0,3000,3000,3000,2998.0,3000,3000,3000.0
unique,423,,873,,2384,322,2398,,402,2649,
top,{},,"[{'id': 18, 'name': 'Drama'}]",,{},"[{'iso_3166_1': 'US', 'name': 'United States o...",9/10/10,,"[{'iso_639_1': 'en', 'name': 'English'}]",{},
freq,2396,,266,,156,1752,5,,1817,276,
mean,,22531330.0,,8.463274,,,,107.856571,,,66725850.0
std,,37026090.0,,12.104,,,,22.086434,,,137532300.0
min,,0.0,,1e-06,,,,0.0,,,1.0
25%,,0.0,,4.018053,,,,94.0,,,2379808.0
50%,,8000000.0,,7.374861,,,,104.0,,,16807070.0
75%,,29000000.0,,10.890983,,,,118.0,,,68919200.0


### Manipolazione delle features strutturate

Come accennato in precedenza, nel dataframe sono presenti alcune **features strutturate**.
**In particolare**, esse sono: `belongs_to_collection`, `genres`, `production_companies`, `production_countries`, `spoken_languages`, `keywords`.

Entriamo nel dettaglio analizzandole e **semplificandole, se possibile**. 

#### TODO: Come sono strutturate tali features?

In [19]:
#TODO: printare le celle e mostrare come sono fatte e spiegare perchè prendiamo solo il nome

#### Modifica dei dati
Ora che sappiamo cosa ci è utile, andiamo a semplificare i nostri dati strutturati in modo che essi siano più semplici da utilizzare. 
A tale scopo, vogliamo ottenere delle liste.

In [20]:
# Lista delle colonne da modificare
columns_to_change = ["belongs_to_collection", "genres", "production_companies", 
                     "production_countries", "spoken_languages", "keywords"]

In [21]:
# Per ogni colonna da modificare, si esegue la procedura convert. (Vedere funzioni utili ad inizio documento)
for column in columns_to_change:                    # Per ogni colonna da modificare
    train[column] = train[column].apply(convert)    # Applica la funzione convert

#### Rivalutare nuovamente il dataframe
Arrivati a questo punto, le nostre features contendono valori o liste di valori e **il nostro dataframe appare nel seguente modo:**

In [22]:
pd.set_option('display.max_columns', None) # Visualizza tutte le colonne del dataframe
train.head()

Unnamed: 0,belongs_to_collection,budget,genres,popularity,production_companies,production_countries,release_date,runtime,spoken_languages,keywords,revenue
0,[Hot Tub Time Machine Collection],14000000,[Comedy],6.575393,"[Paramount Pictures, United Artists, Metro-Gol...",[United States of America],2/20/15,93.0,[English],"[time travel, sequel, hot tub, duringcreditsst...",12314651
1,[The Princess Diaries Collection],40000000,"[Comedy, Drama, Family, Romance]",8.248895,[Walt Disney Pictures],[United States of America],8/6/04,113.0,[English],"[coronation, duty, marriage, falling in love]",95149435
2,[],3300000,[Drama],64.29999,"[Bold Films, Blumhouse Productions, Right of W...",[United States of America],10/10/14,105.0,[English],"[jazz, obsession, conservatory, music teacher,...",13092000
3,[],1200000,"[Thriller, Drama]",3.174936,[],[India],3/9/12,122.0,"[English, हिन्दी]","[mystery, bollywood, police corruption, crime,...",16000000
4,[],0,"[Action, Thriller]",1.14807,[],[South Korea],2/5/09,118.0,[한국어/조선말],[],3923970


### Dati mancanti e Dati sospetti
Di seguito andremo a **ispezionare** le features con **dati mancanti** e i **dati** che presentano **valori anomali**, in modo da porre rimedio, ove possibile. 

In [23]:
train.describe(include='all')

Unnamed: 0,belongs_to_collection,budget,genres,popularity,production_companies,production_countries,release_date,runtime,spoken_languages,keywords,revenue
count,3000,3000.0,3000,3000.0,3000,3000,3000,2998.0,3000,3000,3000.0
unique,423,,873,,2384,322,2398,,392,2649,
top,[],,[Drama],,[],[United States of America],9/10/10,,[English],[],
freq,2396,,266,,156,1752,5,,1817,276,
mean,,22531330.0,,8.463274,,,,107.856571,,,66725850.0
std,,37026090.0,,12.104,,,,22.086434,,,137532300.0
min,,0.0,,1e-06,,,,0.0,,,1.0
25%,,0.0,,4.018053,,,,94.0,,,2379808.0
50%,,8000000.0,,7.374861,,,,104.0,,,16807070.0
75%,,29000000.0,,10.890983,,,,118.0,,,68919200.0


#### TODO: Analizzare le featurest e sistemare i dati

## Analisi delle Features
Arrivati a questo punto, il nostro dataframe dovrebbe essere molto più **maneggevole** e dovrebbe contenenre **dati più corretti**. 
Di seguito andremo ad **analizzare le singole features rimaste**, visualizzando i dati, applicando One Hot Encoding (ove necessario) e studiando in che modo esse possono aiutarci nei nostri scopi. 

belongs_to_collection	
budget	
genres	
popularity	
production_companies	
production_countries	
release_date	
runtime	
spoken_languages	
keywords	
revenue

### Revenue
E' La nostra variabile risposta, ciò che cogliamo predirre. 

### Belongs to collections
Nome della collezione a cui il film può appartenenre.

### Budget
Budget del film.

### Genres
Generi del film.

### Popularity
Popolarità del film

### Production Companies
Casa produttrice del film.

### Production Countries
Nazionalità del film.

### Release Date
Data di uscita del film.

### Runtime
Durata del film.

### Spoken languages
Lingue in cui il film è stato tradotto.

### Keywords
parole chiave per il film.