## **Exploratory analysis and prediction on the "TMDB 5000 Movie Dataset" dataset**

***Authors: Bava Flavio 4836427 , Ciarlo Francesco 4640121, Oldrini Edoardo 4055097***

**Abstract**

The following data analysis aims to study an approach for the production of a movie.<br><br>
This file is divided like so:
* Dataset checking and preparation
* Initial exploration of the dataset
* Raising hypotheses and subsequent verification
* Proposal for a predictive regression based on previous observations

**Importing libraries and datasets**

In [4]:

import matplotlib.pyplot as plt # this is used for the plot the graph 
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns # used for plot interactive graph.
import numpy as np 
import plotly.offline as py
import json
from plotnine import ggplot,aes,facet_grid,labs,geom_col,theme_xkcd
py.init_notebook_mode(connected=True) #TODO ????
import plotly.graph_objs as go
import warnings #TODO ????
warnings.filterwarnings('ignore') #TODO ????
from pylab import rcParams #TODO ????
from ast import literal_eval

In [5]:
Movies = pd.read_csv('tmdb_5000_movies.csv')

### **Exploratory analysis of the dataset**

Moving all columns with Json data into list

In [None]:
def get_name(x):
    if isinstance(x, list):
        names = [i['name'] for i in x]
        return names
    return []

def get_ISO(x):
    if isinstance(x, list):
        isos = [i['iso_3166_1'] for i in x]
        return isos
    return []

Funzioni per passare da json a liste dei dati utili

In [None]:
feat_to_manage = ['genres','keywords','production_countries','production_companies'] 

In [None]:
for f in feat_to_manage:
    Movies[f] = Movies[f].apply(literal_eval)

In [None]:
#Turn genres into list
Movies['genres'] = Movies['genres'].apply(get_name)
#Turn prod_countries into list
Movies['production_countries'] = Movies['production_countries'].apply(get_ISO)
#Turn prod_companies into list
Movies['production_companies'] = Movies['production_companies'].apply(get_name)
#Turn keywords into list
Movies['keywords'] = Movies['keywords'].apply(get_name)

Movies.head(1)

print("Generi hanno tipo ", type(Movies['genres'][0]))
print("Paesi produzione hanno tipo ", type(Movies['production_countries'][0]))


Check dataset dimension and an overview of the table itself

In [126]:
print("Dataset has {} rows and {} columns".format(Movies.shape[0],Movies.shape[1]))

Dataset has 4803 rows and 17 columns


Droppiamo colonne inutili

In [None]:
Movies.drop(['homepage','spoken_languages','original_title'],inplace=True,axis='columns')
Movies.shape

1. Controlliamo chei tipi siano giusti

In [None]:
Movies.info()

I tipi sono coerenti

2. Controlliamo se ci sono dati mancanti

In [None]:
print(Movies.isnull().sum())

ci sono alcuni valori nulli ma in colonne che potrebbero non essere significative

3. Controlliamo che i budget abbiano valori sensati

In [None]:
#TODO possibile predizione buget come studio
print(Movies['budget'].describe())

Il valore minimo è 0, abbiamo quindi il dubbbio che ci siano budget con valori insiensati, per conoscenza del dominio applciativo decidiamo di porre il limite inferiore di 10k per il budget, verifichiamo quanti film sono sotto a questo valore.

Ci sono 1400 film con un valore di budget che non sembra avere senso, per evitare di eliminare tutti i dati relativi a questo film decidiamo di "segnarli" ponendo il budget ad un valore simbolico di -1 questi dati in modo da non prenderli in considerazione nelle statistiche ma non perdere altri dati interesanti.

In [None]:
#Movies[Movies['budget'] <= 10000]['budget'] = np.nan
for row in Movies.index:
    if Movies.loc[row,'budget'] < 10000 and (Movies.loc[row, 'status']=='Released'):
        Movies.loc[row,'budget'] = np.nan
print(Movies[Movies['budget'] == np.nan].shape)

In [None]:
print(Movies[Movies['budget']<10000]['id'].count())
#Movies.tail()

4. Controlliamo che i revenue abbiano valori sensati

In [None]:
#TODO possibile predizione buget come studio
#Movies.tail()
print(Movies['revenue'].describe())

molti film hanno revenue nullo, che siano film ancora non usciti?

In [None]:
print('Movies with 0$ revenues: ',Movies[Movies['revenue'] == 0].shape[0])
print('Movies not yet released', Movies[(Movies['revenue'] == 0) & (Movies['status']!= 'Released')].shape[0])

Su 1427 film che hanno revenue = 0 solo 7 sono ancora in fase di produzione, quindi 1427 film hanno un valore di revenue errato che procediamo a segnare, come visto precedentemente, con un valore simbolico di -1

In [None]:
for row in Movies.index:
    if (Movies.loc[row, 'revenue'] == 0) and (Movies.loc[row, 'status']=='Released'):
        Movies.loc[row, 'revenue'] = -1

print('Movies without revenue infos: ',Movies[Movies['revenue'] == -1].shape[0])


3. Ulteriori aggiustamenti

Aggiungiamo due colonne legate al budget, una misura i ricavi sulla percentuale rispetto al budget, l'altra divide i film in 3 categorie, low budget, normali e blockbuster


1) Ricavi rispetto al budget


In [None]:
def calculate_profit_perc(x):
    if (x.revenue>0) and (x.budget>0):
        return ((x.revenue-x.budget)/x.budget)*100
    #senza else mette i nan, altrimenti possiamo metterlo e ritornare -1

In [None]:
#Movies = Movies.assign(profit_perc = lambda x: (((x.revenue-x.budget)/x.budget)*100) if ((x.revenue>0) and (x.budget>0)) else -1)
#print(Movies[Movies['budget'].isnull()])
Movies = Movies.assign(profit_perc = lambda x: x.budget)
for row in Movies.index:
    Movies.loc[row,'profit_perc'] =  calculate_profit_perc(Movies.loc[row])



2. Classificazioni film in low, med, high budget

usiamo describe per capire come impostare gli scaglioni

In [None]:
Movies[Movies['budget']>0]['budget'].describe()

Low budget = 25% con budget più bassi<br>
High budget = 25% con budget più alti<br>
Medio = il restante 50%

In [None]:
def budget_range(x):
    if x <= 0: #x==NaN
        return "no budget info"
    if x < 7.900000e+05:
        return "low"
    elif x >= 7.900000e+05 and x < 4.000000e+07:
        return "medium"
    else:
        return "high"

aggiungiamo una colonna che contiene l'etichetta relativa al budget

In [None]:
Movies = Movies.assign(budget_class = lambda x: str(x.budget))
for row in Movies.index:
    Movies.loc[row,'budget_class'] =  budget_range(Movies.loc[row,'budget'])


In [None]:
#TODO: perchè prendiamo solo i budget>10^7 e non tutti i non negativi?
#sns.kdeplot(data=Movies[Movies['budget'] >0], x='budget', shade = True)
sns.kdeplot(data=Movies[Movies['budget'] >= 4.000000e+07], x='budget', shade = True)
plt.legend(['Budget'])
plt.show()


Riteniamo importante che la media dei voti sia pesata con il numero di voti che la generano, per fare questo usiamo una formula consigliata dal celebre sito IMBD e togliamo le due colonne average e count per unirle in una che le metta insieme

In [None]:
#TODO: potremmo anche fare questo lavoro sul dataset di partenza aggiungendo una colonna, metà avranno nan
C= Movies['vote_average'].mean()
C
m= Movies['vote_count'].quantile(0.5)

for i in Movies.index:
    if Movies.loc[i,'vote_count'] <= m:
        Movies.loc[i,'vote_count'] = np.nan
    else:
        pass

    
q_movies = Movies[['id','vote_count','vote_average']]


In [None]:
def weighted_rating(x, m=m, C=C):
    v = x['vote_count']
    R = x['vote_average']
    # Calculation based on the IMDB formula
    return (v/(v+m) * R) + (m/(m+v) * C)

In [None]:
# Define a new feature 'score' and calculate its value with `weighted_rating()`
q_movies['score'] = q_movies.apply(weighted_rating, axis=1)
q_movies.drop(['vote_average','vote_count'],inplace=True,axis='columns')
#Merge dei dataframe,ora Movies ha anche la colonna Score",
Movies = pd.merge(Movies,q_movies,on='id',how='inner')
Movies.shape
   

Abbiamo eliminato metà dei film, quelli con troppi pochi voti per poter essere presi in considerazione per quanto riguarda il voto ricevuto.

Breve sguardo agli attributi quantitativi

In [None]:
Movies.describe()

### **Cominciamo a fare qualche ipotesi**

**1. Dati qualitativi**

usiamo una funziona di libreria per portare genri, keyword, paesi di produzione e compagnie di produzione in un formato più semplice da gestire

******************************************************************************************************************************************
******************************************************************************************************************************************

## Dati qualitativi ##

Proviamo a definire delle funzioni per verificare la distribuzione di voti e soldoni fatti in base ai dati qualitativi

In [None]:
#TODO: perchè è commentata? Non serve più?
#def get_name(x):
 #   if isinstance(x, list):
  #      names = [i['name'] for i in x]
   #     return names
    #return []

### Primo qualitativo: generi ###

1. definiamo funzione che dato un genere calcola la media dei profitti dei film che lo contengono

In [6]:
def genre_average_profits(genre):
    sum = 0
    count = 0
    for row in Movies.index:
        if (genre in Movies.loc[row, 'genres']) and (Movies.loc[row,'profit_perc'] > 0):
            sum += Movies.loc[row, 'profit_perc']
            count+=1
    return count

#Movies['profit_perc'] = Movies.apply(lambda row: genre_average_profits(row['genres']), axis=1)

2. estraiamo dal dataset la lista dei generi presenti

In [7]:
genres=[]
for row in Movies.index:
    _gen = Movies.loc[row,'genres']
    for g in _gen:
        if g not in genres:
            genres.append(g)

print("I generi presenti nel dataframe sono:")
for el in genres:
    print('\t',el)

I generi presenti nel dataframe sono:
	 [
	 {
	 "
	 i
	 d
	 :
	  
	 2
	 8
	 ,
	 n
	 a
	 m
	 e
	 A
	 c
	 t
	 o
	 }
	 1
	 v
	 u
	 r
	 4
	 F
	 s
	 y
	 7
	 S
	 ]
	 0
	 C
	 D
	 5
	 3
	 T
	 h
	 l
	 6
	 W
	 9
	 R
	 H
	 M
	 g
	 V


3. calcoliamo e salviamo il profitto medio di ogni genere

In [8]:
profits=[]
for g in genres:
    profits.append(genre_average_profits(g))
            
print("Profitto associato ad ogni genere:")
for i in range(0,len(genres)):
    print('\t',genres[i], " has a mean profit of ", profits[i])

KeyError: 'profit_perc'

Due generi hanno una media pari a 0, appaiano quindi solo nei film per cui non abbiamo info su budget e/o revenue, li eliminiamo quindi dalla lista dei generi

In [None]:
genres.remove(genres[19])
genres.remove(genres[18])
profits.remove(profits[19])
profits.remove(profits[18])

3. Di seguito possiamo vedere come sono i profitti in base ai diversi generi dei film

In [None]:
#TODO: riusciamo a farli in ordine decrescente sul grafico?
fig, ax = plt.subplots()
ax.bar(genres,profits)
fig.set_figwidth(27)
fig.set_figheight(13)
plt.xticks(rotation=45,fontsize=15)
plt.yticks(fontsize=15)
plt.xlabel("Genres", fontsize=20)
plt.ylabel("Profits", fontsize=20)
plt.show()

Per ottimizzare le funzioni di libreria sostituiamo ai valori dei profitti associati ai film con dati insufficienti a calcolarli il valore nan

In [None]:
#TODO: si può mica fare da subito?
for row in Movies.index:
    if (Movies.loc[row, 'profit_perc'] <= 0) and (Movies.loc[row, 'status']=='Released'):
        Movies.loc[row, 'profit_perc'] = np.nan

### Secondo qualitativo: keywords ###

1. importiamo i profitti e le keywords associate solo a film su cui non abbiamo dati relativi ai profitti, precedentemente calcolate con una funzione pesante

In [None]:
#key_profits = pd.read_csv('key_profits.csv')['0']
#bad_key_df = pd.read_csv('bad_key.csv')
#bad_key=bad_key_df['0']

2. estraiamo dal dataset la lista delle presenti

In [None]:
keywords=[]
for row in Movies.index:
    _key = Movies.loc[row,'keywords']
    for k in _key:
        if g not in keywords:
            keywords.append(k)
print(len(keywords))

3. definiamo una funzione che data una keyword ne calcola la media dei profitti associati

In [None]:
def keyword_average_profit(keywords):
    sum = 0
    count = 0
    for row in Movies.index:
        if (keywords in Movies.loc[row, 'keywords'] and Movies.loc[row, 'profit_perc'] >= 0):
            sum += Movies.loc[row, 'profit_perc']
            count+=1
    if count != 0:
        return sum/count
    else:
        return -1

4. ora per ogni keyword calcoliamo il profitto e salviamo quali keywords non hanno dati su budget o revenue

In [None]:
#funzione pesantissima con hash
set_key = set(keywords)
key_profits={} #declared as hashmap
bad_keys=[]
for k in set_key:
    q = keyword_average_profit(k)
    if q != -1:
        key_profits[str(k)]=q
    else:
        bad_keys.append(k)

5. A questo punto castiamo l'array di tutte le keywords e di quelle da scartare in set, così da eleminare ogni duplicato e poter effettuare una differenza:

In [None]:
bad_key_set = set(bad_keys)
set_key_cleaned = set_key - bad_key_set

print("Numero di keywords:\t",len(set_key))
print("Numero di keywords da scartare\t",len(bad_key_set))
print("Numero di keywords da analizzare:\t",len(set_key_cleaned))
print("Numero di profitti per le keywords calcolati\t",len(key_profits))

#pd.DataFrame(key_profits).to_csv("key_profits.csv")

In [None]:
sorted_key_hash = sorted(key_profits.items(), key=lambda x: x[1])
print(sorted_key_hash)

6. visto il grande numero di keywords presenti nel dataset ci concentriamo su quelle più presenti

In [None]:
from collections import Counter #per prendere le più presenti

best = 100 #numero di keywords da studiare 
_most_common_keys = Counter(keywords).most_common(best)
most_common_keys = []
for i in range(0,best-1):
    #print(most_common_keys[0])
    most_common_keys.append(_most_common_keys[i][0])
print(most_common_keys)


In [None]:
#associamo alle key più frequenti selezionate sopra il rispettivo profitto
most_common_keys_prof = []
for el in most_common_keys:
    most_common_keys_prof.append(key_profits[str(el)])

7. stampiamo ora un istogramma che associa alle keywords più comuni il rispettivo profitto

In [None]:
fig, ax = plt.subplots()
ax.bar(most_common_keys,most_common_keys_prof)
fig.set_figwidth(27)
fig.set_figheight(13)
plt.xticks(rotation=90,fontsize=15)
plt.yticks(fontsize=15)
plt.xlabel("key", fontsize=20)
plt.ylabel("Profits", fontsize=20)
plt.show()

visto che il grafico così è poco leggibile rappresentiamo i risutlati in un altro modo

In [None]:
from wordcloud import WordCloud, STOPWORDS
import nltk
from nltk.corpus import stopwords
#nltk.download("stopwords")
from nltk.tokenize import word_tokenize


plt.subplots(figsize=(12,12))
stop_words=set(stopwords.words('english'))
stop_words.update(',',';','!','?','.','(',')','$','#','+',':','...',' ','')

Movies['keywords'].dropna(inplace=True)
Movies['keywords'] = Movies['keywords'].astype(str)
words=Movies['keywords'].apply(nltk.word_tokenize)
word=[]
for i in words:
    word.extend(i)
word=pd.Series(word)
word=([i for i in word.str.lower() if i not in stop_words])
wc = WordCloud(background_color="black", max_words=4000,stopwords=STOPWORDS, max_font_size= 60,width=1000,height=1000)
wc.generate(" ".join(word))
plt.imshow(wc)
plt.axis('off')
fig=plt.gcf()
fig.set_size_inches(10,10)
plt.show()

si può fare altro, ma ora ci spostiamo su altro...

### qualitiativo 3: paesi di produzione ###

1. Troviamo e salviamo tutti i paesi di produzione del dataframe

In [None]:
countries=[]
for row in Movies.index:
    _countries = Movies.loc[row,'production_countries']
    for k in _countries:
        if k not in countries:
            countries.append(k)

print(len(countries))
print(countries)

2. definiamo una funzione che dato un pease di produzine calcoli il profitto dei film girati li

In [None]:
def country_average_profit(country):
    sum = 0
    count = 0
    for row in Movies.index:
        if (country in Movies.loc[row, 'production_countries'] and Movies.loc[row, 'profit_perc'] >= 0):
            sum += Movies.loc[row, 'profit_perc']
            count+=1
    if count != 0:
        return sum/count
    else:
        return -1

3. creiamo una hashmap in cui associamo ad ogni paese di produzione il relativo profitto, mettendo in bad_countries i paesi i cui film non hanno info sufficienti per il calcolo dei profitti

In [None]:
country_profits={} #declared as hashmap
bad_countries=[] #TODO: si può fare subito set o serve array?
for c in countries:
    q = country_average_profit(c)
    if q != -1:
        country_profits[str(c)]=q
    else:
        bad_countries.append(c)

4. rimuoviamo i paesi di produzione dei cui film non abbiamo info

In [None]:
set_countries = set(countries)
bad_countries_set = set(bad_countries)
set_countries_cleaned = set_countries - bad_countries_set


print("Numero di paesi di produzione totali:\t\t",len(set_countries))
print("Numero di paesi di produzione da scartare:\t",len(bad_countries_set))
print("Numero di paesi di produzione da analizzare:\t",len(set_countries_cleaned))
print("Numero di profit per paese da analizzare:\t",len(country_profits))


5. mettiamo in un array, nel giusto ordine, i profitti da plottare

In [None]:
country_profits_plot = []
for el in set_countries_cleaned:
    country_profits_plot.append(country_profits[str(el)])

In [None]:
fig, ax = plt.subplots()
ax.bar(list(set_countries_cleaned),list(country_profits_plot))
fig.set_figwidth(20)
fig.set_figheight(13)
plt.xticks(rotation=90,fontsize=15)
plt.yticks(fontsize=15)
plt.xlabel("key", fontsize=20)
plt.ylabel("Profits", fontsize=20)
plt.show()

6. Notiamo un valore molto alto per la Jamaica, ci stupisce. Controlliamo quanti e quali film ci sono

In [None]:
for row in Movies.index:
    if 'JM' in Movies.loc[row,'production_countries']:
        print(Movies.loc[row,'profit_perc'])

solo due, dobbiamo fare lo stesso lavoro fatto per le keywords sulla frequenza

In [None]:
#TODO: fare country con frequenza

******************************************************************************************************************************************
******************************************************************************************************************************************

## Logaritmi, decidere dove va fatto!!##

purtroppo la distrubuzione dei profitti è pessima e potrebbe portare a delle rpoblematiche future, per migliorarla possiamo applicare la funzione logaritmica

In [None]:
#TODO: separare in due fasi, prima stampiamo la distribuzione, poi diciamo che fa cagare e dopo applichiamo log e diciamo che va meglio
Movies['log_perc'] = np.log(Movies['profit_perc'])
fig, ax = plt.subplots(figsize = (16, 6))
plt.subplot(1,2,1)
plt.hist(Movies['profit_perc'])
plt.title('Distribution of Profits%')
plt.subplot(1,2,2)
plt.hist(Movies['log_perc'])
plt.title('Log Distribution of Profits%')
plt.show()



Il grafico sembra dire che il log ha funzionato, controliamo la skewness

In [None]:
print('Skewness : %f '% Movies['profit_perc'].skew())
print('Applied Log Skewness : %f '% Movies['log_perc'].skew())


i risutlati confermano quanto suggerito dal grafico, analizziamo ancora come la distribuzione sia cambiata e quanto effettivamente sia migliorata

In [None]:
sns.distplot(Movies['profit_perc'])
plt.figure(figsize=(16,6))
plt.legend(['Profit'])
plt.title('Profit Perc')
sns.distplot(Movies['log_perc'])
plt.legend(['Profit'])
plt.title('Log Profit Perc')
plt.show()

miglioratissima....ossia studiamo bene cosa vogliono dire sti grafici

******************************************************************************************************************************************
******************************************************************************************************************************************

## Dataset unito a crew ##

**Iniziamo a lavorare con il dataset contenente il cast e il direttore**

In [None]:
Movies.columns

In [95]:
cast = pd.read_csv("tmdb_5000_credits.csv")

In [96]:
feat_to_manage = ['cast','crew']
for f in feat_to_manage:
    cast[f] = cast[f].apply(literal_eval)

#Two functions that convert directors and actors from json to list-str
def get_director(x):
    for i in x:
        if i['job'] == 'Director':
            return i['name']
    return np.nan

def get_actors(x): #TODO:si può usare senza fare modifiche get_name?
    if isinstance(x, list):
        names = [i['name'] for i in x]
        
        return names
    return []

In [97]:
#Create two new column correctly formatted
cast['director'] = cast['crew'].apply(get_director)
cast['actors'] = cast['cast'].apply(get_actors)

In [98]:
#Drop old columns
cast.drop('cast',inplace=True,axis=1)
cast.drop('crew',inplace=True,axis=1)
cast.drop('title',inplace=True,axis=1)



In [99]:
#rename Movie_id to id, preparing for the merge
cast = cast.rename(columns={'movie_id': 'id'})

#Merge two dataframe Movies,cast
full_df = pd.merge(Movies,cast,on="id",how="inner")
#full_df.to_csv("updated.csv")

Let's see how many times actors appears in different films

In [None]:

actors=[]


for i in full_df['actors']:
    actors.extend(i)

actors = list(filter(None, actors))


plt.subplots(figsize=(12,10))
ax=pd.Series(actors).value_counts()[:15].sort_values(ascending=True).plot.barh(width=0.9,color=sns.color_palette('inferno_r',40))
for i, v in enumerate(pd.Series(actors).value_counts()[:15].sort_values(ascending=True).values): 
    ax.text(.8, i, v,fontsize=10,color='white',weight='bold')

plt.title('Actors with highest appearance')
ax.patches[14].set_facecolor('r')
plt.show()


### Registi ##

In [None]:
directors=[]


for i in full_df['director']:
    directors.append(i)

directors = list(filter(None, directors))


plt.subplots(figsize=(12,10))
ax=pd.Series(directors).value_counts()[:34].sort_values(ascending=True).plot.barh(width=0.9,color=sns.color_palette('inferno_r',40))
for i, v in enumerate(pd.Series(directors).value_counts()[:34].sort_values(ascending=True).values): 
    ax.text(.8, i, v,fontsize=10,color='white',weight='bold')

plt.title('Directors with highest appearance')
ax.patches[14].set_facecolor('r')
plt.show()

Calcoliamo Score medio per i registi più presenti(>= 10)

In [None]:
#Filter the directors with made films >= 10,then calculate the mean scores
#Dovrebbe fare lo stesso lavoro di score_for_director applicato poi alla hashmap, quindi ho rimosso entrambe

director_group = full_df.groupby('director').filter(lambda x : len(x) >= 10)
mean_scores = director_group.groupby('director')['score'].mean().sort_values(ascending=False).reset_index(name="score")

In [None]:
fig, ax = plt.subplots()
ax.bar(mean_scores['director'],mean_scores['score'])
fig.set_figwidth(20)
fig.set_figheight(13)
plt.xticks(rotation=90,fontsize=15)
plt.yticks(fontsize=15)
plt.xlabel("Directors", fontsize=20)
plt.ylabel("Scores", fontsize=20)
plt.show()

cerchiamo non rating ma score: Fatto ^

******************************************************************************************************************************************
******************************************************************************************************************************************

## Dati quantitativi ##

prendiamo solo il primo valore dei quantitativi 


In [None]:

#Get only the first genre of each films,
full_df['genres'] = full_df.apply(lambda x: x['genres'][0] if len(x['genres'])>0 else None, axis=1)
#attori
full_df['actors'] = full_df.apply(lambda x: x['actors'][0] if len(x['actors'])>0 else None, axis=1)
#keywords
full_df['keywords'] = full_df.apply(lambda x: x['keywords'][0] if len(x['keywords'])>0 else None, axis=1)


******************************************************************************************************************************************
******************************************************************************************************************************************

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split


In [None]:
encoder = LabelEncoder()
full_df['director'] = encoder.fit_transform(full_df['director'])
full_df['genres'] = encoder.fit_transform(full_df['genres'])
full_df['actors'] = encoder.fit_transform(full_df['actors'])


## random forest ##

vogliamo predire la budget_class

In [None]:
#full_df.loc[full_df['score'].isna()]
full_df = full_df.dropna(subset=['score'])#poi provare a sostituire nulli con media
full_df.dropna(subset=['profit_perc'],inplace=True)

#print(full_df['score'].tail)
#print(full_df.isnull().sum())
#full_df.query('keywords == "None"')
#print(full_df[len(full_df['keywords']) != 0].count())

mappiamo in binario le qualitative che vogliamo usare

In [None]:
#genere
one_hot = OneHotEncoder()
gen_encoded = one_hot.fit_transform(full_df[['genres']])
full_df[one_hot.categories_[0]] = gen_encoded.toarray()




In [None]:

to_drop = ['actors','id','genres','vote_average','vote_count','keywords','overview','production_companies','production_countries','original_language','release_date','status','tagline','title','director']
full_df = full_df.drop(to_drop,axis=1)

In [None]:
def profit_range(x):
    if x <= 0: #x==NaN
        return "money loss"
    if x < 1.088395e+02:
        return "low_profit"
    elif x >= 1.088395e+02 and x < 2.308242e+02:
        return "medium_profit"
    elif x >= 2.308242e+02 and x < 4.784476e+02:
        return "high_profit"
    else:
        return "Big Money"


In [None]:
budget_encoded = one_hot.fit_transform(full_df[['profit_class']])
full_df[one_hot.categories_[0]] = budget_encoded.toarray()
#full_df.drop('budget_class',axis=1,inplace=True)

In [None]:
full_df = full_df.assign(profit_class = lambda x: str(x.profit_perc))
for row in full_df.index:
    full_df.loc[row,'profit_class'] =  profit_range(full_df.loc[row,'profit_perc'])


In [None]:
#full_df.drop('budget_class',inplace=True,axis=1)

In [None]:
fc = full_df.pop('profit_class')
full_df.insert(0,'profit_class',fc)
#full_df = full_df.iloc[: ,-3]
full_df.iloc[:,1:]

In [None]:
X = full_df.iloc[:, 1:]
y = full_df['profit_class']
X_train, X_test, y_train, y_test = train_test_split(X,y,stratify=y,test_size=0.3,random_state=100)

forest = RandomForestClassifier(n_estimators=100, random_state=100)

In [None]:
# Fitting a model and making predictions
forest.fit(X_train,y_train)
predictions = forest.predict(X_test)

In [None]:
from sklearn import metrics
print("Accuracy : ",metrics.accuracy_score(y_test,predictions))

In [None]:
from sklearn.tree import plot_tree

fig = plt.figure(figsize=(150,100))
plot_tree(forest.estimators_[0],feature_names=X.columns,class_names=full_df['profit_class'].unique(),filled=True,rounded=True)
plt.show()



Non sapevo come fare con le foreste, sono andato con le similarità tra film

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
tfidf = TfidfVectorizer(stop_words="english")
full_df['overview'] = full_df['overview'].fillna('')
tfidf_matr = tfidf.fit_transform(full_df['overview'])
print(tfidf_matr)

In [None]:
from sklearn.metrics.pairwise import linear_kernel
cosine_similarity = linear_kernel(tfidf_matr,tfidf_matr)
cosine_similarity

In [None]:
indices = pd.Series(full_df.index, index=full_df['title']).drop_duplicates()


In [None]:
print(full_df.query('title == "The Sting"')['overview'])

In [None]:
#Recommendation using cosine similarity
def get_recommendations(title, cosine_similarity=cosine_similarity):
    # Get the index of the movie that matches the title
    idx = indices[title]

    # Get the pairwise similarity scores of all movies with that movie
    sim_scores = list(enumerate(cosine_similarity[idx]))
    #print(sim_scores)
    # Sort the movies based on the similarity scores
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    #print(sim_scores)
    # Get the scores of the 10 most similar movies
    sim_scores = sim_scores[1:11]

    # Get the movie indices
    movie_indices = [i[0] for i in sim_scores]

    # Return the top 10 most similar movies
    return full_df['title'].iloc[movie_indices]


In [120]:
get_recommendations('The Godfather')

2731     The Godfather: Part II
1873                 Blood Ties
867     The Godfather: Part III
3727                 Easy Money
3623                       Made
3125                     Eulogy
3896                   Sinister
4506            The Maid's Room
3783                        Joe
2244      The Cold Light of Day
Name: title, dtype: object

**Recommendations using keyword,actors and director**

In [110]:
# Import CountVectorizer and create the count matrix
from sklearn.feature_extraction.text import CountVectorizer
# Compute the Cosine Similarity matrix based on the count_matrix
#from sklearn.metrics.pairwise import cosine_similarity

In [111]:
def clean_data(x):
    if isinstance(x, list):
        return [str.lower(i.replace(" ", "")) for i in x]
    else:
        #Check if director exists. If not, return empty string
        if isinstance(x, str):
            return str.lower(x.replace(" ", ""))
        else:
            return ''

In [112]:
# Apply clean_data function to your features.
features = ['actors', 'keywords', 'director', 'genres']

for feature in features:
    full_df[feature] = full_df[feature].apply(clean_data)

In [123]:
def create_soup(x):
    return ' '.join(x['keywords']) + ' ' + ' '.join(x['actors']) + ' ' + x['director'] + ' ' + ' '.join(x['genres'])
full_df['soup'] = full_df.apply(create_soup, axis=1)

In [124]:
count = CountVectorizer(stop_words='english')
count_matrix = count.fit_transform(full_df['soup'])
cosine_sim2 = cosine_similarity(count_matrix, count_matrix)
# Reset index of our main DataFrame and construct reverse mapping as before
full_df = full_df.reset_index()
indices = pd.Series(full_df.index, index=full_df['title'])

In [125]:
get_recommendations("The Godfather", cosine_sim2)

2731      The Godfather: Part II
867      The Godfather: Part III
4638    Amidst the Devil's Wings
4209            The Conversation
3293                 10th & Wolf
2255                   The Yards
1394               Donnie Brasco
3012               The Outsiders
4124          This Thing of Ours
1018             The Cotton Club
Name: title, dtype: object

droppare i nan
mettere in codifica hot il primo elemento delle colonne colonne:
    genere
    keyword
    director
    attori
    paese produ
    
_____________________________________________________________________
fare random forest che predice score/popul/rev/profit/altro usando le colonne fatte sopra
    

******************************************************************************************************************************************
******************************************************************************************************************************************

#TOTO: 

Toccherà caccaire nel cesso le hashmap

non è che tocca lavorare sui profitti ottenuti col logaritmo?

trovare modo per selezionare solo le country utili (con abbastanza film)

#mettere al posto dei -1 i NaN ma solo nella singola colonna non su tutta la riga
 
Qualitativi --> plot e contare, no correlazioni

sarebbe carino trovare sia le key con più profitto tra le più comuni sia le più comuni tra quelle con più profitto

#Eliminare valori inutile e insensati anche per revenue e "segnarli"
#Ricalcolare profit selezinando solo i film con valori sensati (!=-1)

Plottare profitto in base a:
    #genere
    keyword
    paese prod
    lingua originale (forse)

Plottare count dei generi in per ogni paese di prod (ad esempio giappone potrebbe avere più animazione della GB)

\************************************************

Dati quantitativi --> matematica:

Provare corr tra profitto(non revenue) e budget 
Provare corr tra profitto(non revenue) e score 
Provare corr tra profitto(non revenue) e popularity 

.
.
.
.

usiamo tutte le verità scoperte per fare varie predizioni
