# JUPITER NOTEBOOK #

Il dataset è così composto:
Ogni riga in ogni file ha un id univoco, che può essere utilizzato per collegare i file tra loro.
Ogni id si riferisce ad un film diverso, con crew, attori, generi, paesi, lingue, etc.
Inoltre non serve una conversione perchè i valori sono già in un formato standard. Inoltre il tipo object è usato per stringhe e anche dopo la conversione continua ad essere object, quindi non c'è bisogno di convertire i tipi.



### Import delle librerie ###

In [64]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import os
import numpy as np

### Caricamento dei dati ###

In [65]:

# Percorsi dei main file
data_path_actors = os.path.join('Data', 'Main', 'actors.csv')
data_path_countries = os.path.join('Data', 'Main', 'countries.csv')
data_path_crews = os.path.join('Data', 'Main', 'crew.csv')
data_path_genres = os.path.join('Data', 'Main', 'genres.csv')
data_path_languages = os.path.join('Data', 'Main', 'languages.csv')
data_path_movies = os.path.join('Data', 'Main', 'movies.csv')
data_path_posters = os.path.join('Data', 'Main', 'posters.csv')
data_path_releases = os.path.join('Data', 'Main', 'releases.csv')
data_path_studios = os.path.join('Data', 'Main', 'studios.csv')
data_path_themes = os.path.join('Data', 'Main', 'themes.csv')

# Percorsi dei side file
data_path_rotten_tomatoes = os.path.join('Data', 'Side', 'rotten_tomatoes_reviews.csv')
data_path_oscar = os.path.join('Data', 'Side', 'the_oscar_awards.csv')

# Carica i dataframe
actors_df = pd.read_csv(data_path_actors)
countries_df = pd.read_csv(data_path_countries)
crews_df = pd.read_csv(data_path_crews)
genres_df = pd.read_csv(data_path_genres)
languages_df = pd.read_csv(data_path_languages)
movies_df = pd.read_csv(data_path_movies)
posters_df = pd.read_csv(data_path_posters)
releases_df = pd.read_csv(data_path_releases)
studios_df = pd.read_csv(data_path_studios)
themes_df = pd.read_csv(data_path_themes)

rotten_tomatoes_df = pd.read_csv(data_path_rotten_tomatoes)
oscar_df = pd.read_csv(data_path_oscar)

## Analisi di Actors ##

Actors rappresenta per ogni film (rappresentato dal suo id) il nome dell'attore e il ruolo che ha interpretato durante il film.

In [66]:
print(actors_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5798450 entries, 0 to 5798449
Data columns (total 3 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   id      int64 
 1   name    object
 2   role    object
dtypes: int64(1), object(2)
memory usage: 132.7+ MB
None


### Controllo di attori nulli ###

In [67]:
print(actors_df.isna().sum())

id            0
name          4
role    1361559
dtype: int64


Abbiamo degli attori di cui è presente l'id del film a cui hanno partecipato ma non il loro nome. Questi attori verranno rimossi.
Ecco suddetti attori:

In [68]:
# Print rows with null 'name'
null_name_rows = actors_df[actors_df['name'].isna()]
print("Rows with null 'name':")
print(null_name_rows)

Rows with null 'name':
              id name            role
4145738  1443629  NaN             NaN
4281100  1469981  NaN            Self
4306960  1474958  NaN  Cinematography
5430275  1773264  NaN             NaN


Non sono molto utili nell'analisi quindi si sceglie di rimuoverli

In [69]:
# Remove rows with null 'name'
actors_df = actors_df.dropna(subset=['name'])

# Check if there are any more null 'name' values
null_name_count = actors_df['name'].isna().sum()
if null_name_count == 0:
    print("No rows with null 'name' remain.")
else:
    print(f"There are still {null_name_count} rows with null 'name'.")

No rows with null 'name' remain.


### Rimozione Attori Duplicati ###

Per il criterio di rimozione dei duplicati, si è scelto di mantenere la prima occorrenza di ogni attore duplicato. Un attore duplicato ha tutti i campi uguali dato che ad esempio un attore può avere più ruoli nello stesso film, o lo stesso ruolo in due film diversi (es. sequel di film).

#### Stampa degli attori duplicati ####

In [70]:
# Create a copy of the original DataFrame
actors_df_copy = actors_df.copy()

# Create a new column 'duplicate_count' with the number of duplicates for each row
actors_df_copy['duplicate_count'] = actors_df_copy.groupby(['name', 'role', 'id'])['name'].transform('count')

# Filter rows where 'duplicate_count' is greater than 1
duplicates_df = actors_df_copy[actors_df_copy['duplicate_count'] > 1]

# Print the duplicate actors and the number of duplicates
print("Duplicate actors:")
duplicates_df[['name', 'role', 'id', 'duplicate_count']]


Duplicate actors:


Unnamed: 0,name,role,id,duplicate_count
3967,Rosie Jones,Lady of the Boot of Jemiah,1000062,2.0
3993,Rosie Jones,Lady of the Boot of Jemiah,1000062,2.0
44615,Karel Heřmánek,Czech Injured Man,1000797,2.0
44642,Karel Heřmánek,Czech Injured Man,1000797,2.0
47806,Michael Fennimore,Car Salesman,1000863,2.0
...,...,...,...,...
5788273,Matthew Evancic,Don Montana (voice),1935866,3.0
5792882,Gudni Oddgeirsson,Interviewee,1939290,2.0
5792884,Gudni Oddgeirsson,Interviewee,1939290,2.0
5795227,Ann Victorin,other voices,1940468,2.0


Come possiamo notare ci sono attori duplicati anche 3 volte, quindi procediamo con la rimozione.

In [71]:
# Counting the total number of duplicates
total_duplicates = duplicates_df['duplicate_count'].sum()
print(f"Total number of duplicates: {total_duplicates}")

Total number of duplicates: 2133.0


Questa operazione permette di alleggerire il dataset e di avere una visione più precisa dei dati.

##### Rimozione degli attori duplicati #####

In [72]:
# Rimuovi i duplicati
actors_df = actors_df.drop_duplicates(subset=['name', 'role', 'id'], keep='first')

# Controlla se ci sono ancora duplicati
remaining_duplicates = actors_df.duplicated(subset=['name', 'role', 'id']).sum()

# Stampa il risultato
if remaining_duplicates == 0:
    print("Non ci sono duplicati rimanenti.")
else:
    print(f"Ci sono ancora {remaining_duplicates} duplicati rimanenti.")

Non ci sono duplicati rimanenti.


## Analisi di Countries ##

Countries non ha bisogno di pulizia in quanto non ci sono valori nulli, duplicati o mancanti.

In [73]:
print(countries_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 693476 entries, 0 to 693475
Data columns (total 2 columns):
 #   Column   Non-Null Count   Dtype 
---  ------   --------------   ----- 
 0   id       693476 non-null  int64 
 1   country  693476 non-null  object
dtypes: int64(1), object(1)
memory usage: 10.6+ MB
None


In [74]:
# Controlla se ci sono duplicati nel DataFrame 'countries_df'
duplicate_rows = countries_df[countries_df.duplicated()]

# Stampa le righe duplicate
if not duplicate_rows.empty:
    print("Righe duplicate trovate:")
    print(duplicate_rows)
else:
    print("Non ci sono duplicati nel DataFrame 'countries_df'.")

Non ci sono duplicati nel DataFrame 'countries_df'.


## Analisi di Crews ##

Crews rappresenta per ogni film (rappresentato dal suo id) il nome della persona coinvolta nella produzione del film e il ruolo che ha ricoperto.

### Controllo di Crews ###

In [75]:
print(crews_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4720183 entries, 0 to 4720182
Data columns (total 3 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   id      int64 
 1   role    object
 2   name    object
dtypes: int64(1), object(2)
memory usage: 108.0+ MB
None


Crews contiene tre colonne, che sono id (riferimento al film), name (nome della persona coinvolta nella produzione del film) e role (ruolo che ha ricoperto).

### Controllo elementi di Crews Nulli ###

In [76]:
print(crews_df.isna().sum())

id      0
role    0
name    1
dtype: int64


Abbiamo un solo record con 'name' nullo, che verrà rimosso perchè potrebbe essere inserito nel dataset successivamente in modo corretto.

### Stampa elementi di Crews Nulli ###

In [77]:
# Print rows with null 'name'
null_name_rows = crews_df[crews_df['name'].isna()]

print("Rows with null 'name':")
null_name_rows

Rows with null 'name':


Unnamed: 0,id,role,name
4562126,1859397,Writer,


### Rimozione elementi di Crews Nulli ###

In [78]:
# Remove rows with null 'name'
crews_df = crews_df.dropna(subset=['name'])

# Check if there are any more null 'name' values
null_name_count = crews_df['name'].isna().sum()
if null_name_count == 0:
    print("No rows with null 'name' remain.")
else:
    print(f"There are still {null_name_count} rows with null 'name'.")


No rows with null 'name' remain.


### Rimozione Crews Duplicati ###

In [79]:
# Create a copy of the original DataFrame
crews_df_copy = crews_df.copy()

# Create a new column 'duplicate_count' with the number of duplicates for each row
crews_df_copy['duplicate_count'] = crews_df_copy.groupby(['name', 'role', 'id'])['name'].transform('count')

# Filter rows where 'duplicate_count' is greater than 1
duplicates_df = crews_df_copy[crews_df_copy['duplicate_count'] > 1]

# Print the duplicate crews and the number of duplicates
print("Duplicate crews:")
duplicates_df[['name', 'role', 'id', 'duplicate_count']]

Duplicate crews:


Unnamed: 0,name,role,id,duplicate_count
1680,Chris Webb,Stunts,1000018,2
1721,Chris Webb,Stunts,1000018,2
2690,Sarah Irwin,Stunts,1000031,3
2691,Sarah Irwin,Stunts,1000031,3
2692,Sarah Irwin,Stunts,1000031,3
...,...,...,...,...
4718342,Choe Yeong-sik,Assistant director,1940904,2
4719627,Josh Earl,Executive producer,1941357,2
4719628,Josh Earl,Executive producer,1941357,2
4720108,Oscar van Hoogevest,Sound,1941521,2


Come possiamo notare ci sono crew duplicati anche 3 volte, quindi procediamo con la rimozione.

In [80]:
# Rimuovi i duplicati
crews_df = crews_df.drop_duplicates(subset=['name', 'role', 'id'], keep='first')

# Controlla se ci sono ancora duplicati
remaining_duplicates = crews_df.duplicated(subset=['name', 'role', 'id']).sum()

# Stampa il risultato
if remaining_duplicates == 0:
    print("Non ci sono duplicati rimanenti.")
else:
    print(f"Ci sono ancora {remaining_duplicates} duplicati rimanenti.")


Non ci sono duplicati rimanenti.


## Analisi di Genres ##

Genres rappresenta per ogni film (rappresentato dal suo id) il genere a cui appartiene. Per un film ci possono essere più generi, questo dipende dal tipo di film, un esempio di generi può essere "Azione, Avventura, Commedia" ecc...

In [81]:
print(genres_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1046849 entries, 0 to 1046848
Data columns (total 2 columns):
 #   Column  Non-Null Count    Dtype 
---  ------  --------------    ----- 
 0   id      1046849 non-null  int64 
 1   genre   1046849 non-null  object
dtypes: int64(1), object(1)
memory usage: 16.0+ MB
None


Come possiamo vedere abbiamo due colonne, id (riferimento al film) e genre (genere del film).

In [82]:
print(genres_df.isna().sum())

id       0
genre    0
dtype: int64


Non abbiamo valori nulli da rimuovere.

In [83]:
# Create a copy of the original DataFrame
genres_df_copy = genres_df.copy()

# Create a new column 'duplicate_count' with the number of duplicates for each row
genres_df_copy['duplicate_count'] = genres_df_copy.groupby(['genre', 'id'])['genre'].transform('count')

# Filter rows where 'duplicate_count' is greater than 1
duplicates_df = genres_df_copy[genres_df_copy['duplicate_count'] > 1]

# Print the duplicate genres and the number of duplicates
print("Duplicate genres:")
duplicates_df[['genre', 'id', 'duplicate_count']]

Duplicate genres:


Unnamed: 0,genre,id,duplicate_count


Non ci sono nè duplicati, nè entry inserite male da rimuovere.

## Analisi di Languages ##

Languages rappresenta per ogni film (rappresentato dal suo id) la lingua in cui è stato girato. Per un film ci possono essere più lingue, questo dipende dal tipo di film, un esempio di lingue può essere "Inglese, Italiano, Francese" ecc...
Abbiamo varie distinzioni delle lingue usate in un film, ad esempio type include "Primary language", "Spoken language" o "Language" più nel generico. Ad esempio Parasite (id 1000002) ha come lingua originale il coreano e come lingua parlata l'inglese e il tedesco. Queste sono lingue parlate nel film originale e non si riferiscono agli adattamenti.

In [84]:
print(languages_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1038762 entries, 0 to 1038761
Data columns (total 3 columns):
 #   Column    Non-Null Count    Dtype 
---  ------    --------------    ----- 
 0   id        1038762 non-null  int64 
 1   type      1038762 non-null  object
 2   language  1038762 non-null  object
dtypes: int64(1), object(2)
memory usage: 23.8+ MB
None


In [85]:
print(languages_df.isna().sum())

id          0
type        0
language    0
dtype: int64


Non abbiamo valori nulli da rimuovere.

In [86]:
# Create a copy of the original DataFrame
languages_df_copy = languages_df.copy()

# Create a new column 'duplicate_count' with the number of duplicates for each row
languages_df_copy['duplicate_count'] = languages_df_copy.groupby(['language','type','id'])['language'].transform('count')

# Filter rows where 'duplicate_count' is greater than 1
duplicates_df = languages_df_copy[languages_df_copy['duplicate_count'] > 1]

# Print the duplicate languages and the number of duplicates
print("Duplicate languages:")
duplicates_df[['language', 'type', 'id', 'duplicate_count']]

Duplicate languages:


Unnamed: 0,language,type,id,duplicate_count


Non ci sono duplicati da rimuovere.

## Analisi di Movies ##

Movies è il dataframe principale a cui si collegano tutti gli altri attraverso la colonna id. Contiene informazioni sui film come il titolo, la data di uscita, la durata, il rating e il budget speso nella creazione. Queste sono ritenute le informazioni più importanti dal creatore del set.

In [87]:
print(movies_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 941597 entries, 0 to 941596
Data columns (total 7 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   id           941597 non-null  int64  
 1   name         941587 non-null  object 
 2   date         849684 non-null  float64
 3   tagline      139387 non-null  object 
 4   description  780785 non-null  object 
 5   minute       760027 non-null  float64
 6   rating       90999 non-null   float64
dtypes: float64(3), int64(1), object(3)
memory usage: 50.3+ MB
None


Come possiamo notare abbiamo molte colonne con valori nulli, alcune non sono considerate essenziali per il riconoscimento del film, ma servono per la successiva analisi di essi. Ad esempio rating ha molti valori nulli, che lasceremo nulli perchè riempirli con la media di tutti gli altri film costituisce una distorsione del dato singolo. Inoltre sarebbe più difficile successivamente riconoscere i film con rating nulli e all'inserimento di nuovi film sarebbe da ricalcolare la media.

Abbiamo 10 film senza nome e valori nulli in altre colonne, ma che non rimuoveremo perché potrebbero essere utili come informazioni parziali. In futuro colonne problematiche come date, minute e rating verranno considerate.

In [88]:
print(movies_df.isna().sum())

id                  0
name               10
date            91913
tagline        802210
description    160812
minute         181570
rating         850598
dtype: int64


In [89]:
# Print rows with null 'name'
null_title_rows = movies_df[movies_df['name'].isna()]
print("Rows with null 'name':")
null_title_rows

Rows with null 'name':


Unnamed: 0,id,name,date,tagline,description,minute,rating
287514,1287515,,2015.0,,NONE is a short film that explores the balance...,4.0,
617642,1617643,,,,,,
646520,1646521,,2008.0,,,,
648185,1648186,,,,,,
720294,1720295,,,,"In this directorial debut of Eden Ewardson, he...",8.0,
725369,1725370,,,,,,
741481,1741482,,,,,90.0,
840337,1840338,,,,,,
883228,1883229,,,,,,
894771,1894772,,,,,,


Ecco un esempio di film senza nome, che verrà rimosso in quanto non è possibile identificarlo, inoltre potrebbe interferire con la statistica di altri film.

In [90]:
# Remove rows with null 'name'
movies_df = movies_df.dropna(subset=['name'])

# Check if there are any more null 'name' values
null_name_count = movies_df['name'].isna().sum()
if null_name_count == 0:
    print("No rows with null 'name' remain.")
else:
    print(f"There are still {null_name_count} rows with null 'name'.")

No rows with null 'name' remain.


In [91]:
# Create a copy of the original DataFrame
movies_df_copy = movies_df.copy()

# Create a new column 'duplicate_count' with the number of duplicates for each row
movies_df_copy['duplicate_count'] = movies_df_copy.groupby(['id'])['id'].transform('count')

# Filter rows where 'duplicate_count' is greater than 1
duplicates_df = movies_df_copy[movies_df_copy['duplicate_count'] > 1]

# Print the duplicate movies and the number of duplicates
print("Duplicate movies:")
duplicates_df[['id','name', 'date', 'rating', 'minute', 'duplicate_count']]

Duplicate movies:


Unnamed: 0,id,name,date,rating,minute,duplicate_count


Non ci sono film duplicati da rimuovere.

## Analisi di Posters ##


Posters è un frame che rappresenta per ogni film (rappresentato dal suo id) il link al poster del film, questo è utile per una visualizzazione migliorata dei dati ad esempio nell'implementazione di un sito web.

In [92]:
print(posters_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 941597 entries, 0 to 941596
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   id      941597 non-null  int64 
 1   link    760885 non-null  object
dtypes: int64(1), object(1)
memory usage: 14.4+ MB
None


In [93]:
print(posters_df.isna().sum())

id           0
link    180712
dtype: int64


Ci sono alcuni film senza poster, non li rimuoveremo perchè in un secondo momento potrebbero essere aggiunti usando l'id per la ricerca di essi.

In [94]:
posters_df_copy = posters_df.copy()
posters_df_copy['duplicate_count'] = posters_df_copy.groupby(['id'])['id'].transform('count')
duplicates_df = posters_df_copy[posters_df_copy['duplicate_count'] > 1]
print("Duplicate posters:")
duplicates_df[['id', 'duplicate_count']]


Duplicate posters:


Unnamed: 0,id,duplicate_count


Non ci sono poster duplicati da rimuovere.

## Analisi di Releases ##

Releases Rappresenta per ogni film (rappresentato dal suo id) il paese in cui è stato rilasciato, la data di rilascio e il tipo di rilascio (es. TV, DVD, Cinema). Questo è utile per capire in che paese è stato rilasciato il film e il supporto, inoltre in movies sono presenti molti record in cui non ci sono date di uscita, usiamo Releases per avere un anno di rilascio. Ci riferiremo alle date di uscita per avere un'idea generale dell'anno di rilascio.

### Controllo di Releases ###
Possiamo notare che il dataset è abbastanza completo, mancano solo dei rating che non sono obbligatori.

In [95]:
print(releases_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1332782 entries, 0 to 1332781
Data columns (total 5 columns):
 #   Column   Non-Null Count    Dtype 
---  ------   --------------    ----- 
 0   id       1332782 non-null  int64 
 1   country  1332782 non-null  object
 2   date     1332782 non-null  object
 3   type     1332782 non-null  object
 4   rating   333980 non-null   object
dtypes: int64(1), object(4)
memory usage: 50.8+ MB
None


### Controllo elementi di Releases Nulli ###
Come possiamo vedere abbiamo molti rating nulli

In [96]:
print(releases_df.isna().sum())

id              0
country         0
date            0
type            0
rating     998802
dtype: int64


I ratings non sono obbligatori, dato che variano da paese a paese. Non li rimuoveremo.

### Rimozione Releases Duplicati ###

In [97]:
# Checking for duplicates
releases_df_copy = releases_df.copy()
releases_df_copy['duplicate_count'] = releases_df_copy.groupby(['id', 'country', 'date','type'])['id'].transform('count')
duplicates_df = releases_df_copy[releases_df_copy['duplicate_count'] > 1]
print("Duplicate releases:")
duplicates_df[['id', 'country', 'date', 'duplicate_count']]

Duplicate releases:


Unnamed: 0,id,country,date,duplicate_count


Non ci sono duplicati da rimuovere.

### Aggiunta delle release date a Movies ###

Ristampiamo quanti valori nulli ha movies in date.

In [98]:
print(f"Numero di record in movies con valori nulli in date: {movies_df['date'].isna().sum()}")

Numero di record in movies con valori nulli in date: 91905


Aggiungiamo come preannunciato le date di uscita dei film in modo da avere un'idea generale dell'anno di rilascio.


In [99]:
# Group releases_df by 'id' and get the first release date for each group
first_releases = releases_df.sort_values('date').groupby('id').first().reset_index()

# Extract the year from the date column
first_releases['release_year'] = pd.to_datetime(first_releases['date']).dt.year

# Create a dictionary for quick lookup
release_year_dict = first_releases.set_index('id')['release_year'].to_dict()

first_releases


Unnamed: 0,id,country,date,type,rating,release_year
0,1000001,Mexico,2023-07-06,Premiere,PG-13,2023
1,1000002,France,2019-05-21,Premiere,15,2019
2,1000003,USA,2022-03-11,Premiere,M18,2022
3,1000004,Italy,1999-09-10,Premiere,R,1999
4,1000005,Italy,2016-08-31,Premiere,T,2016
...,...,...,...,...,...,...
826013,1940967,USA,1909-01-01,Theatrical,,1909
826014,1940968,Sweden,1908-11-11,Theatrical,,1908
826015,1940969,France,1902-01-01,Theatrical,,1902
826016,1940970,France,1902-01-01,Theatrical,,1902


In [100]:
# Update the date column in movies_df with release_year where date is null
movies_df['date'] = movies_df.apply(
    lambda row: release_year_dict.get(row['id']) if pd.isnull(row['date']) else row['date'], axis=1
)

# Print the number of null values in the date column
print(f"Numero di record in movies con valori nulli in date: {movies_df['date'].isna().sum()}")

Numero di record in movies con valori nulli in date: 91763


Abbiamo aggiunto qualche data di uscita ai film, ma non tutti i film hanno una data di uscita, quindi rimarranno nulli.

## Analisi di Studios ##

Studios rappresenta per ogni film (rappresentato dal suo id) lo studio che ha prodotto il film. Questo è utile per capire chi ha prodotto il film e per avere una visione generale del film. Molti film hanno più studios che li hanno prodotti, questo ci sarà utile in seguito per l'analisi

In [101]:
print(studios_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 679283 entries, 0 to 679282
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   id      679283 non-null  int64 
 1   studio  679273 non-null  object
dtypes: int64(1), object(1)
memory usage: 10.4+ MB
None


In [102]:
print(studios_df.isna().sum())

id         0
studio    10
dtype: int64


Abbiamo 10 studios senza nome, ma che in futuro potrebbero essere utili come informazioni parziali. Rinominiamo gli studios senza nome in 'Unknown'.

In [103]:
# Fill missing values in 'name' with 'Unknown'
studios_df['studio'] = studios_df['studio'].fillna('Unknown')

Notiamo che molti studios hanno dei duplicati, il che non ha molto senso perchè è un'informazione ridoondante. Rimuoviamo i duplicati.

In [104]:
# Checking for duplicates
studios_df_copy = studios_df.copy()
studios_df_copy['duplicate_count'] = studios_df_copy.groupby(['studio', 'id'])['studio'].transform('count')
duplicates_df = studios_df_copy[studios_df_copy['duplicate_count'] > 1]
print("Duplicate studios:")
duplicates_df[['studio', 'id', 'duplicate_count']]

Duplicate studios:


Unnamed: 0,studio,id,duplicate_count
145,Working Title Films,1000044,2
146,Working Title Films,1000044,2
485,Working Title Films,1000165,2
487,Working Title Films,1000165,2
809,Working Title Films,1000263,2
...,...,...,...
656807,Star Media,1863229,2
665452,Deutsche Film- und Fernsehakademie Berlin (DFFB),1888903,2
665454,Deutsche Film- und Fernsehakademie Berlin (DFFB),1888903,2
677099,Ministerstvo kultury ČR,1934998,2


In [105]:
# Remove duplicates
studios_df = studios_df.drop_duplicates(subset=['studio', 'id'], keep='first')

# Check if there are any duplicates left
remaining_duplicates = studios_df.duplicated(subset=['studio', 'id']).sum()

# Print the result
if remaining_duplicates == 0:
    print("No duplicates remain.")
else:
    print(f"There are still {remaining_duplicates} duplicates remaining.")

No duplicates remain.


## Analisi di Themes ##

Themes rappresenta per ogni film (rappresentato dal suo id) il tema del film. Questo è utile per capire il tema del film e per avere una visione generale del film. Ogni film ha più temi, descrittivi del film.

In [106]:
print(themes_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 125641 entries, 0 to 125640
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   id      125641 non-null  int64 
 1   theme   125641 non-null  object
dtypes: int64(1), object(1)
memory usage: 1.9+ MB
None


Non troviamo valori nulli del dataset.

In [107]:
print(themes_df.isna().sum())

id       0
theme    0
dtype: int64


In [108]:
# Checking for duplicates
themes_df_copy = themes_df.copy()
themes_df_copy['duplicate_count'] = themes_df_copy.groupby(['theme', 'id'])['theme'].transform('count')
duplicates_df = themes_df_copy[themes_df_copy['duplicate_count'] > 1]
print("Duplicate themes:")
duplicates_df[['theme', 'id', 'duplicate_count']]

Duplicate themes:


Unnamed: 0,theme,id,duplicate_count


Non ci sono duplicati.

## Analisi di Rotten Tomatoes Reviews ##

Questo dataset aggiunto contiene le recensioni del singolo film, purtroppo non è possibile collegarlo direttamente al film, ma si può fare attraverso il titolo del film. Questo dataset è utile per avere un'idea generale del film ma per l'analisi non aggiungeremo la media delle recensioni a movies, perchè i titoli potrebbero creare problemi di duplicati. Ad esempio ci sono molti film nel dataset con lo stesso titolo.

In [109]:
# Printing duplicates by name in movies_df with counts
duplicate_titles = movies_df[movies_df.duplicated(subset=['name'], keep=False)]
duplicate_titles_count = duplicate_titles['name'].value_counts()
print("Duplicate titles in movies_df:")
duplicate_titles_count

Duplicate titles in movies_df:


name
Home                143
Untitled            118
Alone               108
Mother               98
Love                 76
                   ... 
Transfert             2
Cap                   2
Dear Santa Claus      2
Police in a Pod       2
Horror Night          2
Name: count, Length: 55271, dtype: int64

Adesso stampiamo le informazioni del dataset.

In [110]:
print(rotten_tomatoes_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1129887 entries, 0 to 1129886
Data columns (total 9 columns):
 #   Column                Non-Null Count    Dtype 
---  ------                --------------    ----- 
 0   rotten_tomatoes_link  1129887 non-null  object
 1   movie_title           1129887 non-null  object
 2   critic_name           1111366 non-null  object
 3   top_critic            1129887 non-null  bool  
 4   publisher_name        1129887 non-null  object
 5   review_type           1129887 non-null  object
 6   review_score          823985 non-null   object
 7   review_date           1129887 non-null  object
 8   review_content        1064109 non-null  object
dtypes: bool(1), object(8)
memory usage: 70.0+ MB
None


Controlliamo adesso la non correlazione tra id di movies e rotten_tomatoes_link

In [113]:
# Extract the numeric part of the ID in rotten_tomatoes_df
rotten_tomatoes_df['numeric_id'] = rotten_tomatoes_df['rotten_tomatoes_link'].str.extract(r'm/(\d+)', expand=False)

# Create a new variable for the numeric ID, keeping NaN values
numeric_id_with_nan = rotten_tomatoes_df['numeric_id']

# Convert the extracted numeric ID to integer, ignoring NaN values
rotten_tomatoes_df['numeric_id'] = pd.to_numeric(rotten_tomatoes_df['numeric_id'], errors='coerce').astype('Int64')

# Merge the two DataFrames on the extracted numeric ID and movie title/name
merged_df = pd.merge(rotten_tomatoes_df, movies_df, left_on=['numeric_id', 'movie_title'], right_on=['id', 'name'], how='inner')

# Print the merged DataFrame to see the matching rows
print("Matching IDs with the same movie_title and name:")
print(merged_df[['numeric_id', 'movie_title', 'name']])

Matching IDs with the same movie_title and name:
Empty DataFrame
Columns: [numeric_id, movie_title, name]
Index: []


Come possiamo vedere non possiamo collegare direttamente il film al dataset tramite id perchè non coincidono.

### Controllo di Rotten Tomatoes ###
possiamo vedere varie recensioni con valori nulli, ma non verranno rimossi perchè potrebbero essere utili come informazioni parziali.

In [51]:
print(rotten_tomatoes_df.isna().sum())

rotten_tomatoes_link         0
movie_title                  0
critic_name              18521
top_critic                   0
publisher_name               0
review_type                  0
review_score            305902
review_date                  0
review_content           65778
dtype: int64


Non possiamo collegare direttamente il film al dataset tramite id perchè non coincidono

In [52]:
rotten_tomatoes_df.head(20)


Unnamed: 0,rotten_tomatoes_link,movie_title,critic_name,top_critic,publisher_name,review_type,review_score,review_date,review_content
0,m/0814255,Percy Jackson & the Olympians: The Lightning T...,Andrew L. Urban,False,Urban Cinefile,Fresh,,2010-02-06,A fantasy adventure that fuses Greek mythology...
1,m/0814255,Percy Jackson & the Olympians: The Lightning T...,Louise Keller,False,Urban Cinefile,Fresh,,2010-02-06,"Uma Thurman as Medusa, the gorgon with a coiff..."
2,m/0814255,Percy Jackson & the Olympians: The Lightning T...,,False,FILMINK (Australia),Fresh,,2010-02-09,With a top-notch cast and dazzling special eff...
3,m/0814255,Percy Jackson & the Olympians: The Lightning T...,Ben McEachen,False,Sunday Mail (Australia),Fresh,3.5/5,2010-02-09,Whether audiences will get behind The Lightnin...
4,m/0814255,Percy Jackson & the Olympians: The Lightning T...,Ethan Alter,True,Hollywood Reporter,Rotten,,2010-02-10,What's really lacking in The Lightning Thief i...
5,m/0814255,Percy Jackson & the Olympians: The Lightning T...,David Germain,True,Associated Press,Rotten,,2010-02-10,It's more a list of ingredients than a movie-m...
6,m/0814255,Percy Jackson & the Olympians: The Lightning T...,Nick Schager,False,Slant Magazine,Rotten,1/4,2010-02-10,Harry Potter knockoffs don't come more transpa...
7,m/0814255,Percy Jackson & the Olympians: The Lightning T...,Bill Goodykoontz,True,Arizona Republic,Fresh,3.5/5,2010-02-10,"Percy Jackson isn't a great movie, but it's a ..."
8,m/0814255,Percy Jackson & the Olympians: The Lightning T...,Jordan Hoffman,False,UGO,Fresh,B,2010-02-10,"Fun, brisk and imaginative"
9,m/0814255,Percy Jackson & the Olympians: The Lightning T...,Jim Schembri,True,The Age (Australia),Fresh,3/5,2010-02-10,"Crammed with dragons, set-destroying fights an..."


### Metodo di conversione del punteggio in percentuale ###

Per poter fare un'analisi più precisa dei dati, convertiamo il punteggio in percentuale. Questo ci permette di avere un'idea più precisa del punteggio e di confrontare i film tra loro, dato che varie recensioni hanno metodi di valutazione diversi

In [53]:
def convert_fraction_to_percentage(score):
    try:
        num, denom = map(float, score.split('/'))
        if denom > 0 and num <= denom:
            return round((num / denom) * 100,2)
        else:
            return np.nan
    except:
        return np.nan

def convert_letter_to_percentage(score):
    letter_to_percentage = {
        'A': 100,
        'A-': 90,
        'B+': 87,
        'B': 83,
        'B-': 80,
        'C+': 77,
        'C': 73,
        'C-': 70,
        'D+': 67,
        'D': 63,
        'D-': 60,
        'F': 50
    }
    return letter_to_percentage.get(score, np.nan)

def convert_to_percentage(score):
    if isinstance(score, str) and '/' in score:
        return convert_fraction_to_percentage(score)
    elif isinstance(score, str) and score in ['A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-', 'D+', 'D', 'D-', 'F']:
        return convert_letter_to_percentage(score)
    else:
        return np.nan

### Conversione del punteggio in percentuale ###

Lasciamo i film con valutazione nulla con valori nulli perchè potrebbero distorcere le analisi successive. Inoltre aggiungiamo al dataset la colonna review_score_percentage.

In [54]:
# Assuming 'review_score' is the column with the review scores
rotten_tomatoes_df['review_score_percentage'] = rotten_tomatoes_df['review_score'].apply(convert_to_percentage)

# Print the DataFrame to check the results
rotten_tomatoes_df[['movie_title', 'review_score', 'review_score_percentage']]

#rotten_tomatoes_df.loc[rotten_tomatoes_df['review_score']=='C+', ['movie_title', 'review_score', 'review_score_percentage']]

Unnamed: 0,movie_title,review_score,review_score_percentage
0,Percy Jackson & the Olympians: The Lightning T...,,
1,Percy Jackson & the Olympians: The Lightning T...,,
2,Percy Jackson & the Olympians: The Lightning T...,,
3,Percy Jackson & the Olympians: The Lightning T...,3.5/5,70.0
4,Percy Jackson & the Olympians: The Lightning T...,,
...,...,...,...
1129882,Zulu Dawn,2/5,40.0
1129883,Zulu Dawn,3.5/5,70.0
1129884,Zulu Dawn,B+,87.0
1129885,Zulu Dawn,3.5/5,70.0


### Controllo di duplicati in Rotten Tomatoes ###

Definiamo i campi da controllare per i duplicati, in questo caso consideriamo tutti i campi tranne l'id perchè non è univoco. Ad esempio due recensioni uguali ma con id diverso vengono considerate diverse.

In [55]:
# Define the fields to check for duplicates
fields = ['rotten_tomatoes_link', 'movie_title', 'critic_name', 'top_critic', 'publisher_name', 'review_type', 'review_score', 'review_date', 'review_content']

# Find duplicate rows based on the specified fields
duplicates_df = rotten_tomatoes_df[rotten_tomatoes_df.duplicated(subset=fields, keep=False)]

# Print the duplicate rows
print("Duplicate reviews based on specified fields:")
duplicates_df

Duplicate reviews based on specified fields:


Unnamed: 0,rotten_tomatoes_link,movie_title,critic_name,top_critic,publisher_name,review_type,review_score,review_date,review_content,review_score_percentage
35513,m/1069696-screamers,Screamers,Dave White,False,Movies.com,Fresh,B-,1996-01-26,,80.0
35514,m/1069696-screamers,Screamers,Dave White,False,Movies.com,Fresh,B-,1996-01-26,,80.0
35576,m/1069707-othello,Othello,Fred Topel,False,About.com,Fresh,4/5,2003-11-25,Fine Shakespeare adaptation,80.0
35577,m/1069707-othello,Othello,Fred Topel,False,About.com,Fresh,4/5,2003-11-25,Fine Shakespeare adaptation,80.0
41315,m/1087935-buena_vista_social_club,Buena Vista Social Club,,False,Film Threat,Fresh,4/5,2002-12-08,,80.0
...,...,...,...,...,...,...,...,...,...,...
955042,m/the_fog_of_war_eleven_lessons_from_the_life_...,The Fog of War: Eleven Lessons from the Life o...,,False,Film Threat,Fresh,4/5,2005-12-06,,80.0
959360,m/the_girl_with_the_dragon_tattoo_2009,The Girl with the Dragon Tattoo,,False,National Post,Fresh,3.5/4,2009-02-27,,87.5
959361,m/the_girl_with_the_dragon_tattoo_2009,The Girl with the Dragon Tattoo,,False,National Post,Fresh,3.5/4,2009-02-27,,87.5
1044907,m/together_2001,Together,,False,Film Threat,Fresh,4/5,2002-12-08,,80.0


#### Rimozione dei duplicati in Rotten Tomatoes ####

In [56]:
# Remove duplicates
rotten_tomatoes_df = rotten_tomatoes_df.drop_duplicates(subset=fields, keep='first')

# Check if there are any duplicates left
remaining_duplicates = rotten_tomatoes_df.duplicated(subset=fields).sum()

# Print the result
if remaining_duplicates == 0:
    print("No duplicates remain.")
else:
    print(f"There are still {remaining_duplicates} duplicates remaining.")

No duplicates remain.


## Analisi di The Oscar Awards ##

The Oscar Awards contiene tutte le nomination e i premi vinti ai premi Oscar nel corso degli anni.
Questo dataset ci sarà utile per l'analisi perchè contiene i premi Oscar vinti dai film. Questo ci permette di avere un'idea generale della qualità del film, degli attori, dei registi ecc... e di confrontarli tra di loro.
Per ogni tuple abbiamo il nome della persona coinvolta, il film, l'anno della cerimonia, l'anno del film, il numero della cerimonia, la categoria e se ha vinto o no l'oscar.

### Controllo di Oscar ###

In [57]:
print(oscar_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10889 entries, 0 to 10888
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   year_film      10889 non-null  int64 
 1   year_ceremony  10889 non-null  int64 
 2   ceremony       10889 non-null  int64 
 3   category       10889 non-null  object
 4   name           10884 non-null  object
 5   film           10570 non-null  object
 6   winner         10889 non-null  bool  
dtypes: bool(1), int64(3), object(3)
memory usage: 521.2+ KB
None


Notiamo che ci sono valori nulli in name, adesso controlleremo cosa rappresentano questi valori nulli.
Inoltre ci sono tuple con valori nulli per i film, che non verranno rimossi perchè potrebbero essere utili e rappresentare premi vinti da persone non coinvolte in film.

In [58]:
print(oscar_df.isna().sum())

year_film          0
year_ceremony      0
ceremony           0
category           0
name               5
film             319
winner             0
dtype: int64


In [59]:
#Stampo i valori nulli di name
null_name_rows = oscar_df[oscar_df['name'].isna()]
print("Rows with null 'name':")
null_name_rows

Rows with null 'name':


Unnamed: 0,year_film,year_ceremony,ceremony,category,name,film,winner
10513,2020,2021,93,JEAN HERSHOLT HUMANITARIAN AWARD,,,True
10514,2020,2021,93,JEAN HERSHOLT HUMANITARIAN AWARD,,,True
10635,2021,2022,94,JEAN HERSHOLT HUMANITARIAN AWARD,,,True
10759,2022,2023,95,JEAN HERSHOLT HUMANITARIAN AWARD,,,True
10885,2023,2024,96,JEAN HERSHOLT HUMANITARIAN AWARD,,,True


Questi sono dei premi assegnati a film e non a persone, quindi non verranno rimossi. Fonte: https://www.oscars.org/governors/hersholt#:~:text=Given%20to%20an%20individual%20in,and%20contributing%20to%20rectifying%20inequities.

### Rimozione di Oscar Duplicati ###
Notiamo la presenza di alcune tuple duplicate, che verranno rimosse.

In [60]:
# Check for duplicates
oscar_df_copy = oscar_df.copy()
oscar_df_copy['duplicate_count'] = oscar_df_copy.groupby(['name','film', 'year_ceremony','year_film', 'ceremony', 'category', 'winner'])['name'].transform('count')
duplicates_df = oscar_df_copy[oscar_df_copy['duplicate_count'] > 1]
print("Duplicate Oscar awards:")
duplicates_df[['duplicate_count','name','film', 'year_ceremony','year_film', 'ceremony', 'category', 'winner']]

Duplicate Oscar awards:


Unnamed: 0,duplicate_count,name,film,year_ceremony,year_film,ceremony,category,winner
6219,2.0,Music by Michel Legrand; Lyric by Alan Bergman...,Yentl,1984,1983,56,MUSIC (Original Song),False
6220,2.0,Music by Michel Legrand; Lyric by Alan Bergman...,Yentl,1984,1983,56,MUSIC (Original Song),False
7066,2.0,Music by Alan Menken; Lyric by Howard Ashman,Beauty and the Beast,1992,1991,64,MUSIC (Original Song),False
7068,2.0,Music by Alan Menken; Lyric by Howard Ashman,Beauty and the Beast,1992,1991,64,MUSIC (Original Song),False
7394,2.0,Music by Elton John; Lyric by Tim Rice,The Lion King,1995,1994,67,MUSIC (Original Song),False
7395,2.0,Music by Elton John; Lyric by Tim Rice,The Lion King,1995,1994,67,MUSIC (Original Song),False
8862,3.0,Music by Alan Menken; Lyric by Stephen Schwartz,Enchanted,2008,2007,80,MUSIC (Original Song),False
8864,3.0,Music by Alan Menken; Lyric by Stephen Schwartz,Enchanted,2008,2007,80,MUSIC (Original Song),False
8865,3.0,Music by Alan Menken; Lyric by Stephen Schwartz,Enchanted,2008,2007,80,MUSIC (Original Song),False
9090,2.0,Music and Lyric by Randy Newman,The Princess and the Frog,2010,2009,82,MUSIC (Original Song),False


Teniamo solamente la prima tupla

In [61]:
# Remove duplicates
oscar_df = oscar_df.drop_duplicates(subset=['name','film', 'year_ceremony','year_film', 'ceremony', 'category', 'winner'], keep='first')

## Esportazione dei dati ##

Esportiamo i dati puliti in un nuovi file csv, da usare successivamente per l'analisi dei loro dati.

In [62]:
# Create the Output directory if it doesn't exist
output_dir = 'Output'
os.makedirs(output_dir, exist_ok=True)

# Export each DataFrame to a CSV file in the Output directory
actors_df.to_csv(os.path.join(output_dir, 'actors_cleaned.csv'), index=False)
countries_df.to_csv(os.path.join(output_dir, 'countries_cleaned.csv'), index=False)
crews_df.to_csv(os.path.join(output_dir, 'crews_cleaned.csv'), index=False)
genres_df.to_csv(os.path.join(output_dir, 'genres_cleaned.csv'), index=False)
languages_df.to_csv(os.path.join(output_dir, 'languages_cleaned.csv'), index=False)
movies_df.to_csv(os.path.join(output_dir, 'movies_cleaned.csv'), index=False)
posters_df.to_csv(os.path.join(output_dir, 'posters_cleaned.csv'), index=False)
releases_df.to_csv(os.path.join(output_dir, 'releases_cleaned.csv'), index=False)
studios_df.to_csv(os.path.join(output_dir, 'studios_cleaned.csv'), index=False)
themes_df.to_csv(os.path.join(output_dir, 'themes_cleaned.csv'), index=False)
rotten_tomatoes_df.to_csv(os.path.join(output_dir, 'rotten_tomatoes_cleaned.csv'), index=False)
oscar_df.to_csv(os.path.join(output_dir, 'oscar_cleaned.csv'), index=False)