# Merging the datasets

In [1]:
import pandas as pd

## Import CSV

In [2]:
boxoffice_2022 = pd.read_csv('boxoffice_2022.csv')
boxoffice_2021 = pd.read_csv('boxoffice_2021.csv')
boxoffice_2020 = pd.read_csv('boxoffice_2020.csv')
merged_boxoffice = pd.concat([boxoffice_2020, boxoffice_2021, boxoffice_2022])

In [3]:
movies_2022 = pd.read_csv('movies_2022.csv')
movies_2021 = pd.read_csv('movies_2021.csv')
movies_2020 = pd.read_csv('movies_2020.csv')
merged_movies = pd.concat([movies_2020, movies_2021, movies_2022])

## Boxoffice dataset

In [4]:
merged_boxoffice.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1212 entries, 0 to 444
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   titre      1212 non-null   object
 1   boxoffice  1211 non-null   object
dtypes: object(2)
memory usage: 28.4+ KB


In [5]:
merged_boxoffice = merged_boxoffice.drop_duplicates()

In [6]:
merged_boxoffice.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1187 entries, 0 to 433
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   titre      1187 non-null   object
 1   boxoffice  1186 non-null   object
dtypes: object(2)
memory usage: 27.8+ KB


In [7]:
merged_boxoffice.head(5)

Unnamed: 0,titre,boxoffice
0,La Voix d'Aida,17 087
1,Le Diable n'existe pas,26 645
2,Les Jeunes amants,152 312
3,De son vivant,90 106
4,Falling,18 436


In [8]:
lignes_avec_valeurs_nulles = merged_boxoffice[merged_boxoffice.isnull().any(axis=1)]
lignes_avec_valeurs_nulles

Unnamed: 0,titre,boxoffice
379,Statute of Limitations,


In [9]:
merged_boxoffice = merged_boxoffice.dropna()

## Movies dataset

In [10]:
merged_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7000 entries, 0 to 2591
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   titre             7000 non-null   object 
 1   date              1669 non-null   object 
 2   genre             2551 non-null   object 
 3   durée             4976 non-null   float64
 4   réalisateur       6768 non-null   object 
 5   distributeur      2275 non-null   object 
 6   acteurs           6093 non-null   object 
 7   titre_original    1916 non-null   object 
 8   nationalités      1219 non-null   object 
 9   langue_d_origine  7000 non-null   object 
 10  type_film         7000 non-null   object 
 11  annee_production  7000 non-null   int64  
 12  budget            7000 non-null   object 
 13  note_presse       3764 non-null   object 
 14  note_spectateurs  1289 non-null   object 
 15  nombre_article    3193 non-null   object 
 16  recompenses       604 non-null    object 


In [11]:
merged_movies = merged_movies.drop_duplicates()

In [12]:
merged_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6969 entries, 0 to 2591
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   titre             6969 non-null   object 
 1   date              1638 non-null   object 
 2   genre             2526 non-null   object 
 3   durée             4945 non-null   float64
 4   réalisateur       6737 non-null   object 
 5   distributeur      2244 non-null   object 
 6   acteurs           6062 non-null   object 
 7   titre_original    1903 non-null   object 
 8   nationalités      1211 non-null   object 
 9   langue_d_origine  6969 non-null   object 
 10  type_film         6969 non-null   object 
 11  annee_production  6969 non-null   int64  
 12  budget            6969 non-null   object 
 13  note_presse       3733 non-null   object 
 14  note_spectateurs  1258 non-null   object 
 15  nombre_article    3162 non-null   object 
 16  recompenses       596 non-null    object 


## Merging the datasets boxoffice and movies

In [13]:
merged_dataset = pd.merge(merged_movies, merged_boxoffice, on='titre')

In [14]:
merged_dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1182 entries, 0 to 1181
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   titre             1182 non-null   object 
 1   date              1073 non-null   object 
 2   genre             681 non-null    object 
 3   durée             1170 non-null   float64
 4   réalisateur       1181 non-null   object 
 5   distributeur      1110 non-null   object 
 6   acteurs           1150 non-null   object 
 7   titre_original    364 non-null    object 
 8   nationalités      368 non-null    object 
 9   langue_d_origine  1182 non-null   object 
 10  type_film         1182 non-null   object 
 11  annee_production  1182 non-null   int64  
 12  budget            1182 non-null   object 
 13  note_presse       1159 non-null   object 
 14  note_spectateurs  1016 non-null   object 
 15  nombre_article    1135 non-null   object 
 16  recompenses       397 non-null    object 


In [15]:
merged_dataset.head()

Unnamed: 0,titre,date,genre,durée,réalisateur,distributeur,acteurs,titre_original,nationalités,langue_d_origine,type_film,annee_production,budget,note_presse,note_spectateurs,nombre_article,recompenses,description,boxoffice
0,Effacer l’historique,26/08/2020,,106.0,Gustave Kervern,Ad Vitam,"Blanche Gardin,Denis Podalydès,Corinne Masiero",,"France,Belgique",Français,Long-métrage,2020,-,40,22,31 articles de presse,1 prix et 2 nominations,"Dans un lotissement en province, trois voisins...",256 355
1,Permis de construire,09/03/2022,,93.0,Eric Fraticelli,Warner Bros. France,"Didier Bourdon,Eric Fraticelli,Anne Consigny",,,Français,Long-métrage,2020,-,18,25,4 articles de presse,,"Dentiste à Paris, Romain vient de perdre son p...",211 995
2,Scooby !,08/07/2020,"Animation,Famille",94.0,Tony Cervone,Warner Bros. France,"Frank Welker,Will Forte,Zac Efron",Scoob!,,Anglais,Long-métrage,2020,-,25,25,108 Critiques Spectateurs,,"Dans SCOOBY!, on découvre comment Scooby et Sa...",191 223
3,Josep,30/09/2020,"Historique,Biopic,Drame",71.0,Aurel,Dulac Distribution,"Sergi López,David Marsais,Silvia Pérez Cruz",,"France,Espagne,Belgique","Français, Anglais, Catalan, Espagnol",Long-métrage,2020,-,40,37,91 Critiques Spectateurs,6 prix et 2 nominations,,61 028
4,Minari,23/06/2021,,116.0,Lee Isaac Chung,ARP Sélection,"Steven Yeun,Ye-Ri Han,Alan S. Kim",,,"Coréen, Anglais",Long-métrage,2020,-,39,36,35 articles de presse,3 prix et 16 nominations,Une famille américaine d’origine sud-coréenne ...,22 413


In [16]:
merged_dataset.to_csv('dataset_bronze.csv', index=False)