# Merging the datasets

In [258]:
import pandas as pd

## Import CSV

In [259]:
boxoffice_tous= pd.read_csv('boxoffice_tous.csv')
boxoffice_top = pd.read_csv('boxoffice_top.csv')
boxoffice_topboxofficefr = pd.read_csv('boxoffice_topboxofficefr.csv')

merged_boxoffice = pd.concat([boxoffice_tous, boxoffice_top, boxoffice_topboxofficefr])

In [260]:
movies_tous = pd.read_csv('movies_tous.csv')
movies_top = pd.read_csv('movies_top.csv')
movies_topboxofficefr = pd.read_csv('movies_topboxofficefr.csv')

merged_movies = pd.concat([movies_tous, movies_top, movies_topboxofficefr])

## Boxoffice dataset

In [261]:
merged_boxoffice.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4797 entries, 0 to 50
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   titre        4797 non-null   object
 1   semaine_1    4797 non-null   object
 2   boxoffice_1  4797 non-null   object
 3   boxoffice_2  4797 non-null   object
dtypes: object(4)
memory usage: 187.4+ KB


In [262]:
merged_boxoffice = merged_boxoffice.drop_duplicates()

In [263]:
merged_boxoffice.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4642 entries, 0 to 113
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   titre        4642 non-null   object
 1   semaine_1    4642 non-null   object
 2   boxoffice_1  4642 non-null   object
 3   boxoffice_2  4642 non-null   object
dtypes: object(4)
memory usage: 181.3+ KB


In [264]:
merged_boxoffice.head(5)

Unnamed: 0,titre,semaine_1,boxoffice_1,boxoffice_2
0,La La Land,\n25 janvier au 1 février 2017\n,754 534,559 552
1,Insidious,\n15 au 22 juin 2011\n,193 688,127 061
2,Tenet,\n26 août au 2 septembre 2020\n,948 378,411 702
3,La Nuit du 12,\n13 au 20 juillet 2022\n,96 667,72 191
4,65 - la Terre d'avant,\n15 au 22 mars 2023\n,187 043,68 511


In [265]:
from datetime import datetime
import locale

def convert_to_dd_mm_aaaa(date_str):
    if date_str:
        try:
            # Set the locale manually for the script
            locale.setlocale(locale.LC_TIME, 'fr_FR.utf8')
            date_obj = datetime.strptime(date_str, '%d %B %Y')
            formatted_date = date_obj.strftime('%d/%m/%Y')
            return formatted_date
        except ValueError:
            return None
    return None

In [266]:
# Enlever les caractères "\n" de la colonne "semaine_1"
merged_boxoffice['semaine_1'] = merged_boxoffice['semaine_1'].str.strip('\n')

# Diviser la colonne "semaine_1" en deux colonnes "debut_semaine_1" et "fin_semaine_1"
merged_boxoffice[['debut_semaine_1', 'fin_semaine_1']] = merged_boxoffice['semaine_1'].str.split(' au ', expand=True)

# Convertir la colonne "fin_semaine_1" au format "dd/mm/aaaa"
merged_boxoffice['fin_semaine_1'] = merged_boxoffice['fin_semaine_1'].apply(convert_to_dd_mm_aaaa)

# Supprimer la colonne "debut_semaine_1" si nécessaire
merged_boxoffice.drop(columns=['debut_semaine_1'], inplace=True)

In [267]:
lignes_avec_valeurs_nulles = merged_boxoffice[merged_boxoffice.isnull().any(axis=1)]
lignes_avec_valeurs_nulles

Unnamed: 0,titre,semaine_1,boxoffice_1,boxoffice_2,fin_semaine_1


In [268]:
merged_boxoffice = merged_boxoffice.dropna()

## Movies dataset

In [269]:
merged_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9079 entries, 0 to 149
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   titre             9079 non-null   object 
 1   date              7017 non-null   object 
 2   genre             5957 non-null   object 
 3   durée             9036 non-null   float64
 4   réalisateur       9067 non-null   object 
 5   distributeur      7660 non-null   object 
 6   acteurs           9047 non-null   object 
 7   titre_original    4035 non-null   object 
 8   nationalités      2299 non-null   object 
 9   langue_d_origine  9079 non-null   object 
 10  type_film         9079 non-null   object 
 11  annee_production  9079 non-null   int64  
 12  budget            9079 non-null   object 
 13  box_office_total  4641 non-null   object 
 14  note_presse       9063 non-null   object 
 15  note_spectateurs  5868 non-null   object 
 16  nombre_article    8949 non-null   object 
 

In [270]:
merged_movies = merged_movies.drop_duplicates()

In [271]:
merged_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8710 entries, 0 to 142
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   titre             8710 non-null   object 
 1   date              6668 non-null   object 
 2   genre             5703 non-null   object 
 3   durée             8667 non-null   float64
 4   réalisateur       8698 non-null   object 
 5   distributeur      7304 non-null   object 
 6   acteurs           8678 non-null   object 
 7   titre_original    3841 non-null   object 
 8   nationalités      2200 non-null   object 
 9   langue_d_origine  8710 non-null   object 
 10  type_film         8710 non-null   object 
 11  annee_production  8710 non-null   int64  
 12  budget            8710 non-null   object 
 13  box_office_total  4489 non-null   object 
 14  note_presse       8694 non-null   object 
 15  note_spectateurs  5564 non-null   object 
 16  nombre_article    8586 non-null   object 
 

## Merging the datasets boxoffice and movies

In [272]:
merged_dataset = pd.merge(merged_movies, merged_boxoffice, on='titre')

In [273]:
merged_dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4679 entries, 0 to 4678
Data columns (total 23 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   titre             4679 non-null   object 
 1   date              4423 non-null   object 
 2   genre             2983 non-null   object 
 3   durée             4673 non-null   float64
 4   réalisateur       4679 non-null   object 
 5   distributeur      4575 non-null   object 
 6   acteurs           4659 non-null   object 
 7   titre_original    1871 non-null   object 
 8   nationalités      1301 non-null   object 
 9   langue_d_origine  4679 non-null   object 
 10  type_film         4679 non-null   object 
 11  annee_production  4679 non-null   int64  
 12  budget            4679 non-null   object 
 13  box_office_total  4342 non-null   object 
 14  note_presse       4676 non-null   object 
 15  note_spectateurs  4399 non-null   object 
 16  nombre_article    4666 non-null   object 


In [274]:
merged_dataset.head()

Unnamed: 0,titre,date,genre,durée,réalisateur,distributeur,acteurs,titre_original,nationalités,langue_d_origine,...,box_office_total,note_presse,note_spectateurs,nombre_article,recompenses,description,semaine_1,boxoffice_1,boxoffice_2,fin_semaine_1
0,Une histoire d'amour et de désir,01/09/2021,Romance,102.0,Leyla Bouzid,Pyramide Distribution,"Sami Outalbali,Zbeida Belhajamor,Diong-Keba Tacu",,,"Français, Arabe",...,38 765 entrées,40,38,25 articles de presse,1 prix et 9 nominations,"Ahmed, 18 ans, est français d’origine algérien...",01 au 8 septembre 2021,16 502,9 195,08/09/2021
1,"Simone, le voyage du siècle",12/10/2022,Drame,140.0,Olivier Dahan,Warner Bros. France,"Elsa Zylberstein,Rebecca Marder,Élodie Bouchez",,,Français,...,2 470 567 entrées,31,41,29 articles de presse,2 prix et 1 nomination,"Le destin de Simone Veil, son enfance, ses com...",12 au 19 octobre 2022,486 242,355 869,19/10/2022
2,L'Odeur du vent,24/05/2023,,90.0,Hadi Mohaghegh,Bodega Films,"Hadi Mohaghegh,Mohammad Eghbali",Derb,,Perse,...,23 225 entrées,40,36,6 articles de presse,,Dans une maison isolée au milieu d’une plaine ...,24 au 31 mai 2023,8 528,4 978,31/05/2023
3,Coup de théâtre,14/09/2022,Policier,98.0,Tom George,The Walt Disney Company France,"Sam Rockwell,Saoirse Ronan,Adrien Brody",See How They Run,,Anglais,...,121 975 entrées,28,29,17 articles de presse,,"Dans le West End des années 50 à Londres, la p...",14 au 21 septembre 2022,56 893,34 963,21/09/2022
4,Petites,22/02/2023,,90.0,Julie Lerat-Gersant,Haut et Court,"Pili Groyne,Romane Bohringer,Victoire Du Bois",,,Français,...,23 599 entrées,35,38,20 articles de presse,,"Enceinte à 16 ans, Camille se retrouve placé...",22 février au 1 mars 2023,12 466,4 783,01/03/2023


## Select the good boxoffice

In [275]:
# Comparer les colonnes "date" et "fin_semaine_1" pour déterminer quelle colonne "boxoffice" prendre
mask = merged_dataset['date'] == merged_dataset['fin_semaine_1']
merged_dataset['boxoffice'] = merged_dataset['boxoffice_2'].where(mask, merged_dataset['boxoffice_1'])

# Supprimer les colonnes inutiles
merged_dataset.drop(columns=['boxoffice_1', 'boxoffice_2', 'fin_semaine_1', 'semaine_1'], inplace=True)

# Afficher le dataframe final
print(merged_dataset)

                                        titre        date  \
0            Une histoire d'amour et de désir  01/09/2021   
1                 Simone, le voyage du siècle  12/10/2022   
2                             L'Odeur du vent  24/05/2023   
3                             Coup de théâtre  14/09/2022   
4                                     Petites  22/02/2023   
...                                       ...         ...   
4674                                Dragons 2  02/07/2014   
4675        Harry Potter et l'Ordre du Phénix  11/07/2007   
4676                             Spider-Man 3  01/05/2007   
4677  Harry Potter et le Prisonnier d'Azkaban  02/06/2004   
4678                         Le Monde de Nemo  26/11/2003   

                       genre  durée          réalisateur  \
0                    Romance  102.0         Leyla Bouzid   
1                      Drame  140.0        Olivier Dahan   
2                        NaN   90.0       Hadi Mohaghegh   
3                   Policie

In [276]:
merged_dataset.to_csv('../../machine_learning/data/dataset_bronze.csv', index=False)