In [3]:
import pandas as pd
import pickle

# DATASET JPBOX OFFICE

In [4]:
data_jp = pd.read_csv("../input_datasets/moviesdata.csv")

In [5]:
data_jp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9940 entries, 0 to 9939
Data columns (total 15 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   acteurs                   5639 non-null   object 
 1   budget                    8731 non-null   object 
 2   compositeur               871 non-null    object 
 3   date                      9940 non-null   object 
 4   entrees_premiere_semaine  9940 non-null   object 
 5   franchise                 1279 non-null   object 
 6   genre                     9938 non-null   object 
 7   pays                      9940 non-null   object 
 8   producteur                835 non-null    object 
 9   realisateur               4384 non-null   object 
 10  remake                    472 non-null    object 
 11  salles_premiere_semaine   0 non-null      float64
 12  studio                    9940 non-null   object 
 13  titre                     9940 non-null   object 
 14  url     

## Suppression des doublons

In [6]:
# Suppression des doublons qui n'ont pas toutes les informations
data_jp = data_jp.dropna(subset=['entrees_premiere_semaine', 'acteurs', 'budget', 'genre'])

# Suppression des doublons avec comme point commun le titre du film
data_jp.drop_duplicates(subset=["titre"], inplace=True, ignore_index=True)

data_jp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4535 entries, 0 to 4534
Data columns (total 15 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   acteurs                   4535 non-null   object 
 1   budget                    4535 non-null   object 
 2   compositeur               655 non-null    object 
 3   date                      4535 non-null   object 
 4   entrees_premiere_semaine  4535 non-null   object 
 5   franchise                 550 non-null    object 
 6   genre                     4535 non-null   object 
 7   pays                      4535 non-null   object 
 8   producteur                585 non-null    object 
 9   realisateur               1928 non-null   object 
 10  remake                    200 non-null    object 
 11  salles_premiere_semaine   0 non-null      float64
 12  studio                    4535 non-null   object 
 13  titre                     4535 non-null   object 
 14  url     

## Affichage des features

In [7]:
data_jp.head()

Unnamed: 0,acteurs,budget,compositeur,date,entrees_premiere_semaine,franchise,genre,pays,producteur,realisateur,remake,salles_premiere_semaine,studio,titre,url
0,\r\n Daniel Radclif...,130 000 000 $,John Williams,02/06/2004,2 503 699,Franchise,Fantasy,Etats-Unis,,\r\n Alfons...,,,\r\n Warner Bros.,\r\n Harry Potter e...,https://www.jpbox-office.com/fichfilm.php?id=1...
1,\r\n Robert Pattins...,150 000 000 $,,11/07/2007,2 486 291,Franchise,Fantasy,Etats-Unis,,\r\n David ...,,,\r\n Warner Bros.,\r\n Harry Potter e...,https://www.jpbox-office.com/fichfilm.php?id=1...
2,"\r\n Dany Boon,\r\n...",27 800 000 €,,28/02/2018,2 429 906,,Comédie,France,,\r\n Dany Boon,,,\r\n Pathé,\r\n La Ch’tite fam...,https://www.jpbox-office.com/fichfilm.php?id=1...
3,"\r\n Johnny Depp,\r...",225 000 000 $,Hans Zimmer,02/08/2006,2 708 112,Franchise,Aventure - Action,Etats-Unis,Jerry Brukheimer,\r\n Gore V...,,,\r\n Walt Disney Pictures,\r\n Pirates des Ca...,https://www.jpbox-office.com/fichfilm.php?id=3...
4,\r\n Daniel Radclif...,100 000 000 $,John Williams,04/12/2002,2 728 766,Franchise,Fantasy,Etats-Unis,,\r\n Chris ...,,,\r\n Warner Bros.,\r\n Harry Potter e...,https://www.jpbox-office.com/fichfilm.php?id=1...


## Suppression features inutiles

In [8]:
cols_drop = ["salles_premiere_semaine", "url"]

data_jp = data_jp.drop(cols_drop, axis=1)

## Nettoyage features acteurs, réalisateurs, studio, titre

In [9]:
# Acteurs
data_jp['acteurs'] = data_jp['acteurs'].str.strip().replace(r"\r\n", "", regex=True).replace(r"\s+", " ", regex=True) 

# Réalisateurs
for index, value in data_jp['realisateur'].items():
    if isinstance(value,str):
        value = value.replace('\r\n','')
        value = value.replace('-','')
        value = value.strip()
        data_jp.at[index, 'realisateur'] = value

# Studio
for index, value in data_jp['studio'].items():
    if isinstance(value,str):
        value = value.replace('\r\n','')
        value = value.strip()
        data_jp.at[index, 'studio'] = value

# Titre
for index, value in data_jp['titre'].items():
    if isinstance(value,str):
        value = value.replace('\r\n','')
        value = value.strip()
        data_jp.at[index, 'titre'] = value

data_jp.head()

Unnamed: 0,acteurs,budget,compositeur,date,entrees_premiere_semaine,franchise,genre,pays,producteur,realisateur,remake,studio,titre
0,"Daniel Radcliffe, Emma Watson, Gary Oldman, Al...",130 000 000 $,John Williams,02/06/2004,2 503 699,Franchise,Fantasy,Etats-Unis,,Alfonso Cuaron,,Warner Bros.,Harry Potter et le prisonnier d'Azkaban
1,"Robert Pattinson, Daniel Radcliffe, Emma Watso...",150 000 000 $,,11/07/2007,2 486 291,Franchise,Fantasy,Etats-Unis,,David Yates,,Warner Bros.,Harry Potter et l'Ordre du Phénix
2,"Dany Boon, François Berléand, Valérie Bonneton...",27 800 000 €,,28/02/2018,2 429 906,,Comédie,France,,Dany Boon,,Pathé,La Ch’tite famille
3,"Johnny Depp, Orlando Bloom, Geoffrey Rush, Kei...",225 000 000 $,Hans Zimmer,02/08/2006,2 708 112,Franchise,Aventure - Action,Etats-Unis,Jerry Brukheimer,Gore Verbinski,,Walt Disney Pictures,"Pirates des Caraïbes, le secret du coffre maudit"
4,"Daniel Radcliffe, Emma Watson, Kenneth Branagh...",100 000 000 $,John Williams,04/12/2002,2 728 766,Franchise,Fantasy,Etats-Unis,,Chris Columbus,,Warner Bros.,Harry Potter et la chambre des secrets


## Nettoyage feature budget

In [10]:
# def format_budget(budget):

#     # Transforme les euros en dollars
#     try:
#         if "€" in str(budget):
#             budget = str(budget).replace('€', '').replace(' ', '').replace('?', '')
#             budget = int(float(budget)) * 1,1
#         else:
#             budget = str(budget).replace('$', '').replace(' ', '').replace('?', '')
#     except:
#         budget = 0
    
#     return budget

# data_jp['budget'] = data_jp['budget'].apply(format_budget)

# data_jp.head(5)

In [11]:
data_jp['budget'] = data_jp['budget'].str.replace('[\$,€]', '', regex=True).str.replace(' ', '').str.replace('?', '')
data_jp['budget'] = pd.to_numeric(data_jp['budget'], errors='coerce').fillna(0).astype(int)

data_jp.head()

Unnamed: 0,acteurs,budget,compositeur,date,entrees_premiere_semaine,franchise,genre,pays,producteur,realisateur,remake,studio,titre
0,"Daniel Radcliffe, Emma Watson, Gary Oldman, Al...",130000000,John Williams,02/06/2004,2 503 699,Franchise,Fantasy,Etats-Unis,,Alfonso Cuaron,,Warner Bros.,Harry Potter et le prisonnier d'Azkaban
1,"Robert Pattinson, Daniel Radcliffe, Emma Watso...",150000000,,11/07/2007,2 486 291,Franchise,Fantasy,Etats-Unis,,David Yates,,Warner Bros.,Harry Potter et l'Ordre du Phénix
2,"Dany Boon, François Berléand, Valérie Bonneton...",27800000,,28/02/2018,2 429 906,,Comédie,France,,Dany Boon,,Pathé,La Ch’tite famille
3,"Johnny Depp, Orlando Bloom, Geoffrey Rush, Kei...",225000000,Hans Zimmer,02/08/2006,2 708 112,Franchise,Aventure - Action,Etats-Unis,Jerry Brukheimer,Gore Verbinski,,Walt Disney Pictures,"Pirates des Caraïbes, le secret du coffre maudit"
4,"Daniel Radcliffe, Emma Watson, Kenneth Branagh...",100000000,John Williams,04/12/2002,2 728 766,Franchise,Fantasy,Etats-Unis,,Chris Columbus,,Warner Bros.,Harry Potter et la chambre des secrets


## Creation feature is_compositeur

In [12]:
# Transforme les NaN en 0, et les compositeurs en 1
data_jp["is_compositeur"] = data_jp["compositeur"]
data_jp["is_compositeur"] = data_jp["is_compositeur"].fillna("0")
compositeurs = data_jp[data_jp["is_compositeur"] != "0"]
data_jp.loc[compositeurs.index, "is_compositeur"] = "1"

data_jp["is_compositeur"].value_counts()

is_compositeur
0    3880
1     655
Name: count, dtype: int64

## Création feature annee

In [13]:
data_jp["annee"] = data_jp["date"]

for index, value in data_jp['annee'].items():
    if isinstance(value,str):
        d, m, y = value.split('/')
        data_jp.at[index, 'annee'] = y

data_jp.head()

Unnamed: 0,acteurs,budget,compositeur,date,entrees_premiere_semaine,franchise,genre,pays,producteur,realisateur,remake,studio,titre,is_compositeur,annee
0,"Daniel Radcliffe, Emma Watson, Gary Oldman, Al...",130000000,John Williams,02/06/2004,2 503 699,Franchise,Fantasy,Etats-Unis,,Alfonso Cuaron,,Warner Bros.,Harry Potter et le prisonnier d'Azkaban,1,2004
1,"Robert Pattinson, Daniel Radcliffe, Emma Watso...",150000000,,11/07/2007,2 486 291,Franchise,Fantasy,Etats-Unis,,David Yates,,Warner Bros.,Harry Potter et l'Ordre du Phénix,0,2007
2,"Dany Boon, François Berléand, Valérie Bonneton...",27800000,,28/02/2018,2 429 906,,Comédie,France,,Dany Boon,,Pathé,La Ch’tite famille,0,2018
3,"Johnny Depp, Orlando Bloom, Geoffrey Rush, Kei...",225000000,Hans Zimmer,02/08/2006,2 708 112,Franchise,Aventure - Action,Etats-Unis,Jerry Brukheimer,Gore Verbinski,,Walt Disney Pictures,"Pirates des Caraïbes, le secret du coffre maudit",1,2006
4,"Daniel Radcliffe, Emma Watson, Kenneth Branagh...",100000000,John Williams,04/12/2002,2 728 766,Franchise,Fantasy,Etats-Unis,,Chris Columbus,,Warner Bros.,Harry Potter et la chambre des secrets,1,2002


## Nettoyage feature date

In [14]:
data_jp['date'] = data_jp['date'].str.strip()
data_jp['date'] = pd.to_datetime(data_jp['date'], format='%d/%m/%Y')

data_jp.head()

Unnamed: 0,acteurs,budget,compositeur,date,entrees_premiere_semaine,franchise,genre,pays,producteur,realisateur,remake,studio,titre,is_compositeur,annee
0,"Daniel Radcliffe, Emma Watson, Gary Oldman, Al...",130000000,John Williams,2004-06-02,2 503 699,Franchise,Fantasy,Etats-Unis,,Alfonso Cuaron,,Warner Bros.,Harry Potter et le prisonnier d'Azkaban,1,2004
1,"Robert Pattinson, Daniel Radcliffe, Emma Watso...",150000000,,2007-07-11,2 486 291,Franchise,Fantasy,Etats-Unis,,David Yates,,Warner Bros.,Harry Potter et l'Ordre du Phénix,0,2007
2,"Dany Boon, François Berléand, Valérie Bonneton...",27800000,,2018-02-28,2 429 906,,Comédie,France,,Dany Boon,,Pathé,La Ch’tite famille,0,2018
3,"Johnny Depp, Orlando Bloom, Geoffrey Rush, Kei...",225000000,Hans Zimmer,2006-08-02,2 708 112,Franchise,Aventure - Action,Etats-Unis,Jerry Brukheimer,Gore Verbinski,,Walt Disney Pictures,"Pirates des Caraïbes, le secret du coffre maudit",1,2006
4,"Daniel Radcliffe, Emma Watson, Kenneth Branagh...",100000000,John Williams,2002-12-04,2 728 766,Franchise,Fantasy,Etats-Unis,,Chris Columbus,,Warner Bros.,Harry Potter et la chambre des secrets,1,2002


## Nettoyage target entrees

In [15]:
data_jp['entrees_premiere_semaine'] = data_jp['entrees_premiere_semaine'].str.replace(' ', '').astype(int) 

data_jp.head()

Unnamed: 0,acteurs,budget,compositeur,date,entrees_premiere_semaine,franchise,genre,pays,producteur,realisateur,remake,studio,titre,is_compositeur,annee
0,"Daniel Radcliffe, Emma Watson, Gary Oldman, Al...",130000000,John Williams,2004-06-02,2503699,Franchise,Fantasy,Etats-Unis,,Alfonso Cuaron,,Warner Bros.,Harry Potter et le prisonnier d'Azkaban,1,2004
1,"Robert Pattinson, Daniel Radcliffe, Emma Watso...",150000000,,2007-07-11,2486291,Franchise,Fantasy,Etats-Unis,,David Yates,,Warner Bros.,Harry Potter et l'Ordre du Phénix,0,2007
2,"Dany Boon, François Berléand, Valérie Bonneton...",27800000,,2018-02-28,2429906,,Comédie,France,,Dany Boon,,Pathé,La Ch’tite famille,0,2018
3,"Johnny Depp, Orlando Bloom, Geoffrey Rush, Kei...",225000000,Hans Zimmer,2006-08-02,2708112,Franchise,Aventure - Action,Etats-Unis,Jerry Brukheimer,Gore Verbinski,,Walt Disney Pictures,"Pirates des Caraïbes, le secret du coffre maudit",1,2006
4,"Daniel Radcliffe, Emma Watson, Kenneth Branagh...",100000000,John Williams,2002-12-04,2728766,Franchise,Fantasy,Etats-Unis,,Chris Columbus,,Warner Bros.,Harry Potter et la chambre des secrets,1,2002


## Mapping feature franchise

In [16]:
# Transforme les NaN en 0, et les franchise en 1
data_jp["franchise"] = data_jp["franchise"].fillna("0")
franchise = data_jp[data_jp["franchise"] != "0"]
data_jp.loc[franchise.index, "franchise"] = "1"

data_jp["franchise"].value_counts()

franchise
0    3985
1     550
Name: count, dtype: int64

## Nettoyage feature genre

In [17]:
# Supprime les genre avec trop peu d'apparitions
data_jp = data_jp[data_jp["genre"] != "Court-métrage"]
data_jp = data_jp[data_jp["genre"] != "X - Erotique"]

display(data_jp["genre"].value_counts())

genre
Comédie               951
Drame                 926
Thriller              549
Aventure - Action     488
Comédie dramatique    319
Animation             252
Romance               214
Science Fiction       171
Film familial         151
Fantasy               145
Comicbook             105
Horreur                88
Guerre                 37
Musical                36
Western                36
Documentaire           33
Péplum                 19
Catastrophe            13
Name: count, dtype: int64

## Création feature origine

In [18]:
data_jp["origine"] = data_jp["pays"]
autres_pays = data_jp[(data_jp["pays"] != "Etats-Unis") & (data_jp["pays"] != "France")]
data_jp.loc[autres_pays.index, "origine"] = "Autre"

data_jp["origine"].value_counts()

origine
Etats-Unis    2978
France        1064
Autre          491
Name: count, dtype: int64

## Mapping feature remake

In [19]:
# Transforme les NaN en 0 et les remake en 1
data_jp["remake"] = data_jp["remake"].fillna("0")
remake = data_jp[data_jp["remake"] != "0"]
data_jp.loc[remake.index, "remake"] = "1"

data_jp["remake"].value_counts()

remake
0    4333
1     200
Name: count, dtype: int64

## Modifications des types des features

In [20]:
data_jp.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4533 entries, 0 to 4534
Data columns (total 16 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   acteurs                   4533 non-null   object        
 1   budget                    4533 non-null   int64         
 2   compositeur               655 non-null    object        
 3   date                      4533 non-null   datetime64[ns]
 4   entrees_premiere_semaine  4533 non-null   int64         
 5   franchise                 4533 non-null   object        
 6   genre                     4533 non-null   object        
 7   pays                      4533 non-null   object        
 8   producteur                585 non-null    object        
 9   realisateur               1926 non-null   object        
 10  remake                    4533 non-null   object        
 11  studio                    4533 non-null   object        
 12  titre                    

In [21]:
data_jp = data_jp.astype({"franchise": "category",
                       "genre": "category",
                       "remake": "category",
                       "is_compositeur": "category",
                       "annee": "category",
                       "origine": "category"
                       })

data_jp.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4533 entries, 0 to 4534
Data columns (total 16 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   acteurs                   4533 non-null   object        
 1   budget                    4533 non-null   int64         
 2   compositeur               655 non-null    object        
 3   date                      4533 non-null   datetime64[ns]
 4   entrees_premiere_semaine  4533 non-null   int64         
 5   franchise                 4533 non-null   category      
 6   genre                     4533 non-null   category      
 7   pays                      4533 non-null   object        
 8   producteur                585 non-null    object        
 9   realisateur               1926 non-null   object        
 10  remake                    4533 non-null   category      
 11  studio                    4533 non-null   object        
 12  titre                    

## Exportation en pickle

In [22]:
data_jp.to_pickle("../input_datasets/dataset-jp.pkl")

Reflexions :

TYPES
- INT -> budget, entrees
- DATETIME-> date
- OBJECT -> acteurs, compositeur, pays, producteur, realisateur, studio, titre
- CATEGORY -> franchise, genre, remake, is_compositeur, origine

PREPROCESSING
- Regarder comment utiliser la date dans preprocessing -> sinon créer feature année et faire un ordinal encoding
- CountFrequency pour studio

- Col_to_drop -> acteurs, compositeur, pays, producteur, realisateur, Titre