
# Projet: Investiguer un Dataset - [TMDB_Movie.csv]

## Table de matière
<ul>
<li><a href="#intro">Introduction</a></li>
<li><a href="#wrangling">Préparation des données</a></li>
<li><a href="#eda">Analyse exploratoire des données</a></li>
<li><a href="#conclusions">Conclusions</a></li>
</ul>

<a id='intro'></a>
## Introduction

### Description du Dataset 

La base de données que nous avons choisi d'explorer pour notre travail est **TMDb movie data**. Cette base de données contient des informations sur plus de 10 000 films collectés à partir de la plateforme _the movies database_  incluant les scores et les revenues de ces différents films.

Les données que nous pouvons retrouver dans cette base de données sont listées comme suit:
<ol>
    <li>id - Identifiant du film</li>
    <li>imdb_id - Identifiant du film sur l'internet movie database</li>
    <li>popularity - score de popularite du film sur 100</li>
    <li>budget - budget de realisation du film</li>
    <li>revenue - benefices apportes par le film</li>
    <li>original title - titre original du film</li>
    <li>cast - liste des acteurs principaux/celebres du film</li>
    <li>home_page - lien du site internet du film</li>
    <li>director - realisateur du film</li>
    <li>tagline - Phrase d'accroche du film</li>
    <li>keywords - mots cles du film</li>
    <li>overview - apercu du film</li>
    <li>runtime - Duree du film</li>
    <li>genre - Genre du film</li>
    <li>production_companies</li>
    <li>release_date - date de sortie</li>
    <li>vote_count - nombre de votes enregistres</li>
    <li>vote_average - moyenne des votes enregistres</li>
    <li>release_year - annee de sortie</li>
    <li>budget_adj - budget en dollars americain de l'annee 2010</li>
    <li>revenue_adj - revenue en dollars americains de l'annee 2010</li>
</ol>


### Questions d'analyse
Nous avons décidé de nous poser 5 questions pour analyser notre dataset :
<ul>
    <li>Quels genres de films sont les plus produits?</li>
    <li>Quels genres de films sont les plus populaire?</li>
    <li>Quelles maisons de production produisent le plus de films ?</li>
    <li>Quels revenus ont elles engrangés grace à leurs films de 2015 ?</li>
    <li>Les films d'horreur sont ils rentables ?</li>
</ul>

In [1]:
#Importation des différentes librairies
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline


<a id='wrangling'></a>
## Préparation des données

Nous commencons d'abord par charger notre jeu de données et nous faisons un bref aperçu afin d'en apercevoir la structure à priori.


In [2]:
# Chargement des données et aperçu
df = pd.read_csv('Database_TMDb_movie_data/tmdb-movies.csv')
df.head(1)

Unnamed: 0,id,imdb_id,popularity,budget,revenue,original_title,cast,homepage,director,tagline,...,overview,runtime,genres,production_companies,release_date,vote_count,vote_average,release_year,budget_adj,revenue_adj
0,135397,tt0369610,32.985763,150000000,1513528810,Jurassic World,Chris Pratt|Bryce Dallas Howard|Irrfan Khan|Vi...,http://www.jurassicworld.com/,Colin Trevorrow,The park is open.,...,Twenty-two years after the events of Jurassic ...,124,Action|Adventure|Science Fiction|Thriller,Universal Studios|Amblin Entertainment|Legenda...,6/9/15,5562,6.5,2015,137999900.0,1392446000.0


In [3]:
#Architecture generale de la base de donnees
df.shape

print('Le dataframe compte {} lignes et {} colonnes'.format(df.shape[0], df.shape[1]))

Le dataframe compte 10866 lignes et 21 colonnes


Nous allons par la suite essayer d'etudier la structure des differentes colonnes de notre dataframe

In [4]:
# Informations sur le type des colonnes du dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10866 entries, 0 to 10865
Data columns (total 21 columns):
id                      10866 non-null int64
imdb_id                 10856 non-null object
popularity              10866 non-null float64
budget                  10866 non-null int64
revenue                 10866 non-null int64
original_title          10866 non-null object
cast                    10790 non-null object
homepage                2936 non-null object
director                10822 non-null object
tagline                 8042 non-null object
keywords                9373 non-null object
overview                10862 non-null object
runtime                 10866 non-null int64
genres                  10843 non-null object
production_companies    9836 non-null object
release_date            10866 non-null object
vote_count              10866 non-null int64
vote_average            10866 non-null float64
release_year            10866 non-null int64
budget_adj              1

A partir de là, nous pouvons déceler que les colonnes __imdb_id, cast, homepage, tagline, keywords, overview, genres et production_companies__ ont des valeurs manquantes.

<u><strong>Solution preconisee :</strong></u>
Nous allons effectuer plus d'observation afin de déterminer ce que nous ferons des valeurs manquantes

Nous observons également que la colonne __id__ est de type numérique entier, ce qui est problématique étant donné qu'elle n'est pas utilisée à des fins de calcul. 

<u><strong>Solution preconisee :</strong></u>
Nous allons convertir cette colonne en chaine de caractères

Nous évaluons également les informations concernant les champs numériques de notre dataframe

In [5]:
df.describe()

Unnamed: 0,id,popularity,budget,revenue,runtime,vote_count,vote_average,release_year,budget_adj,revenue_adj
count,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0
mean,66064.177434,0.646441,14625700.0,39823320.0,102.070863,217.389748,5.974922,2001.322658,17551040.0,51364360.0
std,92130.136561,1.000185,30913210.0,117003500.0,31.381405,575.619058,0.935142,12.812941,34306160.0,144632500.0
min,5.0,6.5e-05,0.0,0.0,0.0,10.0,1.5,1960.0,0.0,0.0
25%,10596.25,0.207583,0.0,0.0,90.0,17.0,5.4,1995.0,0.0,0.0
50%,20669.0,0.383856,0.0,0.0,99.0,38.0,6.0,2006.0,0.0,0.0
75%,75610.0,0.713817,15000000.0,24000000.0,111.0,145.75,6.6,2011.0,20853250.0,33697100.0
max,417859.0,32.985763,425000000.0,2781506000.0,900.0,9767.0,9.2,2015.0,425000000.0,2827124000.0


Nous constatons que la colonne **'popularity'** a un maximum à 32,98 et les colonnes budget et revenu ont des minimum à 0 ce qui suggère qu'il pourrait y avoir des valeurs abberantes dans notre jeu de données. 

<u><strong>Solution préconisée :</strong></u>
Nnous allons evaluer l'impact des valeurs aberrantes sur le dataframe.

Continuons notre investigation en determinant le nombre de valeurs manquantes par colonne, et si eventuellement il existe des doublons dans le dataframe. 

In [None]:
#Détermination du nombre de valeurs manquantes par colonne
df.isna().sum()

In [None]:
#Détermination du nombre de valeurs manquantes par colonne
df.isna().sum().sum()
print('notre jeu de donnees presente au total {} donnees manquantes'.format(df.isna().sum().sum()))

<u><strong>Solution preconisee :</strong></u>

> Les colonnes __"homepage", "tagline", "overview"__ et __"keywords"__ n'étant pas significatives en terme d'information, nous allons les supprimer.

> Les films ayant déjà la colonne __"Id"__ bien remplie et complète, la colonne  __"IMDb_id"__ n'a aucune utilité en soit donc elle peut e᷆tre egalement supprimee.

> Les colonnes __"production companies"__ et __"director"__ peuvent e᷆tre utiles pour nos analyses. Nous allons remplacer les champs vides de ces colonnes par la valeur __'Unknown'__

> La colonne __"genre"__ peut aussi nous etre utile en analyse. on va doc remplacer ses champs vides par la valeur __'Uncategorize'__

> En supposant que les films qui auront le champ de la colonne __"cast"__ nul sont des films qui n'ont aucun acteur celebre, on va remplacer ses champs vides par la valeur __'Unpopular'__



In [None]:
#Détermination du nombre de valeurs dupliquées dans le dataframe
df[df.duplicated(keep=False)]

Notre dataframe ne compte qu'une seule ligne en double.

<u><strong>Solution preconisee :</strong></u>
Supprimer le doublon

Analysons également notre dataframe afin de déterminer si l'on peut dégager des listes de valeurs pour l'étape de visualisation.

In [None]:
#Nombre de valeurs uniques par colonne
df.nunique()

In [None]:
# Valeurs uniques de genre de films
df.genres.unique

In [None]:
# valeurs uniques des maisons de production
df.production_companies.unique

On ne peut pas effectuer des sélections  à priori dans notre data frame. Cependant en observant mieux les colonnes __"genres", "production_companies", "cast"__ on se rend facilement compte qu'il y a plusieurs valeurs separées par "|" ce qui pourrait nous aider dans l'exploitation de nos données.

<u><strong>Solution préconisée :</strong></u> créer des cellules pour chacune des valeurs comprises dans les colonnes qui ont le caractère "|". 

><u><strong>NB :</strong></u> Nous allons procéder à la séparation des champs colonne par colonne pour ne pas surcharger notre dataframe. Nous allons donc séparer notre dataframe en 3 parties, l'une pour les analyses qui portent sur __"genres"__, une deuxieme partie pour les analyses qui portent sur __"production_companies"__ et une dernière pour les analyses qui portent sur aucune des deux variables.


### Data Cleaning

Nous allons effectuer le nettoyage conformement aux preconisations de la section precedente.

Nous changeons d'abord le format de la colonne __"Id"__

In [None]:
#Modifier le type de la colonne id
df['id'].astype(str)

Nous allons maintenant supprimer les doublons et les champs et colonnes vides ou inutiles. 

In [None]:
#Suppression des doublons
df.drop_duplicates(inplace = True)

In [None]:
#Suppression des colonnes inutiles "homepage", "tagline", "overview" et "keywords"
df.drop(['homepage','tagline','overview','keywords'], axis=1, inplace= True)


In [None]:
#Suppression de la colonne imdb_id
df.drop(['imdb_id'], axis=1, inplace = True)

In [None]:
df.isna().sum()

In [None]:
#Remplacer les valeurs nulles des colonnes cast , director, genres et production_companies 

#On remplace les valeurs nulles de cast par Unpopular
df['cast'].fillna('Unpopular', inplace = True)

In [None]:
#On remplace les valeurs nulles de director et production_companies par 'Unknown'
# On remplace les valeurs nulles de genres par Uncategorized
df.loc[:,['director','production_companies']] = df.loc[:,['director','production_companies']].fillna('Unknown')
df['genres'].fillna('Uncategorized', inplace = True)

Nous pouvons constater qu'à partir de là il n'y a plus de doublons et de valeurs nulles. 

Nous allons ensuite séparer notre dataframe en 2 afin de pouvoir faire des explorations sur le genre (on appellera ce nouveau dataframe **df_merge_genre**) et des explorations sur la maison de production (on appellera ce nouveau dataframe **df_merge_companies**)

In [None]:
#création des 2 nouveaux dataframe
df_genre = df.copy()
df_prodcom = df.copy()

Nous allons separer la colonne 'genres' afin d'avoir un seul genre de film par cellule.

In [None]:
#séparation de la colonne genre dans le dataframe df_genre
#on créé un df avec toutes les valeurs contenant le caractère '|'
df_g = df_genre[df_genre['genres'].str.contains('|')]
df_genre_1 = df_g.copy()

#On coupe le dataframe et on créé un objet serie avec plusieurs index
df_genre_1 = df_genre_1.genres.str.split('|',expand=True).stack()

#on créé une nouvelle colonne index pour faire une jointure
df_g['index']=df_g.index

#on extrait et on garde un seul niveau d'index et on créé une colonne index
df_genre_1.index =df_genre_1.index.get_level_values(0)
df_genre_1 = df_genre_1.to_frame() #df_genre_1 est transformé en dataframe
df_genre_1.rename(columns = {0 : 'genre'}, inplace = True)
df_genre_1['index']=df_genre_1.index

# on réalise une jointure entre les 2 dataframe 
df_genre_2 = pd.merge(df_g,df_genre_1, how='outer' ,on='index')

#on déplace la colonne à la bonne position
coldep = df_genre_2.pop('genre')
df_genre_2.insert(8,'genre',coldep)

#on supprime l'ancienne colonne genres et la colonne index
df_genre_2.drop('genres',axis=1, inplace = True)
df_genre_2.drop('index',axis=1, inplace = True)


In [None]:
df_merge_genre = df_genre_2

Nous utilisons le meme procede pour scinder la colonne __'production_companies'__

In [None]:
#séparation de la colonne genre dans le dataframe df_genre
#on cree un df avec toutes les valeurs contenant le caractère '|'
df_pc = df_prodcom[df_prodcom['production_companies'].str.contains('|')]
df_pc_1 = df_pc.copy()

#On coupe le dataframe et on créé un objet serie avec plusieurs index
df_pc_1 = df_pc_1['production_companies'].str.split('|',expand=True).stack()

#on créé une nouvelle colonne index pour faire une jointure
df_pc['index']=df_pc.index

#on extrait et on garde un seul niveau d'index et on créé une colonne index
df_pc_1.index =df_pc_1.index.get_level_values(0)
df_pc_1 = df_pc_1.to_frame() #df_genre_1 est transformé en dataframe
df_pc_1.rename(columns = {0 : 'production_companie'}, inplace = True)
df_pc_1['index']=df_pc_1.index

# on réalise une jointure entre les 2 dataframe 
df_pc_2 = pd.merge(df_pc,df_pc_1, how='outer' ,on='index')

#on déplace la colonne a la bonne position
coldep = df_pc_2.pop('production_companie')
df_pc_2.insert(9,'production_companie',coldep)

#on supprime l'ancienne colonne genres et la colonne index
df_pc_2.drop('production_companies',axis=1, inplace = True)
df_pc_2.drop('index',axis=1, inplace = True)


In [None]:
df_merge_companies = df_pc_2

Nous avons donc a cette etape 3 jeux de données :

df_merge_genre qui nous permet d'observer les données suivant le genre de film
df_merge_companies qui nous permet d'observer les données suivant la maison de production du film
df qui nous permet d'observer les donnees sans aucun doublon

Ces 3 dataframe vont nous permettre d'effectuer la phase d'exploration

<a id='eda'></a>
## Analyse exploratoire des données

Nous allons effectuer l'exploration des données de notre dataset en déterminant la distribution des variables quantitatives, en evaluant la corrélation entre les colonnes de budget et les colonnes de revenus, en déterminant la fiabilité de la mesure popularity par rapport à vote_average et en observant la croissance de la production des films année après année.
 Dans cette phase nous allons également explorer les différentes questions que nous nous sommes posées en introduction.

### Distribution des variables

Nous allons tout d'abord observer la distribution des variables quantitatives que sont :
> <ul>
    <li>revenue</li>
    <li>revenue_adj</li>
    <li>budget</li>
    <li>budget_adj</li>
    <li>popularity</li>
    <li>runtime</li>
    <li>release_year</li>
    <li>vote_average</li>
    <li>vote_count</li>
  </ul>

In [None]:
df.hist(figsize=(13,13));

#### Observations

> <u>Observation 1 :</u> On constate à travers les histogrammes précédents que les colonnes __"budget", "budget_adj"__; Et __"revenue, revenue_adj"__ ont des distributions quasiment similaires. Nous effectuerons une étude de correlation entre les 4 (2 par 2) pour vérifier si il s'agit effectivement des me᷆mes variables. <br>
<u>Observation 2 :</u> Il semblerait que la plupart des valeurs de la colonne __"popularity"__ soient comprisent entre 0 et 10 ce qui suggère des valeurs aberrantes dans le dataset pour cette colonne.<br>
<u>Observation 3 :</u> La plupart des valeurs de la colonne __"vote_count"__ sont inférieur à 1000 ce qui suggere qu'il y a des films ultra populaires par rapport a d'autres <br>
<u>Observation 4 :</u> la colonne __"release_year"__ semble avoir une croissance exponentielle.



### Etude des correlations

Nous observerons la correlation entre revenue et revenue_adj puis entre budget et budget_adj. 

In [None]:
#fonction pour l'affichage des tracés de correlation entre les variables
def plot_correlation (param_1,param_2):
    df.plot(x= param_1, y= param_2, stacked=True, kind='scatter', figsize=(7,7));
    plt.title('Tracé de correlation des variables {} et {}'.format(param_1,param_2))
    

In [None]:
plot_correlation('revenue','revenue_adj')

#### Observations
>Nous observons que jusqu'a 1 000 000 000 les 2 courbes sont tres correlées (concentration forte) et on observe que la correlation est positive. donc la colonne __'revenue'__ est une bonne approximation de la colonne __'revenue_adj'__ pour une grande partie de notre dataset.

In [None]:
plot_correlation('budget','budget_adj')

#### Observations
>Nous observons egalement une corrélation forte entre les 2 variables jusqu' à environ 250 000 000 et cette corrélation est positive. La colonne __'budget'__ est également une bonne approximation de la colonne __'budget_adj'__.

Observons la correlation entre la colonne __'revenue'__ et la colonne __'budget'__.

In [None]:
plot_correlation('budget','revenue')

#### Observations
>A part la forte correlation dans le premier secteur du diagramme, on ne peut rien en déduire a priori.

### Etude des valeurs abberantes sur la colonne popularity
Nous allons ensuite verifier si la colonne __'popularity'__ comporte des valeurs aberrantes.

In [None]:
#Fonction d'affichage des valeurs abberantes des colonnes popularity et vote_average
def val_abberante (param) :
    df[param].plot(kind ='box', figsize=(5,5));

In [None]:
val_abberante('popularity')

In [None]:
val_abberante('vote_average')

#### Observations
>On constate effectivement que la colonne __'popularity'__ a beaucoup plus de valeurs aberrantes que la colonne __'vote_average'__ cette derniere semble donc mieux adaptee pour une etude.

Observons egalement la distribution de la colonne release_year

In [None]:
plt.title('distribution du nombre de films par an')
sns.distplot(df.release_year, hist = True, kde = True);

#### Observations
>On peut constater qu'elle croit exponentiellement jusqu'a la derniere decennie.

### Quels genres de films sont les plus produits ?

Nous allons determiner pour cela le nombre de films produits dans notre dataframe par genre.

In [None]:
#On compte le nombre d'occurence de chaque genre de films
df_merge_genre.genre.value_counts()

#### Conclusion 1:
Nous observons donc que les films les plus produits sont du genre :
<ol>
    <li>Drama</li>
    <li>Comedy</li>
    <li>Thriller</li>
    <li>Action</li>
    <li>Romance</li>
</ol>

### Quels sont les films les plus populaire?
Nous pouvons observer ceci grace à 2 paramètres:
<li>Popularity</li>
<li>vote_average</li>
Cependant dans la phase précédente on a pu se rendre compte que la colonne "vote_average"
était plus appropriée pour une étude donc c’est elle que nous utiliserons.

In [None]:
#On Liste par vote les films qui ont  la meilleure moyenne de vote 
df_merge_genre.groupby('genre').vote_average.mean().sort_values(ascending = False)

#### Conclusion 2 :
En terme de vote, les films qui recoivent les meilleures notes sont dans l'ordre :
<ol>
    <li>Documentary</li>
    <li>Music</li>
    <li>History</li>
    <li>Animation</li>
    <li>War</li>
</ol>

### Les films d'horreur sont-ils rentables ?

Effectuons une étude de rentabilité des films d'horreur au sein de notre dataframe en comparant les revenus générés par ces films et les budgets qu'ils ont requis.

In [None]:
#On extrait d'abord l'ensemble des films d'horreur de notre dataframe
horror = df_merge_genre.query('genre == ["Horror"]')

In [None]:
#On élimine les valeurs nulles qui pourraient fausser nos résultats
new_horror = horror.drop(horror[horror.revenue == 0].index, axis = 0) 
new_horror =new_horror.drop(new_horror[new_horror.budget == 0].index, axis = 0)

In [None]:
#Creation de la colonne rentability dans notre dataframe new_horror 
new_horror['rentability'] = 'not rentable'

In [None]:
#Si la condition est respecter on attribut la valeur rentable a cette colonne
new_horror.loc[new_horror['budget'] < new_horror['revenue'],'rentability'] ='rentable'

In [None]:
#Graphique en secteur de la rentabilite des films d'horreur
new_horror.rentability.value_counts().plot(kind='pie',colors =['blue','red'], explode = (0, 0.1), figsize =(6,6));

In [None]:
new_horror.rentability.value_counts()

In [None]:
perc =(new_horror.query('rentability == "rentable"').rentability.value_counts()/new_horror.shape[0])*100

In [None]:
print("les films d'horreur sont rentables à {} %".format(perc[0].astype(int)))

#### Conclusion 3 :
Sur une étude des échantillons proposés nous nous rendons compte que les films d'horreur ne sont rentables en general

### Quelles compagnies produisent le plus de films?
Nous essayons de determiner les 5 maisons de production qui ont produits le plus de film dans notre dataframe

In [None]:
#class_prod contient la liste des maisons de production et leur nombre d'ocurrence dans le dataframe
class_prod = df_merge_companies['production_companie'].value_counts()
#best_prod contient les 5 meilleurs
#On exclu le premier car il s'agit des valeurs nulles
best_prod = class_prod.iloc[1:6]

In [None]:
#Diagramme a bande horizontal pour les maisons de production les plus performantes
plt.subplots(figsize=(8, 8))
plt.barh(best_prod.index, best_prod.values)
plt.yticks(rotation=30)
plt.title('les maisons de production les plus performantes')
plt.xlabel('Nom de la maison de production')
plt.ylabel('Nombre de films produits');

In [None]:
#Liste des 5 meilleures maisons de production
best_prod

#### Conclusion 4 :
Les maisons de production les plus prolefiques sont 
<ol>
    <li>Universal pictures</li>
    <li>Warner Bros</li>
    <li>Paramount Pictures, Columbiaa Pictures</li>
    <li>Columbia Pictures</li>
    <li>Twentieth Century Fox Film Corporation</li>

</ol>
, , , .

### Quels sont les revenues des 5 meilleures maisons de production en 2017 ?

In [None]:
#df_2015 contient la liste des enregitrements de films de l'annee 2015 
df_2015 = df_merge_companies[df_merge_companies.release_year == 2015]

In [None]:
#df_2015_best contient le revenue total de chacune des 5 meilleurs maisons de production en 2015
df_2015_best = df_2015.groupby('production_companie').sum().revenue.loc[best_prod.index]

In [None]:
# Diagramme a barre des revenues des 5 meilleurs en 2015
df_2015_best.plot(kind='bar')
plt.xlabel('best production companies')
plt.ylabel('revenue in 2015')
plt.xticks(rotation = 80)
plt.title('revenue of best production companies in 2015');

#### Conclusion 5 :
Les revenues de ces maisons de production en 2015 sont les suivants :

In [None]:
print(df_2015_best.sort_values())

<a id='conclusions'></a>
## Conclusions

Au debut de notre projet nous nous sommes pose les questions suivantes :

### Questions d'analyse
Nous avons décidé de nous poser 5 questions pour analyser notre dataset :
<ul>
    <li>Quels genres de films sont les plus produits?</li>
    <li>Quels genres de films sont les plus populaire?</li>
    <li>Quelles maisons de production produisent le plus de films ?</li>
    <li>Quels revenus ont elles engrangés grace à leurs films de 2015 ?</li>
    <li>Les films d'horreur sont ils rentables ?</li>
</ul>
Ces questions ont pour but d'explorer la rentabilité des films en fonction de leur genre et de l'avis des différents internautes. Nos questions ont également pour but d'observer les gains des différentes maisons de production. <br>

> Au terme de notre analyse et en fonction des résultats obtenus lors de la phase d'exploration, nous avons obtenu les résultats suivants: <br>

<u><strong>conclusion 1 :</strong></u> les genres de films qui sont les plus produits sont Drama, Comedy, Thriller, Action, Romance <br>

<u><strong>conclusion 2 :</strong></u> les films qui les plus populaires sont de type Documentary, Music, History, Animation, War <br>

<u><strong>conclusion 3 :</strong></u> Globalement les films d'horreur sont des films rentables <br>

<u><strong>conclusion 4 :</strong></u> les 5 maisons les plus productives sont Universal Pictures, Warner Bros., Paramount Pictures, Twentieth Century Fox Film Corporation et Columbia Pictures. <br>

<u><strong>conclusion 5 :</strong></u> En 2015,On peut constater que la maison Warner Bros. a fait plus de bénéfices que les autres. <br>

### Limites de l'analyses

Notre analyse présente certaines limites à savoir:
<ul>
    <li>Nous n'avons pas utilisé toutes les ressources pertinentes de notre dataset comme la colonne "cast" </li>
    <li>L'étude de popularité peut e᷆tre biaisée à cause du grand nombre de valeurs aberrantes </li>
    <li>Le nombre de films d'horreur non rentable est assez élevé (environ 25% des films analysés) </li>
</ul>


## Submitting your Project 

> **Tip**: Before you submit your project, you need to create a .html or .pdf version of this notebook in the workspace here. To do that, run the code cell below. If it worked correctly, you should get a return code of 0, and you should see the generated .html file in the workspace directory (click on the orange Jupyter icon in the upper left).

> **Tip**: Alternatively, you can download this report as .html via the **File** > **Download as** submenu, and then manually upload it into the workspace directory by clicking on the orange Jupyter icon in the upper left, then using the Upload button.

> **Tip**: Once you've done this, you can submit your project by clicking on the "Submit Project" button in the lower right here. This will create and submit a zip file with this .ipynb doc and the .html or .pdf version you created. Congratulations!

## Sources
> https://pandas.pydata.org/docs <br>
>https://stackoverflow.com/questions/71489282/split-column-in-a-pandas-dataframe-into-n-number-of-columns <br>
>https://thispointer.com/pandas-how-to-merge-dataframes-by-index-using-dataframe-merge-part-3

In [None]:
from subprocess import call
call(['python', '-m', 'nbconvert', 'Investigate_a_Dataset.ipynb'])