# Introduction

Est-ce que des budgets de films plus élevés conduisent à plus de revenus au box-office ? Découvrons s'il existe une relation en utilisant les données de budgets et de performances financières des films que j'ai extraites de [the-numbers.com](https://www.the-numbers.com/movie/budgets) le **1er mai 2018**. 

<img src=https://i.imgur.com/kq7hrEh.png>

# Importation des Bibliothèques

In [None]:
import pandas as pd
import matplotlib.pyplot as plt


# Présentation du Notebook

In [None]:
pd.options.display.float_format = '{:,.2f}'.format

from pandas.plotting import register_matplotlib_converters
register_matplotlib_converters()

# Lecture des Données

In [None]:
data = pd.read_csv()

# Exploration et Nettoyage des Données

**Défi** : Répondez à ces questions sur le jeu de données :
1. Combien de lignes et de colonnes le jeu de données contient-il ?
2. Y a-t-il des valeurs NaN présentes ?
3. Y a-t-il des lignes dupliquées ?
4. Quels sont les types de données des colonnes ?

### Conversions des Types de Données

**Défi** : Convertissez les colonnes `USD_Production_Budget`, `USD_Worldwide_Gross` et `USD_Domestic_Gross` en format numérique en supprimant les signes `$` et les `,`. 
<br>
<br>
Notez que *domestic* dans ce contexte fait référence aux États-Unis.

**Défi** : Convertissez la colonne `Release_Date` en type Datetime de Pandas. 

### Statistiques Descriptives

**Défi** : 

1. Quel est le budget de production moyen des films dans le jeu de données ?
2. Quel est le revenu brut mondial moyen des films ?
3. Quels sont les minimums pour les revenus mondiaux et domestiques ?
4. Les 25% de films du bas sont-ils réellement rentables ou perdent-ils de l'argent ?
5. Quels sont le budget de production le plus élevé et le revenu brut mondial le plus élevé d'un film ?
6. Combien de revenus les films au budget le plus bas et le plus élevé ont-ils générés ?

# Enquête sur les Films à Revenu Nul

**Défi** : Combien de films ont rapporté 0$ au niveau domestique (c'est-à-dire aux États-Unis) ? Quels sont les films au budget le plus élevé qui n'ont rien rapporté ?

**Défi** : Combien de films ont rapporté 0$ dans le monde entier ? Quels sont les films au budget le plus élevé qui n'ont généré aucun revenu à l'international ?

### Filtrage sur Conditions Multiples

**Défi** : Utilisez la [fonction `.query()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) pour accomplir la même chose. Créez un sous-ensemble pour les sorties internationales qui ont généré des revenus mondiaux, mais aucun revenu aux États-Unis. 

Astuce : Cette fois, vous devrez utiliser le mot-clé `and`.

### Films Non Sortis

**Défi** :
* Identifiez quels films n'étaient pas encore sortis au moment de la collecte des données (1er mai 2018).
* Combien de films sont inclus dans le jeu de données qui n'ont pas encore eu l'occasion d'être projetés au box-office ? 
* Créez un autre DataFrame appelé data_clean qui n'inclut pas ces films. 

In [None]:
# Date de Collecte des Données
scrape_date = pd.Timestamp('2018-5-1')

### Films qui Ont Perdu de l'Argent

**Défi** : 
Quel est le pourcentage de films dont les coûts de production ont dépassé les revenus bruts mondiaux ? 

# Seaborn pour la Visualisation de Données : Graphiques à Bulles

### Tracer les Sorties de Films au Fil du Temps

**Défi** : Essayez de créer le graphique à bulles suivant :

<img src=https://i.imgur.com/8fUn9T6.png>



# Astuce pour Convertir les Années en Décennies

**Défi** : Créez une colonne dans `data_clean` qui contient la décennie de sortie. 

<img src=https://i.imgur.com/0VEfagw.png width=650> 

Voici comment faire : 
1. Créez un [objet `DatetimeIndex`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.html) à partir de la colonne Release_Date. 
2. Récupérez toutes les années de l'objet `DatetimeIndex` en utilisant la propriété `.year`.
<img src=https://i.imgur.com/5m06Ach.png width=650>
3. Utilisez la division entière `//` pour convertir les données d'année en décennies des films.
4. Ajoutez les décennies en tant que colonne `Decade` au DataFrame `data_clean`.

### Séparer les Films "Anciens" (avant 1969) et "Nouveaux" (à partir des années 1970)

**Défi** : Créez deux nouveaux DataFrames : `old_films` et `new_films`
* `old_films` doit inclure tous les films avant 1969 (jusqu'en 1969 inclus)
* `new_films` doit inclure tous les films à partir de 1970
* Combien de films sont sortis avant 1970 ?
* Quel était le film le plus cher réalisé avant 1970 ?

# Graphiques de Régression avec Seaborn

**Défi** : Utilisez `.regplot()` de Seaborn pour afficher le nuage de points et la ligne de régression linéaire pour `new_films`. 
<br>
<br>
Styler le graphique

* Mettez le graphique sur une grille `'darkgrid'`.
* Définissez des limites sur les axes pour qu'ils n'affichent pas de valeurs négatives.
* Étiquetez les axes du graphique "Revenus en milliards de \$" et "Budget en millions de \$".
* Fournissez des codes couleur HEX pour le graphique et la ligne de régression. Faites les points en bleu foncé (#2f4b7c) et la ligne en orange (#ff7c43).

Interpréter le graphique

* Nos points de données pour les nouveaux films s'alignent-ils mieux ou moins bien avec la régression linéaire que pour nos films plus anciens ?
* Approximativement, combien rapporterait un film avec un budget de 150 millions de dollars selon la ligne de régression ?

# Exécutez Votre Propre Régression avec scikit-learn

$$ REV \hat ENUE = \theta _0 + \theta _1 BUDGET$$

**Défi** : Exécutez une régression linéaire pour `old_films`. Calculez l'ordonnée à l'origine, la pente et le r-carré. Quelle part de la variance des revenus des films le modèle linéaire explique-t-il dans ce cas ?

# Utilisez Votre Modèle pour Faire une Prédiction

Nous venons d'estimer la pente et l'ordonnée à l'origine ! Rappelez-vous que notre modèle linéaire a la forme suivante :

$$ REV \hat ENUE = \theta _0 + \theta _1 BUDGET$$

**Défi** : Quels revenus mondiaux notre modèle estime-t-il pour un film avec un budget de 350 millions de dollars ? 