
# üé¨ PROJET 16 : PR√âDICTION DU BOX-OFFICE üçø

Bienvenue dans ce projet de Data Science ! 
Aujourd'hui, vous √™tes analyste pour un grand studio de cin√©ma. 
Votre mission : **Pr√©dire combien un film va rapporter (Revenus) AVANT m√™me qu'il ne sorte !** üí∞

Nous allons utiliser des donn√©es historiques (Budget, Genre, Acteurs...) pour construire un mod√®le d'Intelligence Artificielle.

---

## üìÖ VOTRE PROGRAMME

### üìã SESSION 1 : From Raw Data to Clean Insights (45 min)
- **Part 1: The Setup** - Chargement et d√©couverte des donn√©es
- **Part 2: The Sanity Check** - Nettoyage (films sans genre, budgets bizarres)
- **Part 3: Exploratory Data Analysis** - Quel genre rapporte le plus ?

### üìã SESSION 2 : The Art of Feature Engineering (45 min)
- **Part 1: The Concept** - Transformer des dates et du texte en nombres
- **Part 2: The Lab** - Cr√©er des variables "Mois de sortie" et "Saison"
- **Part 3: Final Prep** - Pr√©parer les donn√©es pour l'IA

### üìã SESSION 3 : Building & Trusting Your Model (45 min)
- **Part 1: The Split** - S√©parer l'entra√Ænement et le test
- **Part 2: Training** - Entra√Æner notre "Cerveau" (Random Forest)
- **Part 3: Evaluation** - Est-ce que notre mod√®le est fiable ?
- **Part 4: Going Further (BONUS)** - Analyser la rentabilit√© (ROI)

---



# üìã SESSION 1 : FROM RAW DATA TO CLEAN INSIGHTS



## üèÅ Part 1: The Setup (10 min)

Commen√ßons par importer nos outils (les librairies Python) et charger les donn√©es.


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration pour que les graphiques soient jolis
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

print("‚úÖ Librairies import√©es avec succ√®s !")



### üìÇ Chargement des donn√©es
Le fichier s'appelle `box_office.csv`.


In [None]:

# Chargement du dataset
df = pd.read_csv('box_office.csv')

# Afficher les 5 premi√®res lignes
print("Aper√ßu des donn√©es :")
display(df.head())

# Afficher les infos techniques
print("\nInfos techniques :")
df.info()



## üßπ Part 2: The Sanity Check (15 min)

Les donn√©es r√©elles sont rarement parfaites. Il faut les nettoyer !

### 1. Valeurs manquantes (Nulls)
Regardons si nous avons des trous dans nos donn√©es.


In [None]:

# Compter les valeurs manquantes par colonne
print(df.isnull().sum())



> **üí° Tip:** Si le `Genre` est manquant, on ne peut pas le deviner. Comme il y en a peu, supprimons ces lignes.


In [None]:

# Supprimer les lignes o√π le Genre est manquant
df = df.dropna(subset=['Genre'])

print(f"‚úÖ Nouvelles dimensions du dataset : {df.shape}")



### 2. Doublons
Avons-nous des films en double ?


In [None]:

# V√©rifier les doublons
doublons = df.duplicated().sum()
print(f"Nombre de doublons : {doublons}")

# Si doublons > 0, on les supprime
if doublons > 0:
    df = df.drop_duplicates()
    print("‚úÖ Doublons supprim√©s !")



## üìä Part 3: Exploratory Data Analysis (20 min)

Jouons aux d√©tectives ! Quelles sont les tendances ?

### üí∞ Budget vs Revenus
Est-ce que d√©penser plus garantit de gagner plus ?


In [None]:

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Budget', y='Revenus', hue='Genre', alpha=0.6)
plt.title('Relation Budget vs Revenus par Genre')
plt.xlabel('Budget ($)')
plt.ylabel('Revenus ($)')
plt.show()



### üé≠ Revenus par Genre
Quel genre rapporte le plus en moyenne ?


In [None]:

# TODO: R√©p√©tez pour le barplot des revenus par genre
# Indice : utilisez sns.barplot(data=df, x='Genre', y='Revenus')
plt.figure(figsize=(12, 6))
sns.barplot(data=df, x='Genre', y='Revenus', estimator=np.mean, errorbar=None)
plt.title('Revenu Moyen par Genre')
plt.xticks(rotation=45)
plt.show()



‚ùì **Question :** Quel genre semble √™tre le plus lucratif en moyenne ? Est-ce surprenant ?



# üìã SESSION 2 : THE ART OF FEATURE ENGINEERING



## üß† Part 1: The Concept (10 min)

Les ordinateurs ne comprennent que les chiffres.
- "Action" -> ‚ùå
- "2023-12-25" -> ‚ùå
- 1500000 -> ‚úÖ

Nous devons transformer nos donn√©es !



## üß™ Part 2: The Lab - Choose Your Recipe (30 min)

### Recipe 1: Dates & Time üïê
La `Date_Sortie` contient des infos pr√©cieuses : le mois (√©t√© vs hiver), l'ann√©e, le jour de la semaine.


In [None]:

# Convertir la colonne en format datetime
df['Date_Sortie'] = pd.to_datetime(df['Date_Sortie'])

# Extraire les features
df['Annee'] = df['Date_Sortie'].dt.year
df['Mois'] = df['Date_Sortie'].dt.month
df['JourSemaine'] = df['Date_Sortie'].dt.dayofweek  # 0=Lundi, 6=Dimanche

print("‚úÖ Colonnes temporelles cr√©√©es !")
display(df[['Date_Sortie', 'Annee', 'Mois', 'JourSemaine']].head())



### Recipe 2: Categories üè∑Ô∏è
Le `Genre` est une cat√©gorie. Utilisons le **One-Hot Encoding** pour cr√©er une colonne par genre (Genre_Action, Genre_Comedy, etc.).


In [None]:

# One-Hot Encoding pour le Genre
df = pd.get_dummies(df, columns=['Genre'], prefix='Genre')

print("‚úÖ Encodage termin√© !")
display(df.head())



### Recipe 4: Math Magic ‚ûó
Les budgets et revenus ont des valeurs √©normes et tr√®s √©tal√©es (skewed).
Utilisons le **Logarithme** pour les "tasser" et aider le mod√®le.


In [None]:

# Appliquer log(x + 1) pour √©viter log(0)
df['Log_Budget'] = np.log1p(df['Budget'])

# Visualisons la diff√©rence
fig, axes = plt.subplots(1, 2, figsize=(12, 5))
sns.histplot(df['Budget'], ax=axes[0], kde=True).set_title('Budget Original')
sns.histplot(df['Log_Budget'], ax=axes[1], kde=True).set_title('Log Budget (Plus Normal)')
plt.show()



## üèÅ Part 3: Final Prep (5 min)

Nettoyons le dataset final pour l'entra√Ænement.
On retire les colonnes inutiles (ID, Date originale, etc.).


In [None]:

# Colonnes √† supprimer
cols_to_drop = ['ID_Film', 'Date_Sortie', 'Budget'] # On garde Log_Budget

df_model = df.drop(columns=cols_to_drop)

print(f"‚úÖ Pr√™t pour le mod√®le ! Dimensions : {df_model.shape}")



# üìã SESSION 3 : BUILDING & TRUSTING YOUR MODEL



## ‚úÇÔ∏è Part 1: The Split (10 min)

On s√©pare les donn√©es :
- **X** : Les indices (Log_Budget, Score_Acteurs, Annee, Mois, Genres...)
- **y** : La cible (Revenus)


In [None]:

from sklearn.model_selection import train_test_split

X = df_model.drop('Revenus', axis=1)
y = df_model['Revenus']

# Split 80% train, 20% test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Train size: {X_train.shape}")
print(f"Test size: {X_test.shape}")



## üèãÔ∏è Part 2: Training (15 min)

Nous allons utiliser un **RandomForestRegressor**. C'est un ensemble d'arbres de d√©cision qui votent pour pr√©dire le revenu.


In [None]:

from sklearn.ensemble import RandomForestRegressor

# Cr√©ation du mod√®le
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Entra√Ænement
print("‚è≥ Entra√Ænement en cours...")
model.fit(X_train, y_train)
print("‚úÖ Mod√®le entra√Æn√© !")



## üéØ Part 3: Evaluation (20 min)

Notre mod√®le est-il bon ? Regardons les m√©triques :
- **MAE (Mean Absolute Error)** : Erreur moyenne en $
- **R¬≤ Score** : Pr√©cision globale (1.0 = Parfait)


In [None]:

from sklearn.metrics import mean_absolute_error, r2_score

# Pr√©dictions
y_pred = model.predict(X_test)

# M√©triques
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"üí∞ Erreur Moyenne (MAE) : ${mae:,.2f}")
print(f"üìä Score R¬≤ : {r2:.3f}")

# Comparaison visuelle
plt.figure(figsize=(8, 8))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--') # Ligne parfaite
plt.xlabel('Vrais Revenus')
plt.ylabel('Revenus Pr√©dits')
plt.title('V√©rit√© vs Pr√©diction')
plt.show()



## üéÅ Part 4: Going Further (Bonus - 15-30 mins)

Le mod√®le est pr√™t ! Explorons des questions business plus pouss√©es.

### Bonus Task 1: Analyse du ROI (Return on Investment) üí∏
**Goal:** Identifier les films rentables.
**Formula:** `ROI = Revenus / Budget`

- ROI < 1 : Flop (Perte d'argent)
- ROI > 1 : Succ√®s
- ROI > 3 : Blockbuster !


In [None]:

# Calcul du ROI sur tout le dataset original (df)
df['ROI'] = df['Revenus'] / df['Budget']

# Cr√©ation des cat√©gories
def categorize_roi(roi):
    if roi < 1:
        return 'Flop üìâ'
    elif roi < 3:
        return 'Succ√®s üëç'
    else:
        return 'Blockbuster üöÄ'

df['Performance'] = df['ROI'].apply(categorize_roi)

# Visualisation
print(df['Performance'].value_counts())
sns.countplot(data=df, x='Performance', order=['Flop üìâ', 'Succ√®s üëç', 'Blockbuster üöÄ'])
plt.title('Distribution des Performances de Films')
plt.show()



### Bonus Task 2: Le Mois de Sortie Optimal üóìÔ∏è
**Goal:** Quel mois choisir pour sortir un film et maximiser les revenus ?


In [None]:

# Revenu moyen par mois
monthly_rev = df.groupby('Mois')['Revenus'].mean().reset_index()

plt.figure(figsize=(10, 5))
sns.barplot(data=monthly_rev, x='Mois', y='Revenus', palette='viridis')
plt.title('Revenu Moyen par Mois de Sortie')
plt.xlabel('Mois (1=Janvier, 12=D√©cembre)')
plt.ylabel('Revenu Moyen ($)')
plt.show()



‚ùì **Question Business :** Si vous deviez sortir un gros film d'action, quel mois choisiriez-vous ? (Regardez les pics !)
