# Projet Python : Projet App Prédictive 

#### Notre problèmatique choisi est : Comment prédire le revenu d'un film grâce à ses données ? Peut-on estimer le succès financier d'un film à partir de ses caratèristiques ?

### 1. Importation des bibliothèques

Dans cette prèmiere étape, nous allons importer les bibliothèques nécessaires pour manipuler les données, entraîner notre 
modèle de machine learning et sauvegarder ce modèle pour l'utiliser plus tard.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split #machine learning
from sklearn.ensemble import RandomForestRegressor #machine learning
import joblib as jbl

### 2. Chargement et préparation des données

Nous chargeons notre dataset puis nous supprimons les lignes contenant des valeurs manquantes ou unitiles pour notre projet ainsi éviter les erreurs 

In [None]:
#Charger le dataset
df = pd.read_csv("movies_success_predict.csv")

#Nettoyage des données
df = df.dropna()

### 3. Sélectionner les variables importantes 

Nous choissions les colonnes qui peuvent potentillement influencer le revenu d'un film. Cela inclut : le genre, le réalisateur, les acteurs, la durée, l'année de sortie, la note IMDb et le metascore.

In [None]:
#Liste des colonnes explicatives qui sont pertinentes pour la prédiction
features = [
    "Genre", "Director", "Actors",
    "Year", "Runtime (Minutes)",
    "Rating", "Metascore"
]

### 4. Encodage des variables catégorielles et séparation des données : Machine Learning

Certaines colonnes de notre dataset sont du texte donc pour cela nous devons transformer les données en chiffre avec la méthode du "one-hot encoding". Mais pour cela on doit définir X et y . 

Donc y= La colonne "Revenue(Millions) et X = Contient toutes les autres colonnes.

On va transformer le texte en colonnes de 0 à 1 pour le modèle puisse comprendre les données du dataset avec la méthode "dummies"

In [None]:
#Définir X et y
X = df[features]
y = df["Revenue (Millions)"]

#Encodage des catégories en one-hot
X_encoded = pd.get_dummies(X)

Nous divisions notre dataset en deu xparties :
- pour entraîner le modèle ('train)
- pour tester le modèle ('test')

Cela va nous permettre de savoir si le modèle qu'on utilise est performant

In [None]:
#Train #test 
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

#Entraînement du modèle
model = RandomForestRegressor()
model.fit(X_train, y_train)

### 6. Sauvegarder le modèle avec Joblit

Une fois le modèle entraîner, nous le sauvegardons dans un fichier .pkl avec les colonnes qu'on va utiliser pour la prédiction. Cela va nous permettre de le réutiliser dans notre application Streamlit

In [None]:
#Sauvegarde du modèle et des colonnes utilisées
jbl.dump(model, "movies_success_predict.pkl")
jbl.dump(X_encoded.columns.tolist(), "new_columns.pkl")

print("Modèle entraîné et sauvegardé pour la prédiction du revenu.")