**Step by step**

1. Sélection et la division des caractéristiques

Choix des caractéristiques les plus pertinentes qui sont susceptibles d'influencer la note IMDB d'un film.

2. Construction du modèle

choix des modèles de prédiction :

    - Régression linéaire : pour des relations linéaires simples.
    
    - Forêts aléatoires : pour capturer des relations plus complexes.
    
    - Réseaux de neurones : pour des modèles plus sophistiqués et des grandes quantités de données.
    
3. Entraînement et évaluation du modèle

Entraînement : Entraîner le modèle sur less données IMDB.
Évaluation : Évaluer la performance des modèles à l'aide de métriques telles que le RMSE (Root Mean Square Error).

4. Optimisation du modèle 

Choix des techniques telles que la validation croisée et Grid Search pour optimiser les hyperparamètres du modèle .

5. Faire des prédictions

Avec le modèle entraîné, réaliser des prédictions de notes IMDB pour de nouveaux films 

In [40]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor

In [41]:
# URL fournie
dataset_url = "https://raw.githubusercontent.com/AntoanetaStoyanova/PROJECT-IMBD/main/Datas/5000_movie_correction.csv"

# Chargement des données
df = pd.read_csv(dataset_url)
df.head(5)

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_fb_likes,actor_3_fb_likes,actor_2_name,actor_1_fb_likes,gross,genres,...,language,country,content_rating,budget,title_year,actor_2_fb_likes,imdb_score,aspect_ratio,movie_fb_likes,color_binary
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000,1
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0,1
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000,1
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000,1
4,Color,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,English,USA,PG-13,263700000.0,2012.0,632.0,6.6,2.35,24000,1


Selection de la cible

In [42]:
# Sélection des caractéristiques et de la cible
features = ['num_critic_for_reviews', 'director_fb_likes', 'cast_total_fb_likes','gross','num_user_for_reviews','budget' ,'duration', 'title_year', 'movie_fb_likes']  # Exemple de caractéristiques
target = 'imdb_score'  # Exemple de variable cible


Division des données

In [43]:
# Division des données
X = df[features]
y =df[target]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Evaluation des modèles

In [44]:
# Entraînement et évaluation du modèle de Régression Linéaire
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)
y_pred_linear = linear_model.predict(X_test)
rmse_linear = np.sqrt(mean_squared_error(y_test, y_pred_linear))


In [45]:
# Entraînement et évaluation du modèle Random Forest
random_forest_model = RandomForestRegressor(random_state=42)
random_forest_model.fit(X_train, y_train)
y_pred_rf = random_forest_model.predict(X_test)
rmse_rf = np.sqrt(mean_squared_error(y_test, y_pred_rf))

In [46]:
# Entraînement et évaluation du modèle Neural Network
neural_network_model = MLPRegressor(random_state=42)
neural_network_model.fit(X_train, y_train)
y_pred_nn = neural_network_model.predict(X_test)
rmse_nn = np.sqrt(mean_squared_error(y_test, y_pred_nn))

In [47]:
print(f"Régression Linéaire RMSE: {rmse_linear}")
print(f"Random Forest RMSE: {rmse_rf}")
print(f"Réseau de Neurones RMSE: {rmse_nn}")

Régression Linéaire RMSE: 0.9797233264697571
Random Forest RMSE: 0.8281220127872627
Réseau de Neurones RMSE: 630678.4308068973


Choix du modele

In [51]:
# Entraînement du modele retenu
modele = LinearRegression()
modele.fit(X_train, y_train)

# Prédiction sur l'ensemble de test
y_pred = modele.predict(X_test)

# Calcul du RMSE (Root Mean Square Error)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE: {rmse}')

RMSE: 0.9797233264697571


Sauvegarde du modèle pour le déployer dans une application

In [49]:
from joblib import dump, load

# Sauvegarde du modèle dans un fichier
dump(modele, 'modeleIMDB.joblib')

# Pour charger le modèle plus tard
modele_charge = load('modeleIMDB.joblib')