In [63]:
%reset -f

# 1- Les bibliothèques à importer

In [126]:
import pandas as pd
import numpy as np
import ydata_profiling as yp
from ydata_profiling import ProfileReport
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import RobustScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


# 2- Importation, compréhension, Prétraitement et Transformation des données des bases de données

## 2-1 Importation et compréhension des bases de données

In [65]:
dataset = pd.read_csv('dataset.csv', delimiter=',', quotechar='"')
datasetsupplement = pd.read_csv('dataset_supplement.csv', delimiter=',', quotechar='"')


Il s'agit de deux bases de données liées par la variable id dans la base dataset et movie_id dans la base dataset_supplement. Ces deux bases de données donnent des informations sur 4803 films. un premier constat, certaines variables (exemple des variables actors, production-crew, attributs_spoken_languages, etc.) contiennent une liste de dictionnaires, où chaque dictionnaire représente un unité et contient plusieurs attributs. Il est donc indispensable d'extraire les informations pertinentes des données brutes de ces variables pour les rendre exploitables pour le machine learning

## 2-2 Prétraitement

La première étape est d'identifier ces variables, surtout celle qui sont utile pour le machine learning, ensuite d'identifier les informations à extraire. Les variables concernées sont : 
1 - pour la base dataset : spoken_languages, countries_of_production, production, keywords et genres ; 
2 - pour la base dataset_supplement : actors et production_crew.

Pour la suite, les vafriables production et keywords ne seront pas pris en compte à cause du très grands nombre de modalités

#### Fonction pour extraire les modalités d'un attribut complexe

In [66]:

def extraire_modalites(row, variable, attribut):
    elements = eval(row[variable])
    modalites = set()
    for element in elements:
        if attribut in element:
            modalites.add(element[attribut])
    return modalites

#### Fonction pour compter les occurrences de chaque modalité

In [67]:
def compter_occurrences(row, variable, attribut, modalite):
    elements = eval(row[variable])
    nb_occurrences = sum(1 for element in elements if attribut in element and element[attribut] == modalite)
    return nb_occurrences

#### Fonction pour ajouter les nouvelles variables à la base de données

In [68]:
def ajouter_nouvelles_variables(data, variable, attribut):
    modalites = set()
    for index, row in data.iterrows():
        modalites.update(extraire_modalites(row, variable, attribut))
    for modalite in modalites:
        nom_colonne = variable + '_' + attribut + '_' + str(modalite)
        data[nom_colonne] = data.apply(lambda x: compter_occurrences(x, variable, attribut, modalite), axis=1)
    # Ajouter une variable avec le nombre de modalités par attribut
    Nb_modalite_nom_colonne = 'Nb_modalite' + variable + '_' + attribut
    data[Nb_modalite_nom_colonne] = data.apply(lambda x: len(extraire_modalites(x, variable, attribut)), axis=1)

#### Liste des attributs à considérer par variable

In [69]:
#dans la base dataset
attributs_actors = ['gender']
attributs_production_crew = ['department', 'gender']

# Dans la base supplémentaire
attributs_spoken_languages = ['name']
attributs_countries_of_production = ['name']
attributs_genres = ['name']

#### Extraction des informations et création des variables

In [None]:
for attribut in attributs_production_crew:
    ajouter_nouvelles_variables(datasetsupplement, 'production_crew', attribut)

for attribut in attributs_actors:
    ajouter_nouvelles_variables(datasetsupplement, 'actors', attribut)

for attribut in attributs_spoken_languages:
    ajouter_nouvelles_variables(dataset, 'spoken_languages', attribut)

for attribut in attributs_countries_of_production:
    ajouter_nouvelles_variables(dataset, 'countries_of_production', attribut)

for attribut in attributs_genres:
    ajouter_nouvelles_variables(dataset, 'genres', attribut)

In [72]:
# Sauvegarder la nouvelle base de données
datasetsupplement.to_csv('datasetsupplement_new.csv', index=False)
dataset.to_csv('dataset_new.csv', index=False)

# 3 Sélection des variables

### Fusion des bases de données

In [81]:
# Fusionner les DataFrames sur les colonnes "id" et "movie_id"
merged_dataset = pd.merge(dataset, datasetsupplement, left_on='id', right_on='movie_id')

# Réorganiser les colonnes pour déplacer la colonne "id" en début de base de données
merged_dataset = merged_dataset[['id'] + [col for col in merged_dataset.columns if col != 'id']]

# Supprimer la colonne "movie_id" qui est devenue redondante après la fusion
merged_dataset.drop(columns=['movie_id', 'Unnamed: 0_x', 'Unnamed: 0_y'], inplace=True)

# Sauvegarder le DataFrame fusionné dans un nouveau fichier CSV
merged_dataset.to_csv('merged_dataset.csv', index=False)


### Suppression des variables

1- les variables suivantes vont êtres supprimées dans la mesures où les informations utiles ont étéextraites : 'production_crew', 'actors', 'spoken_languages', 'genres',
2 - Les variables suivantes sont supprimées parce que trop d'information : 'title_x', 'tagline', 
3 - Les variables créées pour chaque langue ont été supprimées compte tenu du nombre de langue élevé. Seule la variables renseignant chaque le nombre de langue a été maintenu

In [82]:
# Liste des variables à supprimer
variables_a_supprimer = ['production_crew', 'actors', 'spoken_languages', 'genres', 'title_x', 'tagline', 'overview' , 'original_title' , 'homepage' , 'spoken_languages_name_', 'spoken_languages_name_Bosanski', 'spoken_languages_name_普通话', 'spoken_languages_name_广州话 / 廣州話', 'spoken_languages_name_తెలుగు', 'spoken_languages_name_Slovenščina', 'spoken_languages_name_Íslenska', 'spoken_languages_name_বাংলা', 'spoken_languages_name_svenska', 'spoken_languages_name_Srpski', 'spoken_languages_name_Slovenčina', 'spoken_languages_name_Gaeilge', 'spoken_languages_name_Català', 'spoken_languages_name_Latin', 'spoken_languages_name_हिन्दी', 'spoken_languages_name_فارسی', 'spoken_languages_name_Polski', 'spoken_languages_name_Türkçe', 'spoken_languages_name_Bamanankan', 'spoken_languages_name_No Language', 'spoken_languages_name_Português', 'spoken_languages_name_Bahasa indonesia', 'spoken_languages_name_Español', 'spoken_languages_name_Nederlands', 'spoken_languages_name_български език', 'spoken_languages_name_suomi', 'spoken_languages_name_ภาษาไทย', 'spoken_languages_name_العربية', 'spoken_languages_name_Esperanto', 'spoken_languages_name_isiZulu', 'spoken_languages_name_Český', 'spoken_languages_name_日本語', 'spoken_languages_name_اردو', 'spoken_languages_name_қазақ', 'spoken_languages_name_Dansk', 'spoken_languages_name_ქართული', 'spoken_languages_name_한국어/조선말', 'spoken_languages_name_Tiếng Việt', 'spoken_languages_name_Italiano', 'spoken_languages_name_shqip', 'spoken_languages_name_??????', 'spoken_languages_name_Wolof', 'spoken_languages_name_Somali', 'spoken_languages_name_پښتو', 'spoken_languages_name_Français', 'spoken_languages_name_Cymraeg', 'spoken_languages_name_English', 'spoken_languages_name_Română', 'spoken_languages_name_Pусский', 'spoken_languages_name_Eesti', 'spoken_languages_name_Deutsch', 'spoken_languages_name_ਪੰਜਾਬੀ', 'spoken_languages_name_Hrvatski', 'spoken_languages_name_ελληνικά', 'spoken_languages_name_Norsk', 'spoken_languages_name_Afrikaans', 'spoken_languages_name_Kiswahili', 'spoken_languages_name_עִבְרִית', 'spoken_languages_name_Galego', 'spoken_languages_name_தமிழ்', 'spoken_languages_name_Magyar', 'spoken_languages_name_Український', 'countries_of_production_name_Colombia', 'countries_of_production_name_Singapore', 'countries_of_production_name_Pakistan', 'countries_of_production_name_Romania', 'countries_of_production_name_Thailand', 'countries_of_production_name_Czech Republic', 'countries_of_production_name_United States of America', 'countries_of_production_name_Slovakia', 'countries_of_production_name_Sweden', 'countries_of_production_name_Malta', 'countries_of_production_name_United Arab Emirates', 'countries_of_production_name_Bulgaria', 'countries_of_production_name_Poland', 'countries_of_production_name_Kazakhstan', 'countries_of_production_name_Spain', 'countries_of_production_name_India', 'countries_of_production_name_Iceland', 'countries_of_production_name_Ecuador', 'countries_of_production_name_France', 'countries_of_production_name_China', 'countries_of_production_name_Jordan', 'countries_of_production_name_Finland', 'countries_of_production_name_Kyrgyz Republic', 'countries_of_production_name_Japan', 'countries_of_production_name_Aruba', 'countries_of_production_name_Belgium', 'countries_of_production_name_Austria', 'countries_of_production_name_South Africa', 'countries_of_production_name_Hungary', 'countries_of_production_name_Denmark', 'countries_of_production_name_Greece', 'countries_of_production_name_Lithuania', 'countries_of_production_name_Guadaloupe', 'countries_of_production_name_Iran', 'countries_of_production_name_Bolivia', 'countries_of_production_name_Netherlands', 'countries_of_production_name_Cameroon', 'countries_of_production_name_Tunisia', 'countries_of_production_name_Luxembourg', 'countries_of_production_name_Bhutan', 'countries_of_production_name_Dominican Republic', 'countries_of_production_name_Bosnia and Herzegovina', 'countries_of_production_name_Morocco', 'countries_of_production_name_Taiwan', 'countries_of_production_name_New Zealand', 'countries_of_production_name_Nigeria', 'countries_of_production_name_Slovenia', 'countries_of_production_name_Malaysia', 'countries_of_production_name_Monaco', 'countries_of_production_name_Brazil', 'countries_of_production_name_Peru', 'countries_of_production_name_Cambodia', 'countries_of_production_name_Serbia and Montenegro', 'countries_of_production_name_Cyprus', 'countries_of_production_name_Afghanistan', 'countries_of_production_name_Angola', 'countries_of_production_name_Fiji', 'countries_of_production_name_Israel', 'countries_of_production_name_Lebanon', 'countries_of_production_name_Canada', 'countries_of_production_name_Russia', 'countries_of_production_name_Indonesia', 'countries_of_production_name_Bahamas', 'countries_of_production_name_Kenya', 'countries_of_production_name_Italy', 'countries_of_production_name_Germany', 'countries_of_production_name_South Korea', 'countries_of_production_name_Libyan Arab Jamahiriya', 'countries_of_production_name_Norway', 'countries_of_production_name_Ukraine', 'countries_of_production_name_Mexico', 'countries_of_production_name_Serbia', 'countries_of_production_name_Turkey', 'countries_of_production_name_Hong Kong', 'countries_of_production_name_United Kingdom', 'countries_of_production_name_Switzerland', 'countries_of_production_name_Guyana', 'countries_of_production_name_Dominica', 'countries_of_production_name_Jamaica', 'countries_of_production_name_Ireland', 'countries_of_production_name_Australia', 'countries_of_production_name_Argentina', 'countries_of_production_name_Chile', 'countries_of_production_name_Algeria', 'countries_of_production_name_Egypt', 'countries_of_production_name_Portugal', 'countries_of_production_name_Philippines', 'countries_of_production_name_Panama', 'Nb_modaliteproduction_crew_gender', 'Nb_modaliteactors_gender', ]

# Supprimer les variables spécifiées
merged_dataset.drop(columns=variables_a_supprimer, inplace=True)

In [102]:
merged_dataset.to_csv('merged_dataset2.csv', index=False)

### Exploratory data analysis

In [86]:
#dataset.describe()
profile = ProfileReport(merged_dataset)
profile.to_widgets()
profile.to_file("rapport.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

(using `df.profile_report(correlations={"auto": {"calculate": False}})`
If this is problematic for your use case, please report this as an issue:
https://github.com/ydataai/ydata-profiling/issues
(include the error message: 'could not convert string to float: 'en'')
  annotation = ("{:" + self.fmt + "}").format(val)
(using `df.profile_report(missing_diagrams={"Heatmap": False}`)
If this is problematic for your use case, please report this as an issue:
https://github.com/ydataai/ydata-profiling/issues
(include the error message: 'could not convert string to float: '--'')


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### Analyse du rapport

Les données présentent une qualité globalement satisfaisante, avec l'absence de valeurs en double et un faible pourcentage de cellules manquantes (0.4%). La diversité des types de variables, comprenant des variables numériques, catégoriques, de type DateTime et de type texte, suggère la nécessité d'utiliser une gamme variée de techniques d'analyse et de modélisation pour explorer et comprendre les données. Avec 4803 observations, l'ensemble de données est de taille moyenne à grande, offrant suffisamment de données pour mener des analyses significatives et construire des modèles prédictifs robustes. 

Les alertes fournies par le profil de données indiquent plusieurs aspects à considérer :

    Déséquilibre des variables catégorielles : Plusieurs variables présentent un déséquilibre important dans leurs modalités, ce qui peut biaiser les résultats des analyses et des modèles construits. Elles seront supprimées. 

    Données manquantes : Certaines variables contiennent un pourcentage non négligeable de valeurs manquantes. 

    Zéros dans les variables numériques : Plusieurs variables numériques présentent un pourcentage de zéros non négligeable. notemment les variables liées aux différents département de production. Certaines ont été supprimées. Par contre d'autre ont été maintenue du fait de la valeur ajoutée quelle apporte au film. C'est le cas par exemple de la variable 'production_crew_department_Visual Effects'

In [90]:
#dataset.describe()
profile = ProfileReport(merged_dataset)
profile.to_widgets()
profile.to_file("rapport2.html")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.rename(columns={"index": "df_index"}, inplace=True)


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### Analyse du deuxième rapport

Après modification apportée à la base, cette étape consistera à analyser les corrélation entre la variables. Pour éviter la colinéarité, les variables indépendantes corrélées entre elles ont été analysées de près. Sur la base de la revu de litérrature, certaines ont été supprimées. Aussi, celle qui sont correlées avec la variables revenue sont supprimées. 

In [91]:
# Liste des variables à supprimer
variables_a_supprimer3 = ['Nb_modaliteproduction_crew_department', 'production_crew_department_Art' , 'production_crew_gender_0' ,	'production_crew_gender_1'	, 'production_crew_gender_2', 'vote_count' , 'popularity']

# Supprimer les variables spécifiées
merged_dataset.drop(columns=variables_a_supprimer3, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  merged_dataset.drop(columns=variables_a_supprimer3, inplace=True)


In [104]:
# Liste des variables à supprimer
variables_a_supprimer3 = ['release' , 'countries_of_production' , 'production', 'title_y' , 'keywords']

# Supprimer les variables spécifiées
merged_dataset.drop(columns=variables_a_supprimer3, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  merged_dataset.drop(columns=variables_a_supprimer3, inplace=True)


In [121]:
# Nombre de lignes avant la suppression
nb_lignes_avant = merged_dataset.shape[0]

# Supprimer les lignes avec des valeurs manquantes
merged_dataset_2 = merged_dataset.dropna()

# Nombre de lignes après la suppression
nb_lignes_apres = merged_dataset_2.shape[0]

# Nombre de lignes supprimées
nb_lignes_supprimees = nb_lignes_avant - nb_lignes_apres

print(f'Nombre de lignes avant la suppression : {nb_lignes_avant}')
print(f'Nombre de lignes après la suppression : {nb_lignes_apres}')
print(f'Nombre de lignes supprimées : {nb_lignes_supprimees}')


Nombre de lignes avant la suppression : 3395
Nombre de lignes après la suppression : 3347
Nombre de lignes supprimées : 48


# 4 - Data Pre-processing

### 4 - 1 Scale numerical features

NB : RobustScaler a été préféré aux autres méthodes parce qu'elle est utile lorsque vos données contiennent des valeurs aberrantes ou des distributions non normale. Elle est moins sensible aux valeurs aberrantes que la standardisation et la mise à l'échelle min-max.

In [122]:
from sklearn.preprocessing import RobustScaler

# Créer une instance de RobustScaler
scaler = RobustScaler()

# Sélectionner les caractéristiques numériques à mettre à l'échelle (en excluant "revenue")
caracteristiques_numeriques = merged_dataset_2.select_dtypes(include=['float64', 'int64']).drop(columns=['revenue'])

# Appliquer RobustScaler aux caractéristiques sélectionnées
merged_dataset_2[caracteristiques_numeriques.columns] = scaler.fit_transform(caracteristiques_numeriques)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  merged_dataset_2[caracteristiques_numeriques.columns] = scaler.fit_transform(caracteristiques_numeriques)


### 4-2 Split the dataset into training, validation, and test sets

In [None]:
liste_variables = merged_dataset_2.columns.tolist()


In [123]:
from sklearn.model_selection import train_test_split

# Séparer les variables indépendantes (caractéristiques) de la variable dépendante (cible)
X = merged_dataset_2.drop(columns=['revenue'])  # Caractéristiques
y = merged_dataset_2['revenue']  # Variable cible

# Diviser les données en ensembles d'entraînement (70%) et de test (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Diviser l'ensemble d'entraînement en ensembles d'entraînement (70%) et de validation (30%)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.3, random_state=42)

# Afficher les tailles des ensembles
print("Taille de l'ensemble d'entraînement :", X_train.shape[0])
print("Taille de l'ensemble de validation :", X_val.shape[0])
print("Taille de l'ensemble de test :", X_test.shape[0])


Taille de l'ensemble d'entraînement : 1639
Taille de l'ensemble de validation : 703
Taille de l'ensemble de test : 1005


# 5 - Model Comparison and Hyperparameter selection

In [124]:

# Instancier les modèles
models = {
    'Linear Regression': LinearRegression(),
    'Decision Tree': DecisionTreeRegressor(),
    'Random Forest': RandomForestRegressor()
}

# Entraîner et évaluer chaque modèle
for name, model in models.items():
    # Entraîner le modèle
    model.fit(X_train, y_train)
    
    # Prédire sur les ensembles de validation
    y_pred = model.predict(X_val)
    
    # Calculer les métriques d'évaluation
    mae = mean_absolute_error(y_val, y_pred)
    rmse = mean_squared_error(y_val, y_pred, squared=False)
    r2 = r2_score(y_val, y_pred)
    
    # Afficher les résultats
    print(f'{name}:')
    print(f'Mean Absolute Error: {mae:.2f}')
    print(f'Root Mean Squared Error: {rmse:.2f}')
    print(f'R-squared: {r2:.2f}')
    print('-------------------------')



Linear Regression:
Mean Absolute Error: 88134069.22
Root Mean Squared Error: 144490860.75
R-squared: 0.32
-------------------------
Decision Tree:
Mean Absolute Error: 102209123.73
Root Mean Squared Error: 169999396.01
R-squared: 0.06
-------------------------
Random Forest:
Mean Absolute Error: 84878019.62
Root Mean Squared Error: 134830608.53
R-squared: 0.41
-------------------------




    Linear Regression :
        L'erreur absolue moyenne (MAE) est assez élevée, indiquant que les prédictions de revenu sont en moyenne éloignées de 88,134,069.22.
        L'erreur quadratique moyenne (RMSE) est également élevée, ce qui signifie que les prédictions peuvent avoir une variance élevée par rapport aux valeurs réelles.
        La valeur de R carré (R-squared) de 0.32 indique que le modèle linéaire explique environ 32% de la variance totale dans les données, ce qui n'est pas très élevé.

    Decision Tree :
        Le modèle d'arbre de décision semble avoir de moins bonnes performances que la régression linéaire en termes d'erreurs absolues et quadratiques moyennes.
        Le R carré est également assez bas, ce qui suggère que le modèle d'arbre de décision n'explique pas bien la variance des données.

    Random Forest :
        Le modèle de forêt aléatoire semble être le meilleur parmi les trois modèles évalués, avec la plus faible MAE et RMSE.
        Le R carré de 0.41 est plus élevé que celui des autres modèles, indiquant une meilleure capacité à expliquer la variance des données.

# 6- Model Evaluation and Interpretation

In [127]:
# Évaluation du modèle sur l'ensemble de test
final_model = RandomForestRegressor()  # Remplacer RandomForestRegressor() par votre modèle final
final_model.fit(X_train, y_train)
predictions = final_model.predict(X_test)

# Calcul des métriques d'évaluation
mae = mean_absolute_error(y_test, predictions)
rmse = np.sqrt(mean_squared_error(y_test, predictions))
r_squared = r2_score(y_test, predictions)

print("Final Model Evaluation:")
print("Mean Absolute Error:", mae)
print("Root Mean Squared Error:", rmse)
print("R-squared:", r_squared)
print("-------------------------")

# Interprétation des prédictions du modèle
# Vous pouvez utiliser des techniques d'analyse de SHAP, LIME, ou simplement examiner les coefficients (dans le cas de la régression linéaire) pour comprendre les facteurs qui influent sur les prédictions du modèle.

# Discussion sur les limitations et biais potentiels du modèle
# Il est important de discuter des limitations du modèle, telles que les biais de sélection des données, les variables omises, les hypothèses du modèle, etc.


Final Model Evaluation:
Mean Absolute Error: 86498061.23263682
Root Mean Squared Error: 159719033.11502746
R-squared: 0.42169894371812866
-------------------------


Le R² de 0.42 est une indication modérée que le modèle explique une partie de la variance des données. Cependant, les valeurs absolues des erreurs (MAE et RMSE) indiquent que le modèle pourrait encore être amélioré pour fournir des prédictions plus précises.