# PROJET APPLICATION DE RECOMMANDATION DE FILMS

## PARTIE 1 : KPI

In [1]:
import os
import io
import gzip
import random
import secrets
import datetime
import requests
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn import svm
import plotly.io as pio
from sklearn import tree
import plotly.express as px
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
import plotly.graph_objects as go
from sklearn.cluster import KMeans
from scipy.cluster import hierarchy
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.metrics import accuracy_score
from sklearn.metrics import silhouette_score
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import SGDRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_validate
from sklearn.linear_model import LogisticRegression
from sklearn.cluster import AgglomerativeClustering
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, r2_score
from scipy.spatial.distance import pdist, squareform
from sklearn.ensemble import HistGradientBoostingRegressor
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from flask import Flask, request, render_template, session, url_for, redirect
from sklearn.preprocessing import (
    MaxAbsScaler,
    MinMaxScaler,
    Normalizer,
    PowerTransformer,
    QuantileTransformer,
    RobustScaler,
    StandardScaler,
    minmax_scale,
)
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, TargetEncoder

#### chargement des datasets de type TSV

In [3]:
# scrapping des noms des fichiers
url = "https://datasets.imdbws.com/"

# contournement d'éventuels protection anti-scrapping
navigator = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"

response = requests.get(url, headers={"User-Agent": navigator})
# response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Trouver tous les liens sur la page
liens = soup.find_all("a")

# création de la liste des fichiers
fichiers = []
for lien in liens:
    #  choisir uniquement les liens de type href
    nom_fichier = lien.get("href")
    #  choisir uniquement les liens se terminant par .tsv.gz
    if nom_fichier.endswith(".tsv.gz"):
        # print(nom_fichier)
        fichiers.append(nom_fichier)
print(f"\n fichiers:\n{fichiers} \n")

# Liste des noms de fichiers à télécharger
# fichiers = ['title.principals.tsv.gz',
#             'title.akas.tsv.gz',
#             'name.basics.tsv.gz',
#             'title.basics.tsv.gz',
#             'title.crew.tsv.gz',
#             'title.episode.tsv.gz',
#             'title.ratings.tsv.gz' ]


 fichiers:
['https://datasets.imdbws.com/name.basics.tsv.gz', 'https://datasets.imdbws.com/title.akas.tsv.gz', 'https://datasets.imdbws.com/title.basics.tsv.gz', 'https://datasets.imdbws.com/title.crew.tsv.gz', 'https://datasets.imdbws.com/title.episode.tsv.gz', 'https://datasets.imdbws.com/title.principals.tsv.gz', 'https://datasets.imdbws.com/title.ratings.tsv.gz'] 



In [4]:
# Dictionnaire pour stocker les dataframes
dfs = {}

for fichier in fichiers:
    # url = f'https://datasets.imdbws.com/{fichier}'
    response = requests.get(fichier)
    gzip_file = gzip.open(io.BytesIO(response.content), "rt", encoding="utf-8")
    df = pd.read_csv(gzip_file, sep="\t", low_memory=False)
    # Chaque dataframe porte le nom du fichier sans l'extension
    nom_sans_extension = os.path.splitext(os.path.basename(fichier))[0]
    # suppression du tz et remplacement des . par des _
    nom_sans_extension = os.path.splitext(nom_sans_extension)[0]
    nom_sans_extension = nom_sans_extension.replace(".", "_")
    print(f"\nnom_sans_extension :\n{nom_sans_extension} \n")
    dfs[nom_sans_extension] = df

    # dfs[fichier] = df


nom_sans_extension :
name_basics 


nom_sans_extension :
title_akas 


nom_sans_extension :
title_basics 


nom_sans_extension :
title_crew 


nom_sans_extension :
title_episode 



In [94]:
# sauvegarde des datafdrames sur le disque au format csv
for nom, df in dfs.items():
    df.to_csv(f"data_csv/{nom}.csv", index=False)

In [11]:
# liste des datafdrames
for df in dfs:
    print(f"{df} ")

name_basics 
title_akas 
title_basics 
title_crew 
title_episode 
title_principals 
title_ratings 


In [None]:
# Résumé des informations des dataframes
# for df in dfs:
#     print(f"\ndf :{df} ")
#     your_dataframe = dfs[df]
#     print(f"shape: {your_dataframe.shape} - list columns :{your_dataframe.columns.tolist()} \nliste des colonnes numeriques: {your_dataframe.select_dtypes(include=[np.number]).columns.tolist()} \nliste des colonnes non numeriques: {your_dataframe.select_dtypes(exclude=[np.number]).columns.tolist()} \nColonne avec des na :\n{your_dataframe.isna().sum()}")
#     print(f"Noms des colonnes avec au moins une valeur NA : {your_dataframe.columns[your_dataframe.isna().any()].tolist()}")
#     print(f"Nombre de lignes avec au moins une valeur NA : {your_dataframe.isna().any(axis=1).sum()}")
#     print(f"head : \n{your_dataframe.head(2)}")

### Preprocessing dataframes

In [54]:
# création d'un fichier de synthése des dataframes au format markdown
import datetime

# date et heure actuelles
now = datetime.datetime.now()
# Formatage date et heure au format 2024-01-01-9h30
date_time = now.strftime("%Y-%m-%d-%Hh%M")
# Ajouter la date et l'heure au nom du fichier
filename = f"synthése_dataframes_{date_time}.md"
with open(filename, "w", encoding="utf-8") as f:
    for df in dfs:
        your_dataframe = dfs[df]
        f.write(f"\n## DataFrame : {df}\n")
        f.write(f"- **Shape** : `{your_dataframe.shape}`\n")
        f.write(f"- **Liste des colonnes** : `{your_dataframe.columns.tolist()}`\n")
        f.write(
            f"- **Liste des colonnes numériques** : `{your_dataframe.select_dtypes(include=[np.number]).columns.tolist()}`\n"
        )
        f.write(
            f"- **Liste des colonnes non numériques** : `{your_dataframe.select_dtypes(exclude=[np.number]).columns.tolist()}`\n"
        )
        f.write(
            f"- **Colonnes avec des NA** :\n```\n{your_dataframe.isna().sum()}\n```\n"
        )
        f.write(
            f"- **Noms des colonnes avec au moins une valeur NA** : `{your_dataframe.columns[your_dataframe.isna().any()].tolist()}`\n"
        )
        f.write(
            f"- **Nombre de lignes avec au moins une valeur NA** : `{your_dataframe.isna().any(axis=1).sum()}`\n"
        )
        headers = " | ".join(your_dataframe.columns.tolist())
        # Obtenir les lignes
        rows = [" | ".join(row) for row in your_dataframe.head(2).astype(str).values]
        # Écrire les en-têtes et les lignes dans le fichier
        f.write(f"- **head** :\n```\n{headers}\n{'\n'.join(rows)}\n```\n")

In [None]:
# df=dfs["name_basics"].copy()
# df.explode("knownForTitles")

prétraitement de vos DataFrames :

1. **name_basics** : Vous pouvez convertir les colonnes `birthYear` et `deathYear` en type numérique. De plus, la colonne `primaryProfession` semble contenir plusieurs professions pour une même personne, vous pourriez diviser cette colonne en plusieurs colonnes binaires (une pour chaque profession).

2. **title_akas** : La colonne `isOriginalTitle` pourrait être convertie en booléen. De plus, si vous n'avez pas besoin de toutes les régions ou langues, vous pourriez filtrer ces colonnes pour ne garder que les lignes pertinentes.

3. **title_basics** : Les colonnes `startYear` et `endYear` pourraient être converties en type numérique. La colonne `genres` semble contenir plusieurs genres pour un même titre, vous pourriez diviser cette colonne en plusieurs colonnes binaires (une pour chaque genre).

4. **title_crew** : Les colonnes `directors` et `writers` semblent contenir plusieurs personnes pour un même titre, vous pourriez diviser ces colonnes en plusieurs colonnes (une pour chaque personne).

5. **title_episode** : Les colonnes `seasonNumber` et `episodeNumber` pourraient être converties en type numérique.

6. **title_principals** : La colonne `characters` semble contenir plusieurs personnages pour une même personne, vous pourriez diviser cette colonne en plusieurs colonnes (une pour chaque personnage).

7. **title_ratings** : Les colonnes `averageRating` et `numVotes` pourraient être converties en type numérique.

 gérer les valeurs manquantes, de supprimer les doublons, effectuer une normalisation ou une standardisation des données si nécessaire. 
 fusionner des DataFrames en utilisant les colonnes appropriées comme clés. 


 KPI des DataFrames, possibilités :

1. **name_basics** : Nombre total d'acteurs, nombre d'acteurs par profession, nombre d'acteurs nés chaque année, etc.
2. **title_akas** : Nombre total de titres, nombre de titres par région ou par langue, etc.
3. **title_basics** : Nombre total de titres par type (film, série, etc.), durée moyenne des titres, nombre de titres par genre, etc.
4. **title_crew** : Nombre de réalisateurs et scénaristes uniques, nombre moyen de réalisateurs et scénaristes par titre, etc.
5. **title_episode** : Nombre total d'épisodes, nombre moyen d'épisodes par saison, etc.
6. **title_principals** : Nombre moyen de personnages par titre, nombre de titres par acteur, etc.
7. **title_ratings** : Note moyenne des titres, nombre moyen de votes par titre, etc.

Pour proposer 10 suggestions de films en fonction du choix d'un film d'un utilisateur, vous pouvez utiliser une approche de filtrage collaboratif ou basée sur le contenu. Voici une approche simple basée sur le contenu :

1. **Sélectionnez le film choisi par l'utilisateur** dans votre DataFrame `title_basics`.
2. **Identifiez les genres** de ce film.
3. **Filtrez** votre DataFrame `title_basics` pour ne garder que les films qui partagent au moins un genre avec le film choisi par l'utilisateur.
4. **Classez** ces films en fonction de leur note moyenne dans votre DataFrame `title_ratings` (vous pouvez également prendre en compte le nombre de votes pour éviter les films avec une note moyenne élevée mais un faible nombre de votes).
5. **Sélectionnez les 10 premiers films** de cette liste.


In [95]:
dfs2 = dfs.copy()
dfs3 = dfs.copy()
dfs4 = dfs.copy()
print(f"\ndfs2['title_basics'].shape :\n{dfs2['title_basics'].shape} \n")


dfs2['title_basics'].shape :
(10450471, 9) 



In [None]:
# suppression des na des colonnes concernées
dfs2["title_basics"].dropna(
    subset=["primaryTitle", "originalTitle", "genres"], inplace=True
)
print(f"\ndfs2['title_basics'].shape :\n{dfs2['title_basics'].shape} \n")

In [None]:
# clustering
from sklearn.cluster import KMeans

# Sélectionnez les colonnes pour le clustering
data = dfs2["title_basics"][["startYear", "endYear"]]  # Remplacez par vos colonnes

# Créez l'objet KMeans
kmeans = KMeans(n_clusters=3)  # Remplacez 3 par le nombre de clusters que vous voulez

# Ajustez le modèle aux données
kmeans.fit(data)

# Obtenez les labels de cluster pour chaque observation
labels = kmeans.labels_

In [None]:
# for df in dfs2:
#     # supprime les valeurs manquantes sur les colonnes
#     # dfs2[df].dropna(axis=0, inplace=True)
#     # supprime les valeurs manquantes sur les lignes
#     dfs2[df].dropna(axis=1, inplace=True)
#     print(f"\nshape {df}:\n{dfs2[df].shape} \n")

In [76]:
# suppression des na des colonnes concernées
dfs2["title_basics"].dropna(
    subset=["primaryTitle", "originalTitle", "genres"], inplace=True
)


def regrouper_genres(genre):
    if genre in ["Action", "Adventure", "Thriller", "War"]:
        return "Action et Aventure"
    elif genre in ["Comedy", "Romance", "Family"]:
        return "Comédies"
    elif genre in ["Drama", "Crime", "Mystery"]:
        return "Drames"
    elif genre in ["Horror", "Sci-Fi"]:
        return "Science-Fiction et Fantastique"
    elif genre in ["Biography", "History", "Documentary"]:
        return "Documentaires"
    elif genre in ["Music", "Musical"]:
        return "Musique et Comédies Musicales"
    else:
        return "Autres"


# Appliquer la fonction de regroupement aux genres
dfs2["title_basics"]["genres"] = dfs2["title_basics"]["genres"].apply(regrouper_genres)

# Utiliser get_dummies sur la colonne de genres regroupés
dfs2["title_basics"] = dfs2["title_basics"].join(
    dfs2["title_basics"]["genres"].str.get_dummies(",")
)

In [77]:
# Résumé des informations du dataframe
your_dataframe = dfs2["title_basics"]
print(
    f"\nshape: {your_dataframe.shape} \nlist columns :\n{your_dataframe.columns.tolist()} "
)
print(
    f"liste des colonnes numeriques: \n{your_dataframe.select_dtypes(include=[np.number]).columns.tolist()}\n"
)
print(
    f"liste des colonnes non numeriques: \n{your_dataframe.select_dtypes(exclude=[np.number]).columns.tolist()} "
)
print(
    f"Noms des colonnes avec au moins une valeur NA : {your_dataframe.columns[your_dataframe.isna().any()].tolist()}"
)
print(
    f"Nombre de lignes avec au moins une valeur NA : {your_dataframe.isna().any(axis=1).sum()}"
)
print(f"Colonne avec des na :{your_dataframe.isna().sum()} \n")
print(f"\ndf head :\n{your_dataframe.head(10)} \n")
print(f"\ndf describe :\n{your_dataframe.describe()} \n")


shape: (10450471, 16) 
list columns :
['tconst', 'titleType', 'primaryTitle', 'originalTitle', 'isAdult', 'startYear', 'endYear', 'runtimeMinutes', 'genres', 'Action et Aventure', 'Autres', 'Comédies', 'Documentaires', 'Drames', 'Musique et Comédies Musicales', 'Science-Fiction et Fantastique'] 
liste des colonnes numeriques: 
['startYear', 'endYear', 'Action et Aventure', 'Autres', 'Comédies', 'Documentaires', 'Drames', 'Musique et Comédies Musicales', 'Science-Fiction et Fantastique']

liste des colonnes non numeriques: 
['tconst', 'titleType', 'primaryTitle', 'originalTitle', 'isAdult', 'runtimeMinutes', 'genres'] 
Noms des colonnes avec au moins une valeur NA : ['primaryTitle', 'originalTitle', 'startYear', 'endYear']
Nombre de lignes avec au moins une valeur NA : 10333737
Colonne avec des na :tconst                                   0
titleType                                0
primaryTitle                            17
originalTitle                           17
isAdult           

In [79]:
nombre_de_films_pour_adultes = dfs2["title_basics"][
    dfs2["title_basics"]["isAdult"] == "1"
].shape[0]
print("Nombre de films pour adultes : ", nombre_de_films_pour_adultes)

Nombre de films pour adultes :  331925


In [None]:
# Prétraitement pour title_crew
dfs2["title_crew"] = dfs2["title_crew"].join(
    dfs2["title_crew"]["directors"].str.get_dummies(",").add_prefix("director_")
)
dfs2["title_crew"] = dfs2["title_crew"].join(
    dfs2["title_crew"]["writers"].str.get_dummies(",").add_prefix("writer_")
)

In [None]:
# Prétraitement pour title_episode
dfs2["title_episode"]["seasonNumber"] = pd.to_numeric(
    dfs2["title_episode"]["seasonNumber"], errors="coerce"
)
dfs2["title_episode"]["episodeNumber"] = pd.to_numeric(
    dfs2["title_episode"]["episodeNumber"], errors="coerce"
)

In [None]:
# Prétraitement pour title_principals
dfs2["title_principals"] = dfs2["title_principals"].join(
    dfs2["title_principals"]["characters"].str.get_dummies(",").add_prefix("character_")
)

In [None]:
# Prétraitement pour title_ratings
dfs2["title_ratings"]["averageRating"] = pd.to_numeric(
    dfs2["title_ratings"]["averageRating"], errors="coerce"
)
dfs2["title_ratings"]["numVotes"] = pd.to_numeric(
    dfs2["title_ratings"]["numVotes"], errors="coerce"
)

In [None]:
# Fusion des tables
df_titles = dfs2["title_basics"].merge(dfs2["title_crew"], on="tconst", how="left")
df_titles = df_titles.merge(dfs2["title_episode"], on="tconst", how="left")
df_titles = df_titles.merge(dfs2["title_principals"], on="tconst", how="left")
df_titles = df_titles.merge(dfs2["title_ratings"], on="tconst", how="left")

print(df.head())

In [None]:
# KPI pour name_basics
print("Nombre total d'acteurs : ", dfs2["name_basics"]["nconst"].nunique())
print(
    "Nombre d'acteurs par profession : ",
    dfs2["name_basics"]["primaryProfession"].value_counts(),
)

# KPI pour title_basics
print(
    "Nombre total de titres par type : ",
    dfs2["title_basics"]["titleType"].value_counts(),
)
print("Durée moyenne des titres : ", dfs2["title_basics"]["runtimeMinutes"].mean())

# KPI pour title_ratings
print("Note moyenne des titres : ", dfs2["title_ratings"]["averageRating"].mean())
print("Nombre moyen de votes par titre : ", dfs2["title_ratings"]["numVotes"].mean())


# Suggestions de films
def suggest_movies(movie_title):
    # Sélectionnez le film choisi par l'utilisateur
    movie = dfs2["title_basics"][
        dfs2["title_basics"]["primaryTitle"] == movie_title
    ].iloc[0]

    # Identifiez les genres de ce film
    genres = movie["genres"].split(",")

    # Filtrez votre DataFrame pour ne garder que les films qui partagent au moins un genre avec le film choisi
    similar_movies = dfs2["title_basics"][
        dfs2["title_basics"]["genres"].apply(
            lambda x: any(genre in x for genre in genres)
        )
    ]

    # Fusionnez avec title_ratings
    similar_movies = similar_movies.merge(dfs2["title_ratings"], on="tconst")

    # Classez ces films en fonction de leur note moyenne
    similar_movies = similar_movies.sort_values(by="averageRating", ascending=False)

    # Sélectionnez les 10 premiers films de cette liste
    top_10_movies = similar_movies.head(10)

    return top_10_movies


# Remplacez par le titre du film choisi par l'utilisateur
movie_title = "Carmencita"
print("Voici 10 suggestions de films basées sur le film ", movie_title, " :")
print(suggest_movies(movie_title))