# Prédiction de la qualité d'un film à partir de ses caractéristiques

## Présentation du projet
Le but de notre projet est de créer un modèle économétrique pour prédire le succès d'un film à partir de ses caractéristiques, comme sa durée, son genre, son réalisateur, etc. 

Nous avons décidé d'utiliser les données d'IMDb, un site de notation et de référencement des films. L'avantage de cette plateforme est qu'elle permet aux internautes de noter les films qu'ils ont vu, ce qui sera ce que l'on considère comme la mesure du succès d'un film. Par ailleurs, de nombreuses informations qui nous seront utiles sont présentes sur ce site et sont plus directement accessibles que sur une plateforme comme Wikipedia.

## Commençons par la mise en place du jeu de données
Nous importons une base mise à disposition par IMDb, que nous rendons exploitable par quelques opérations élémentaires.
Nous ne conservons que les films qui ont 2.000 votes ou plus : cela permet d'une part d'éviter de considérer les films trop peu votés pour que leur note moyenne soit pertinente, et d'autre part d'avoir un jeu de données plus léger.

In [55]:
import pandas as pd
movies_rating = pd.read_csv("https://datasets.imdbws.com/title.ratings.tsv.gz")
movies_rating_clean = movies_rating["tconst\taverageRating\tnumVotes"].str.split("\\t", expand=True)
movies_rating_clean.columns = ['ID', 'Note_moyenne', 'Nombre_de_votes']
movies_rating_clean['Note_moyenne'] = movies_rating_clean['Note_moyenne'].astype(float)
movies_rating_clean['Nombre_de_votes'] = movies_rating_clean['Nombre_de_votes'].astype(float)
movies_rating_filtré = movies_rating_clean[movies_rating_clean.Nombre_de_votes > 1999]

**Nous voilà maintenant en possession d'une première base de travail**

Le problème de ce jeu de donné téléchargé, c'est qu'il ne contient que des informations sur les votes des films. Il n'y a aucune mention d'autres caractéristiques dont nous pourrons avoir besoin, comme son cast. Nous avons contacté les services d'IMDb, mais leur API est payant... Nous avons donc choisi de scraper les informations dont nous avons besoin.

Cela dit, la base téléchargée va nous être particulièrement utile ! Nous avons à disposition les identifiants de tous les films de la plateforme qui ont recueilli 2000 votes ou plus, et l'URL des pages des films s'écrit à partir de cet identifiant.

Après avoir essayé de scraper les éléments en cherchant des chemins d'accès manuellement dans le code HTML, nous avons trouvé dans chaque page un dictionnaire qui comprend les caractéristiques principales des films. Le code suivant permet de recueillir ces données, les traiter pour les rendre exploitables, et les insérer dans un dataframe.

Nous avions des ambitions assez importantes quant aux variables à retenir, mais certains éléments étaient intraçables dans la soupe que nous donne BeautifulSoup. Le dictionnaire que nous pouvons scraper ne contient malheureusement pas des données comme le budget, la langue d'origine, etc.

In [None]:
#On fabrique le squelette du dataframe que l'on va remplir au fur et à mesure du scrap ; on le fusionnera par la suite
#avec la database téléchargée plus tôt
#On indique le nom des colonnes, qui sont les variables que l'on choisit de conserver
#contentRating est la classification d'age, creator est la société de production
df = pd.DataFrame(columns=['name', 'alternateName', 'url', 'contentRating', 'datePublished', 'genre', 'actor', 'director', 'creator', 'Origine', 'Budget', 'duration', 'keywords'])

In [None]:
from bs4 import BeautifulSoup as bs
import requests
from random import seed
import time
import json
import re
from google.colab import files


#C'est une liste des objets inutiles dans le scrap des pages ; je retire aussi le contenu du dataframe qu'on a déjà (les votes)
superflu = ["@context", "@type", "image", "description", "review", "trailer", "aggregateRating"]
#Celui-ci servira à retirer les images des scénaristes, etc
superflu2 = ['@type', 'url']

session_obj = requests.Session()


#On boucle sur chaque film qu'on considère
#Le compteur est cosmétique : il sert à nous rassurer sur le fait que tout se passe bien pendant le scrap
compteur = 0
for ID in movies_rating_pur['ID'] :
  compteur = compteur+1
  print(compteur)
  try: #On utilise un try except au cas où on aurait un problème sur une page : on ne veut pas que l'exécution s'arrête après des heures de scrap
    time.sleep(0.01) #On ajoute un petit délai pour ne pas surcharger le site de requêtes
    url_temp = 'https://www.imdb.com/title/'+ID+'/'
    response=session_obj.get(url_temp, headers={"User-Agent": "Mozilla/5.0"}) #On se fait passer pour une session normale ;) 
    html = response.content
    soup = bs(html, "html.parser")
    
    #Le bloc est composé de la partie de chaque page qui contient les informations utiles
    #On le transforme en dictionnaire
    bloc = soup.find("script", type="application/ld+json").string
    dictio = json.loads(bloc)
    
    #On retire dedans ce qui ne nous intéresse pas
    for inutile in superflu :
      dictio.pop(inutile, None)

    #on ajoute une ligne budget illico presto ATTENTION CA NE MARCHE PAS
    liste_budg = soup.find_all("label", class_="ipc-metadata-list-item__list-content-item")
    if len(liste_budg) >= 3 and '$' in liste_budg[2] :
      budget = liste_budg[2].string
      if budget == None :
        budget = "Non renseigné"
      else :
        budget = "".join([elemnt for elemnt in budget if elemnt.isdigit()])
      dictio['Budget'] = budget

    #L'allure du dictionnaire n'est pas parfaitement satisfaisante, par exemple chaque acteur est associé à une date de naissance,
    #à une photo, etc... On ne conserve que le nom des acteurs, et celui des réalisateurs
    
    if 'actor' in dictio :
      for acteur in dictio['actor'] :
        for inutile in superflu2 :
          acteur.pop(inutile, None)
      for indice, nom in enumerate(dictio['actor']) :
        dictio['actor'][indice] = nom['name']

    if 'director' in dictio :
      for directeur in dictio['director'] :
        for inutile in superflu2 :
          directeur.pop(inutile, None)
      for indice, nom in enumerate(dictio['director']) :
        dictio['director'][indice] = nom['name']
    
    if 'creator' in dictio :
      for createur in dictio['creator'] :
        createur.pop('@type', None)
      for indice, url in enumerate(dictio['creator']) :
        dictio['creator'][indice] = url['url']

    #Pour la société de production c'est un peu compliqué : on n'a qu'une URL
    #Ce qui n'est pas grave, puisqu'on peut retrouver son nom en scrapant cet url !
    #Mais le temps d'exécution explose si on le fait ; j'inclus donc ce code (complètement fonctionnel)
    #mais en pratique il prend trop de temps à tourner
    
    if 'creator' in dictio :
      for index, createur in enumerate(dictio['creator']) :
        url_temp = 'https://www.imdb.com'+createur
        response=session_obj.get(url_temp, headers={"User-Agent": "Mozilla/5.0"})
        html = response.content
        soup = bs(html, "lxml")
        compagnie_soup = soup.find("title")
        if compagnie_soup == None :
          compagnie = "Non renseigné"
        else :
          compagnie = compagnie_soup.string
        compagnie = compagnie[5:-40] #on garde que l'élément important du titre
        dictio['creator'][index] = compagnie

    #On ajoute au dictionnaire le pays d'origine, que l'on le trouve dans la date de sortie
    date_sortie_soup = soup.find("a", class_="ipc-metadata-list-item__list-content-item ipc-metadata-list-item__list-content-item--link", href="/title/"+ID+"/releaseinfo?ref_=tt_dt_rdat")
    if date_sortie_soup == None :
      date_sortieV2 = "Non renseigné"
      pays = "Non renseigné"
    else :
      date_sortieV2 = date_sortie_soup.string
      b1 = date_sortieV2.find('(')
      b2 = date_sortieV2.find(')')
      pays = date_sortieV2[b1:b2]
      pays=pays[1:]
    dictio['Origine'] = pays

    #On ajoute dans le dataframe la ligne qui correspond au film
    df = df.append(dictio, ignore_index=True)
    sauvegarde_imdb = df.to_csv('IMDB_2000votes.csv', index = True) #Et par précaution, on sauvegarde le dataframe à chaque itération
  except:
    print('Erreur au rang : '+str(compteur))

**Et voilà : nous avons construit une base de donnée grâce au scraping**

Nous ne conseillons pas de lancer ce code, puisqu'il nous a fallu plus d'une journée pour obtenir le dataframe, sans compter toutes les fois où notre ordinateur a eu des problèmes de connexion et interrompu l'exécution (ce qui nous a coûté au total 3 jours). En revanche, il est possible de le lancer sur quelques valeurs, pour obtenir un échantillon.

Nous mettrons à disposition le dataframe complet, pour pouvoir lancer le reste du code sans scraper à nouveau ces quelques 46.000 pages.

**La prochaine étape est donc de fusionner les dataframes et de transformer la classe des objets de chaque colonne, pour les rendre exploitables**

Le code suivant permet d'importer le dataframe du scrap (*df*) et de le fusionner avec le dataframe téléchargé et traité (*movies_rating_filtré*), en fabriquant une colonne commune pour permettre la jointure. On prend également le soin de rendre les éléments des colonnes *actor* et *director* comme des listes. Ce code fonctionne malgré l'avertissement qu'il renvoie.

In [56]:
df = pd.read_csv('https://raw.githubusercontent.com/Jeremstar/Succes_de_films-IMDb/main/Database/IMDB_2000votes.csv', 
                 converters={"actor": lambda x: x.strip("[]").split(", "), 'director': lambda y : y.strip("[]").split(", ")}) 

movies_rating_filtré['url']='/title/'+movies_rating_filtré['ID']+'/'
df_fusionné = df.merge(movies_rating_filtré, on='url',how='left')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  movies_rating_filtré['url']='/title/'+movies_rating_filtré['ID']+'/'


On ordonne ensuite les colonnes dans l'ordre que l'on souhaite, on supprime celles qui posent problème.

In [57]:
df_fusionné = df_fusionné.reindex(columns=['ID_y','name','alternateName','url','contentRating','datePublished','genre','actor','director','creator','Origine','Budget','duration','keywords','Note_moyenne','Nombre_de_votes','ID_x'])	
df_fusionné =df_fusionné.drop(['ID_x', 'Budget', 'alternateName', 'creator'],axis=1) #On drop creator, pour les questions de scrap évoquées plus tôt, et budget parce qu'il est 
df_fusionné.rename(columns={'ID_y':'ID'}, inplace= True)

Certaines chaînes de caractères ne sont pas lisibles (on a par exemple des codes "&apos;" au lieu de véritables apostrophes).
La fonction suivante permet de résoudre ces problèmes, à la fois dans les listes et les string.

In [80]:
def correcteur(colonne, old, new) :
    if type(df_fusionné[colonne][0]) == list :
        all_crews = []
        for crew in df_fusionné[colonne]:
            crew_corrigé = []
            if crew != [] :
                for individu in crew :
                    crew_corrigé.append(individu.replace(old, new, case = False))
            all_crews.append(crew_corrigé)
        df_fusionné[colonne] = all_crews
    else :
        df_fusionné[colonne]= df_fusionné[colonne].str.replace(old, new, case = False)

On applique donc cette fonction de correction à toutes les colonnes qui en ont besoin.

In [None]:
correcteur('actor', '&apos;', "'")
correcteur('director', '&apos;', "'")
correcteur('name', '&apos;', "'")

Puisque le dataframe du scraping est maintenant importé depuis un csv, tous les éléments des colonnes sont des string. Pour rendre la base de donnée exploitable, il faut changer la nature de certains éléments, ce que permet le bloc suivant :

In [73]:
from pandas.core.common import flatten

def valeurs_possibles (colonne) :
    list_nonflat = df_fusionné[colonne]
    flat_list = list(flatten(list_nonflat))
    liste_valeurs = list(set(flat_list))
    return liste_valeurs

In [82]:
valeurs_possibles('contentRating')

['12',
 'M',
 '16',
 'M/PG',
 'TV-Y7',
 'T',
 'Tous Public',
 '6+',
 '18',
 'TV-Y7-FV',
 'TV-PG',
 'X',
 'MA-17',
 'Approved',
 'TV-13',
 'Tous Publics',
 'Open',
 'PG',
 'TV-MA',
 '10',
 'R',
 'Accord parental',
 '7',
 '9+',
 '0+',
 'AO',
 'TV-Y',
 'Tout public',
 'K-A',
 'PG-13',
 'Public Averti',
 'E10+',
 'G',
 'Tous Publics avec avertissement',
 'GP',
 nan,
 'Not Rated',
 'TV-G',
 'NC-17',
 '13',
 '14',
 '14+',
 'E',
 '(Banned)']

In [81]:
correcteur('contentRating', 'Tous publics', 'Tous Publics')
correcteur('contentRating', 'Unrated', 'Not Rated')
correcteur('contentRating', '-12', '12')
correcteur('contentRating', '10 avec avertissement', '10')
correcteur('contentRating', '12 avec avertissement', '12')
correcteur('contentRating', 'Passed', 'Approved')
correcteur('contentRating', '14+', '14')
correcteur('contentRating', '(Banned)', 'Banned')
correcteur('contentRating', '-16', '16')
correcteur('contentRating', 'TV-14', '14')
correcteur('contentRating', '16 avec avertissement', '16')
correcteur('contentRating', '-10', '10')

  df_fusionné[colonne]= df_fusionné[colonne].str.replace(old, new, case = False)


Unnamed: 0,ID,name,url,contentRating,datePublished,genre,actor,director,Origine,duration,keywords,Note_moyenne,Nombre_de_votes
0,tt0000005,Blacksmith Scene,/title/tt0000005/,Unrated,1893-05-09,"['Short', 'Comedy']","['Charles Kayser', 'John Ott']",['William K.L. Dickson'],United States,PT1M,"blacksmith,national film registry,beer,two wor...",6.2,2554.0
1,tt0000008,Edison Kinetoscopic Record of a Sneeze,/title/tt0000008/,,1894-01-09,"['Documentary', 'Short']",['Fred Ott'],['William K.L. Dickson'],United States,PT1M,"national film registry,year 1894,1890s,19th ce...",5.4,2069.0
2,tt0000010,La sortie de l'usine Lumière à Lyon,/title/tt0000010/,Not Rated,1895-03-22,"['Documentary', 'Short']",[],['Louis Lumière'],France,PT1M,"reference to lumiere brothers,reference to the...",6.9,6994.0
3,tt0000012,L'arrivée d'un train à La Ciotat,/title/tt0000012/,Not Rated,1896-01-25,"['Documentary', 'Short']","['Madeleine Koehler', 'Marcel Koehler', 'Mrs. ...","['Auguste Lumière', 'Louis Lumière']",France,PT1M,"actuality film,year 1896,train,train station,1...",7.4,12001.0
4,tt0000014,L'arroseur arrosé,/title/tt0000014/,Not Rated,,"['Short', 'Comedy']","['François Clerc', 'Benoît Duval']",['Louis Lumière'],Finland,PT1M,"gardener,boy,water,hose,spanking",7.1,5381.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
46779,tt9913038,Together Forever,/title/tt9913038/,TV-MA,2019-06-08,"['Animation', 'Action', 'Adventure']","['Natsuki Hanae', 'Akari Kitô', 'Hiro Shimono']","['Haruo Sotozaki', 'Yûki Itô']",Japan,PT24M,,8.5,2812.0
46780,tt9913040,Tsuzumi Mansion,/title/tt9913040/,TV-14,2019-06-15,"['Animation', 'Action', 'Adventure']","['Natsuki Hanae', 'Hiro Shimono', 'Yoshitsugu ...","['Haruo Sotozaki', 'Shûji Miyahara']",Japan,PT24M,,7.3,2856.0
46781,tt9913050,"The Boar Bares Its Fangs, Zenitsu Sleeps",/title/tt9913050/,TV-MA,2019-06-22,"['Animation', 'Action', 'Adventure']","['Natsuki Hanae', 'Akari Kitô', 'Hiro Shimono']","['Haruo Sotozaki', 'Masashi Takeuchi']",Japan,PT24M,,8.0,2747.0
46782,tt9913754,Psalm 46:5,/title/tt9913754/,,2020-07-02,"['Action', 'Drama', 'Fantasy']","['Alba Baptista', 'Toya Turner', 'Lorena Andrea']",['Jet Wilkinson'],France,PT50M,"female vomits,looking at the camera",7.3,4781.0


In [45]:
all_cast = []
for cast in df_fusionné['actor']:
    cast2 = []
    if cast != [] :
        for acteur in cast :
            cast2.append(acteur.replace('&apos;', "'"))
    all_cast.append(cast2)
df_fusionné['actor'] = all_cast

In [66]:
correcteur('name', '&apos;', "'")

"'Jehanne d'Alcy'"

In [54]:
%reset -f