**Dans le dataset initial (5000_movies.csv)**, il y a beaucoup de valeurs manquantes dans `gross` et dans `budget` donc imputation délicate mais comme on veut garder ces variables, on va alors supprimer les lignes. Avant cette suppression on peut essayer de scraper IMDB pour obtenir des informations supplémentaires. Pour cela, un petit notebook séparé dans le même dossier permet de récupérer les données supplémentaires éventuelles, de les ajouter dans les colonnes `gross` et `budget` du dataframe `data`. Comme l'éxecution est un peu longue, on va sauvegarder ce dataframe dans un nouveau csv pour ne pas avoir à le refaire à chaque fois.

In [1]:
import numpy as np
import pandas as pd

from urllib.request import urlopen
from bs4 import BeautifulSoup

In [2]:
data = pd.read_csv('5000_movies.csv')

In [3]:
# scraping des données 'gross'
def scrap_gross(row):
    link = row['movie_imdb_link']
    if np.isnan(row['gross']):
        page = urlopen(link).read()
        soup = BeautifulSoup(page)
        for h4 in soup.find_all('h4', {'class':'inline'}):
            if "Gross USA:" in h4:
                return float(h4.next_sibling.strip().replace("$","").replace(",",""))
    else:
        return row['gross']

data['gross'] = data.apply(scrap_gross, axis=1)

In [4]:
# scraping des données 'budget'
def scrap_budget(row):
    link = row['movie_imdb_link']
    if np.isnan(row['budget']):
        page = urlopen(link).read()
        soup = BeautifulSoup(page)
        for h4 in soup.find_all('h4', {'class':'inline'}):
            if "Budget:" in h4:
                return float(h4.next_sibling.strip().replace("$","").replace(",","").replace("EUR","")) #il faudrait convertir la valeur € en $ pour bien faire...
    else:
        return row['budget']
    
data['budget'] = data.apply(scrap_budget, axis=1)

In [5]:
# enregistrement du dataframe en csv
data.to_csv('5000_movies_bis.csv', index=False)