# Récupération et traitement des données

Cette section est consacrée aux étapes préliminaires à l'analyse et traitement des données, à savoir la **récupération** et le **nettoyage** des données. 
Si ce n'est pas encore fait, il est indspensable d'avoir lu le texte introductif disponible sur la page d'acceuil du GitHub.

## 1 - Importation des modules classiques et du module scraping_cleaning

Des modules classiques seront utilisés pour nos opérations :

In [38]:
# Module Pandas : création et manipulation de dataframes :
import pandas as pd

De nombreuses opérations furent effectuées. Pour améliorer la clarté de ce notebook, les opérations furent sytnthétisées dans des fonctions qui furent codées dans le fichier **scraping_cleaning.py**, contenu dans le dossier **modules** de ce GitHub. Ainsi, ce notebook explique tout le déroulement chronologique des opérations, mais le descriptif informatique des fonctions est à retrouver dans **scraping_cleaning.py**. Dans ce module, deux classes furent crées : 
- la classe **imdb_scraping** qui contient toutes les fonctions essentielles aux étapes de web scraping des données
- la classe **movies_cleaning** qui contient toutes les fonctions essentielles au nettoyage des données

On va ainsi importer ces modules pour ensuite exploiter les fonctions que nous avons codées dans ces deux classes :

In [39]:
import sys
sys.path.append('./modules')
from scraping_cleaning import imdb_scraping, imdb_cleaning

%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## 2 - Création d'une base IMDB web scrapée

### 2.1 - Initialisation des listes à remplir et de la liste des url

On crée les tableaux vides pour les remplir des informations par la suite en utilisant la fonction **init_results** :

In [40]:
results = imdb_scraping.init_results()

Ensuite, on va chercher manuellement sur le site IMDB l'url de la toute première page (début de la liste des films à scrapper), puis on l'insère dans une liste que l'on appellera intuitivement *list_url*. Ceci nous permettra de lancer l'instruction de la première page à scrapper au tout début du processus de scraping :

In [41]:
#URL à mettre à jour à chaque session de scraping
url = "https://www.imdb.com/search/title/?title_type=feature&adult=include&count=250"
list_url = [url]

Remarques importantes :
- nous ne prenons que le premier url : pourquoi ? (expliquer comment fonctionne le crawling)
- la liste des films présente sur le site IMDB s'actualise au fil du temps : le scraping que nous avons effectué date de fin Octobre 2020. Ainsi tous les films dont la date de sortie est plus récente que cette date ne figureront pas dans notre base de données finale, et par conséquent dans nos analyses

### 2.2 - Création de la base web scrapée

Comme il y a près de 450000 films à web scrapper et qu'il y a 250 films par pages, nous avons environ N = 450000/250 = 1800 pages à web scrapper.

Comme le nombre de films à scrapper est conséquent, la boucle de web scraping est également très longue à s'executer. Par motif de précaution, nous avons décidé de fragmenter la boucle : plutôt que de lancer une seule boucle de N = 1800 pages à scrapper, nous avons lancé 6 boucles de 300 pages à web scrap. A la fin de chaque boucle, nous prendrons le dernier url scrappé, qui sera l'url de départ de la boucle qui suivra.
A la fin de chaque boucle, nous avons enregistré chaque lot de données dans une base pickle et une autre base au format csv. A la fin, nous n'avions plus qu'à importer nos 6 bases .csv, puis effectuer une jointure, et nous avons obtenu notre dataframe de près de 450 000 observations.

A titre de démonstration, nous nous contenterons de lancer ici uniquement une boucle pour web scraper 3 pages, pour montrer que la boucle marche bien sans avoir à attendre une éternité. Le nombre de pages en temps réel s'affiche sous la cellule une fois lancée :

In [42]:
df = imdb_scraping.fill_results(3,list_url,results)

nombre de pages scrappées :3

Une fois l'opération terminée, on peut simplement s'assurer que tout s'est bien déroulé en affichant la dataframe : 

In [43]:
df

Unnamed: 0,tconst,title,year,runtime,genres,metascore,rate,votes,certificate,director,casting
0,[tt4682266],Les nouveaux mutants,(2020),94 min,"\nAction, Horror, Sci-Fi",43,5.3,22558,12,Josh Boone,"[Maisie Williams, Anya Taylor-Joy, Charlie Hea..."
1,[tt9866072],Holidate,(2020),103 min,"\nComedy, Romance",44,6.1,21305,13,John Whitesell,"[Emma Roberts, Luke Bracey, Kristin Chenoweth,..."
2,[tt13143964],Borat Subsequent Moviefilm,(2020),95 min,"\nAdventure, Comedy",68,6.8,82791,18,Jason Woliner,"[Sacha Baron Cohen, Maria Bakalova, Tom Hanks,..."
3,[tt3605418],Knock Knock,(I) (2015),99 min,"\nDrama, Thriller",53,4.9,80284,12,Eli Roth,"[Keanu Reeves, Lorenza Izzo, Ana de Armas, Aar..."
4,[tt7178640],Superintelligence,(2020),,"\nAction, Comedy",,,,PG,Ben Falcone,"[Melissa McCarthy, James Corden, Bobby Cannava..."
...,...,...,...,...,...,...,...,...,...,...,...
745,[tt2024544],12 Years a Slave,(2013),134 min,"\nBiography, Drama, History",96,8.1,631312,Tous publics avec avertissement,Steve McQueen,"[Chiwetel Ejiofor, Michael Kenneth Williams, M..."
746,[tt1137450],Death Wish,(2018),107 min,"\nAction, Crime, Drama",31,6.4,62743,12,Eli Roth,"[Bruce Willis, Vincent D'Onofrio, Elisabeth Sh..."
747,[tt2674426],Avant toi,(2016),106 min,"\nDrama, Romance",51,7.4,204161,Tous publics,Thea Sharrock,"[Emilia Clarke, Sam Claflin, Janet McTeer, Cha..."
748,[tt2737304],Bird Box,(2018),124 min,"\nHorror, Sci-Fi",51,6.6,272760,16,Susanne Bier,"[Sandra Bullock, Trevante Rhodes, John Malkovi..."


(ON peut ajouter des observations ici)

Il ne nous reste plus qu'à enregistrer notre dataframe en pickle .pkl et en .csv via les commandes :
- df.to_pickle("./data/listefilms_de_1_a_750.pkl")
- df.to_csv("listefilms_de_1_a_750", sep='\t', index=False)

Et on récupère le dernier lien de la liste qui servira d'url de départ de la prochaine boucle de scraping :

In [49]:
print(list_url[-1])

https://www.imdb.com/search/title/?title_type=feature&adult=include&count=250&start=751&ref_=adv_nxt


Comme les sous-bases à chaque fois obtenues sont trop volumineuses pour toutes les importer sur le GitHub, nous avons effectué en local l'opération de jointure grâce à la fonction *concat* de pandas et importé uniquement la base finale :

In [46]:
df = pd.read_csv("./data/data.csv", sep="\t")
df

Unnamed: 0,tconst,title,year,runtime,genres,metascore,rate,votes,certificate,director,casting
0,['tt13143964'],Borat: Subsequent Moviefilm,2020,95,Comedy,68.0,7.0,50191,18,Jason Woliner,"['Sacha Baron Cohen', 'Maria Bakalova', 'Tom H..."
1,['tt1070874'],Les Sept de Chicago,2020,129,"Drama, History, Thriller",76.0,7.9,37295,16,Aaron Sorkin,"['Eddie Redmayne', 'Alex Sharp', 'Sacha Baron ..."
2,['tt2235695'],Rebecca,2020,121,"Drama, Mystery, Romance",46.0,6.0,11829,13,Ben Wheatley,"['Lily James', 'Armie Hammer', 'Kristin Scott ..."
3,['tt10682266'],Hubie Halloween,2020,102,"Comedy, Fantasy, Mystery",53.0,5.2,27526,7,Steven Brill,"['Adam Sandler', 'Kevin James', 'Julie Bowen',..."
4,['tt2222042'],Love and Monsters,2020,109,"Action, Adventure, Comedy",59.0,7.1,10780,PG-13,Michael Matthews,"[""Dylan O'Brien"", 'Jessica Henwick', 'Michael ..."
...,...,...,...,...,...,...,...,...,...,...,...
456092,['tt13366978'],Maria,X,,Comedy,,,,,Alec Pronovost,"['Florence Longpré', 'Mariana Mazza', 'Alice P..."
456093,['tt13367186'],Kill Joy,,,"Action, Crime, Drama",,,,,,[]
456094,['tt13367214'],Covid Plus,,,Drama,,,,,,[]
456095,['tt13367330'],Muralla china,2020,,,,,,,,[]


On a bien nos 456 097 films.

## 3 - Nettoyage du DataFrame global

Il nous reste à nettoyer les variables de la base scrapée : on observe plusieurs anomalies que l'on va corriger à l'aide de la méthode des expressions régulières. On a la fonction *data_cleaning* de la classe **imdb_cleaning** qui va nous permettre de faire les opérations suivantes :
- retirer les crochets et les apostrophes des **tconst** pour ne garder que les valeurs des **tconst** des films.
- conserver les années valables pour **year**, c'est à dire une suite de quatre chiffres dont le premier vaut 1 ou 2.
- nettoyage des **runtime**, à savoir conserver uniquement des suites de chiffres (entre 1 et 4 chiffres car les films les plus longs ont une durée qui excède 999 minutes).
- nettoyer la variable **genre**, de sorte à supprimer le "\n" au début de certaines observations

In [47]:
df_cleaned = imdb_cleaning.data_cleaning(df)

In [48]:
df_cleaned

Unnamed: 0,tconst,title,year,runtime,genres,rate,votes,director,casting
0,tt13143964,Borat: Subsequent Moviefilm,2020,95,Comedy,7.0,50191,Jason Woliner,"['Sacha Baron Cohen', 'Maria Bakalova', 'Tom H..."
1,tt1070874,Les Sept de Chicago,2020,129,"Drama, History, Thriller",7.9,37295,Aaron Sorkin,"['Eddie Redmayne', 'Alex Sharp', 'Sacha Baron ..."
2,tt2235695,Rebecca,2020,121,"Drama, Mystery, Romance",6.0,11829,Ben Wheatley,"['Lily James', 'Armie Hammer', 'Kristin Scott ..."
3,tt10682266,Hubie Halloween,2020,102,"Comedy, Fantasy, Mystery",5.2,27526,Steven Brill,"['Adam Sandler', 'Kevin James', 'Julie Bowen',..."
4,tt2222042,Love and Monsters,2020,109,"Action, Adventure, Comedy",7.1,10780,Michael Matthews,"[""Dylan O'Brien"", 'Jessica Henwick', 'Michael ..."
...,...,...,...,...,...,...,...,...,...
188250,tt13334114,Verlust,2020,110,Drama,6.5,130,Esmir Filho,"['Andrea Beltrão', 'Marina Lima', 'Alfredo Cas..."
188251,tt13334054,Guerra,2020,105,Drama,6.0,110,José Oliveira,"['Marta Ramos', 'Ana Alexandre', 'Luís Barbosa..."
188252,tt0182675,Adsiz cengaver,1970,83,"Adventure, Fantasy",5.5,1240,Halit Refig,"['Cüneyt Arkin', 'Nebahat Çehre', 'Birsen Ayda..."
188253,tt2794316,Awara,2012,160,Action,5.5,3550,Rabi Kinagi,"['Jeet', 'Sayantika Banerjee', 'Mukul Dev', 'A..."
