# Introduction

Ce projet est la réalisation du brief intitulé "NLP pour l’analyse de critiques de films" dans le cadre de la formation Simplon×Microsoft IA.

L'objectif est de découvrir et de commencer à maîtriser les outils nécessaires à un Data Scientist spécialisé dans le traitement du langage naturel, ou NLP (Natural Language Processing) en anglais.

Afin d'y arriver, ce projet s'attache à la prédiction de l'avis d'un utilisateur (positif ou négatif) à partir d'un commentaire de film déposé sur le site _allocine.fr_.

# Sommaire

- [Description des données](#description-des-données)
- [Présentation des différentes étapes du code](#présentation-des-différentes-étapes-du-code)
    - [Web Scraping des données d’avis de spectacteurs](#web-scraping-des-données-davis-de-spectacteurs)
    - [Préparation des données](#préparation-des-données)
    - [Préparation des libellés](#préparation-des-libellés)
    - [Finalisation de nos jeux de données](#finalisation-de-nos-jeux-de-données)
    - [Entraînement du modèle](#entraînement-du-modèle)
    - [Analyse des résultats](#analyse-des-résultats)
- [Résultats](#résultats)
- [Conclusion](#conclusion-avantages-et-inconvénients-recommandations)

# Description des données

Avant de pouvoir essayer de prédire un avis de critique de film à partir d'un commentaire, il faut tout d'abord récupérer des données permettant de réaliser cette prédiction.

Les données retenues pour ce projet sont les commentaires des internautes et la note associée de 2 films, _Sonic 2 le film_ et _Inception_, déposés sur le site _allocine.fr_

Le premier problème qui apparaît est la récupération de ces informations. En effet, celles-ci ne sont disponibles qu'à travers les pages web _allocine.fr_ de ces films.

La solution choisie dans le cadre de ce projet est le [Web Scraping](https://fr.wikipedia.org/wiki/Web_scraping), c'est-à-dire l'extraction des données depuis une page HTML.

Ce travail nous permet d'enregistrer la totalité des notes et des commentaires de chaque film dans différents fichiers ````csv```` compressés au format ```zip``` et que l'on peut retrouver dans le dossier ```movieReview_app/data```.

Ainsi les données utilisées pourront être chargées sous forme de DataFrame à l'aide de la bibliothèque ```pandas``` puis traitées à l'aide de la bibliothèque ```numpy``` pour chaque film.

# Présentation des différentes étapes du code

## Web Scraping des données d’avis de spectacteurs

Cette étape est réalisée à l'aide de la bibliothèque ```webScraping``` qui implémente les fonctions suivantes :
- ```get_html_doc``` : Crée un document html à partir de l'url d'une page donnée.
- ```get_elements``` : Crée une liste d'éléments repérés par la balise et la classe de ceux-ci dans un document.
- ```get_element``` : Retourne un élément depuis un document en fonction de sa classe et de son index parmi le nombre d'occurences.
- ```get_title``` : Retourne le titre de la page du document html.
- ```get_ratings``` : Crée une liste des notes à partir du document html.
- ```get_comments``` : Crée une liste des commentaires à partir du document html.
- ```get_page_max``` : Retourne le nombre de pages totales associées à un document html.
- ```create_dataframe``` : Crée un dataframe à partir des listes des notes et des commentaires données en entrée.
- ```browse_doc``` : Retourne le nom du film scrapé et le dataframe résultant du parcours de toutes les pages depuis une ressource.

Lors de l'exécution de cette bibliothèque en tant que script, les ````DataFrame```` créés sont enregistrés en fichiers ```csv``` compressés au format ```zip``` et peuvent être chargés de la façon suivante :

In [3]:
import pandas as pd
APP_PATH = "movieReview_app"

movie = "Inception"
# movie = "Sonic 2 le film"

data1 = pd.read_csv(f"{APP_PATH}/data/{movie}.zip")

data1.head(10)

Unnamed: 0,rating,comment
0,5.0,Après le chef d'oeuvre super-héroïque The Dark...
1,5.0,C’est fou ce qu’on aime détester Christopher N...
2,5.0,CHEF D’ŒUVRE ! Le film est absolument parfait ...
3,5.0,"Un film aussi novateur que complexe, dont la m..."
4,3.5,Le meilleur blockbuster de 2010 a pour thème l...
5,5.0,Christopher Nolan est sûrement l'un des seuls ...
6,5.0,Nolan est un vrai génie. On l'avait déjà entra...
7,4.0,""" inception "" Un film de science fiction très ..."
8,5.0,Un film époustouflant(un de mes préférés) ! Le...
9,5.0,Un Pur Chef D’œuvre. Après Le Prestige & la sa...


## Préparation des données

## Préparation des libellés

## Finalisation de nos jeux de données

## Entraînement du modèle

## Analyse des résultats

# Résultats


# Conclusion (avantages et inconvénients, recommandations…)