#### Introduction et objectifs du projet

##### <u>Contexte :</u>

L'analyse de sentiments est un domaine essentiel en science des données, en particulier en NLP. Elle utilise le machine learning et la linguistique pour détecter, extraire et étudier les émotions et les informations subjectives dans les textes sources.

Dans le contexte des avis de films, l'analyse de sentiments permet de comprendre les perceptions et les émotions des spectateurs à partir de leurs commentaires, ce qui est précieux pour les critiques de films, les studios de cinéma et les plateformes de streaming.

##### <u>Objectifs :</u>

Ce projet vise à développer une application interactive en Python permettant aux utilisateurs de demander des analyses de sentiments sur des films spécifiques. Les objectifs de l'application sont les suivants :

1. Permettre aux utilisateurs de saisir un titre de film ou son ID pour récupérer des avis pertinents.

2. Analyser les sentiments exprimés dans ces avis, en calculant la polarité (positivité ou négativité des sentiments) et la subjectivité (mesure de l'opinion personnelle par rapport à un fait objectif) des commentaires.

3. Comparer les "ratings" (notes) des films avec la polarité des avis pour voir si les évaluations numériques correspondent aux sentiments exprimés dans les commentaires.

4. Examiner les différences, le cas échéant, entre les sentiments exprimés avant et après la sortie du film, fournissant ainsi une perspective unique sur l'évolution des perceptions des spectateurs.

##### <u>Méthodes de récupération des données :</u>

Dans un premier temps, pour éviter de surcharger l'API de TMDB et de devoir gérer des bases de données trop volumineuses, nous avons décidé de limiter notre étude aux films sortis entre x et y. Une fois cette sélection effectuée, nous avons procédé à la récupération des données via 3 méthodes différentes :

- L'API de TMDB : "https://developers.themoviedb.org/3/"
- Scraping du site : imdb.com (via la librairie python : beautifulsoup4)
- Utilisation de la librairie python : imdbpy

L'objectif de cette section est de comparer les différentes méthodes de récupération des données afin de déterminer laquelle est la plus efficace et la plus pertinente pour notre projet.
Dans une première approche il était question de tester les 3 méthodes, voir les avantages et inconvénients de chacune d'entre elles, de savoir si elles étaient complémentaires ou non, et de déterminer laquelle était la plus efficace et la plus pertinente pour notre projet.

Dans un second temps l'objectif est de structurer les données récupérées afin de pouvoir les exploiter dans la suite du projet. Si possible par une seule des méthodes de récupération des données mentionnées ci-dessus.

Ensuite, il s'agira de mettre en place une méthode d'analyse de sentiments sur les commentaires récupérés, il existe des librairies python qui permettent de faire cela, mais il est également possible de créer notre propre méthode d'analyse de sentiments. 

Choix numéro 1 : Réaliser nos propres méthodes d'analyse de sentiments.

Choix numéro 2 : Utiliser des librairies python existantes tel que : TextBlob, NLTK.

Enfin il s'agira de mettre en place une application interactive en python permettant aux utilisateurs de demander des analyses de sentiments sur des films spécifiques.


#### <u>Partie 1 : import des librairies</u>

- package imdb à importer via le code ci-dessous : (important qu'il soit installé sur la machine et qu'il soit à jour)

In [None]:
#pip install git+https://github.com/santhoshse7en/imdb

In [1]:
#from imdb import IMDb
from bs4 import BeautifulSoup
from textblob import TextBlob
import requests
from datetime import datetime
import json
import re
import pandas as pd

- Appel de la clé API de TMDB 

In [2]:
with open('clefAPI.json', 'r') as config_file:
    config = json.load(config_file)

api_key = config['tmdb']['api_key']

#### <u>Méthode 1 : scraping du site imdb.com </u>

Première étape : on va tester notre procédé sur un seul film, pour voir si ça fonctionne, et si oui, on pourra ensuite l'appliquer à tous les films de notre base de données.

Étape crucial : on doit récupérer la date de sortie du film, pour pouvoir ensuite récupérer les commentaires avant et après la sortie du film. 

The Shawshank Redemption : ID sur le site de TMDB : "tt0111161"

In [3]:
film_id = 'tt0111161'

url_date_release = f"https://api.themoviedb.org/3/movie/{film_id}?api_key={api_key}&language=en-US"

response = requests.get(url_date_release)

if response.status_code == 200:
    film_details = response.json()
    date_sortie_str = film_details.get("release_date", "")
    if date_sortie_str:
        date_sortie = datetime.strptime(date_sortie_str, "%Y-%m-%d")
        print(f"Date de sortie du film : {date_sortie}")
    else:
        print("Date de sortie non trouvée")
else:
    print("Erreur lors de la requête :", response.status_code)

url_film = f"https://www.imdb.com/title/{film_id}/reviews" # Récupérer les avis sur IMDb

response = requests.get(url_film)

reviews_dict = {}

if response.status_code == 200:
    soup = BeautifulSoup(response.content, 'html.parser')
    review_elements = soup.find_all('div', class_='review-container')
    for element in review_elements:
        review_text = element.find('div', class_='text show-more__control').get_text().strip()
        review_date_str = element.find('span', class_='review-date').get_text().strip()
        review_date = datetime.strptime(review_date_str, '%d %B %Y').date()
        reviews_dict[review_date] = review_text
else:
    print("Erreur lors de la requête :", response.status_code)

print("Nombre d'avis pour ce film :",len(reviews_dict)) 

Date de sortie du film : 1994-09-23 00:00:00
Nombre d'avis pour ce film : 25


- Objectif : voir si on a assez de commentaires avant et après la sortie du film pour pouvoir faire une analyse de sentiments.

In [4]:
avis_avant = {}
avis_apres = {}

for review_date, review_text in reviews_dict.items():
    if review_date < date_sortie.date():
        avis_avant[review_date] = review_text
    else:
        avis_apres[review_date] = review_text

print("Nombre d'avis avant la sortie du film :", len(avis_avant))
print("Nombre d'avis après la sortie du film :", len(avis_apres))

Nombre d'avis avant la sortie du film : 0
Nombre d'avis après la sortie du film : 25


On constate alors qu'avant la sortie du film, on a 0 commentaires, et après la sortie du film, on a 25 commentaire. On ne peut donc pas faire d'analyse de sentiments sur ce film. Et en testant sur d'autres films, on se rend compte que c'est le cas pour tous des films de notre base de données. Afin de réaliser le projet dans son intégralité, il faudrait donc récupérer les commentaires sur une autre plateforme que TMDB. Toutefois nous manquons de temps et d'expérience pour réaliser cela. Nous allons donc nous contenter de réaliser une analyse de sentiments sur les commentaires récupérés sur TMDB.

- Affichage des 5 premiers commentaires récupérés sur TMDB pour ce premier film :

In [5]:
print("Avis après la sortie:")
for date, review in list(avis_apres.items())[:5]:
    print(f"{date}: {review}\n")

Avis après la sortie:
2010-07-24: The Shawshank Redemption is written and directed by Frank Darabont. It is an adaptation of the Stephen King novella Rita Hayworth and Shawshank Redemption. Starring Tim Robbins and Morgan Freeman, the film portrays the story of Andy Dufresne (Robbins), a banker who is sentenced to two life sentences at Shawshank State Prison for apparently murdering his wife and her lover. Andy finds it tough going but finds solace in the friendship he forms with fellow inmate Ellis "Red" Redding (Freeman). While things start to pick up when the warden finds Andy a prison job more befitting his talents as a banker. However, the arrival of another inmate is going to vastly change things for all of them.There was no fanfare or bunting put out for the release of the film back in 94, with a title that didn't give much inkling to anyone about what it was about, and with Columbia Pictures unsure how to market it, Shawshank Redemption barely registered at the box office. Howe

#### <u>Méthode 2 : utilisation de l'API </u>

In [6]:
def get_movies_between_dates(start_date, end_date, api_key):
    base_url = "https://api.themoviedb.org/3/discover/movie"
    url = f"{base_url}?api_key={api_key}&primary_release_date.gte={start_date}&primary_release_date.lte={end_date}&region=FR"
    response = requests.get(url)
    if response.status_code == 200:
        movies_data = response.json()['results']
        return [(movie['id'], movie['title']) for movie in movies_data] # AJOUTER DATE SORTIE
    else:
        print("Erreur lors de la requête :", response.status_code)
        return []
    
start_date = "2022-01-01"
end_date = "2022-01-31"

print(f"Recherche des films sortis entre le {start_date} et le {end_date}", end=" ")
print(get_movies_between_dates(start_date, end_date, api_key))

Recherche des films sortis entre le 2022-01-01 et le 2022-01-31 [(646385, 'Scream'), (774825, 'The Ice Age Adventures of Buck Wild'), (557946, 'Last Looks'), (899082, 'Harry Potter 20th Anniversary: Return to Hogwarts'), (522016, 'The 355'), (575322, 'Project Gemini'), (245842, "The King's Daughter"), (803114, 'The Requin'), (926899, 'The House'), (916740, 'Brazen'), (854867, 'Werewolf Castle'), (825808, 'See for Me'), (591120, 'The Pirates: The Last Royal Treasure'), (844398, 'Shattered'), (760336, 'Munich: The Edge of War'), (698508, 'Redeeming Love'), (760926, 'Gold'), (778810, 'Fireheart'), (661791, 'La Abuela (The Grandmother)'), (800425, 'Ray Donovan: The Movie')]


In [7]:
# from cinemagoer import IMDb
# ia = IMDb()
# movie = ia.get_movie('0111161')  # Pour 'The Shawshank Redemption'
# print(movie['title'])  # Afficher le titre du film
!pip show IMDbPY

Name: IMDbPY
Version: 2022.7.9
Summary: IMDbPY is now cinemagoer
Home-page: https://cinemagoer.github.io/
Author: 
Author-email: 
License: 
Location: C:\Users\pc\anaconda3\Lib\site-packages
Requires: cinemagoer
Required-by: 


In [8]:
def get_imdb_reviews(movie_id): # FONCTIONNE
    url = f"https://www.imdb.com/title/{movie_id}/reviews"
    response = requests.get(url)
    reviews = {}
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        review_elements = soup.find_all('div', class_='review-container')
        if not review_elements:
            print(f"Aucune critique trouvée pour {movie_id}")
            return reviews
        for element in review_elements:
            review_text = element.find('div', class_='text show-more__control').get_text().strip()
            review_date = datetime.strptime(element.find('span', class_='review-date').get_text(), '%d %B %Y')
            reviews[review_date] = review_text
    else:
        print(f"Erreur lors de la récupération des avis pour {movie_id}: {response.status_code}")
    return reviews

print(get_imdb_reviews('tt0111161'))

{datetime.datetime(2010, 7, 24, 0, 0): 'The Shawshank Redemption is written and directed by Frank Darabont. It is an adaptation of the Stephen King novella Rita Hayworth and Shawshank Redemption. Starring Tim Robbins and Morgan Freeman, the film portrays the story of Andy Dufresne (Robbins), a banker who is sentenced to two life sentences at Shawshank State Prison for apparently murdering his wife and her lover. Andy finds it tough going but finds solace in the friendship he forms with fellow inmate Ellis "Red" Redding (Freeman). While things start to pick up when the warden finds Andy a prison job more befitting his talents as a banker. However, the arrival of another inmate is going to vastly change things for all of them.There was no fanfare or bunting put out for the release of the film back in 94, with a title that didn\'t give much inkling to anyone about what it was about, and with Columbia Pictures unsure how to market it, Shawshank Redemption barely registered at the box offic

### TEST

In [None]:
movies_data = get_movies_between_dates(start_date, end_date, api_key)
movies_data

movies_reviews = {}
for movie_id, movie_title in movies_data:  # Unpack only two values
    reviews = get_imdb_reviews(movie_id)
    movies_reviews[movie_id] = {'title': movie_title, 'reviews': reviews}  # Remove release_date


In [10]:
def get_movie_details(movie_id, api_key):
    base_url = "https://api.themoviedb.org/3/movie/"
    url = f"{base_url}{movie_id}?api_key={api_key}"
    response = requests.get(url)
    if response.status_code == 200:
        return response.json()
    else:
        print("Erreur lors de la requête :", response.status_code)
        return None

print(get_movie_details('tt0111161', api_key))

{'adult': False, 'backdrop_path': '/kXfqcdQKsToO0OUXHcrrNCHDBzO.jpg', 'belongs_to_collection': None, 'budget': 25000000, 'genres': [{'id': 18, 'name': 'Drama'}, {'id': 80, 'name': 'Crime'}], 'homepage': '', 'id': 278, 'imdb_id': 'tt0111161', 'original_language': 'en', 'original_title': 'The Shawshank Redemption', 'overview': 'Framed in the 1940s for the double murder of his wife and her lover, upstanding banker Andy Dufresne begins a new life at the Shawshank prison, where he puts his accounting skills to work for an amoral warden. During his long stretch in prison, Dufresne comes to be admired by the other inmates -- including an older prisoner named Red -- for his integrity and unquenchable sense of hope.', 'popularity': 132.004, 'poster_path': '/q6y0Go1tsGEsmtFryDOJo3dEmqu.jpg', 'production_companies': [{'id': 97, 'logo_path': '/7znWcbDd4PcJzJUlJxYqAlPPykp.png', 'name': 'Castle Rock Entertainment', 'origin_country': 'US'}], 'production_countries': [{'iso_3166_1': 'US', 'name': 'Unit

In [12]:
def get_movie_details_and_reviews(movie_id, api_key):
    # Récupération des détails du film
    base_url = "https://api.themoviedb.org/3/movie/"
    url = f"{base_url}{movie_id}?api_key={api_key}"
    response = requests.get(url)
    movie_details = response.json() if response.status_code == 200 else {}

    # Récupération des liens des critiques (si disponibles)
    # Note: L'API de TMDb peut ne pas fournir directement des critiques
    reviews_url = f"{base_url}{movie_id}/reviews?api_key={api_key}"
    reviews_response = requests.get(reviews_url)
    reviews_data = reviews_response.json() if reviews_response.status_code == 200 else {}

    return movie_details, reviews_data


print(get_movie_details_and_reviews('tt0111161', api_key))

({'adult': False, 'backdrop_path': '/kXfqcdQKsToO0OUXHcrrNCHDBzO.jpg', 'belongs_to_collection': None, 'budget': 25000000, 'genres': [{'id': 18, 'name': 'Drama'}, {'id': 80, 'name': 'Crime'}], 'homepage': '', 'id': 278, 'imdb_id': 'tt0111161', 'original_language': 'en', 'original_title': 'The Shawshank Redemption', 'overview': 'Framed in the 1940s for the double murder of his wife and her lover, upstanding banker Andy Dufresne begins a new life at the Shawshank prison, where he puts his accounting skills to work for an amoral warden. During his long stretch in prison, Dufresne comes to be admired by the other inmates -- including an older prisoner named Red -- for his integrity and unquenchable sense of hope.', 'popularity': 132.004, 'poster_path': '/q6y0Go1tsGEsmtFryDOJo3dEmqu.jpg', 'production_companies': [{'id': 97, 'logo_path': '/7znWcbDd4PcJzJUlJxYqAlPPykp.png', 'name': 'Castle Rock Entertainment', 'origin_country': 'US'}], 'production_countries': [{'iso_3166_1': 'US', 'name': 'Uni

#### <u>On transforme nos données en json</u>

In [None]:
movies_data = get_movies_between_dates(start_date, end_date, api_key)
movies_details = {}

for movie_id, movie_title in movies_data:
    movie_details, reviews_data = get_movie_details_and_reviews(movie_id, api_key)
    movies_details[movie_id] = {
        'title': movie_title,
        'details': movie_details,
        'reviews': reviews_data
    }

with open('movies_details.json', 'w') as json_file:
    json.dump(movies_details, json_file, indent=4)


Maintenant que nous avons récupérées toutes les données utiles à notre projet dans un fichier "movies_details.json", nous allons pouvoir les exploiter.