# Présenttation des outils

Deux outils pour réaliser le Web Scrapping:

- **BeautifulSoup** : 
  - Bibliothèque Python pour extraire des données de documents HTML et XML.
  - Permet une navigation facile dans les structures des pages.
    
- **Requests** : 
  - Bibliothèque Python pour effectuer des requêtes HTTP.
  - Utilisée pour récupérer le contenu de la page web.
 - **lxml** : 
  - pour mieux gérer les codes html
  - plus rapide
  

# Importation des packages

In [1]:
!pip install beautifulsoup4
!pip install requests
!pip install lxml
!pip install html5lib



In [2]:
from bs4 import BeautifulSoup
import requests
import lxml
import pandas as pd
import time
import random as ran
import sys

# Objectif du projet


Dans ce projet, nous allons préparer la base de donnée pour un système de recommandation de films en utilisant le webscrapping des données du site IMDB (https://www.imdb.com). Nous allons récupérer les informations suivantes à partir du site :

1. **URL du film** : L'URL du film pour accéder à la page cible.
2. **Classement** : Le classement du film dans la liste des meilleurs films.
3. **Nom du film** : Le nom unique du film.
4. **Année de sortie du film** : L'année de sortie du film.
5. **Genre** : Le genre du film, qui peut être un genre unique ou une liste de genres.
6. **Nom du réalisateur** : Le nom du réalisateur du film.
7. **Note IMDB** : La note IMDB du film.
8. **Liste des acteurs** : La liste du casting du film.

# Web scraping

In [3]:
url='https://www.imdb.com/search/title?release_date=2022&sort=boxoffice_gross_us,desc&start=1'

In [4]:
source = requests.get(url)

In [5]:
soup = BeautifulSoup(source.content,'lxml')
soup

<!DOCTYPE html>
<html xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://ogp.me/ns#">
<head>
<meta charset="utf-8"/>
<script type="text/javascript">var IMDbTimer={starttime: new Date().getTime(),pt:'java'};</script>
<script>
    if (typeof uet == 'function') {
      uet("bb", "LoadTitle", {wb: 1});
    }
</script>
<script>(function(t){ (t.events = t.events || {})["csm_head_pre_title"] = new Date().getTime(); })(IMDbTimer);</script>
<title>Released between 2022-01-01 and 2022-12-31
(Sorted by US Box Office Descending) - IMDb</title>
<script>(function(t){ (t.events = t.events || {})["csm_head_post_title"] = new Date().getTime(); })(IMDbTimer);</script>
<script>
    if (typeof uet == 'function') {
      uet("be", "LoadTitle", {wb: 1});
    }
</script>
<script>
    if (typeof uex == 'function') {
      uex("ld", "LoadTitle", {wb: 1});
    }
</script>
<link href="https://www.imdb.com/search/title/?release_date=2022-01-01,2022-12-31" rel="canonical"/>
<meta content="http://www.imd

In [6]:
# Récupération des blocks de films

blocs_de_films = soup.findAll('div', {'class': 'lister-item-content'}) # La variable `blocs_de_films` stocke une liste de tous les blocs de films sur la page. Un bloc de film est un élément HTML qui contient des informations sur un film, telles que le titre, l'année de sortie, le classement IMDb et l'affiche.
blocs_de_films

[<div class="lister-item-content">
 <h3 class="lister-item-header">
 <span class="lister-item-index unbold text-primary">1.</span>
 <a href="/title/tt1745960/">Top Gun: Maverick</a>
 <span class="lister-item-year text-muted unbold">(2022)</span>
 </h3>
 <p class="text-muted">
 <span class="certificate">Tous publics</span>
 <span class="ghost">|</span>
 <span class="runtime">130 min</span>
 <span class="ghost">|</span>
 <span class="genre">
 Action, Drama            </span>
 </p>
 <div class="ratings-bar">
 <div class="inline-block ratings-imdb-rating" data-value="8.3" name="ir">
 <span class="global-sprite rating-star imdb-rating"></span>
 <strong>8.3</strong>
 </div>
 <div class="inline-block ratings-user-rating">
 <span class="userRatingValue" data-tconst="tt1745960" id="urv_tt1745960">
 <span class="global-sprite rating-star no-rating"></span>
 <span class="rate" data-no-rating="Rate this" data-value="0" name="ur">Rate this</span>
 </span>
 <div class="starBarWidget" id="sb_tt174596

In [7]:
# Récupérer l'URL du film
url_film = blocs_de_films[0].find('a')['href']

# Récupérer le classement du film
classement = int(blocs_de_films[0].find('span', {'class': 'lister-item-index unbold text-primary'}).get_text()[:-1])

# Récupérer le nom du film
nom_film = blocs_de_films[0].find('a').get_text()

# Récupérer l'année de sortie du film
annee_sortie = int(blocs_de_films[0].find('span', {'class': 'lister-item-year'}).contents[0][1:-1])

# Récupérer le genre du film (peut être un genre unique ou une liste de genres)
genre_film = blocs_de_films[0].find('span', {'class': 'genre'}).get_text().strip()

# Récupérer le nom du réalisateur du film
realisateur = blocs_de_films[0].find('p', {'class': ''}).find('a').get_text()

# Récupérer la note IMDb du film
note_imdb = float(blocs_de_films[0].find('div', {'class': 'inline-block ratings-imdb-rating'}).get('data-value'))

# Récupérer la liste du casting du film
acteurs = [acteur.get_text().strip() for acteur in blocs_de_films[2].find('p', {'class': ''}).find_all('a')[1:]]

# Afficher tous les détails du film
print("URL du film : " + url_film,
      "\nClassement : " + str(classement),
      "\nNom du film : " + nom_film,
      "\nAnnée de sortie du film : " + str(annee_sortie),
      "\nGenre : " + genre_film,
      "\nNom du réalisateur : " + realisateur,
      "\nNote IMDB : " + str(note_imdb),
      "\nListe des acteurs : " + ', '.join(acteurs))


URL du film : /title/tt1745960/ 
Classement : 1 
Nom du film : Top Gun: Maverick 
Année de sortie du film : 2022 
Genre : Action, Drama 
Nom du réalisateur : Joseph Kosinski 
Note IMDB : 8.3 
Liste des acteurs : Letitia Wright, Lupita Nyong'o, Danai Gurira, Winston Duke


In [8]:
def recuperer_details_film(blocs_de_films):
    """
    Récupère les détails d'un film à partir du bloc de données HTML fourni.

    Paramètres :
        blocs_de_films (bs4.element.Tag) : Le bloc HTML contenant les détails du film.

    Retourne :
        dict : Un dictionnaire contenant les détails du film. Les clés du dictionnaire sont :
            - 'classement' : Le classement du film dans la liste des meilleurs films.
            - 'nom' : Le nom unique du film.
            - 'annee_sortie' : L'année de sortie du film.
            - 'genre' : Le genre du film, qui peut être un genre unique ou une liste de genres.
            - 'realisateur' : Le nom du réalisateur du film.
            - 'note_imdb' : La note IMDB du film.
            - 'acteurs' : La liste du casting du film.
    """

    # Initialiser un dictionnaire pour stocker les données du film
    donnees_film = {}

    # Récupérer le classement du film
    try:
        donnees_film['classement'] = int(blocs_de_films.find('span', {'class': 'lister-item-index unbold text-primary'}).get_text()[:-1])
    except:
        donnees_film['classement'] = None

    # Récupérer le nom du film
    try:
        donnees_film['nom'] = blocs_de_films.find('a').get_text()
    except:
        donnees_film['nom'] = None

    # Récupérer l'année de sortie du film
    try:
        donnees_film['annee_sortie'] = str(blocs_de_films.find('span', {'class': 'lister-item-year'}).contents[0][1:-1])
    except:
        donnees_film['annee_sortie'] = None

    # Récupérer le genre du film
    try:
        donnees_film['genre'] = blocs_de_films.find('span', {'class': 'genre'}).get_text().strip()
    except:
        donnees_film['genre'] = None

    # Récupérer le nom du réalisateur du film
    try:
        donnees_film['realisateur'] = blocs_de_films.find('p', {'class': ''}).find('a').get_text()
    except:
        donnees_film['realisateur'] = None

    # Récupérer la note IMDb du film
    try:
        donnees_film['note_imdb'] = float(blocs_de_films.find('div', {'class': 'inline-block ratings-imdb-rating'}).get('data-value'))
    except:
        donnees_film['note_imdb'] = None

    # Récupérer la liste du casting du film
    try:
        donnees_film['acteurs'] = [acteur.get_text().strip() for acteur in blocs_de_films.find('p', {'class': ''}).find_all('a')[1:]]
    except:
        donnees_film['acteurs'] = None

    # Retourner le dictionnaire contenant les détails du film
    return donnees_film


In [9]:
def extraire_donnees_page_films(blocs_de_films):
    """
    Extrait les détails de chaque film à partir des blocs de données HTML de la page.

    Paramètres :
        blocs_de_films (list) : Une liste des blocs HTML contenant les détails de chaque film.

    Retourne :
        list : Une liste de dictionnaires, chaque dictionnaire contenant les détails d'un film.
            Les clés du dictionnaire sont :
            - 'classement' : Le classement du film dans la liste des meilleurs films.
            - 'nom' : Le nom unique du film.
            - 'annee_sortie' : L'année de sortie du film.
            - 'genre' : Le genre du film, qui peut être un genre unique ou une liste de genres.
            - 'realisateur' : Le nom du réalisateur du film.
            - 'note_imdb' : La note IMDB du film.
            - 'acteurs' : La liste du casting du film.
    """

    liste_donnees_films = []  # Initialiser une liste pour stocker les détails de chaque film
    nb_blocs = len(blocs_de_films)

    for i in range(nb_blocs):
        # Appeler la fonction récupérant les détails du film pour chaque bloc de films
        donnees_film = recuperer_details_film(blocs_de_films[i])

        # Ajouter les détails du film à la liste des données de la page
        liste_donnees_films.append(donnees_film)

    return liste_donnees_films


In [10]:

def extraire_donnees_films_par_lien(url, cible):
    """
    Extrait les détails des films à partir d'un lien donné jusqu'à atteindre la cible de films.

    Paramètres :
        url (str) : L'URL de la page à partir de laquelle extraire les détails des films.
        cible (int) : Le nombre total de films que l'on souhaite extraire.

    Retourne :
        list : Une liste de dictionnaires, chaque dictionnaire contenant les détails d'un film.
            Les clés du dictionnaire sont :
            - 'classement' : Le classement du film dans la liste des meilleurs films.
            - 'nom' : Le nom unique du film.
            - 'annee_sortie' : L'année de sortie du film.
            - 'genre' : Le genre du film, qui peut être un genre unique ou une liste de genres.
            - 'realisateur' : Le nom du réalisateur du film.
            - 'note_imdb' : La note IMDB du film.
            - 'acteurs' : La liste du casting du film.
    """

    url_base = url
    cible_films = cible
    
    m_compte_debut_actuel = 0
    m_compte_fin_actuel = 0
    m_compte_restant = cible_films - m_compte_fin_actuel
    
    numero_nouvelle_page = 1
    
    donnees_films = []  # Initialiser une liste pour stocker les détails de chaque film
    
    while m_compte_restant > 0:
        url_complete = url_base + str(numero_nouvelle_page)
        
        # Récupérer le contenu HTML de la page
        source = requests.get(url_complete).text
        soup = BeautifulSoup(source, 'html.parser')
        
        # Trouver tous les blocs de films sur la page
        blocs_de_films = soup.findAll('div', {'class': 'lister-item-content'})
        
        # Appeler la fonction extraire_donnees_page_films pour chaque page de films
        donnees_page_films = extraire_donnees_page_films(blocs_de_films)

        # Ajouter les détails des films à la liste de données des films
        donnees_films.extend(donnees_page_films)   
        
        # Mettre à jour les compteurs actuels et le nombre de films restants à extraire
        m_compte_debut_actuel = int(soup.find("div", {"class": "nav"}).find("div", {"class": "desc"}).contents[1].get_text().split("-")[0])
        m_compte_fin_actuel = int(soup.find("div", {"class": "nav"}).find("div", {"class": "desc"}).contents[1].get_text().split("-")[1].split(" ")[0])
        m_compte_restant = cible_films - m_compte_fin_actuel
        
        # Afficher l'état actuel de l'extraction des films
        print('\r' + "Extraction des films en cours : " + str(m_compte_debut_actuel) + " - "+ str(m_compte_fin_actuel), "| Restant : " + str(m_compte_restant), flush=True, end="")
        
        numero_nouvelle_page = m_compte_fin_actuel + 1
        
        # Attendre un certain temps aléatoire avant de récupérer la prochaine page (pour éviter de surcharger le serveur)
        time.sleep(ran.randint(0, 10))
    
    return donnees_films


In [11]:
base_scraping_link = "https://www.imdb.com/search/title/?release_date=2022-01-01,2022-12-31&sort=moviemeter,desc&start="

top_movies = 200  # Nombre de films à extraire

# Appeler la fonction pour extraire les détails des films à partir du lien de base et avec le nombre de films cible
films = extraire_donnees_films_par_lien(base_scraping_link, top_movies)

# Créer un DataFrame à partir de la liste des détails des films
movies_df = pd.DataFrame(films)

# Afficher la liste des top movies dans un DataFrame

movies_df


Extraction des films en cours : 151 - 200 | Restant : 00

Unnamed: 0,classement,nom,annee_sortie,genre,realisateur,note_imdb,acteurs
0,1,DRIPPIN: Zero,2022 Music Video,Music,Joo Changuk,,"[Dongyun, Drippin, Hyeop]"
1,2,Tanxugueiras: Desidia,2022 Music Video,,Diego M. Barcia,,"[Diego Santaclara, Carla Cervantes, Justin de ..."
2,3,Keven Chouinard: Ensemble,2022 Music Video,Music,Keven Chouinard,,[]
3,4,Music Driver,2022 Video Game,Music,Ai Kakuma,,[]
4,5,Bayan Patali Si Kamriya Ki,2022 Music Video,Music,Madhav Lal Teli,,"[Lovely Bhati, Sukhdev Khapa, Bhavesh Bhati, L..."
...,...,...,...,...,...,...,...
195,196,AJ x Bones: Glow,2022 Music Video,"Short, Music",Braw,,[AJ & Bones]
196,197,Behati,2022 Music Video,Music,Wily Frenzy,,[]
197,198,Mein Virahini,2022 Music Video,,Sachin Dave,,[]
198,199,Screen Talk Live,2022 Podcast Series,News,Key Tawn Toothman,,"[Lucas Farney, Trevor Vincent Farney]"


In [13]:
movies_df.to_csv('movies_df.csv')