In [2]:
"""
Scraping de synopsis de films d'horreur depuis Wikipédia (fr)

Ce script télécharge automatiquement les résumés (sections "Synopsis") de pages Wikipédia
pour une liste de films d'horreur. Les textes récupérés sont nettoyés et sauvegardés
dans des fichiers `.txt`, un par film, dans un dossier local.

Fonctionnalités :
-----------------
1. Accès automatisé aux pages Wikipédia en français pour chaque film.
2. Extraction de la section "Synopsis" si elle est présente.
   - Sinon, extraction du contenu général des paragraphes de la page.
3. Nettoyage du texte (suppression des références [1], [2], etc.).
4. Sauvegarde des synopsis dans un dossier local `film_synopses/`.

Dépendances :
-------------
- `requests` : pour effectuer les requêtes HTTP
- `BeautifulSoup` (`bs4`) : pour parser le HTML
- `re` : pour les expressions régulières
- `os`, `time` : pour la gestion de fichiers et des temps d’exécution

Utilisation :
-------------
- La liste de films est personnalisable dans `films_horreur` (format URL Wikipédia).
- Le script crée un fichier `.txt` par film contenant son synopsis.

Limitations :
-------------
- Certaines pages Wikipédia peuvent ne pas contenir la section "Synopsis".
- Des pages mal formatées ou trop courtes peuvent générer des textes incomplets.
- Risque de blocage temporaire si trop de requêtes en peu de temps (Wikipédia).

Conseils :
----------
- Pour des corpus volumineux, introduire un `time.sleep()` entre les requêtes.
- Vérifier manuellement les cas où le texte retourné est vide ou erroné.
- Utiliser des titres Wikipédia exacts (pas forcément les titres en français courant).

"""

import requests
from bs4 import BeautifulSoup
import time
import re
import os

# Liste des films d'horreur
films_horreur = [
    "The_Strangers_(film,_2016)", "It_Comes_at_Night", "Ça_(film,_2017)", "The_Witch_(film,_2015)", "Paranormal_Activity", "The_Grudge_3", 
    "Evil_Dead_(film,_2013)", "L'Exorciste_(film)", "Annabelle_(film)", "Ouija_(film,_2014)", "Le_Cercle_(film,_2002)",
    "Terrifier_2", "Scream_(film,_2022)", "The_Sadness","Us_(film,_2019)","Hérédité_(film,_2018)","Slender_Man_(film)"
    "The_Descent", "Insidious_:_Chapitre_2", "The_Grudge", "Saw", "Poltergeist", "Sinister","Le_Rituel_(film)","Le_Secret_des_Marrowbone"
    "It_Follows", "Cabin_in_the_Woods", "The_Visit", "Hellraiser_(film,_2022)", "It_Chapter_Two", "Friday_the_13th", 
      "An_American_Werewolf_in_London","Immaculée","Smile_(film,_2022)","Evil_Dead_Rise","Halloween_(film,_2018)","The_Babysitter_(film,_2017)",
    "Chucky_3","Poltergeist_(film,_1982)","The_Mirror_(film,_2013)","Conjuring_2_:_Le_Cas_Enfield","American_Nightmare_(film,_2013)",
    "Carrie_:_La_Vengeance","Possédée","La_Cabane_dans_les_bois","Antichrist_(film)","Midsommar_(film)","Cloverfield","Underworld_(film,_2003)",
    "Resident_Evil:_Apocalypse","L'Exorciste_du_Vatican","Brightburn_:_L'Enfant_du_mal","Escape_Game_(film)","Get_Out_(film)"
    
]

def get_movie_synopsis(movie_name):
    # Construire l'URL de la page Wikipédia du film
    url = f'https://fr.wikipedia.org/wiki/{movie_name}'
    
    # Démarrer le chronomètre pour mesurer le temps de la requête
    start_time = time.time()

    # Faire une requête HTTP GET pour récupérer le contenu de la page
    response = requests.get(url)

    # Vérifier si la requête a réussi (code de statut 200 signifie succès)
    if response.status_code == 200:
        print(f"Page fetched for {movie_name} in {time.time() - start_time} seconds")
    else:
        print(f"Unable to download the page for {movie_name}")
        return None  # Retourner seulement None si l'extraction échoue

    # Analyser le contenu de la page avec BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')

    # Recherche de la section "Synopsis"
    synopsis_section = soup.find('span', {'id': 'Synopsis'})
    cleaned_synopsis = ""
    if synopsis_section:
        next_paragraphs = synopsis_section.find_all_next('p')
        synopsis = ""
        for p in next_paragraphs:
            synopsis += p.get_text().strip() + " "
        cleaned_synopsis = re.sub(r'\[[^\]]*\]', '', synopsis)  # Supprimer les références comme [1], [2], etc.
    
    # Si la section "Synopsis" n'est pas trouvée, essayer de récupérer les paragraphes suivants l'intro comme synopse
    if not cleaned_synopsis:
        # Extraire un autre bloc de texte comme synopse
        paragraphs = soup.find_all('p')
        synopsis = ""
        for p in paragraphs:
            synopsis += p.get_text().strip() + " "
        cleaned_synopsis = re.sub(r'\[[^\]]*\]', '', synopsis)  # Supprimer les références comme [1], [2], etc.

    # Retourner la synopse nettoyée
    return cleaned_synopsis

# Créer un dossier pour stocker les fichiers si nécessaire
output_folder = 'film_synopses'
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Parcourir chaque film dans la liste
for movie in films_horreur:
    print(f"\nFetching synopsis for: {movie}")
    synopsis = get_movie_synopsis(movie)
    
    # Assurer qu'on a bien reçu la synopse
    if synopsis:
        # Utiliser le titre du film pour créer un nom de fichier valide
        file_name = f"{output_folder}/{movie.replace(' ', '_')}.txt"
        
        # Enregistrer la synopse dans un fichier texte
        with open(file_name, 'w', encoding='utf-8') as f:
            f.write(f"Synopsis: {synopsis}\n")
        
        print(f"Synopsis for {movie} saved in: {file_name}")
    

# Aide de ce site: https://rayobyte.com/community/scraping-project/scraping-wikipedia-with-python-extract-articles-and-metadata/



Fetching synopsis for: The_Strangers_(film,_2016)
Page fetched for The_Strangers_(film,_2016) in 0.12841033935546875 seconds
Synopsis for The_Strangers_(film,_2016) saved in: film_synopses/The_Strangers_(film,_2016).txt

Fetching synopsis for: It_Comes_at_Night
Page fetched for It_Comes_at_Night in 0.14527606964111328 seconds
Synopsis for It_Comes_at_Night saved in: film_synopses/It_Comes_at_Night.txt

Fetching synopsis for: Ça_(film,_2017)
Page fetched for Ça_(film,_2017) in 0.18231868743896484 seconds
Synopsis for Ça_(film,_2017) saved in: film_synopses/Ça_(film,_2017).txt

Fetching synopsis for: The_Witch_(film,_2015)
Page fetched for The_Witch_(film,_2015) in 0.15666961669921875 seconds
Synopsis for The_Witch_(film,_2015) saved in: film_synopses/The_Witch_(film,_2015).txt

Fetching synopsis for: Paranormal_Activity
Page fetched for Paranormal_Activity in 0.1390671730041504 seconds
Synopsis for Paranormal_Activity saved in: film_synopses/Paranormal_Activity.txt

Fetching synopsis f