In [2]:
import os
import re
from collections import Counter
from nltk import ngrams

#  Dossier contenant les fichiers texte des synopsis
corpus_folder = '../film_synopses'

#  Mots-clés d'horreur à cibler
keywords = set([
    # Thèmes surnaturels
    "esprit", "fantôme", "démon", "possédé", "malédiction", "sorcellerie", "rituel", "exorcisme", "enfer", "pacte", "apocalypse",

    # Violence et gore
    "tueur", "meurtre", "massacre", "sacrifice", "torture", "sang", "cadavre", "hurlement", "agonie", "déchiqueté", "mutilation",

    # Peur, ambiance
    "peur", "terreur", "cauchemar", "angoisse", "panique", "crie", "épouvante", "frisson", "folie", "paranoïa", "hallucination",

    # Lieux et objets
    "maison", "manoir", "hôpital", "asile", "forêt", "cimetière", "grenier", "cave", "miroir", "poupée", "croix", "talisman",

    # Créatures
    "monstre", "zombie", "vampire", "loup-garou", "momie", "clown", "chasseur", "entité", "ombre", "spectre", "revenant",

    # Innocence corrompue
    "enfant", "bébé", "innocent", "orphelin", "famille", "adoption"
])

#  Tous les mots concaténés du corpus
all_tokens = []

for filename in os.listdir(corpus_folder):
    if filename.endswith(".txt"):
        with open(os.path.join(corpus_folder, filename), 'r', encoding='utf-8') as f:
            text = f.read().lower()
            # Nettoyage simple : garder que lettres et espaces
            text = re.sub(r'[^a-zàâçéèêëîïôûùüÿñæœ\s]', '', text)
            tokens = text.split()
            all_tokens.extend(tokens)

#  Génération des bigrammes/trigrammes
bigrams = ngrams(all_tokens, 2)
trigrams = ngrams(all_tokens, 3)

#  Filtrer ceux contenant un mot-clé d’horreur
filtered_bigrams = [" ".join(bg) for bg in bigrams if any(word in keywords for word in bg)]
filtered_trigrams = [" ".join(tg) for tg in trigrams if any(word in keywords for word in tg)]

#  Compter les plus fréquents
bigram_counts = Counter(filtered_bigrams).most_common(20)
trigram_counts = Counter(filtered_trigrams).most_common(20)

# Affichage des résultats
print("\nTop 20 bigrammes avec mots-clés d'horreur :")
for phrase, count in bigram_counts:
    print(f"{phrase} : {count}")

print("\nTop 20 trigrammes avec mots-clés d'horreur :")
for phrase, count in trigram_counts:
    print(f"{phrase} : {count}")



Top 20 bigrammes avec mots-clés d'horreur :
la maison : 125
la famille : 50
le démon : 36
sa famille : 32
le tueur : 27
maison de : 25
de sang : 24
la poupée : 20
la malédiction : 19
le clown : 15
la cave : 15
le sang : 14
sa maison : 13
de famille : 13
du sang : 13
du tueur : 12
la forêt : 11
le miroir : 11
le grenier : 11
le cadavre : 10

Top 20 trigrammes avec mots-clés d'horreur :
de la maison : 38
dans la maison : 24
la maison de : 20
à la maison : 18
de la famille : 13
dans le grenier : 11
dans la forêt : 8
dans la cave : 8
le sang de : 7
la maison et : 7
resident evil apocalypse : 7
tueur au puzzle : 7
de la malédiction : 6
le cadavre de : 6
dans une maison : 6
le tueur au : 6
dans leur maison : 6
la maison à : 6
de sa maison : 6
de la poupée : 5
