<a id='librairies'></a>
# Librairies Python
Liste des librairies Python que l'on utilise:
- la librairie [nltk](https://www.nltk.org/) (pour l'implémentation de méthodes NLP basiques)
- la librairie [spaCy](https://pypi.org/project/spacy/) (pour l'implémentation de méthodes NLP avancées, dans 70+ langues et avec des [pipelines](https://spacy.io/models) pre-entrainés)
- la classe [Counter](https://docs.python.org/3/library/collections.html#collections.Counter) (pour le dénombrement d'objets [hashable](https://realpython.com/lessons/immutable-vs-hashable/))
- les fonctions [sent_tokenize](https://www.nltk.org/api/nltk.tokenize.sent_tokenize.html) et [word_tokenize](https://www.nltk.org/api/nltk.tokenize.word_tokenize.html) de nltk (pour la tokenisation d'un texte en phrases et en mots)
- l'ensemble des stopwords français du sous-module français [spacy.lang.fr](https://github.com/explosion/spaCy/tree/master/spacy/lang/fr) de spaCy

In [1]:
import nltk
import spacy
from collections import Counter
from nltk.tokenize import sent_tokenize, word_tokenize
from spacy.lang.fr.stop_words import STOP_WORDS as fr_stop

Pour remplacer la commande de download "nltk.download('punkt')" procédant à un téléchargement depuis internet pas permis depuis tous les environnements, on doit installer manuellement le fichier "punkt" dans un répertoire. Dans le cas présent, on l'a fait dans:<br>
<b>C:\Users\User\miniconda3\envs\virtual-environment-name\nltk_data\tokenizers</b>

La procédure générale d'installation de fichiers de la librairie nltk est décrite sur les sites:<br>
https://www.nltk.org/data.html<br>
https://stackoverflow.com/questions/40941761/i-am-having-trouble-downloading-nltks-punkt-tokenizer

In [4]:
# Les répertoires possibles d'installation des fichiers sont énumérés par la commande:

nltk.data.path

Pour utiliser la librairie de NLP spaCy en français, il faut installer un pipeline pre-entrainé en français. Il y a plusieurs choix possibles, chacun avec une taille et une efficacité distincte, énumérés sur le site:<br>
https://spacy.io/models/fr

Par souci de simplicité en 1ère approche, on installe le pipeline le plus petit de 15 Mo, "fr_core_news_sm". A cause des interdictions de téléchargement depuis internet pas permis depuis certains environnements, il n'est pas toujours possible d'installer de manière automatique le pipeline. Il faut alors downloader le fichier "fr_core_news_sm-3.5.0.tar.gz", le placer dans le répertoire courant, et lancer la commande:<br>
<b>pip install fr_core_news_sm-3.5.0.tar.gz</b>

Les méthodes d'installation manuelle d'un pipeline spaCy sont par exemple décrites ici:<br>
https://subscription.packtpub.com/book/data/9781800563353/2/ch02lvl1sec06/installing-spacy-s-statistical-models

Quand tout cela est fait, on peut charger et donner un nom au pipeline en lançant la commande:<br>
<b>nlp = spacy.load('fr_core_news_sm')</b>

In [2]:
# Chargement du pipeline français "fr_core_news_sm"

nlp = spacy.load('fr_core_news_sm')

<a id='Texte à résumer'></a>
# Texte à résumer

In [3]:
# On utilise comme exemple de texte un article sur la mécanique quantique, disponible sur le site:
# https://www.futura-sciences.com/sciences/definitions/physique-mecanique-quantique-844/

text = open('données/mécanique_quantique.txt','r', encoding='utf-8').read()
print('\x1B[4m' + 'Texte à résumer:' + '\x1B[0m' '\n' + text)

[4mTexte à résumer:[0m
La mécanique quantique est la théorie mathématique et physique décrivant la structure et l'évolution dans le temps et l'espace des phénomènes physiques à l'échelle de l'atome et en dessous. Elle a été découverte lorsque les physiciens ont voulu décrire le comportement des atomes et les échanges d'énergie entre la lumière et la matière à cette échelle et dans tous les détails.

Plusieurs noms lui sont associés, et en tout premier lieu Planck et Einstein, qui furent les premiers à comprendre que les échanges d'énergie lumineuse, puis l'énergie elle-même, ne pouvaient exister que sous forme quantifiée à l'occasion de leurs travaux sur le rayonnement du corps noir et l'effet photoélectrique. Bohr étendit les postulats quantiques de Planck et d'Einstein de la lumière à la matière, en proposant un modèle reproduisant le spectre de l'atome d'hydrogène.

Pas à pas, des règles furent trouvées pour calculer les propriétés des atomes, des molécules et de leurs interaction

<a id='Stopwords français'></a>
# Stopwords français
Dans cette section, on définit l'ensemble des stopwords français que l'on utilise. Dans une langue, les stopwords sont les mots les plus courants, sans grande signification, qu'il est préférable d'omettre lors d'une analyse NLP.

In [4]:
# Liste des symboles de ponctuation que l'on considère

list_punct = ["'", '’', '!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', '\n\n',
              ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '_', '`', '{', '|', '}', '~', '«', '»']

# Création d'une liste (et d'un ensemble) des stopwords constitué des stopwords français de spaCy + les ponctuations
# On applique la lemmatisation de spaCy pour transformer les stopwords retenus dans leur forme "racine"
# https://en.wikipedia.org/wiki/Lemmatisation

string_stopwords = ' '.join(fr_stop)
list_stopwords = [word.lemma_ for word in nlp(string_stopwords)] + list_punct
set_stopwords = set(list_stopwords)

print('\x1B[4m' + 'Ensemble de stopwords français lemmatisés retenus:' + '\x1B[0m' '\n', set_stopwords)

[4mEnsemble de stopwords français lemmatisés retenus:[0m
 {'certes', 'car', 'nous', 'y', '.', 'abord', 'quel', 'selon', 'seulement', ']', 'ainsi', 'soi', 'relatif', 'fai', 'seul', '/', 'mille', 'il', 'vai', 'avant', 'tien', '\n\n', 'cinquante', '’', 'auxquelles', 'encore', 'hou', 't', 'précisemer', 'ah', 'près', 'na', 'dedans', 's', 'vers', 'quatrièmemer', 'derrière', 'aussi', 'cinquantaine', 'revoici', 'avec', 'personne', '"', 'o', 'voici', 'reste', 'stop', 'plus', 'de', 'pour', 'quelconque', 'ouste', '`', 'dessus', 'gens', 'pas', 'dix-neuf', 'tente', 'dite', 'voir', 'enfin', 'plusieurs', 'dix-sept', 'plutôt', 'nul', 'tu', 'celer', 'eter', 'combien', 'quatre', 'toujours', 'si', '|', 'divers', 'préalable', 'apre', 'directe', 'attendre', 'qu', '?', '(', 'ô', 'faire', 'maintenant', 'dejer', 'suivre', 'ho', 'neuvième', 'douzième', 'jusqu', 'celle', 'vingt', 'tendre', ')', 'prealabl', 'importer', 'tant', 'vous', '!', 'ce', 'quoi', 'desormai', 'depuis', 'parfois', 'pendant', ':', 'parle',

<a id='Résumés extractifs'></a>
# Résumés extractifs

<a id='Résumé extractif basé sur la fréquence des mots'></a>
## Résumé extractif basé sur la fréquence des mots
Pour l'approche extractive basée sur la sur la fréquence des mots dans le texte, on s'inspire du code présenté dans le blog suivant:<br>
https://www.analyticsvidhya.com/blog/2023/03/exploring-the-extractive-method-of-text-summarization/

Notre ajout principal par rapport au code initial est l'implémentation de la lemmatisation des mots en utilisant le pipeline pre-entrainé en français de spaCy.

In [5]:
# Définition de la fonction générant un résumé de "n" phrases d'un texte input "text" à partir de la fréquence des mots

def summary_freq(text, n):
    
    # Tokenization du texte en une liste de mots, après avec lemmatisation et élimination des stopwords
    
    words = [word.lemma_ for word in nlp(text) if word.lemma_ not in set_stopwords]
    
    # Création d'un dictionnaire des fréquence de chaque mot de la liste avec la fonction "Counter"
    
    word_freq = Counter(words)
    
    # Tokenization du texte en une liste de phrases
    # Création d'un dictionnaire "sentence_scores" qui contiendra le score de chaque phrase du texte
    
    sentences = sent_tokenize(text)
    sentence_scores = {}

    for sentence in sentences:
        
        # Tokenization d'une phrase en une liste de mots, après avec lemmatisation et élimination des stopwords
        
        sentence_words = [word.lemma_ for word in nlp(sentence) if word.lemma_ not in set_stopwords]
        
        # Le score d'une phrase n'est retenu que si la phrase a moins de 20 mots (on veut un résumé constitué de phrases courtes)
        # Le score d'une phrase est la somme des fréquences des mots qui la constituent
        
        if len(sentence_words) < 20:
            sentence_scores[sentence] = sum([word_freq[word] for word in sentence_words])
            
    # Sélection des n phrases possédant le score le plus élevé
    # Création du résumé en concaténant les n phrases retenues par score décroissant
            
    summary_sentences = sorted(sentence_scores, key=sentence_scores.get, reverse=True)[:n]

    return ' '.join(summary_sentences)

In [6]:
# Lancement de la fonction "summary_freq" pour générer un résumé de n phrases du texte exemple et print du résultat

n = 5
summary = summary_freq(text, n)

print('\x1B[4m' + 'Résumé du texte en %d phrases basé sur la fréquence des mots:' % n + '\x1B[0m' '\n' + summary)

[4mRésumé du texte en 5 phrases basé sur la fréquence des mots:[0m
La mécanique quantique est la théorie mathématique et physique décrivant la structure et l'évolution dans le temps et l'espace des phénomènes physiques à l'échelle de l'atome et en dessous. Le cœur de la mécanique quantique repose sur l'utilisation d'amplitudes de probabilité pour caractériser tous les processus physiques possibles en mécanique quantique. La mécanique quantique, appliquée à des particules comme l'électron ou au champ électromagnétique à l'origine de la lumière, montre en réalité que ces deux objets ne sont ni vraiment des ondes ni vraiment des particules. Plusieurs noms lui sont associés, et en tout premier lieu Planck et Einstein, qui furent les premiers à comprendre que les échanges d'énergie lumineuse, puis l'énergie elle-même, ne pouvaient exister que sous forme quantifiée à l'occasion de leurs travaux sur le rayonnement du corps noir et l'effet photoélectrique. Enfin, Dirac formula la synthèse ou

<b>¡¡Merci pour la lecture!!</b>