<a id='librairies'></a>
# Librairies Python
Liste des librairies Python que l'on utilise:
- la librairie [nltk](https://www.nltk.org/) (pour l'implémentation de méthodes NLP basiques)
- la librairie [spaCy](https://pypi.org/project/spacy/) (pour l'implémentation de méthodes NLP avancées, dans 70+ langues et avec des [pipelines](https://spacy.io/models) pre-entrainés)
- la librairie [numpy](https://numpy.org) (pour la manipulation de matrices et tables)
- les fonctions [sent_tokenize](https://www.nltk.org/api/nltk.tokenize.sent_tokenize.html) et [word_tokenize](https://www.nltk.org/api/nltk.tokenize.word_tokenize.html) de nltk (pour la tokenisation d'un texte en phrases et en mots)
- l'ensemble des stopwords français du sous-module français [spacy.lang.fr](https://github.com/explosion/spaCy/tree/master/spacy/lang/fr) de spaCy
- la classe [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) (pour la conversion d'une collection de documents en une matrice de valeurs TF-IDF, avecc "TF-IDF" l'abbréviation pour [Term Frequency Inverse Document Frequency](https://www.geeksforgeeks.org/understanding-tf-idf-term-frequency-inverse-document-frequency))

In [1]:
import nltk
import spacy
import numpy as np
from nltk.tokenize import sent_tokenize, word_tokenize
from spacy.lang.fr.stop_words import STOP_WORDS as fr_stop
from sklearn.feature_extraction.text import TfidfVectorizer

Pour remplacer la commande de download "nltk.download('punkt')" procédant à un téléchargement depuis internet pas permis depuis tous les environnements, on doit installer manuellement le fichier "punkt" dans un répertoire. Dans le cas présent, on l'a fait dans:<br>
<b>C:\Users\User\miniconda3\envs\virtual-environment-name\nltk_data\tokenizers</b>

La procédure générale d'installation de fichiers de la librairie nltk est décrite sur les sites:<br>
https://www.nltk.org/data.html<br>
https://stackoverflow.com/questions/40941761/i-am-having-trouble-downloading-nltks-punkt-tokenizer

In [2]:
# Les répertoires possibles d'installation des fichiers sont énumérés par la commande:

# nltk.data.path

Pour utiliser la librairie de NLP spaCy en français, il faut installer un pipeline pre-entrainé en français. Il y a plusieurs choix possibles, chacun avec une taille et une efficacité distincte, énumérés sur le site:<br>
https://spacy.io/models/fr

Par souci de simplicité en 1ère approche, on installe le pipeline le plus petit de 15 Mo, "fr_core_news_sm". A cause des interdictions de téléchargement depuis internet pas permis depuis certains environnements, il n'est pas toujours possible d'installer de manière automatique le pipeline. Il faut alors downloader le fichier "fr_core_news_sm-3.5.0.tar.gz", le placer dans le répertoire courant, et lancer la commande:<br>
<b>pip install fr_core_news_sm-3.5.0.tar.gz</b>

Les méthodes d'installation manuelle d'un pipeline spaCy sont par exemple décrites ici:<br>
https://subscription.packtpub.com/book/data/9781800563353/2/ch02lvl1sec06/installing-spacy-s-statistical-models

Quand tout cela est fait, on peut charger et donner un nom au pipeline en lançant la commande:<br>
<b>nlp = spacy.load('fr_core_news_sm')</b>

In [3]:
# Chargement du pipeline français "fr_core_news_sm"

nlp = spacy.load('fr_core_news_sm')

<a id='Texte à résumer'></a>
# Texte à résumer

In [4]:
# On utilise comme exemple de texte un article sur la mécanique quantique, disponible sur le site:
# https://www.futura-sciences.com/sciences/definitions/physique-mecanique-quantique-844/

text = open('données/mécanique_quantique.txt','r', encoding='utf-8').read()
print('\x1B[4m' + 'Texte à résumer:' + '\x1B[0m' '\n' + text)

[4mTexte à résumer:[0m
La mécanique quantique est la théorie mathématique et physique décrivant la structure et l'évolution dans le temps et l'espace des phénomènes physiques à l'échelle de l'atome et en dessous. Elle a été découverte lorsque les physiciens ont voulu décrire le comportement des atomes et les échanges d'énergie entre la lumière et la matière à cette échelle et dans tous les détails.

Plusieurs noms lui sont associés, et en tout premier lieu Planck et Einstein, qui furent les premiers à comprendre que les échanges d'énergie lumineuse, puis l'énergie elle-même, ne pouvaient exister que sous forme quantifiée à l'occasion de leurs travaux sur le rayonnement du corps noir et l'effet photoélectrique. Bohr étendit les postulats quantiques de Planck et d'Einstein de la lumière à la matière, en proposant un modèle reproduisant le spectre de l'atome d'hydrogène.

Pas à pas, des règles furent trouvées pour calculer les propriétés des atomes, des molécules et de leurs interaction

<a id='Stopwords français'></a>
# Stopwords français
Dans cette section, on définit l'ensemble des stopwords français que l'on utilise. Dans une langue, les stopwords sont les mots les plus courants, sans grande signification, qu'il est préférable d'omettre lors d'une analyse NLP.

In [5]:
# Liste des symboles de ponctuation que l'on considère

list_punct = ["'", '’', '!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', '\n\n',
              ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '_', '`', '{', '|', '}', '~', '«', '»']

# Création d'une liste (et d'un ensemble) des stopwords constitué des stopwords français de spaCy + les ponctuations
# On applique la lemmatisation de spaCy pour transformer les stopwords retenus dans leur forme "racine"
# https://en.wikipedia.org/wiki/Lemmatisation

string_stopwords = ' '.join(fr_stop)
list_stopwords = [word.lemma_ for word in nlp(string_stopwords)] + list_punct
set_stopwords = set(list_stopwords)

print('\x1B[4m' + 'Ensemble de stopwords français lemmatisés retenus:' + '\x1B[0m' '\n', set_stopwords)

[4mEnsemble de stopwords français lemmatisés retenus:[0m
 {'oust', 'dix-neuf', 'dixième', 'nul', 'deux', 'apre', 'quatrième', 'rendre', 'dont', 'on', 'onze', 'chacun', 'hem', 'antérieur', 'dix', 'quatre-vingt', 'si', 'chaque', 'differente', 'dejer', 'pendant', 'mon', 'nous', 'semblable', 'reste', 'precisement', 'autrui', 'quel', 'chez', 'sien', 'quoiqu', 'sou', 'seize', 'celui', 'ouvert', '\n\n', 'ouvrir', 'ainsi', 'autre', 'ho', 'mais', 'nombreux', 'suivant', 'dit', 'différent', 'etais', 'lorsque', 'dever', 'celle', 'ne', "'", 'etaient', 'cent', 'se', 'jusqu', 'ha', 'moins', 'proceder', 'soi', 'quatorze', 'son', 's', 'hi', '^', 'different', 'hé', 'également', 'suffire', 'pour', 'as', 'envers', '`', 'plutôt', ';', 'ter', 'peu', 'vous', '-là', 'duquel', 'quant-à-soi', 'pre', ':', 'juste', '~', 'toucher', 'six', 'lui', 'celer', 'd', '@', 'na', 'celui-ci', 'devant', 'revoici', '$', 'suit', 'fai', 'environ', 'penser', 'combien', 'quiconqu', 'i', 'quatrièmement', 'lequel', 'c', 'où', 'auq

<a id="Résumé extractif basé sur la matrice TF-IDF"></a>
# Résumé extractif basé sur la matrice TF-IDF

Pour l'approche basée sur la matrice TF-IDF, on s'inspire du code du blog suivant, rédigé en collaboration avec un professeur de computer science de l'université de Jaén:<br>
https://medium.com/saturdays-ai/building-a-text-summarizer-in-python-using-nltk-and-scikit-learn-class-tfidfvectorizer-2207c4235548

Notre ajout principal par rapport au code initial est l'implémentation de la lemmatisation des mots en utilisant un pipeline pre-entrainé en français de spaCy + une amélioration de la vitesse de l'algorithme en utilisant des "list comprehension" plutôt que des boucles multiples.

In [6]:
# La fonction "get_words" détermine l'ensemble des mots du texte input "text" après lemmatisation

def get_words(text):
    return set([word.lemma_ for word in nlp(text)])

# La fonction "get_average" calcule la moyenne des valeurs positives de la liste input "values"

def get_average(values):
    return np.mean([x for x in values if x > 0])

# La fonction "get_threshold" calcule pour chaque phrase la moyenne des valeurs TF-IDF des mots de la phrase
# Puis ensuite la moyenne des valeurs obtenues pour toutes les phrases, ceci en omettant les possibles valeurs vides "NaN"

def get_threshold(tfidf_results):
    l = tfidf_results.shape[0]
    averages = [get_average(tfidf_results[i, :].toarray()[0]) for i in range(l)]
    
    return np.nanmean(averages)

# La fonction "summary_tf_idf" génère le résumé du texte input à partir des phrases, matrice TF-IDF et handicap
# La fonction sélectionne une phrase si la moyenne des valeurs TF-IDF des mots de la phrase est plus grande que la valeur threshold
# La valeur threshold est égale à la valeur "get_threshold(tfidf_results)" multipliée par la valeur handicap
# Plus l'handicap est grand, plus la valeur threshold est grande, et donc la sélection de la phrase moins probable
# En particulier, si handicap=0 alors le résumé est égal à tout le texte input, et si handicap=+∞ alors le résumé est vide

def summary_tf_idf(sentences, tfidf_results, handicap):
    l = tfidf_results.shape[0]
    threshold = get_threshold(tfidf_results) * handicap
    summary_sentences = [sentences[i] for i in range(l) if get_average(tfidf_results[i, :].toarray()[0]) >= threshold]
    
    return ' '.join(summary_sentences)

In [7]:
# Tokenization du texte input en phrases
# Création de la matrice TF-IDF avec le vocabulaire créé par fonction "get_words" et la liste de stopwords "list_stopwords"

sentences = nltk.sent_tokenize(text)
tfidf_results = TfidfVectorizer(tokenizer = get_words, stop_words = list_stopwords).fit_transform(sentences)

# Lancement de la fonction "summary_tf_idf" pour générer un résumé du texte input étant donné ses phrases, matrice TF-IDF et handicap

handicap = 0.9
summary = summary_tf_idf(sentences, tfidf_results, handicap=handicap)

# Print du résumé obtenu

print('\x1B[4m' + "Résumé du texte avec handicap=%.2f basé sur l'approche TF-IDF:" % handicap + '\x1B[0m' '\n' + summary)



[4mRésumé du texte avec handicap=0.90 basé sur l'approche TF-IDF:[0m
Ces deux mécaniques furent unifiées par Schrödinger du point de vue physique, et par von Neumann du point de vue mathématique. Enfin, Dirac formula la synthèse ou plutôt la généralisation complète de ces deux mécaniques, que l'on nomme aujourd'hui la mécanique quantique. De même, les électrons présentent des aspects ondulatoires, comme de Broglie l'avait prédit, et on peut faire des expériences de diffraction et d'interférence avec eux. Elle repose sur les inégalités de Heisenberg. Le cœur de la mécanique quantique repose sur l'utilisation d'amplitudes de probabilité pour caractériser tous les processus physiques possibles en mécanique quantique. Ce sont ces processus qui peuvent se propager sous forme d'onde, mais les grandeurs physiques associées à ces processus sont souvent quantifiées et donc discrètes. C'est le cas de l'énergie des électrons dans un atome. L'équation fondamentale de la mécanique quantique est l