In [5]:
#importation des bibliothéques
import nltk
import spacy
from nltk.tokenize import sent_tokenize, word_tokenize
from collections import Counter
from nltk.corpus import stopwords

#  les ressources nécessaires
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('punkt_tab')

# Load Spacy model
!python -m spacy download fr_core_news_sm
nlp = spacy.load('fr_core_news_sm')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Collecting fr-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.8.0/fr_core_news_sm-3.8.0-py3-none-any.whl (16.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.3/16.3 MB[0m [31m39.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: fr-core-news-sm
Successfully installed fr-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:
#lecture du fichier
with open("TexteATraiter.txt", "r", encoding="utf-8") as f:
    texte = f.read()


In [6]:
#segmentation
phrases = sent_tokenize(texte)
mots = word_tokenize(texte.lower())
#suppresion des stop words
stop_words = set(stopwords.words('french'))
mots_utiles = [mot for mot in mots if mot.isalnum() and mot not in stop_words]
#lemmatisation
doc = nlp(texte.lower())
mots_lemmes = [token.lemma_ for token in doc if token.is_alpha and token.text not in stop_words]



In [7]:
#calcul de fréquence
frequences = Counter(mots_lemmes)
#calcul de frequence de mot dans chaque phrase
# Calcul du score de chaque phrase
scores_phrases = {}
for phrase in phrases:
    doc_phrase = nlp(phrase.lower())
    lemmes_phrase = [token.lemma_ for token in doc_phrase if token.is_alpha]
    score = sum(frequences.get(lemme, 0) for lemme in lemmes_phrase)
    scores_phrases[phrase] = score


In [13]:
print("=== FREQUENCES DE MOTS ===")
print(frequences)

=== FREQUENCES DE MOTS ===
Counter({'internet': 10, 'web': 7, 'réseau': 6, 'information': 5, 'permettre': 3, 'serveur': 3, 'début': 2, 'grand': 2, 'connaître': 2, 'présente': 2, 'définition': 2, 'appeler': 2, 'communiquer': 2, 'entrer': 2, 'règle': 2, 'protocole': 2, 'plusieurs': 2, 'ordinateur': 2, 'donc': 2, 'million': 2, 'utiliser': 2, 'service': 2, 'utilisateur': 2, 'recherche': 2, 'historique': 1, 'paraître': 1, 'nouveauté': 1, 'sortir': 1, 'très': 1, 'récemment': 1, 'néant': 1, 'pourtant': 1, 'principe': 1, 'naître': 1, 'création': 1, 'laboratoire': 1, 'militaire': 1, 'américain': 1, 'accessible': 1, 'université': 1, 'entreprise': 1, 'année': 1, 'aller': 1, 'formidable': 1, 'essor': 1, 'arrivée': 1, 'premier': 1, 'fois': 1, 'interface': 1, 'graphique': 1, 'interactif': 1, 'simple': 1, 'convivial': 1, 'rapide': 1, 'mot': 1, 'venir': 1, 'anglais': 1, 'interconnected': 1, 'network': 1, 'avoir': 1, 'valoir': 1, 'être': 1, 'grâce': 1, 'échange': 1, 'donnée': 1, 'standard': 1, 'sou': 1

In [12]:
# Sélection des 5 phrases les plus importantes
phrases_importantes = sorted(scores_phrases, key=scores_phrases.get, reverse=True)[:5]
print(phrases_importantes)



["C'est au début des années 90 qu'Internet va connaître un formidable essor avec l'arrivée du \nWeb : pour la première fois Internet présente une interface graphique interactive, simple, \nconviviale et rapide… \n2.", 'Définition de l’Internet \nLe mot Internet vient de l’anglais Interconnected Networks, ce qui lui a valu d’être appelé le \n"réseau des réseaux".', 'Définition \nLe Web ou le World Wide Web (d’où l’acronyme WWW) permet de consulter des sites web \nen utilisant le protocole HTTP (HyperText Transfert Protocol).', "Recherche d'informations \nInternet met à la disposition de ses utilisateurs un grand nombre de ressources (informations, \nlogiciels, images, vidéos, etc.", 'La caractéristique principale du service web est qu’un serveur peut à tout moment rediriger \nl’utilisateur vers des informations contenues sur d’autres serveurs.']


In [11]:
# Résumé
resume = " ".join(phrases_importantes)
print("=== RÉSUMÉ AUTOMATIQUE  ===")
print(resume)

=== RÉSUMÉ AUTOMATIQUE  ===
C'est au début des années 90 qu'Internet va connaître un formidable essor avec l'arrivée du 
Web : pour la première fois Internet présente une interface graphique interactive, simple, 
conviviale et rapide… 
2. Définition de l’Internet 
Le mot Internet vient de l’anglais Interconnected Networks, ce qui lui a valu d’être appelé le 
"réseau des réseaux". Définition 
Le Web ou le World Wide Web (d’où l’acronyme WWW) permet de consulter des sites web 
en utilisant le protocole HTTP (HyperText Transfert Protocol). Recherche d'informations 
Internet met à la disposition de ses utilisateurs un grand nombre de ressources (informations, 
logiciels, images, vidéos, etc. La caractéristique principale du service web est qu’un serveur peut à tout moment rediriger 
l’utilisateur vers des informations contenues sur d’autres serveurs.
