In [69]:
from datasets import load_dataset
import spacy # Better than nltk
from spacy.lang.fr.stop_words import STOP_WORDS
from sklearn.feature_extraction.text import TfidfVectorizer
from gensim import corpora
from gensim import models
from gensim.models import LsiModel
from gensim.models.coherencemodel import CoherenceModel
#import matplotlib.pyplot as plt

In [2]:
dataset = load_dataset('mlsum', 'fr')

Reusing dataset mlsum (C:\Users\maxim\.cache\huggingface\datasets\mlsum\fr\1.0.0\77f23eb185781f439927ac2569ab1da1083195d8b2dab2b2f6bbe52feb600688)


  0%|          | 0/3 [00:00<?, ?it/s]

In [102]:
article = dataset['train']['text'][4]
summary = dataset['train']['summary'][4]
print(article, summary, sep='\n')

Cinq personnes sont mortes, et treize autres ont été blessées à Nîmes, dans le Gard, dans un incendie qui s'est déclenché vendredi 1er janvier au petit matin. Le feu, dont on ignore l'origine pour l'instant, a pris au sixième et dernier étage d'un immeuble. "A l'arrivée des pompiers, trois personnes étaient décédées dans un appartement, et deux autres dans un appartement voisin par intoxication", a expliqué, sur i-Télé, le directeur de cabinet du préfet du Gard. On dénombre également "treize blessés, dont trois graves. Une personne dans le coma a été transférée à Marseille", a-t-il ajouté. Les secours ont été prévenus vers 5 heures du matin, mais "l'incendie avait déjà bien démarré", a-t-il expliqué. France Info précise que les victimes sont trois adultes et deux enfants. "L'origine de l'incendie est indéterminée mais a priori accidentelle", a déclaré le procureur adjoint de la République de Nîmes, cité par Europe 1.
Cinq personnes sont mortes, et treize autres ont été blessées à Nîmes

In [103]:
nlp = spacy.load("fr_core_news_sm")
doc = nlp(article)

sentences = []
cur_sentence = []
for sent in doc.sents:
    for token in sent:
        if not token.text.lower() in STOP_WORDS and not token.is_punct:
            # print(token.text, token.lemma_)
            cur_sentence.append(token.lemma_)
    sentences.append(cur_sentence)
    cur_sentence = []

for s in sentences:
    print(s)
    print()

['personne', 'mourir', 'être', 'blesser', 'Nîmes', 'Gard', 'incendie', 'déclencher', 'vendredi', 'premier', 'janvier', 'petit', 'matin']

['feu', 'ignore', 'origine', 'instant', 'prendre', 'dernier', 'étage', 'immeuble']

['arrivée', 'pompier', 'personne', 'décéder', 'appartement', 'appartement', 'voisin', 'intoxication', 'expliquer', 'Télé', 'directeur', 'cabinet', 'préfet', 'Gard']

['dénombre', 'blessé', 'grave']

['coma', 'être', 'transférer', 'Marseille', '-t', 'il', 'ajouté']

['secours', 'être', 'prévenir', '5', 'heure', 'matin', 'incendie', 'bien', 'démarrer', '-t', 'il', 'expliquer']

['France', 'Info', 'précise', 'victime', 'adulte', 'enfant']

['origine', 'incendie', 'indéterminer', 'priori', 'accidentel', 'déclarer', 'procureur', 'adjoint', 'république', 'nîme', 'citer', 'Europe', '1']



In [94]:
dictionary = corpora.Dictionary(sentences)
print(dictionary)
doc_term_matrix = [dictionary.doc2bow(doc) for doc in sentences]
tfidf = models.TfidfModel(doc_term_matrix)
sentences_tfidf = tfidf[doc_term_matrix]
for sent in sentences_tfidf:
    print(sent)

Dictionary(64 unique tokens: ['Gard', 'Nîmes', 'blesser', 'déclencher', 'incendie']...)
[(0, 0.2131950688824599), (1, 0.31979260332368986), (2, 0.31979260332368986), (3, 0.31979260332368986), (4, 0.15083950856500844), (5, 0.31979260332368986), (6, 0.2131950688824599), (7, 0.31979260332368986), (8, 0.2131950688824599), (9, 0.31979260332368986), (10, 0.31979260332368986), (11, 0.31979260332368986), (12, 0.15083950856500844)]
[(13, 0.36650833306891567), (14, 0.36650833306891567), (15, 0.36650833306891567), (16, 0.36650833306891567), (17, 0.36650833306891567), (18, 0.24433888871261045), (19, 0.36650833306891567), (20, 0.36650833306891567)]
[(0, 0.17609018126512477), (8, 0.17609018126512477), (21, 0.26413527189768715), (22, 0.5282705437953743), (23, 0.26413527189768715), (24, 0.26413527189768715), (25, 0.26413527189768715), (26, 0.26413527189768715), (27, 0.17609018126512477), (28, 0.26413527189768715), (29, 0.26413527189768715), (30, 0.26413527189768715), (31, 0.26413527189768715)]
[(32, 0

In [121]:
coherence_values = []
model_list = []
for num_topics in range(2, 10):
    model = LsiModel(sentences_tfidf, num_topics=num_topics, id2word=dictionary)
    model_list.append(model)
    coherencemodel = CoherenceModel(model=model, texts=sentences, dictionary=dictionary)
    coherence_values.append(coherencemodel.get_coherence())

print(coherence_values)
max_coherence = coherence_values.index(max(coherence_values))
num_topics = 2 + max_coherence
model = model_list[max_coherence]
print(num_topics)


[0.3191364025711909, 0.32969486342612486, 0.3577251118510679, 0.30675900745285184, 0.3274685716991899, 0.3347770831900468, 0.3311426885707415, 0.30609653827767835]
4


In [123]:
print(model.print_topics(num_topics=num_topics))
print()
corpus_lsi = model[doc_term_matrix]
for score, text in zip(corpus_lsi, doc.sents):
    print(score)

[(0, '-0.281*"-t" + -0.281*"il" + -0.260*"être" + -0.222*"matin" + -0.217*"ajouté" + -0.217*"transférer" + -0.217*"Marseille" + -0.217*"coma" + -0.205*"prévenir" + -0.205*"secours"'), (1, '-0.281*"origine" + -0.232*"dernier" + -0.232*"instant" + -0.232*"immeuble" + -0.232*"étage" + -0.232*"ignore" + -0.232*"feu" + -0.232*"prendre" + -0.189*"république" + -0.189*"accidentel"'), (2, '0.356*"appartement" + 0.210*"personne" + 0.210*"Gard" + -0.184*"transférer" + -0.184*"coma" + -0.184*"ajouté" + -0.184*"Marseille" + 0.178*"arrivée" + 0.178*"pompier" + 0.178*"préfet"'), (3, '-0.373*"précise" + -0.373*"Info" + -0.373*"adulte" + -0.373*"enfant" + -0.373*"France" + -0.373*"victime" + -0.236*"blessé" + -0.236*"dénombre" + -0.236*"grave" + 0.000*"origine"')]

[(0, -1.9391953183330903), (1, -0.6375553403983308), (2, 1.5240520935268955)]
[(0, -0.07596665115147677), (1, -1.9042651179474364), (2, -0.8223732250212842)]
[(0, -1.2384109509570864), (1, -0.7474116198400329), (2, 2.8104549543671706)]
[(3,