## ONLY if running on Colaboratory, run this cell first (once)

In [None]:
!git clone https://github.com/pie3636/newsjam.git
!mv newsjam/* .

## Install missing modules if needed (only run once)

In [None]:
!python -m pip install -r requirements.txt
!python -m spacy download fr_core_news_sm
# Note: You'll have to restart the kernel/runtime after running this cell

## Imports (only run once)

In [1]:
# MLSUM Corpus & CNN/Daily Mail Corpus
from datasets import load_dataset

# Loading article data
import json

# Our packages
from eval.rouge_l import RougeLEval
from eval.bert_eval import BERT_Eval
from eval.time import TimeEval

from summ.lsa import LSASummarizer
from summ.bert_embed import BertEmbeddingsSummarizer

from tqdm import tqdm

dataset_fr = load_dataset('mlsum', 'fr')
dataset_en = load_dataset('cnn_dailymail', '3.0.0')

rouge_l = RougeLEval()
bert = BERT_Eval()
timer = TimeEval()
lsa_summ = LSASummarizer()
flaubert_summ = BertEmbeddingsSummarizer('flaubert/flaubert_large_cased')
camembert_summ = BertEmbeddingsSummarizer('camembert/camembert-large')

Reusing dataset mlsum (/Users/josephkeenan/.cache/huggingface/datasets/mlsum/fr/1.0.0/77f23eb185781f439927ac2569ab1da1083195d8b2dab2b2f6bbe52feb600688)


HBox(children=(FloatProgress(value=0.0, max=3.0), HTML(value='')))




Reusing dataset cnn_dailymail (/Users/josephkeenan/.cache/huggingface/datasets/cnn_dailymail/3.0.0/3.0.0/3cb851bf7cf5826e45d49db2863f627cba583cbc32342df7349dfe6c38060234)


HBox(children=(FloatProgress(value=0.0, max=3.0), HTML(value='')))




Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias', 'cls.seq_relationship.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at flaubert/flaubert_large_cased were not used when initializing FlaubertModel: ['pred_layer.proj.weight', 

## Summarize a single article

In [3]:
# Pick an article and its reference summary
article_fr = dataset_fr['test']['text'][54]
ref_summ_fr = dataset_fr['test']['summary'][54]

article_en = dataset_en['test']['article'][43]
ref_summ_en = dataset_en['test']['highlights'][43]

# Computes the summary and evaluation
# timer.evaluate_one(article, BertEmbeddingsSummarizer, 'camembert/camembert-large')

## Summarize a series of articles

In [4]:
texts = dataset_fr['test']['text'][:50]
ref_summs = dataset_fr['test']['summary'][:50]

# Here we pick 5 articles
# gen_summs = []
# for text in tqdm(texts[:5]):
#     gen_summs.append(flaubert_summ.get_summary(text))

# scores1, scores2 = rouge_l.evaluate_many(ref_summs, gen_summs, 5)
# results = rouge_l.get_results(scores1, scores2)

# for k, v in results.items():
#     print(k.ljust(25), round(v*100, 3), '%')

timer.evaluate_many(texts, LSASummarizer)

100%|███████████████████████████████████████████| 50/50 [01:28<00:00,  1.76s/it]


1.7803929775000007

#### Optional: Save generated summaries to file

In [None]:
with open('generated.txt', 'w') as f:
    for summ1, summ2 in tqdm(gen_summs):
        f.write(summ1)
        f.write('\n\n')
        f.write(summ2)
        f.write('\n\n')

## Summarize a series of scraped articles

In [5]:
with open('data/actu_preliminary.json', 'r', encoding='utf-8') as jsonfile:
    data = json.load(jsonfile)

texts = [article['text'] for article in data]
ref_summs = [article['summary'] for article in data]

gen_summs = []
for text in tqdm(texts):
    gen_summs.append(lsa_summ.get_summary(text))

scores1, scores2 = rouge_l.evaluate_many(ref_summs, gen_summs)
results = rouge_l.get_results(scores1, scores2)

for k, v in results.items():
    print(k.ljust(25), round(v*100, 3), '%')

100%|███████████████████████████████████████████| 47/47 [01:21<00:00,  1.73s/it]
100%|███████████████████████████████████████████| 47/47 [00:00<00:00, 95.80it/s]

Long precision avg        49.358 %
Long recall avg           61.974 %
Long F1-score avg         54.291 %
Keyword precision avg     48.302 %
Keyword recall avg        61.659 %
Keyword F1-score avg      53.503 %





In [6]:
for x in gen_summs:
    print(x)

(' 50 classes fermées dans toute l’académie Selon les données arrêtées au jeudi 14 octobre à 13 heures, deux établissements scolaires ont été fermés en Occitanie cette semaine et 50 classes fermées, soit 0,15% des classes de l’académie.', '  50 classe fermer académie donnée arrêter jeudi 14 octobre 13 heure établissement scolaire être fermer Occitanie semaine 50 classe fermer 0,15 classe académie')
("Le masque ne sera plus obligatoire à compter du 18 octobre 2021 dans les stades, les marchés et brocantes de la Loire du moment qu'ils sont en extérieur dans la Loire.", 'masque obligatoire compter 18 octobre 2021 stade marché brocante Loire moment extérieur Loire')
('de la Loire Covid-19 : 14 clusters actifs en Pays de la Loire\n Fin de la gratuité systématique des tests\n 14 clusters en Pays de la Loire\n L’', 'Loire covid-19 14 cluster actif Pays Loire\n  fin gratuité systématique test\n  14 cluster pays Loire\n ')
('"Injustifié", "clivage irréparable" : le pass sanitaire étendu ne pass

## Implementation of BERTScore

Splitting summaries

In [11]:
long_summs, short_summs, ref_summs, key_ref_summs =  bert.split_summs(gen_summs, ref_summs, gen_keys=True)

Computation of BERTScore

In [12]:
bert.bert_score(long_summs, short_summs, ref_summs, key_ref_summs)

calculating scores...
computing bert embedding.


HBox(children=(FloatProgress(value=0.0, max=2.0), HTML(value='')))


computing greedy matching.


HBox(children=(FloatProgress(value=0.0, max=1.0), HTML(value='')))


done in 18.72 seconds, 2.51 sentences/sec
calculating scores...
computing bert embedding.


HBox(children=(FloatProgress(value=0.0, max=2.0), HTML(value='')))


computing greedy matching.


HBox(children=(FloatProgress(value=0.0, max=1.0), HTML(value='')))


done in 12.90 seconds, 3.64 sentences/sec


{'Long precision avg': '0.2326',
 'Long recall avg': '0.3982',
 'Long F1-score avg': '0.3125',
 'Keyword precision avg': '0.2440',
 'Keyword recall avg': '0.3905',
 'Keyword F1-score avg': '0.3151'}

Optional matrix of a score

In [None]:
bert.get_matrix(long_summs, ref_summs, 4)

Experimentation w/ BERTScore

In [31]:
for x in range(len(long_summs)):
    print(x, long_summs[x])
    print('\n')

0  50 classes fermées dans toute l’académie Selon les données arrêtées au jeudi 14 octobre à 13 heures, deux établissements scolaires ont été fermés en Occitanie cette semaine et 50 classes fermées, soit 0,15% des classes de l’académie.


1 Le masque ne sera plus obligatoire à compter du 18 octobre 2021 dans les stades, les marchés et brocantes de la Loire du moment qu'ils sont en extérieur dans la Loire.


2 de la Loire Covid-19 : 14 clusters actifs en Pays de la Loire
 Fin de la gratuité systématique des tests
 14 clusters en Pays de la Loire
 L’


3 "Injustifié", "clivage irréparable" : le pass sanitaire étendu ne passe pas L'élargissement du pass sanitaire dans tous les sites de loisirs du Luxembourg et de façon facultative en entreprise ne passe pas auprès des syndicats et des Droits de l'Homme.


4 Dès le lundi 18 octobre 2021, les enfants des écoles primaires du Gard vont pouvoir enlever le masque.
   Actu Occitanie
À lire aussi Covid-19.


5    Actu Occitanie
C'est officiel, le

In [32]:
x = 10
test_gen_summ = []
test_gen_summ.append('B')
print(len(test_gen_summ[0]))

print()

test_ref_summ = []
test_ref_summ.append('汉字')
print(len(test_ref_summ[0]))

1

2


In [33]:
bert.bert_score(test_gen_summ, test_ref_summ)

calculating scores...
computing bert embedding.


HBox(children=(FloatProgress(value=0.0, max=1.0), HTML(value='')))


computing greedy matching.


HBox(children=(FloatProgress(value=0.0, max=1.0), HTML(value='')))


done in 0.13 seconds, 7.84 sentences/sec


{'Long precision avg': '0.3093',
 'Long recall avg': '0.2388',
 'Long F1-score avg': '0.2743'}