<a href="https://colab.research.google.com/github/CarlOsito16/Hexamind/blob/main/Summarization/Hexamind_resume.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip uninstall transformers

[0mFound existing installation: transformers 4.26.0
Uninstalling transformers-4.26.0:
  Would remove:
    /usr/local/bin/transformers-cli
    /usr/local/lib/python3.8/dist-packages/transformers-4.26.0.dist-info/*
    /usr/local/lib/python3.8/dist-packages/transformers/*
Proceed (Y/n)? Y
  Successfully uninstalled transformers-4.26.0


# Install the dependent packages

In [27]:
!pip install transformers[sentencepiece]
!pip install gradio
!pip install sentence_transformers
!python -m spacy download fr_core_news_md

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting fr-core-news-md==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_md-3.4.0/fr_core_news_md-3.4.0-py3-none-any.whl (45.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.8/45.8 MB[0m [31m24.4 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_md')


# Text Summarization

## Declare model tokenizers: `camembert` and `T5`

In [28]:
import torch
from transformers import RobertaTokenizerFast, EncoderDecoderModel, AutoTokenizer, AutoModelForSeq2SeqLM
import re
import gradio as gr

#set the device agnostics code
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# whitespace handler to be used in `t5 model`
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

article_text = """\"Un nuage de fumée juste après l’explosion, le 1er juin 2019. Une déflagration dans une importante usine d’explosifs du centre de la Russie a fait au moins 79 blessés samedi 1er juin. L’explosion a eu lieu dans l’usine Kristall à Dzerzhinsk, une ville située à environ 400 kilomètres à l’est de Moscou, dans la région de Nijni-Novgorod. « Il y a eu une explosion technique dans l’un des ateliers, suivie d’un incendie qui s’est propagé sur une centaine de mètres carrés », a expliqué un porte-parole des services d’urgence. Des images circulant sur les réseaux sociaux montraient un énorme nuage de fumée après l’explosion. Cinq bâtiments de l’usine et près de 180 bâtiments résidentiels ont été endommagés par l’explosion, selon les autorités municipales. Une enquête pour de potentielles violations des normes de sécurité a été ouverte. Fragments de shrapnel Les blessés ont été soignés après avoir été atteints par des fragments issus de l’explosion, a précisé une porte-parole des autorités sanitaires citée par Interfax. « Nous parlons de blessures par shrapnel d’une gravité moyenne et modérée », a-t-elle précisé. Selon des représentants de Kristall, cinq personnes travaillaient dans la zone où s’est produite l’explosion. Elles ont pu être évacuées en sécurité. Les pompiers locaux ont rapporté n’avoir aucune information sur des personnes qui se trouveraient encore dans l’usine."""


cmb_ckpt = 'mrm8488/camembert2camembert_shared-finetuned-french-summarization'
cmb_tokenizer = RobertaTokenizerFast.from_pretrained(cmb_ckpt)
cmb_model = EncoderDecoderModel.from_pretrained(cmb_ckpt).to(device)


t5_model_name = "csebuetnlp/mT5_multilingual_XLSum"
t5_tokenizer = AutoTokenizer.from_pretrained(t5_model_name)
t5_model = AutoModelForSeq2SeqLM.from_pretrained(t5_model_name)




def clear_input():
    return ("", "")

    
def camembert_generate_summary(article_text):
   inputs = cmb_tokenizer([article_text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
   input_ids = inputs.input_ids.to(device)
   attention_mask = inputs.attention_mask.to(device)
   output = cmb_model.generate(input_ids, attention_mask=attention_mask)
   return cmb_tokenizer.decode(output[0], skip_special_tokens=True)


def t5_generate_summary(article_text):
    input_ids = t5_tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512)["input_ids"]
    
    output_ids = t5_model.generate(
        input_ids=input_ids,
        max_length=84,
        no_repeat_ngram_size=2,
        num_beams=4
    )[0]
    
    output = t5_tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
    )

    return output

def summarizer(dropdown_model, article_text):
    """
    Ruturs a summarized version from the full article based on the selected pretrained-model
    """

    if dropdown_model == 'camembert':
        summary = camembert_generate_summary(article_text)

    elif dropdown_model == 'T5':
        summary = t5_generate_summary(article_text)

    return summary



The following encoder weights were not tied to the decoder ['roberta/pooler']
The following encoder weights were not tied to the decoder ['roberta/pooler']


In [None]:
t5_generate_summary(article_text)

'Une déflagration dans une importante usine d’explosifs du centre de la Russie a fait au moins 79 blessés samedi 1er juin.'

In [None]:
summarizer('T5', article_text)

'Une déflagration dans une importante usine d’explosifs du centre de la Russie a fait au moins 79 blessés samedi 1er juin.'

## Demo: on text summarization

In [29]:
import gradio as gr

In [30]:
with gr.Blocks() as demo:
    gr.Markdown("Summarize the article text.")
    with gr.Tab("Each model"):
        with gr.Row():
            with gr.Column():
                input_models = gr.Dropdown(['camembert', 'T5'])
                input_article = gr.TextArea(label = 'Article to be summarized')
            with gr.Column():
                summarized_output = gr.TextArea(label= 'Generated summa')
        with gr.Row():

            clear_button = gr.Button("Clear")
            summarize_button = gr.Button("Summarize!")
            
    summarize_button.click(summarizer,
                           inputs = [input_models, input_article] ,
                           outputs = summarized_output)
    
    clear_button.click(clear_input,
                       outputs = [input_models, input_article])
    
    example = "Un nuage de fumée juste après l’explosion, le 1er juin 2019. Une déflagration dans une importante usine d’explosifs du centre de la Russie a fait au moins 79 blessés samedi 1er juin. L’explosion a eu lieu dans l’usine Kristall à Dzerzhinsk, une ville située à environ 400 kilomètres à l’est de Moscou, dans la région de Nijni-Novgorod. « Il y a eu une explosion technique dans l’un des ateliers, suivie d’un incendie qui s’est propagé sur une centaine de mètres carrés », a expliqué un porte-parole des services d’urgence. Des images circulant sur les réseaux sociaux montraient un énorme nuage de fumée après l’explosion. Cinq bâtiments de l’usine et près de 180 bâtiments résidentiels ont été endommagés par l’explosion, selon les autorités municipales. Une enquête pour de potentielles violations des normes de sécurité a été ouverte. Fragments de shrapnel Les blessés ont été soignés après avoir été atteints par des fragments issus de l’explosion, a précisé une porte-parole des autorités sanitaires citée par Interfax. « Nous parlons de blessures par shrapnel d’une gravité moyenne et modérée », a-t-elle précisé. Selon des représentants de Kristall, cinq personnes travaillaient dans la zone où s’est produite l’explosion. Elles ont pu être évacuées en sécurité. Les pompiers locaux ont rapporté n’avoir aucune information sur des personnes qui se trouveraient encore dans l’usine."
    examples = gr.Examples(examples=[ ["camembert",example],
                                     ["T5",example]],
                                     inputs=[input_models, input_article])

demo.launch(debug=True, share=True)

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
Running on public URL: https://d65835c1-fedf-4e7a.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades (NEW!), check out Spaces: https://huggingface.co/spaces


Traceback (most recent call last):
  File "/usr/local/lib/python3.8/dist-packages/gradio/routes.py", line 344, in run_predict
    output = await app.get_blocks().process_api(
  File "/usr/local/lib/python3.8/dist-packages/gradio/blocks.py", line 1012, in process_api
    result = await self.call_function(
  File "/usr/local/lib/python3.8/dist-packages/gradio/blocks.py", line 830, in call_function
    prediction = await anyio.to_thread.run_sync(
  File "/usr/local/lib/python3.8/dist-packages/anyio/to_thread.py", line 31, in run_sync
    return await get_asynclib().run_sync_in_worker_thread(
  File "/usr/local/lib/python3.8/dist-packages/anyio/_backends/_asyncio.py", line 937, in run_sync_in_worker_thread
    return await future
  File "/usr/local/lib/python3.8/dist-packages/anyio/_backends/_asyncio.py", line 867, in run
    result = context.run(func, *args)
  File "<ipython-input-28-d2bbee1cb7b4>", line 73, in summarizer
    return summary
UnboundLocalError: local variable 'summary' refe

Keyboard interruption in main thread... closing server.
Killing tunnel 127.0.0.1:7860 <> https://d65835c1-fedf-4e7a.gradio.live




# Keyword Extraction

## Call the CountVectorizer

In [34]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

In [35]:
article_text = "Je peux pas mettre zéro mais sinon j'aurai mis cette note. Depuis décembre j'attends le remboursement d'un ordinateur portable qui n'a jamais été livré. A la place une cafetière. Une semaine pour avoir un bon de retour. Le colis a bien été remis à l'entrepôt et après 10 appels des échanges de mail aujourd'hui on vient de me dire que je ne serai pas remboursée. Je comprends pas la blague. On ne me rembourse pas pour des erreurs d'argent de chez Carrefour. Je ne peux pas travailler de la maison car je n'ai pas d'ordinateur et je peux pas en racheter un car j'ai pas l'argent enfin di il est sur les comptes de carrefour. Je peux porter plainte? Numero de commande 607275144"
n_gram_range = (1, 1)

# Extract candidate words/phrases
count = CountVectorizer(ngram_range=n_gram_range).fit([article_text])
candidates = count.get_feature_names_out()

In [36]:
print(candidates)
print(len(candidates))


['10' '607275144' 'ai' 'appels' 'après' 'argent' 'attends' 'aujourd'
 'aurai' 'avoir' 'bien' 'blague' 'bon' 'cafetière' 'car' 'carrefour'
 'cette' 'chez' 'colis' 'commande' 'comprends' 'comptes' 'de' 'depuis'
 'des' 'di' 'dire' 'décembre' 'en' 'enfin' 'entrepôt' 'erreurs' 'est' 'et'
 'hui' 'il' 'jamais' 'je' 'la' 'le' 'les' 'livré' 'mail' 'mais' 'maison'
 'me' 'mettre' 'mis' 'ne' 'note' 'numero' 'on' 'ordinateur' 'pas' 'peux'
 'place' 'plainte' 'portable' 'porter' 'pour' 'que' 'qui' 'racheter'
 'rembourse' 'remboursement' 'remboursée' 'remis' 'retour' 'semaine'
 'serai' 'sinon' 'sur' 'travailler' 'un' 'une' 'vient' 'zéro' 'échanges'
 'été']
79


## Request to Github to download `french_stopwords.txt`

In [37]:
import requests
from pathlib import Path

if Path('french_stopword.txt').is_file():
    print('already exists')
else:
    print('not existed yet')
    request = requests.get("https://raw.githubusercontent.com/stopwords-iso/stopwords-fr/master/stopwords-fr.txt")
    with open('french_stopword.txt', "wb") as f:
        f.write(request.content)

already exists


In [38]:
# opening the file in read mode
my_file = open("french_stopword.txt", "r")
  
# reading the file
data = my_file.read()
  
# replacing end of line('/n') with ' ' and
# splitting the text it further when '.' is seen.
french_stopwords_list = data.replace('\n', ' ').split(" ")
  
# # printing the data
print(french_stopwords_list)
my_file.close()

['a', 'abord', 'absolument', 'afin', 'ah', 'ai', 'aie', 'aient', 'aies', 'ailleurs', 'ainsi', 'ait', 'allaient', 'allo', 'allons', 'allô', 'alors', 'anterieur', 'anterieure', 'anterieures', 'apres', 'après', 'as', 'assez', 'attendu', 'au', 'aucun', 'aucune', 'aucuns', 'aujourd', "aujourd'hui", 'aupres', 'auquel', 'aura', 'aurai', 'auraient', 'aurais', 'aurait', 'auras', 'aurez', 'auriez', 'aurions', 'aurons', 'auront', 'aussi', 'autant', 'autre', 'autrefois', 'autrement', 'autres', 'autrui', 'aux', 'auxquelles', 'auxquels', 'avaient', 'avais', 'avait', 'avant', 'avec', 'avez', 'aviez', 'avions', 'avoir', 'avons', 'ayant', 'ayez', 'ayons', 'b', 'bah', 'bas', 'basee', 'bat', 'beau', 'beaucoup', 'bien', 'bigre', 'bon', 'boum', 'bravo', 'brrr', 'c', 'car', 'ce', 'ceci', 'cela', 'celle', 'celle-ci', 'celle-là', 'celles', 'celles-ci', 'celles-là', 'celui', 'celui-ci', 'celui-là', 'celà', 'cent', 'cependant', 'certain', 'certaine', 'certaines', 'certains', 'certes', 'ces', 'cet', 'cette', 'ce

In [None]:
article_text = "Je peux pas mettre zéro mais sinon j'aurai mis cette note. Depuis décembre j'attends le remboursement d'un ordinateur portable qui n'a jamais été livré. A la place une cafetière. Une semaine pour avoir un bon de retour. Le colis a bien été remis à l'entrepôt et après 10 appels des échanges de mail aujourd'hui on vient de me dire que je ne serai pas remboursée. Je comprends pas la blague. On ne me rembourse pas pour des erreurs d'argent de chez Carrefour. Je ne peux pas travailler de la maison car je n'ai pas d'ordinateur et je peux pas en racheter un car j'ai pas l'argent enfin di il est sur les comptes de carrefour. Je peux porter plainte? Numero de commande 607275144"
n_gram_range = (1, 1)

# Extract candidate words/phrases
count = CountVectorizer(ngram_range=n_gram_range,
                        stop_words = french_stopwords_list).fit([article_text])
candidates_without_stopwords = count.get_feature_names_out()



In [39]:
len(candidates_without_stopwords)

39

## prin the the `candidates_without_stopwords`

In [40]:
candidates_without_stopwords

array(['10', '607275144', 'appels', 'argent', 'attends', 'blague',
       'cafetière', 'carrefour', 'colis', 'commande', 'comprends',
       'comptes', 'di', 'décembre', 'entrepôt', 'erreurs', 'jamais',
       'livré', 'mail', 'maison', 'mettre', 'mis', 'note', 'numero',
       'ordinateur', 'place', 'plainte', 'portable', 'porter', 'racheter',
       'rembourse', 'remboursement', 'remboursée', 'remis', 'semaine',
       'travailler', 'vient', 'zéro', 'échanges'], dtype=object)

# `SpaCy` for name entity recognition

In [41]:
import spacy

In [42]:
nlp = spacy.load("fr_core_news_md")

In [43]:
for word_idx in range(10, 15):
    doc = nlp(candidates_without_stopwords[word_idx])
    print(doc.text)
    for token in doc:
        print(token.text, token.pos_, token.dep_)

comprends
comprends NOUN ROOT
comptes
comptes NOUN ROOT
di
di PROPN ROOT
décembre
décembre NOUN ROOT
entrepôt
entrepôt NOUN ROOT


## Functionalize the Noun only

In [44]:
def slice_only_noun_token(ner, token_list):
    slice_list = []
    for word_idx in range(len(token_list)):
         doc = nlp(candidates_without_stopwords[word_idx])

         for token in doc:
             if token.pos_ == 'NOUN':
                 slice_list.append(token.text)

    return slice_list


In [45]:
sliced_candidates_without_stopwords = slice_only_noun_token(nlp, candidates_without_stopwords)
sliced_candidates_without_stopwords

['appels',
 'argent',
 'blague',
 'cafetière',
 'carrefour',
 'colis',
 'commande',
 'comprends',
 'comptes',
 'décembre',
 'entrepôt',
 'erreurs',
 'mail',
 'maison',
 'note',
 'numero',
 'ordinateur',
 'place',
 'plainte',
 'portable',
 'remboursement',
 'semaine',
 'échanges']

# Top 3 Keyword

In [46]:
from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("dangvantuan/sentence-camembert-large")



In [47]:
from sklearn.metrics.pairwise import cosine_similarity


doc_embedding = model.encode([article_text])
candidate_embeddings = model.encode(sliced_candidates_without_stopwords)

top_n = 3
distances = cosine_similarity(doc_embedding, candidate_embeddings)
keywords = [sliced_candidates_without_stopwords[index] for index in distances.argsort()[0][-top_n:]]


In [48]:
keywords

['ordinateur', 'colis', 'remboursement']

In [49]:
doc_embedding = model.encode([article_text])
candidate_embeddings = model.encode(candidates_without_stopwords)

top_n = 10
distances = cosine_similarity(doc_embedding, candidate_embeddings)
keywords = [candidates_without_stopwords[index] for index in distances.argsort()[0][-top_n:]]
keywords

['plainte',
 'jamais',
 'cafetière',
 'ordinateur',
 'colis',
 'livré',
 'attends',
 'remboursée',
 'remboursement',
 'rembourse']

In [50]:
doc_embedding = model.encode([article_text])
candidate_embeddings = model.encode(candidates_without_stopwords)

# Functionalize the `key work extraction`

In [70]:
def key_word_extractor(article_text, 
                       ner,
                       french_stopwords=None):
    """
    Extract only the most re
        Args:
            ner (spacy): The NER class to detect the `token.pos_`
            token_list (list): List of token from the full article

        Returns:
            slice_list (list): List of token containing only "NOUN" part of speech
    """



    n_gram_range = (1, 1) #specify the key word length
    count = CountVectorizer(ngram_range=n_gram_range,
                        stop_words = french_stopwords).fit([article_text])  #call the `CountVectorizer`
    candidates_without_stopwords = count.get_feature_names_out()
    sliced_candidates_without_stopwords = slice_only_noun_token(ner, candidates_without_stopwords )

    return sliced_candidates_without_stopwords


def slice_only_noun_token(ner, token_list):
    """
    Given the tokenized list, this function returns only the "NOUN" token
        Args:
            ner (spacy): The NER class to detect the `token.pos_`
            token_list (list): List of token from the full article

        Returns:
            slice_list (list): List of token containing only "NOUN" part of speech
    """

    slice_list = []
    for word_idx in range(len(token_list)):
         doc = ner(candidates_without_stopwords[word_idx])

         for token in doc:
             if token.pos_ == 'NOUN':
                 slice_list.append(token.text)

    return slice_list

In [149]:
class keyWordExtractor():
    
    def __init__(self, 
                 article_text,
                 similarity_model,
                 n_gram = 1,
                 top_n = 3,
                 french_stopwords = None,
                 ner= None,
                 ):
        self.article_text = article_text
        self.french_stopwords = french_stopwords
        self.ner = ner
        self.candidates = self.count_vectorizer(n_gram)
        self.noun_candidates = self.slice_only_noun_token(ner, self.candidates)
        self.top_n_keywords = self.top_n_extractor(similarity_model, top_n)
    
    def count_vectorizer(self, n_gram):
        n_gram_range = (n_gram, n_gram)
        # Extract candidate words/phrases
        count = CountVectorizer(ngram_range=n_gram_range,
                        stop_words = self.french_stopwords).fit([article_text])
        candidates = count.get_feature_names_out()

        return candidates

    def slice_only_noun_token(self, ner, token_list):
        """
        Given the tokenized list, this function returns only the "NOUN" token
            Args:
                ner (spacy): The NER class to detect the `token.pos_`
                token_list (list): List of token from the full article

            Returns:
                slice_list (list): List of token containing only "NOUN" part of speech
        """

        slice_list = []
        for word_idx in range(len(token_list)):
            doc = ner(token_list[word_idx])

            for token in doc:
                if token.pos_ == 'NOUN':
                    slice_list.append(token.text)

        return slice_list

    def top_n_extractor(self, model, top_n):
        doc_embedding = model.encode([self.article_text])
        candidate_embeddings = model.encode(self.noun_candidates)
        distances = cosine_similarity(doc_embedding, candidate_embeddings)
        keywords = [self.noun_candidates[index] for index in distances.argsort()[0][-top_n:]]

        return keywords





In [152]:
a = keyWordExtractor(article_text,
                     n_gram = 1, 
                     ner = nlp, 
                     similarity_model = model)
a.top_n_keywords

['ordinateur', 'colis', 'remboursement']

In [136]:

slice_list = []
for word_idx in range(len(a.candidates)):
    doc = nlp(candidates_without_stopwords[word_idx])

    for token in doc:
        if token.pos_ == 'NOUN':
            slice_list.append(token.text)

IndexError: ignored

In [140]:
a.candidates[0]

'10'