In [24]:
import urllib3
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

In [25]:
import requests
from bs4 import BeautifulSoup

class BaseLoader:
    def __init__(self, urls):
        self.urls = urls
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'
        }

    def load(self):
        references = []
        for url in self.urls:
            response = requests.get(url, headers=self.headers, verify=False)
            soup = BeautifulSoup(response.text, 'html.parser')
            # Remove unwanted elements
            unwanted_tags = ['header', 'banner', 'advertisement', 'pop-up', 'footer']
            for tag in unwanted_tags:
                for element in soup.find_all(tag):
                    element.decompose()
            # Remove images
            for element in soup.find_all('img'):
                element.decompose()
            # Remove icons
            for element in soup.find_all(class_='icon'):
                element.decompose()
            # Remove lazy-loaded elements
            for element in soup.find_all(attrs={'loading': 'lazy'}):
                element.decompose()
                
            references.append(soup.get_text())
        
        return references

In [27]:
with open("hypos.txt") as f:
    hypos = [line.strip() for line in f]

with open("refs.txt") as f:
    refs = [line.strip() for line in f]

In [28]:
refs

['https://baoantelecom.com/vi/tin/dien-tu-vien-thong',
 'https://www.hotcourses.vn/study-abroad-info/study-guides/nganh-dien-tu-vien-thong/',
 'https://blog.topcv.vn/co-nen-hoc-nganh-dien-tu-vien-thong/']

In [29]:
loader = BaseLoader(refs)
refs= loader.load()

In [30]:
len(refs)

3

In [31]:
refs

['\n\n\n\n\n\n\n\n\nTìm hiểu kiến thức học và cơ hội việc làm ngành Điện tử viễn thông\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nTin tức\n\n\n\n\n\nTrang chủ\nTìm hiểu kiến thức học và cơ hội việc làm ngành Điện tử viễn thông\n\n\n\n\n\n\nTìm hiểu kiến thức học và cơ hội việc làm ngành Điện tử viễn thông\n\n\nVo Kim Ngan\n11/10/2021\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\nTumblr\n\n\n\n\n\nMỤC LỤC\n1. Ngành điện tử viễn thông là gì? Và ứng dụng trong đời sống\n2. Ngành điện tử viễn thông học những kiến thức gì?\n3. Định hướng công việc ngành Điện tử viễn thông? Cơ hội việc làm có rộng mở?\n4. Cần trang bị gì để học và làm việc tốt ngành điện tử viễn thông\n5. Các trường đào tạo ngành điện tử viễn thông\n\n\n\nNgành điện tử viễn thông là gì? Và ứng dụng trong đời sống\nĐiện tử viễn thông là ngành sử dụng những công nghệ tiên tiến để tạo ra các thiết bị giúp cho việc liên lạc, truy xuất thông tin của cá nhân hoặc tổ chức, điện tử viễn thông được ứng

In [32]:
from unidecode import unidecode
import re

def normalize_text(text):
    """
    Normalize Vietnamese text by converting it to its ASCII representation and removing accents.
    
    Args:
    text (str): Input Vietnamese text to be normalized.
    
    Returns:
    str: Normalized text with accents removed.
    """
    normalized_text = unidecode(text)
    normalized_text = re.sub(r'\s+', ' ', normalized_text).strip()
    return normalized_text


In [33]:
hypos = [' '.join(normalize_text(hypo) for hypo in hypos)]

In [34]:
hypos

['# Co Hoi Nghe Nghiep Cho Sinh Vien Nganh Dien Tu - Vien Thong Cua Dai Hoc Bach Khoa Ha Noi Sau Khi Tot Nghiep  Nganh Dien tu - Vien thong da va dang tro thanh mot trong nhung nganh hoc quan trong va khong the thieu trong boi canh cuoc cach mang cong nghe 4.0 dang dien ra manh me tren toan cau. Doi voi sinh vien Dai hoc Bach khoa Ha Noi, mot trong nhung truong dai hoc hang dau Viet Nam, co hoi nghe nghiep sau khi tot nghiep nganh nay la vo cung rong mo va da dang.  ## Tong Quan ve Nganh Dien tu - Vien Thong  Nganh Dien tu - Vien thong bao gom viec nghien cuu, thiet ke, phat trien va ung dung cac cong nghe lien quan den dien tu va vien thong. Sinh vien nganh nay duoc dao tao de tro thanh nhung ky su co kha nang lam viec trong moi truong cong nghe cao, dap ung nhu cau ngay cang tang ve viec thiet ke va van hanh cac he thong thong tin va truyen thong hien dai (TopCV, n.d.).  ## Co Hoi Nghe Nghiep Sau Khi Tot Nghiep  ### Cac Vi Tri Cong Viec Tiem Nang  Sinh vien tot nghiep nganh Dien tu -

In [35]:
refs = [normalize_text(ref) for ref in refs]

In [36]:
import textwrap

def wraptext(documents, width=120):
    for idx, doc in enumerate(documents, start=1):
        print(f"Document {idx}:")
        wrapped_lines = textwrap.wrap(doc, width=width)
        for line in wrapped_lines:
            print(line)
        print("-" * width)

In [37]:
print(wraptext(refs))

Document 1:
Tim hieu kien thuc hoc va co hoi viec lam nganh Dien tu vien thong Tin tuc Trang chu Tim hieu kien thuc hoc va co hoi
viec lam nganh Dien tu vien thong Tim hieu kien thuc hoc va co hoi viec lam nganh Dien tu vien thong Vo Kim Ngan
11/10/2021 Tumblr MUC LUC 1. Nganh dien tu vien thong la gi? Va ung dung trong doi song 2. Nganh dien tu vien thong hoc
nhung kien thuc gi? 3. Dinh huong cong viec nganh Dien tu vien thong? Co hoi viec lam co rong mo? 4. Can trang bi gi de
hoc va lam viec tot nganh dien tu vien thong 5. Cac truong dao tao nganh dien tu vien thong Nganh dien tu vien thong la
gi? Va ung dung trong doi song Dien tu vien thong la nganh su dung nhung cong nghe tien tien de tao ra cac thiet bi giup
cho viec lien lac, truy xuat thong tin cua ca nhan hoac to chuc, dien tu vien thong duoc ung dung cao o nhieu linh vuc
trong cuoc song. * Linh vuc mang, vien thong: cac thiet bi truyen tin tren toan cau nhu he thong truyen dan: cap quang,
ve tin, he thong truyen tin khong day

In [38]:
len(hypos), len(refs)

(1, 3)

### Using BERTScore for Evaluation

In [39]:
from bert_score import score

In [40]:
# Hide the loading messages
import logging
import transformers
transformers.tokenization_utils.logger.setLevel(logging.ERROR)
transformers.configuration_utils.logger.setLevel(logging.ERROR)
transformers.modeling_utils.logger.setLevel(logging.ERROR)

In [41]:
def bert_score(hypos, refs, lang="vi"):
    bert_scores = []
    for ref in refs:
        scores = score(hypos, [ref], lang=lang, verbose=False)
        bert_scores.append(scores)
    return bert_scores

In [42]:
bert_scores = bert_score(hypos, refs)

In [43]:
import torch

precision = torch.mean(torch.stack([bert_score[0] for bert_score in bert_scores]))
recall = torch.mean(torch.stack([bert_score[1] for bert_score in bert_scores]))
f1 = torch.mean(torch.stack([bert_score[2] for bert_score in bert_scores]))

In [44]:
print("BERT score:")
print(f"P: {precision.item():.2f}, R: {recall.item():.2f}, F1: {f1.item():.2f}")

BERT score:
P: 0.71, R: 0.74, F1: 0.73


### Using ROUGE score for Evaluation

In [45]:
from rouge_score import rouge_scorer

def rouge_score(hypos, refs):
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2'], use_stemmer=True)
    scores = [scorer.score(ref, hypo) for ref, hypo in zip(refs, hypos)]
    return scores

rouge = rouge_score(hypos, refs)

In [46]:
for i, score in enumerate(rouge):
    print("ROUGE scores:")
    print(f"ROUGE-1: P = {score['rouge1'].precision:.2f}, R = {score['rouge1'].recall:.2f}, F1 = {score['rouge1'].fmeasure:.2f}")
    print(f"ROUGE-2: P = {score['rouge2'].precision:.2f}, R = {score['rouge2'].recall:.2f}, F1 = {score['rouge2'].fmeasure:.2f}")
    print()

ROUGE scores:
ROUGE-1: P = 0.82, R = 0.44, F1 = 0.57
ROUGE-2: P = 0.42, R = 0.23, F1 = 0.29



### RESULTS

| METRIC   | Precision | Recall | F1 |
|---------|----------|-------|-------|
| BERTScore| | | |
| ROUGE-1| | | |
| ROUGE-2| | | |

* BERTScore Average: Precision = ?, Recall = ?, F1 = ?
* ROUGE-1 Average: Precision = ?, Recall = ?, F1 = ?
* ROUGE-2 Average: Precision = ?, Recall = ?, F1 = ?

### Review
1. Summarization is a complex task, even advanced models can struggle to accurately capture all the important information from a source text.

2. BERTScore or ROUGE that these metrics focus on things like including keywords from the source text, so that do not perfectly reflect human judgement of a good summary.

3. The response of chatbot from many different sources.


### HUMAN EVALUATION IS THE BEST WAY TO EVALUATE THE QUALITY OF A SUMMARY