<h1 style = 'text-align: center'> <b>Week 02: Text Preprocessing</b> </h1>

- Name: Võ Nguyễn Hoàng Kim
- Mentee ID: 240103

In [None]:
pip install underthesea

In [3]:
from __future__ import division  # Python 2 users only
import nltk
import re
from nltk.corpus import stopwords
import json
import underthesea
from underthesea import word_tokenize
from underthesea import text_normalize

## 1. Read Data
- Tải dữ liệu (gồm các articles và stop words) từ các file

In [4]:
def loadRawData_JSON(file_path, encoding = 'utf-8'):
    with open(file_path, 'r', encoding = encoding,) as file:
        return json.load(file)
    
def loadStopWords_TXT(file_path, encoding = 'utf-8'):
    with open(file_path, 'r', encoding = encoding) as file:
        return file.read().splitlines()
    

- Dữ liệu (các articles) được đọc từ file JSON, nội dung sẽ bao gồm '**content**' và '**title**' của mỗi bài
- Khi thực hiện lấy nội dung mỗi bài article, đồng thời chuyển tất cả văn bản về các ký tự thường

In [6]:
def getArticleContent(article):
    key_json = ['title', 'content']
    # get content and title of each article
    content = ''
    content = '\n'.join(str(article[key]) for key in key_json)
    # convert text to lowercase
    return content.lower()


## 2. Preprocess Text Functions

In [7]:
# normalize text 
def normalizeText(article):
    return text_normalize(article)

In [None]:
# remove unnecessary punctuation 
def cleanText(article):    
    # remove several punctuation such as ; , ( ) [ ] ... 
    return re.sub(r'[^\w\s/:.-]', '', article)

In [None]:
# remove stop word
def removeStopWords(article):
    # using regex with re.sub to remove stop word (better than using String replace)
    stop_words_pattern = r'\b(?:' + '|'.join(map(re.escape, stop_words)) + r')\b'
    cleaned_text = re.sub(stop_words_pattern, '', article)
    # remove redundant spaces
    cleaned_text = ' '.join(cleaned_text.split())
    return cleaned_text

In [8]:
# tokenize by underthesea
def tokenization(article):
    return word_tokenize(article)

## 3. Preprocess Text Program

- Sử dụng các hàm được xây dựng ở trên để hoàn thành một chương trình Preprocessing Text với tập dữ liệu được cung cấp:
    + Tải dữ liệu từ các file (các bài báo và các stop-words); lấy nội dung cần thiết của mỗi bài báo (Chuyển tất cả về ký tự thường để được sự đồng bộ). 
    + Duyệt qua tất cả bài báo có trong tập dữ liệu
        + Chuẩn hóa văn bản về đúng dạng.
        + Làm sạch dữ liệu (ở đây thực hiện loại bỏ các dấu câu không cần thiết như () ; ! ...
        + Xóa các stop words có trong văn bản.
        + Phân tách văn bản thành các token.
        + Thêm kết quả tokens vừa thực hiện vào một list chung  
    + Sau khi duyệt tất cả bài báo, danh sách các tokens (tương ứng với số bài báo) đang được lưu trong một list có thể lưu lại dưới dạng file JSON, mỗi dòng sẽ là kết quả của tokenize của từng article.
    

In [None]:
if __name__ == "__main__":
    # load raw data and stop words from files
    raw_data = loadRawData_JSON("/kaggle/input/vietnamese-online-news-dataset/news_dataset.json")
    stop_words = loadStopWords_TXT("/kaggle/input/vietnamese-stop-words/vietnamese-stopwords.txt")
    
    # get content from articles
    articles_content = [getArticleContent(article) for article in raw_data]    
    
    processed_articles = []

    # preprocess text
    for article in articles_content:
        # normalize text
        normalized_text = normalizeText(article)
        # clean text
        cleaned_text = cleanText(normalized_text)
        # remove stop words
        removedStopWords_text = removeStopWords(cleaned_text)
        # tokenize text
        tokens = tokenization(removedStopWords_text)
        # add tokens in result list
        processed_articles.append(tokens)
        
    # save tokens in json
    with open('/kaggle/working/tokenized_articles.json', 'w', encoding='utf-8') as f:
        for article in processed_articles:
            # each token result in the list is on a line
            json.dump(article, f, ensure_ascii=False)
            f.write('\n')  

## 4. Result

- Dưới đây trình bày kết quả của việc xử lý văn bản với tập dữ liệu đã cung cấp (lấy kết quả của 3 article đầu để làm minh họa).
- File json lưu trữ kết quả của tokenize một phần của tập dữ liệu (khoảng 80k articles): https://www.kaggle.com/datasets/hoangkim14/tokens-result
- Link notebook chạy trên Kaggle: https://www.kaggle.com/code/hoangkim14/nlp-week02

In [17]:
# the data before preprocessing
for i in range(3):
    print('Raw data', i+1)
    print(articles_content[i])
    
    print('After preprocessing', i+1)
    print(processed_articles[i])
    
    print()

Raw data 1
tên cướp tiệm vàng tại huế là đại uý công an, công tác tại trại giam
chiều 31/7, công an tỉnh thừa thiên - huế đã có thông tin ban đầu về vụ nổ súng,cướp tiệm vàng tại chợ đông ba nằm trên đường trần hưng đạo (tp huế, tỉnh thừa thiên - huế). thông sài gòn giải phóng, khoảng 12h30' ngày 31/7, một đối tượng sử dụng súng ak bất ngờ xông vào tiệm vàng hoàng đức và thái lợi (phía trước chợ đông ba) rồi nổ súng chỉ thiên liên tiếp uy hiếp chủ tiệm để cướp vàng. sau đó, đối tượng mang số vàng vừa cướp được vứt ra vỉa hè rồi đi bộ đến khu vực cầu gia hội, cách khu vực gây án khoảng 300m. giám đốc công an tỉnh thừa thiên – huế lập tức trực tiếp chỉ đạo các lực lượng chức năng gồm công an tỉnh và công an tp huế nhanh chóng có mặt tại hiện trường triển khai đồng bộ các biện pháp nghiệp vụ, khoanh vùng và ngăn không để người dân đi vào hiện trường. hàng trăm tiểu thương trong chợ đông ba và người dân gần cầu gia hội được yêu cầu di chuyển khỏi hiện trường, đóng cửa nhà đề phòng đạn lạc.