# Homework Lab 2: Text Preprocessing with Vietnamese
**Overview:** In this exercise, we will build a text preprocessing program for Vietnamese.

Import the necessary libraries. Note that we are using the underthesea library for Vietnamese tokenization. To install it, follow the instructions below. ([link](https://github.com/undertheseanlp/underthesea))

In [2]:
import os,glob
import codecs
import sys
import re
from underthesea import word_tokenize

## Question 1: Create a Corpus and Survey the Data

The data in this section is partially extracted from the [VNTC](https://github.com/duyvuleo/VNTC) dataset. VNTC is a Vietnamese news dataset covering various topics. In this section, we will only process the science topic from VNTC. We will create a corpus from both the train and test directories. Complete the following program:

- Write `sentences_list` to a file named `dataset_name.txt`, with each element as a document on a separate line.
- Check how many documents are in the corpus.


In [3]:
dataset_name = "VNTC_khoahoc"
path = ['./data/VNTC_khoahoc/Train_Full/', './data/VNTC_khoahoc/Test_Full/']

if os.listdir(path[0]) == os.listdir(path[1]):
    folder_list = [os.listdir(path[0]), os.listdir(path[1])]
    print("train labels = test labels")
else:
    print("train labels differ from test labels")

doc_num = 0
sentences_list = []
meta_data_list = []
for i in range(2):
    for folder_name in folder_list[i]:
        folder_path = path[i] + folder_name
        if folder_name[0] != ".":
            for file_name in glob.glob(os.path.join(folder_path, '*.txt')):
                # Read the file content into f
                f = codecs.open(file_name, 'br')
                # Convert the data to UTF-16 format for Vietnamese text
                file_content = (f.read().decode("utf-16")).replace("\r\n", " ")
                sentences_list.append(file_content.strip())
                f.close
                # Count the number of documents
                doc_num += 1

#### YOUR CODE HERE ####
output_file = f"{dataset_name}.txt"
with open(output_file, "w", encoding="utf-8") as f:
    for document in sentences_list:
        f.write(document + "\n")

print(f"Number of documents in corpus ({dataset_name}): {doc_num}")
print(f"Corpus saved to {output_file}")

print("\nSample documents:")
for i, doc in enumerate(sentences_list[:10], 1):
    print(f"Document {i}: {doc[:200]}...\n")
#### END YOUR CODE #####

train labels = test labels
Number of documents in corpus (VNTC_khoahoc): 3916
Corpus saved to VNTC_khoahoc.txt

Sample documents:
Document 1: Ninh Thuận: Địa điểm ưu tiên đặt nhà máy điện hạt nhân Một góc Ninh Thuận, địa điểm ưu tiên lựa chọn đặt nhà máy điện hạt nhân Ông Vương Hữu Tấn, Viện trưởng Viện Năng Lượng Nguyên tử Việt Nam cho biế...

Document 2: Công nghệ nuôi tạo ngọc trai đen Viên ngọc trai đen to bằng hạt nhãn, có kích thước 15mm do ông Thiện nuôi cấy thường có giá từ 2.000 USD trở lên Trên thị trường những năm gần đây, những viên ngọc tra...

Document 3: Hơn 16.000 loài có nguy cơ tuyệt chủng Loài vật đẹp đẽ này có thể biến mất hoàn toàn khỏi địa cầu trong tương lai Hiệp hội Bảo tồn thế giới (IUCN) vừa đưa ra Danh sách đỏ năm 2006, trong đó gấu Bắc cự...

Document 4: Nghiên cứu thành công thiết bị đun nước bằng năng lượng mặt trời Thiết bị đun nước bằng năng lượng mặt trời. Sau gần 1 năm thực hiện, đề tài nghiên cứu khoa học “ứng dụng công nghệ đun nước nóng sinh ...

Do

## Question 2: Write Preprocessing Functions







### Question 2.1: Write a Function to Clean Text
Hint:
- The text should only retain the following characters: aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ0-9(),!?\'\
- Then trim the whitespace in the input text.

In [None]:
def clean_str(string):
    #### YOUR CODE HERE ####
    if string is None:
        return ""
    
    allowed_chars = r"aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬ" \
                    r"bBcCdDđĐ" \
                    r"eEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆ" \
                    r"fFgGhHiIìÌỉỈĩĨíÍịỊ" \
                    r"jJkKlLmMnNoOòÒỏỎõÕóÓọỌ" \
                    r"ôÔồỒổỔỗỖốỐộỘ" \
                    r"ơƠờỜởỞỡỠớỚợỢ" \
                    r"pPqQrRsStTuUùÙủỦũŨúÚụỤ" \
                    r"ưƯừỪửỬữỮứỨựỰ" \
                    r"vVwWxXyYỳỲỷỶỹỸýÝỵỴzZ" \
                    r"0-9\(\),!?'\\"
    # Reduce the unallowed chars
    text = re.sub(f"[^{allowed_chars}]", " ", string)
    # Reduce the space
    text = re.sub(r"\s+", " ", text).strip()
    
    return text
    #### END YOUR CODE #####

Xin chào!!! Tôi là AI??? 123 ok nè


### Question 2.2: Write a Function to Convert Text to Lowercase

In [None]:
# make all text lowercase
def text_lowercase(string):
    #### YOUR CODE HERE ####
    if string is None:
        return ""
    
    return string.lower()
    #### END YOUR CODE #####

### Question 2.3: Tokenize Words
Hint: Use the `word_tokenize()` function imported above with two parameters: `strings` and `format="text"`.


In [11]:
def tokenize(strings):
    #### YOUR CODE HERE ####
    if strings is None:
        return []
    
    return word_tokenize(strings, format="text")
    #### END YOUR CODE #####
print(tokenize("Học sinh đang học bài ở trường."))


Học_sinh đang học bài ở trường .


### Question 2.4: Remove Stop Words
To remove stop words, we use a list of Vietnamese stop words stored in the file `./vietnamese-stopwords.txt`. Complete the following program:
- Check each word in the text (`strings`). If a word is not in the stop words list, add it to `doc_words`.


In [None]:
def remove_stopwords(strings):
    #### YOUR CODE HERE ####
    pass
    #### END YOUR CODE #####

## Question 2.5: Build a Preprocessing Function
Hint: Call the functions `clean_str`, `text_lowercase`, `tokenize`, and `remove_stopwords` in order, then return the result from the function.


In [None]:
def text_preprocessing(strings):
    #### YOUR CODE HERE ####
    pass
    #### END YOUR CODE #####


## Question 3: Perform Preprocessing
Now, we will read the corpus from the file created in Question 1. After that, we will call the preprocessing function for each document in the corpus.

Hint: Call the `text_preprocessing()` function with `doc_content` as the input parameter and save the result in the variable `temp1`.


In [None]:
#### YOUR CODE HERE ####
clean_docs = []
#### END YOUR CODE #####
print("\nlength of clean_docs = ", len(clean_docs))
print('clean_docs[0]:\n' + clean_docs[0])

## Question 4: Save Preprocessed Data
Hint: Save the preprocessed data to a file named `dataset_name + '.clean.txt'`, where each document is written on a separate line.


In [None]:
#### YOUR CODE HERE ####

#### YOUR CODE HERE ####