# Homework Lab 2: Text Preprocessing with Vietnamese
**Overview:** In this exercise, we will build a text preprocessing program for Vietnamese.

Import the necessary libraries. Note that we are using the underthesea library for Vietnamese tokenization. To install it, follow the instructions below. ([link](https://github.com/undertheseanlp/underthesea))

In [13]:
import os,glob
import codecs
import sys
import re
from underthesea import word_tokenize

## Question 1: Create a Corpus and Survey the Data

The data in this section is partially extracted from the [VNTC](https://github.com/duyvuleo/VNTC) dataset. VNTC is a Vietnamese news dataset covering various topics. In this section, we will only process the science topic from VNTC. We will create a corpus from both the train and test directories. Complete the following program:

- Write `sentences_list` to a file named `dataset_name.txt`, with each element as a document on a separate line.
- Check how many documents are in the corpus.


In [14]:
dataset_name = "VNTC_khoahoc"
path = ['./VNTC_khoahoc/Train_Full/', './VNTC_khoahoc/Test_Full/']

if os.listdir(path[0]) == os.listdir(path[1]):
    folder_list = [os.listdir(path[0]), os.listdir(path[1])]
    print("train labels = test labels")
else:
    print("train labels differ from test labels")

doc_num = 0
sentences_list = []
meta_data_list = []
for i in range(2):
    for folder_name in folder_list[i]:
        folder_path = path[i] + folder_name
        if folder_name[0] != ".":
            for file_name in glob.glob(os.path.join(folder_path, '*.txt')):
                # Read the file content into f
                f = codecs.open(file_name, 'br')
                # Convert the data to UTF-16 format for Vietnamese text
                file_content = (f.read().decode("utf-16")).replace("\r\n", " ")
                sentences_list.append(file_content.strip())
                f.close
                # Count the number of documents
                doc_num += 1
#### YOUR CODE HERE ####

output_file=f"{dataset_name}.txt"
file=open(output_file, "w", encoding="utf-8")
for sentence in sentences_list:
    file.write(sentence + '\n')
file.close()
print(f"Total number of documents: {doc_num}")
print(f"The first document: {sentences_list[0]}")
#### END YOUR CODE #####

train labels = test labels
Total number of documents: 3916
The first document: Ninh Thuận: Địa điểm ưu tiên đặt nhà máy điện hạt nhân Một góc Ninh Thuận, địa điểm ưu tiên lựa chọn đặt nhà máy điện hạt nhân Ông Vương Hữu Tấn, Viện trưởng Viện Năng Lượng Nguyên tử Việt Nam cho biết, có ba địa điểm hiện đang được cân nhắc để lựa chọn làm nơi đặt nhà máy điện hạt nhân.  Đó là Ninh Thuận, Phú Yên và Phan Rang. Tuy nhiên, Ninh Thuận vẫn là địa điểm được ưu tiên lựa chọn.  Được hỏi về tiến triển của dự án xây dựng nhà máy điện hạt nhân tại VN, vẫn theo ông Vương Hữu Tấn, Viện Năng lượng Nguyên tử Việt Nam đã hoàn tất dự án tiền khả thi và đang trình Chính phủ phê duyệt.  Dự kiến, đến năm tới (2007), sẽ chuyển sang dự án khả thi nhằm đáp ứng kịp tiến độ thời gian xây dựng nhà máy điện hạt nhân tại VN.  Theo kế hoạch, nhà máy điện hạt nhân đầu tiên sẽ được xây dựng và đi vào hoạt động bắt đầu từ năm 2020 với quy mô công suất từ 2.000 MW - 4.000 MW, và sẽ chiếm từ 5-9% tổng công suất phát điện t

## Question 2: Write Preprocessing Functions







### Question 2.1: Write a Function to Clean Text
Hint:
- The text should only retain the following characters: aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ0-9(),!?\'\
- Then trim the whitespace in the input text.

In [15]:
def clean_str(string):
    allowed_chars = "aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ0-9(),!?\\'"
    cleaned = re.sub(f"[^{allowed_chars}]", " ", string)
    return cleaned.strip()

### Question 2.2: Write a Function to Convert Text to Lowercase

In [16]:
# make all text lowercase
def text_lowercase(string):
    return string.lower()


### Question 2.3: Tokenize Words
Hint: Use the `word_tokenize()` function imported above with two parameters: `strings` and `format="text"`.


In [17]:
def tokenize(strings):
    return word_tokenize(strings, format="text")


### Question 2.4: Remove Stop Words
To remove stop words, we use a list of Vietnamese stop words stored in the file `./vietnamese-stopwords.txt`. Complete the following program:
- Check each word in the text (`strings`). If a word is not in the stop words list, add it to `doc_words`.


In [18]:
def remove_stopwords(strings):
    stopwords_path = "vietnamese-stopwords.txt"
    with open(stopwords_path, "r", encoding="utf-8") as f:
        stop_words = set(f.read().splitlines().replace(" ", "_"))
    words = strings.split()
    doc_words = [word for word in words if word not in stop_words]
    return " ".join(doc_words)


## Question 2.5: Build a Preprocessing Function
Hint: Call the functions `clean_str`, `text_lowercase`, `tokenize`, and `remove_stopwords` in order, then return the result from the function.


In [19]:
def text_preprocessing(strings):
    #### YOUR CODE HERE ####
    strings=clean_str(strings)
    strings=text_lowercase(strings)
    strings=tokenize(strings)
    strings=remove_stopwords(strings)
    return strings
    #### END YOUR CODE #####


## Question 3: Perform Preprocessing
Now, we will read the corpus from the file created in Question 1. After that, we will call the preprocessing function for each document in the corpus.

Hint: Call the `text_preprocessing()` function with `doc_content` as the input parameter and save the result in the variable `temp1`.


In [20]:
#### YOUR CODE HERE ####
clean_docs = []
#### END YOUR CODE #####
with open(output_file, "r", encoding="utf-8") as f:
    for line in f:
        clean_docs.append(text_preprocessing(line.strip()))

print("\nlength of clean_docs = ", len(clean_docs))
print('clean_docs[0]:\n' + clean_docs[0])


length of clean_docs =  3916
clean_docs[0]:
ninh thuận_địa_điểm ưu_tiên nhà_máy điện hạt_nhân góc ninh_thuận , địa_điểm ưu_tiên lựa_chọn nhà_máy điện hạt_nhân vương_hữu , viện trưởng viện năng_lượng nguyên_tử việt_nam , địa_điểm hiện cân_nhắc lựa_chọn nhà_máy điện hạt_nhân ninh_thuận , phú_yên phan_rang tuy_nhiên , ninh_thuận địa_điểm ưu_tiên lựa_chọn tiến_triển dự_án xây_dựng nhà_máy điện hạt_nhân vn , vương_hữu , viện năng_lượng nguyên_tử việt_nam hoàn_tất dự_án tiền_khả_thi trình chính_phủ phê_duyệt dự_kiến , ( 2007 ) , dự_án khả_thi đáp_ứng kịp tiến_độ thời_gian xây_dựng nhà_máy điện hạt_nhân vn kế_hoạch , nhà_máy điện hạt_nhân đầu_tiên xây_dựng đi hoạt_động bắt_đầu 2020 quy_mô công_suất 2 000 mw 4 000 mw , chiếm 5 9 tổng_công_suất phát_điện toàn_quốc vấn_đề lựa_chọn công_nghệ nhà_máy điện hạt_nhân vn , viện năng_lượng nguyên_tử việt_nam , hiện quá_trình phân_tích trưng_cầu ý_kiến chuyên_gia tuy_nhiên , công_nghệ nhà_máy điện hạt_nhân chọn_lựa cơ_sở đảm_bảo an_toàn quá_trình vận_h

## Question 4: Save Preprocessed Data
Hint: Save the preprocessed data to a file named `dataset_name + '.clean.txt'`, where each document is written on a separate line.


In [21]:
#### YOUR CODE HERE ####
clean_output_file = f"{dataset_name}.clean.txt"
with open(clean_output_file, "w", encoding="utf-8") as f:
    for doc in clean_docs:
        f.write(doc + "\n")

#### YOUR CODE HERE ####