Preprocess a given text dataset and report the steps as well as the results.
Dataset below:

Kaggle: https://www.kaggle.com/datasets/haitranquangofficial/vietnamese-online-news-dataset

Các bước xử lý:
- Tokenizer: Tách văn bản thành các token.
- Stop words: Loại bỏ stop words.
- Lemmatization: Chuyển về từ gốc.
- Normalization: Loại bỏ các ký tự đặc biệt, chữ số, dấu câu.

In [None]:
# Import libraries
import json
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.stem import WordNetLemmatizer
import string
import re

In [None]:
# download
nltk.download('punkt') # tokenization
nltk.download('stopwwords') # loại bỏ stopwords
nltk.download('wordnet') # lemmatization

In [None]:
# testing

text = 'Gần đây, Thứ trưởng Bộ Phát triển Kỹ thuật số, Truyền thông và Truyền thông đại chúng Nga - Oleg Ivanov cho biết trong một cuộc phỏng vấn rằng, đến năm 2025 Viện Khoa học & Công nghệ Skolkovo và đài phát thanh trực thuộc Bộ Kỹ thuật số Nga, Viện Khoa học Chế tạo sẽ nhận được khoản phân bổ 30 tỷ rúp để thúc đẩy các dự án chung về thiết bị liên lạc di động thế hệ thứ 6 (6G). Dự kiến, thiết bị 6G có thể được chế tạo trước năm 2025. Điều đó có nghĩa là giới chức Nga không còn quan tâm đến việc phát triển công nghệ 5G nữa mà đặt cược vốn và nguồn nhân lực của mình vào công nghệ 6G. Cách tiếp cận này rất táo bạo bởi nhìn chung, công nghệ truyền thông hiện đại cần phải tích lũy công nghệ từ thế hệ này sang thế hệ khác và sự phát triển giữa các thế hệ thường rất khó khăn. Điều khó khăn hơn nữa là 6G hiện đang trong giai đoạn nghiên cứu ban đầu trên khắp thế giới, các tiêu chuẩn kỹ thuật liên quan vẫn chưa được xác định và việc phát triển sản phẩm vẫn còn rất xa. Do đó, giới chức Nga vẫn chưa công bố thông tin chi tiết cụ thể. Ngay cả khi Nga có thể phát triển sớm mạng lưới 6G, quốc gia này có thể sớm bị tụt hậu vì các quốc gia khác sẽ nhanh chóng bắt kịp. Nhưng điều quan trọng nhất là các nhà mạng tại Nga tin rằng nhiều người tiêu dùng nước này vẫn chưa sẵn sàng nâng cấp mạng di động vì đối với họ mạng 4G là quá đủ. Các nhà mạng này thậm chí còn không bị làm phiền bởi mạng 5G chứ chưa nói đến mạng 6G còn rất lâu mới hoàn thiện.'

In [None]:
# Normalization

def normalize_text(text):
  text = text.lower()
  text = re.sub(r'\s', ' ', text) # Xóa khoảng trắng thừa. \s: bất kì khoảng trắng nào (cả dấu cách, tab, hoặc xuống dòng). '+': tìm một hoặc nhiều ký tự liên tiếp
  text = re.sub(r'[^\w\s]', '', text) # Loại bỏ dấu câu. [^]: phủ định.
  return text

text = normalize_text(text)

In [None]:
text

In [None]:
# Stopwords
# Data tiếng việt => tạo danh sách stop words riêng:
stop_words = {
    "và", "là", "của", "nhưng", "hoặc", "một", "có", "cho", "về", "này", "khi", "ở", "được", "với",
    "tại", "cả", "các", "những", "rằng", "thì", "lại", "đã", "sẽ", "đang", "tôi", "anh", "em", "bạn",
    "chúng", "họ", "như", "vì", "do", "trên", "dưới", "đây", "đó", "điều", "gì", "nào", "ra", "nên",
    "rồi", "không", "phải", "nếu", "thì", "làm", "sao", "có thể", "nữa", "thế", "cùng", "chỉ", "mà",
    "vậy", "nhỉ", "à", "ừ", "ừm", "đi", "đến", "hơn", "để", "trong", "lên", "xuống", "ngày", "tháng",
    "năm", "vẫn", "một số", "bởi", "từ", "qua", "lúc", "sau", "trước", "như vậy", "tất cả", "vừa",
    "chưa", "thế nào", "nhận", "đó là", "ai", "cái", "nó", "mỗi", "lại", "kể", "này", "ấy", "gì",
    "vậy là", "liên quan", "dùng", "đúng", "cũng", "vẫn còn", "khác", "cùng với", "do đó", "vì vậy",
    "giữa", "bao nhiêu", "hết", "nhiều", "ít", "bao giờ", "ở đâu", "tại sao", "thế nào", "ra sao",
    "bao lâu", "càng", "ngay", "với lại", "hoàn toàn", "vẫn luôn", "thế", "bấy lâu", "cho nên", "nhiều khi",
    "rõ ràng", "dù sao", "có gì", "nói", "người", "được", "như thế", "nhiều nhất", "chưa từng"
}


In [None]:
text

In [None]:
# Tokenizer

# Tách từ
tokens = word_tokenize(text)

# Loại bỏ từ dừng
tokens = [word for word in tokens if word not in stop_words]

tokens

In [None]:
# !pip install underthesea

In [None]:
# lemmatization:

# Dùng thư viên underthesea để thực hiện lemmatize với tiếng việt: pip install underthesea
from underthesea import pos_tag

In [None]:
# Thực hiện lemmatization
lemmatized_tokens = []
for token in tokens:
    # pos_tag => lấy dạng gốc của từ
    pos_tags = pos_tag(token)
    # pos_tags => tuple: (từ, nhãn từ loại)
    lemma = pos_tags[0][0]  # Lấy từ gốc
    lemmatized_tokens.append(lemma)


In [None]:
# Nối các tokens lại thành 1 text
text_from_tokens = ' '.join(tokens)
print("Text from Tokens:")
text_from_tokens

In [None]:
# Nối các lemmatized_tokens lại thành 1 text
text_from_lemmatized = ' '.join(lemmatized_tokens)
print("Text from Lemmatized Tokens:")
text_from_lemmatized

In [None]:
# Load dataset
with open('../data/w2/news_dataset.json', 'r', encoding='utf-8') as file:
    dataset = json.load(file)

In [None]:
# Apply for all dataset

def process_data(news):
    # Normalization
    content = normalize_text(article['content'])

    # Tokenization
    tokens = word_tokenize(content)

    # Remove stopwords
    tokens = [word for word in tokens if word not in stop_words]

    # Lemmatization
    lemmatized_tokens = []
    for token in tokens:
        pos_tags = pos_tag(token)
        lemma = pos_tags[0][0]
        lemmatized_tokens.append(lemma)

    lemmatized_text = ' '.join(lemmatized_tokens)

    return lemmatized_text

# Save data
processed_dataset = []

for article in dataset:
    processed_article = article.copy()
    processed_article['content'] = process_data(article)
    processed_dataset.append(processed_article)

In [None]:
processed_dataset.head(3)

In [None]:
# # Save  back to a new JSON file
# with open('processed_news_dataset.json', 'w', encoding='utf-8') as file:
#     json.dump(processed_dataset, file, ensure_ascii=False, indent=4)