# **1. Sentence segmentation - Tách văn bản thành nhiều câu**
- Sử dụng thư viện nltk

In [2]:
import nltk
nltk.download('punkt_tab')

from nltk.tokenize import sent_tokenize

text = "Hello! My name is Hao. What your name ?"
sent_tokenize(text)
print(sent_tokenize(text))

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['Hello!', 'My name is Hao.', 'What your name ?']


# 2. Segmenting word - Tách từ


In [4]:
from nltk.tokenize import word_tokenize

text = "Xin chào, tôi là Hào."
words = word_tokenize(text)
print(words)


['Xin', 'chào', ',', 'tôi', 'là', 'Hào', '.']


# **3. Chuẩn hóa từ - Text Normalization**
- ***Các bước chính để chuẩn hóa từ***
+ Chuyển về chữ thường
+ Loại bỏ dấu cấu
+ Loại bỏ khoảng trắng thừa
+ Chuyển đổi số thành chữ
+ Loại bỏ stopword
+ Đưa các từ đồng nghĩa về chung một dạng
+ Lemmatization (Chuyển từ về dạng gốc)

In [17]:
pip install pyvi

Collecting pyvi
  Downloading pyvi-0.1.1-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting sklearn-crfsuite (from pyvi)
  Downloading sklearn_crfsuite-0.5.0-py2.py3-none-any.whl.metadata (4.9 kB)
Downloading pyvi-0.1.1-py2.py3-none-any.whl (8.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.5/8.5 MB[0m [31m41.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading sklearn_crfsuite-0.5.0-py2.py3-none-any.whl (10 kB)
Installing collected packages: sklearn-crfsuite, pyvi
Successfully installed pyvi-0.1.1 sklearn-crfsuite-0.5.0


In [18]:
import re
import spacy
from underthesea import word_tokenize

# Tự định nghĩa tokenizer cho tiếng Việt dùng underthesea trong spaCy
class VietnameseTokenizer:
    def __init__(self, vocab):
        self.vocab = vocab

    def __call__(self, text):
        words = word_tokenize(text)
        spaces = [True] * (len(words) - 1) + [False]
        return spacy.tokens.Doc(self.vocab, words=words, spaces=spaces)

# Từ điển lemmatization cơ bản
lemmatization_dict = {
    'học tập': 'học',
    'học hành': 'học',
    'học hỏi': 'học',
    'nghiên cứu': 'nghiên cứu',
    'làm việc': 'làm',
    'giúp đỡ': 'giúp',
    'phát triển': 'phát triển',
    'ứng dụng': 'ứng dụng',
    'gặp gỡ': 'gặp',
}

# Hàm lemmatize tùy chỉnh
def lemmatize_word(word):
    return lemmatization_dict.get(word, word)

# Tạo nlp spaCy trống cho tiếng Việt
nlp = spacy.blank("vi")
nlp.tokenizer = VietnameseTokenizer(nlp.vocab)

# Hàm tiền xử lý và chuẩn hóa văn bản
def text_normalize(text):
    # 1. Chuyển về chữ thường
    text = text.lower()

    # 2. Loại bỏ dấu câu và ký tự đặc biệt (ngoại trừ chữ cái và khoảng trắng)
    text = re.sub(r'[^\w\s]', '', text)

    # 3. Thay thế số thành 'NUM'
    text = re.sub(r'\d+', 'NUM', text)

    # 4. Chuẩn hóa khoảng trắng
    text = re.sub(r'\s+', ' ', text).strip()

    # 5. Phân tích và tokenize bằng spaCy
    doc = nlp(text)

    # 6. Lemmatization theo từ điển
    lemmatized_words = [lemmatize_word(token.text) for token in doc]

    # 7. Loại bỏ stop words cơ bản
    stop_words = {'là', 'của', 'một', 'những', 'các', 'và', 'với', 'cho', 'đã', 'trên',
                  'này', 'bị', 'được', 'do', 'vào', 'ra', 'tại', 'như', 'thì', 'đang', 'sẽ',
                  'đến', 'từ', 'qua', 'khi', 'để', 'về', 'nên', 'cũng', 'theo', 'làm', 'có',
                  'đi', 'rất', 'nhưng', 'lại', 'hay', 'vẫn', 'vậy', 'nữa'}
    filtered_words = [word for word in lemmatized_words if word not in stop_words]

    # 8. Kết quả cuối cùng
    return ' '.join(filtered_words)


# Đoạn văn bản mẫu
text = """
Hôm nay, tôi đã đi đến trường Đại học Bách Khoa để tham gia một buổi hội thảo về trí tuệ nhân tạo.
Buổi thảo luận rất thú vị và giúp tôi hiểu thêm về các ứng dụng của học máy và xử lý ngôn ngữ tự nhiên.
Ngoài ra, tôi cũng gặp gỡ những bạn có cùng đam mê với mình.
"""

normalized_text = text_normalize(text)
print(normalized_text)


hôm nay tôi trường đại học bách khoa tham gia buổi hội thảo trí tuệ nhân tạo buổi thảo luận thú vị giúp tôi hiểu thêm ứng dụng học máy xử lý ngôn ngữ tự nhiên ngoài ra tôi gặp bạn cùng đam mê mình
