<h1 style = 'text-align: center'><b> Text Preprocessing With NLTK</b></h1>

## <b>1. Accessing Text From The Web And Disk</b>

### <b>a. Electronic Books</b>

In [None]:
import nltk
nltk.download()

In [1]:
from __future__ import division  # Python 2 users only
import nltk, re, pprint
from nltk import word_tokenize
from urllib import request

In [2]:
# sử dụng url để lấy text 
url = "http://www.gutenberg.org/files/2554/2554-0.txt"
response = request.urlopen(url)
# đọc và mã hóa dữ liệu text thành utf8 
raw = response.read().decode('utf8')

In [None]:
# print một số thông tin của text

# kiểu dữ liệu được lấy về dưới dạng string
print(type(raw))

# độ dài dữ liệu
print(len(raw))

# dữ liệu thô tồn tại một số ký tự không mong muốn như \r hay \n,...
raw[:75]

In [None]:
# thực hiện phân tách thành các từ đơn - TOKENIZATION
# nltk.data.path.append('.venv/nltk_data')
tokens = word_tokenize(raw)

# check kiểu dữ liệu của tokens - Python list
print(type(tokens))

# số lượng tokens 
print(len(tokens))

# in 10 tokens đầu
print(tokens[:10])

In [None]:
# chuyển đổi kiểu dữ liệu đặc trưng của nltk - nltk.text()
tokens_text = nltk.Text(tokens)

# check kiểu dữ liệu của tokens_text
print(type(tokens_text))

# slicing: cắt một đoạn của tokens_text từ vị trí 1024 - 1062
print(tokens_text[1024:1062])

# cho biết các cặp từ xuất hiện cùng nhau thường xuyên
print(tokens_text.collocations())

In [None]:
# tìm kiếm và tinh chỉnh nội dung (lọc thủ công) giúp cho loại bỏ các thông tin nhiễu và chỉ giữ lại nội dung chính
# tìm từ trên xuống
print(raw.find("PART I"))
# tìm từ dưới lên - rfind = reverse find
print(raw.rfind("*** END OF THE PROJECT GUTENBERG EBOOK CRIME AND PUNISHMENT ***"))
# nội dung chính sẽ bắt đầu từ 5575 - 1158053
raw_text = raw[5575:1158049]

raw_text[-100:-1]

### <b>b. Dealing with HTML</b>

In [None]:
# lấy dữ liệu từ html qua url 
url = "https://www.medicalnewstoday.com/articles/could-some-diets-help-manage-long-covid"
html = request.urlopen(url).read().decode('utf8')
print(html[:400])

In [None]:
# lấy văn bản ra khỏi HTML bằng thư viện Python: BeautifulSoup
from bs4 import BeautifulSoup
raw = BeautifulSoup(html, 'html.parser').get_text()
# tách thành các từ đơn - tokenize
tokens = word_tokenize(raw)

print(tokens)

In [None]:
# sử dụng concordance để tìm kiếm và hiển thị một từ trong khoảng 110->390
sub_tokens = tokens[110: 390]
text_tokens = nltk.Text(sub_tokens)
text_tokens.concordance('COVID')

### <b>c. Processing RSS Feeds</b>

In [None]:
import feedparser
# lấy thông tin từ url 
llog = feedparser.parse("http://languagelog.ldc.upenn.edu/nll/?feed=atom")

In [None]:
print(llog)
print(llog.keys())

# llog['feed']: Truy cập thông tin chung của nguồn cấp dữ liệu (RSS feed)
print(len(llog['feed']))

# llog.entries: lấy danh sách các danh mục có trong RSS
print(len(llog.entries))
print(llog['feed']['title'])

In [None]:
# lấy một danh mục từ dữ liệu 
post = llog.entries[2]

# lấy nội dung trong danh mục đó: kq sẽ trả ra nội dung dưới dạng HTML (các thẻ với nội dung bên tring)
content = post.content[0].value

print(f"Entry title: {post.title}\n")
print(f'Entry content: \n{content}\n')
print(f'Sub entry content: \n{content[:70]}')
print()

# lấy text ra khỏi html 
raw_data = BeautifulSoup(content, 'html.parser').get_text()
print("Raw data: \n", raw_data[:100])
print()

# thực hiện tokenize
tokens = word_tokenize(raw_data)
print(tokens)

### <b>d. Local Files</b>

In [None]:
# đọc file cục bộ
import os

# listdir thực hiện liệt kê tất cả các file có trong thư mục 
os.listdir('../Documents')      # kiểm tra các file có trong folder Documents

# mở và dọc nội dung file
f = open("../Documents/document.txt", 'r')
raw_data = f.read()     # text sẽ được lưu dưới dạng string
raw_data

In [None]:
# hoặc có thể đọc dữ liệu theo từng dòng: 
f = open("../Documents/document.txt", 'rU')
for line in f:
    print(line.strip())     # loại bỏ các ký tự thừa (khoảng trắng ở đầu và cuối dòng)


In [None]:
# corpus: là các tập dữ liệu ngôn ngữ học được cung cấp bởi thư viện Natural Language Toolkit (NLTK). 
# NLTK cung cấp nhiều loại corpus (tập dữ liệu ngôn ngữ) để phục vụ cho các mục đích phân tích và xử lý ngôn ngữ tự nhiên.

# sử dụng .find() để tìm tài liệu tương ứng
path = nltk.data.find('corpora/gutenberg/melville-moby_dick.txt')
# thực hiện mở và đọc file như bình thường
raw = open(path, 'rU').read()

raw[:100]

In [None]:
# sử dụng input để lấy thông tin nhập từ bàn phím của user
input_text = input("Enter some text: ")
print(input_text)
# tokenize 
tokens = word_tokenize(input_text)
print(f"You typed {len(tokens)} words: ")
print(tokens)

### <b>e. NLP Pipeline</b>

In [None]:
raw_data = open("../Documents/document.txt").read()

tokens = word_tokenize(raw_data)

words = [w.lower() for w in tokens]

vocab = sorted(set(words))
vocab


# <b>2. String: Text Processing At The Lowest Level</b>

In [None]:
a = [1, 2, 3, 4, 5, 6, 7, 6, 5, 4, 3, 2, 1]
b = [' ' * 2 * (7 - i) + 'very' * i for i in a]
for line in b:
    print(line)

# <b>3. Text Processing With Unicode</b>

In [None]:
# file được sử dụng là dạng mã hóa Latin2
path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt')

# thêm parameter encoding để đánh dấu
f= open(path, encoding='latin2')
for line in f:
    line = line.strip()
    print(line)

In [None]:
ord('ń')        # cho ra số thứ tự nguyên của từ: 324 

nacute = '\u0144'       # 324 (dec) -> 0144 (hex)
nacute

nacute.encode('utf8')

In [None]:
# read vietname text in file (check với văn bản tiếng việt)
path = '../Documents/Vietnamese.txt'
f = open(path, encoding='utf-8')
raw_data = f.read()
# 
print(raw_data)
raw_data

# tokenization
tokens = word_tokenize(raw_data)
tokens

In [None]:
# đánh dấu cho trình biên dịch biết rằng sẻ sử dụng bảng mã utf-8 trong phần này

# -*- coding: utf-8 -*-

# Chuỗi chứa ký tự đặc biệt (tiếng Việt có dấu)
chuoi = "Chào mừng bạn đến với Python! Đừng quên học hỏi mỗi ngày."

# In ra chuỗi
print(chuoi)

# Ghi chuỗi vào tệp với mã hóa UTF-8
with open('example.txt', 'w', encoding='utf-8') as f:
    f.write(chuoi)

# Đọc chuỗi từ tệp và in ra màn hình
with open('example.txt', 'r', encoding='utf-8') as f:
    noi_dung = f.read()
    print(noi_dung)


# <b>4. Regular Expressions for Detecting Word Patterns</b>

## <b>a. Basic meta-characters</b>

In [None]:
import re
# sử dụng words để truy cập vào bộ từ vựng (corpus) tiếng Anh ('en') từ thư viện NLTK.
# từ đó, trả về một danh sách tất cả các từ tiếng Anh có trong corpus này.
wordlist = [w for w in nltk.corpus.words.words('en') 
            if w.islower()]        # điều kiện để giữ lại các chữ thường (loại bỏ các từ in hoa) hoặc tên riêng
wordlist[:100]

In [None]:
# tìm kiếm ký tự bằng re.search(p,s): tìm kiếm chuỗi p trong s
ed_list = [w for w in wordlist 
           if re.search('ed$', w)]      # sử dụng regular expression <<ed$>> để tìm kiếm các từ có đuôi ed trong wordlist
                                        # dấu '$' thông báo cho kết thúc chuỗi
ed_list

# '.' đại diện cho một ký tự bất kì nào trong chuỗi
searching_list = [w for w in wordlist 
                  if re.search('^..j..t..$', w)]    # '^' đại diện cho bắt đầu, '$' đại diện cho kết thúc
searching_list      # kết quả trả ra các từ có j ở vị trí 3, t ở vị trí 6, và sau đó là 2 ký tự cuối


searching_list = [w for w in wordlist 
                  if re.search('..j..t..', w)]  # nếu loại bỏ '^' và '$' thì việc tìm kiếm sẽ trở thành các từ có j và t ở giữa câu,
                                                # và khoảng cách giữa j & t là 2 ký tự
searching_list      # kết quả trả ra các từ có j ở vị trí 3, t ở vị trí 6, và sau đó là 2 ký tự cuối

# đếm số lần xuất hiện của từ trong văn bản
text = '''
Email (hoặc e-mail, viết tắt của "electronic mail") là một phương tiện trao đổi thông tin điện tử qua mạng Internet. Email cho phép người dùng gửi tin nhắn văn bản, tài liệu, hình ảnh, và nhiều loại tệp đính kèm khác cho một hoặc nhiều người nhận. Đây là một trong những công cụ giao tiếp kỹ thuật số phổ biến và quan trọng nhất trên thế giới hiện nay.

Email thường bao gồm ba phần chính:
1. Địa chỉ người nhận: Một địa chỉ email có định dạng chung là tênngười@tênmiền.com. Ví dụ: example@gmail.com.
2. Tiêu đề (Subject): Mô tả ngắn gọn nội dung của email, giúp người nhận biết được thông điệp chính trước khi mở thư.
3. Nội dung (Body): Phần chính của email chứa thông điệp mà người gửi muốn truyền tải.

Ngoài ra, email có thể bao gồm các tệp đính kèm như tài liệu, hình ảnh hoặc video. Phần mềm email cũng hỗ trợ các chức năng như trả lời tự động, chuyển tiếp thư (forward), và tổ chức thư mục (folders) để quản lý thư một cách hiệu quả.

Email có nhiều ưu điểm, bao gồm khả năng gửi tin nhắn tức thời, tiết kiệm chi phí so với thư tín truyền thống, và khả năng lưu trữ thông tin dễ dàng. Tuy nhiên, cùng với sự phát triển của email, các vấn đề như thư rác (spam) và bảo mật thông tin cá nhân cũng trở nên phổ biến, đòi hỏi các biện pháp phòng chống an ninh mạng để bảo vệ người dùng.

Ngày nay, email không chỉ là phương tiện liên lạc cá nhân mà còn là công cụ quan trọng trong công việc, kinh doanh, và tiếp thị trực tuyến. Dịch vụ email phổ biến bao gồm Gmail, Outlook, và Yahoo Mail.
'''
# tokenize
text = text.lower()
# tokens = word_tokenize(text)
# count_occurence = sum(1 for w in tokens if re.search('^e-?mail$', w))
# count_occurence

word = '^e-?mail$'
print(re.search('^e-?mail$', text))



## <b>b. Ranges and Closures</b>

In [None]:
# các ký tự theo thứ tự (như cách bấm bàn phím số)
text_on_keys = [w for w in wordlist if re.search('^[ghi][mno][jkl][def]$', w)]
text_on_keys

text_on_keys = [w for w in wordlist if re.search('^[ghijklmno]+$', w)]
text_on_keys

text_on_keys = [w for w in wordlist if re.search('^[g-o]+$', w)]
text_on_keys

In [None]:
chat_words = sorted(set(w for w in nltk.corpus.nps_chat.words()))
text_list = [w for w in chat_words if re.search('^m+i+n+e+$', w)]
text_list

text_list = [w for w in chat_words if re.search('^[ha]+$', w)]
text_list

text_list = [w for w in chat_words if re.search('^m*i*n*e*$', w)]
text_list


In [None]:
wsj = sorted(set(nltk.corpus.treebank.words()))

# \ dùng để phân biệt (thoát) meta-characters, xem nó là một ký tự thường (ở đây là .)
[w for w in wsj if re.search('^[0-9]+\.[0-9]+$', w)]       # '.' lúc này là một ký tự thường; không là meta-characters

[w for w in wsj if re.search('^[A-Z]+\$$', w)]          # '$' đầu tiên là một ký tự dô-la bình thường

[w for w in wsj if re.search('^[0-9]{4}$', w)]      # {n} khớp với n lần, có thể xem độ dài là 4

[w for w in wsj if re.search('^[0-9]+-[a-z]{3,5}$', w)]     # {n,m} khớp với ÍT NHẤT n lần, NHIỀU NHẤT m lần

[w for w in wsj if re.search('^[a-z]{5,}-[a-z]{2,3}-[a-z]{,6}$', w)]       # tương tự như ví dụ trên

[w for w in wsj if re.search('(ed|ing)$', w)]           # toán tử hoặc |: khớp với một trong hai lựa chọn 

# <b>5. Useful Applications Of Regular Expression</b>

## <b> a. Extracting Word Pieces</b>

In [None]:
# sử dụng re.findall(pattern, string) để tìm kiếm tất cả pattern có trong string
word = 'supercalifragilisticexpialidocious'
re.findall(r'[aeiou]{2,}', word)      # find-all thực hiện tìm kiếm các ký tự và KHÔNG LẶP LẠI với (ký tự ở vị trí trước đó)

wsj = sorted(set(nltk.corpus.treebank.words()))
fd = nltk.FreqDist(vs for word in wsj           # tạo ra một chuỗi với tần suất xuất hiện 
                      for vs in re.findall(r'[aeiou]{2,}', word))       # tìm kiếm các ký tự có ít nhất 2 nguyên âm nằm liên tiếp nhau
fd.most_common(100)

In [None]:
[int(n) for n in re.findall(r'[0-9]+', '2009-12-31')]      # \d đại diện cho các ký tự là số (0-9), + đại diện cho các số viết liền nhau 

## <b>b. Doing More with Word Pieces</b>

In [None]:
# rút gọn từ (các nguyên âm trong từ)
word = 'supercalifragilisticexpialidocious'

# thứ tự của các regexp có thể ảnh hướng đến kết quả tìm kiếm (với các trường hợp bị chồng nhau): do nó duyệt điều kiện từ TRÁI -> PHẢI
regexp = r'^[AEIOUaeiou]+|[AEIOUaeiou]+$|[^AEIOUaeiou]'   # biểu thức [^AEIOUaeiou]: lấy các kí tự không nằm trong [] (^ mang nghĩa phủ định)

def compress(word):
    pieces = re.findall(regexp, word)
    return ''.join(pieces)

compress('expectation')
english_udhr = nltk.corpus.udhr.words('English-Latin1')

print("Before compressing words:\n", nltk.tokenwrap(english_udhr[:75]))
print()
print("After compressing words:\n",nltk.tokenwrap(compress(w) for w in english_udhr[:75]))


In [None]:
# phân tích các cặp phụ âm-nguyên âm từ các từ trong ngôn ngữ Rotokas.
rotokas_words = nltk.corpus.toolbox.words('rotokas.dic')        # lấy từ điển Rotokas 
cvs = []
cvs = [cv for w in rotokas_words for cv in re.findall(r'[ptksvr][aeiou]', w)]       # tìm kiếm các cặp phụ-nguyên âm
cfd = nltk.ConditionalFreqDist(cvs)

print(cfd.tabulate())

# Sử dụng nltk.Index để lấy từ tương ứng với bảng thống kê
cv_word_pairs = [(cv, w) for w in rotokas_words         # lưu cặp phụ âm và từ tương ứng
                         for cv in re.findall(r'[ptksvr][aeiou]', w)]
cv_index = nltk.Index(cv_word_pairs)        # sử dụng Index để tạo chỉ mục như (key,value): key - cv, value - w
cv_index['su']      # gọi key để lấy value
cv_index['te']

### Finding word stems (Tìm từ gốc bằng thủ công)

- Việc tìm từ gốc có nghĩa là loại bỏ hậu tố của nó và chỉ giữ lại các từ gốc ban đầu

In [None]:
# Tìm gốc từ - finding word stems 

# thực hiện loại bỏ các hậu tố

# C1: sử dụng endswith
suffix = ['ing', 'ly', 'ed', 'ious', 'ies', 'ive', 'es', 's', 'ment']

# trích từ gốc (bỏ hậu tố)
def stem(word):
    for suf in suffix:
        if(word.endswith(suf)):
            return word[:-len(suf)]
    return word
        
# C2: sử dụng regular expression để trích hậu tố ra
def stem_regexp(word):
    return re.findall(r'^.*(ing|ly|ed|ious|ies|ive|es|s|ment)$', 
                      word)      # các chuỗi trong () cho thấy rằng đó là những chuỗi con cần trích xuất

stem_regexp('shieves')

# tách chuỗi thành từ GỐC và HẬU TỐ
def stem_suffix(word):
    # ()(): tách thành 2 chuỗi
    return re.findall(r'^(.*)(ing|ly|ed|ious|ies|ive|es|s|ment)$',  # (.*) trích xuất các từ trước hậu tố
               word)


def stem_suffix_improve(word):
    # * là toán tử tham lam -> nó cố gắng lấy càng nhiều ký tự của đầu vào càng tốt
    return re.findall(r'^(.*?)(ing|ly|ed|ious|ies|ive|es|s|ment)?$',      # sử dụng *? để cải thiện tình trạng này: khớp với ít ký tự nhất có thể trong khi vẫn đáp ứng điều kiện tổng thể của biểu thức chính quy.
               word)

stem_suffix_improve('language')

- Một chương trình tìm từ gốc hoàn thiện (tạm chấp nhận dù vẫn còn một số problems)

In [None]:
def stem_word(word):
    regexp = r'^(.*?)(ing|ly|ed|ious|ies|ive|es|s|ment)?$'      # regular expression để trích xuất từ gốc và hậu tố
    stem,suffix = re.findall(regexp,word)[0]           # do re.findall() trả về một danh sách, nên phải sử dụng [0] để lấy kq đầu tiên
    return stem         # trả về từ gốc

# văn bản thô 
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
... is no basis for a system of government.  Supreme executive power derives from
... a mandate from the masses, not from some farcical aquatic ceremony."""

# tokenize
tokens = word_tokenize(raw)
stem_text = [stem_word(word) for word in tokens]

print(nltk.tokenwrap(stem_text))

### Searching Tokenized Text

In [None]:
from nltk.corpus import gutenberg, nps_chat
moby = nltk.Text(gutenberg.words('melville-moby_dick.txt'))
# sử dụng cú pháp .findall() cho phép kết hợp với <> để tìm kiếm với các tokens
moby.findall(r"<a> <.*> <man>")       # tìm kiếm các từ nằm giữa <a> và <man> (được đánh dấu bằng () )

chat = nltk.Text(nps_chat.words())
chat.findall(r"<.*> <.*> <bro>")        # tìm kiếm các chuỗi có 2 cụm trước từ <bro>

chat.findall(r"<l.*>{3,}")          

In [None]:
from nltk.corpus import brown
hobbies_learned = nltk.Text(brown.words(categories=['hobbies', 'learned']))

hobbies_learned.findall(r"<\w*> <and> <other> <\w*s>")      # \w: đại diện cho các ký tự chữ, số và gạch dưới

hobbies_learned.findall(r"<as> <\w*> <as> <\w*>")      # \w: đại diện cho các ký tự chữ, số và gạch dưới


# <b>6. Normalizing Text</b>

- Trong các ví dụ chương trình trước đó, chúng ta thường chuyển đổi văn bản thành chữ thường trước khi thực hiện bất kỳ thao tác nào với các từ của nó, ví dụ: set(w.lower() for w in text). Bằng cách sử dụng lower(), chúng ta đã chuẩn hóa văn bản thành chữ thường để bỏ qua sự khác biệt giữa The và the.

- Thường thì chúng ta muốn đi xa hơn thế này và loại bỏ mọi tiền tố, một nhiệm vụ được gọi là **stemming**.

- Một bước nữa là đảm bảo rằng dạng kết quả là một từ đã biết trong từ điển, một nhiệm vụ được gọi là **lemmatization**.


In [74]:
# chuẩn bị dữ liệu
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
is no basis for a system of government.  Supreme executive power derives from
a mandate from the masses, not from some farcical aquatic ceremony."""

# tokenization
tokens = word_tokenize(raw)

### <b>a. Stemmers</b>

In [76]:
# Khởi tạo Stemmer Porter
porter = nltk.PorterStemmer()

# Khởi tạo Stemmer Lancaster
lancaster = nltk.LancasterStemmer()

result_porter = [porter.stem(word) for word in tokens]

result_lancaster = [lancaster.stem(word) for word in tokens]

print(tokens)
print()
print(result_porter)
print()
print(result_lancaster)

['DENNIS', ':', 'Listen', ',', 'strange', 'women', 'lying', 'in', 'ponds', 'distributing', 'swords', 'is', 'no', 'basis', 'for', 'a', 'system', 'of', 'government', '.', 'Supreme', 'executive', 'power', 'derives', 'from', 'a', 'mandate', 'from', 'the', 'masses', ',', 'not', 'from', 'some', 'farcical', 'aquatic', 'ceremony', '.']

['denni', ':', 'listen', ',', 'strang', 'women', 'lie', 'in', 'pond', 'distribut', 'sword', 'is', 'no', 'basi', 'for', 'a', 'system', 'of', 'govern', '.', 'suprem', 'execut', 'power', 'deriv', 'from', 'a', 'mandat', 'from', 'the', 'mass', ',', 'not', 'from', 'some', 'farcic', 'aquat', 'ceremoni', '.']

['den', ':', 'list', ',', 'strange', 'wom', 'lying', 'in', 'pond', 'distribut', 'sword', 'is', 'no', 'bas', 'for', 'a', 'system', 'of', 'govern', '.', 'suprem', 'execut', 'pow', 'der', 'from', 'a', 'mand', 'from', 'the', 'mass', ',', 'not', 'from', 'som', 'farc', 'aqu', 'ceremony', '.']


In [84]:
# khởi tạo lớp IndexedText để Lập chỉ mục văn bản
class IndexedText(object):
    # hàm khởi tạo cho lớp 
    def __init__(self, stemmer, text):
        self._text = text
        self._stemmer = stemmer
        self._index = nltk.Index((self._stem(word), i)
                                 for (i, word) in enumerate(text))      # tạo chỉ mục lưu trữ cặp (stemmed_word, index)

    def concordance(self, word, width=40):
        key = self._stem(word)          
        wc = int(width/4)                # words of context
        for i in self._index[key]:
            lcontext = ' '.join(self._text[i-wc:i])
            rcontext = ' '.join(self._text[i:i+wc])
            ldisplay = '{:>{width}}'.format(lcontext[-width:], width=width)
            rdisplay = '{:{width}}'.format(rcontext[:width], width=width)
            print('index:',i)
            print(ldisplay, rdisplay)
            print()

    def _stem(self, word):
        return self._stemmer.stem(word).lower()
    
# khởi tạo stemmer là Porter
porter = nltk.PorterStemmer()
# khởi tạo text
grail = nltk.corpus.webtext.words('grail.txt')

# tạo class
text = IndexedText(porter, grail)

# gọi hàm concordance
text.concordance('lie')

index: 1824
r king ! DENNIS : Listen , strange women lying in ponds distributing swords is no

index: 6451
 beat a very brave retreat . ROBIN : All lies ! MINSTREL : [ singing ] Bravest of

index: 7038
       Nay . Nay . Come . Come . You may lie here . Oh , but you are wounded !   

index: 7080
doctors immediately ! No , no , please ! Lie down . [ clap clap ] PIGLET : Well  

index: 8450
ere is much danger , for beyond the cave lies the Gorge of Eternal Peril , which 

index: 13860
   you . Oh ... TIM : To the north there lies a cave -- the cave of Caerbannog --

index: 13965
h it and lived ! Bones of full fifty men lie strewn about its lair . So , brave k

index: 16684
not stop our fight ' til each one of you lies dead , and the Holy Grail returns t



### <b>b. Lemmatization</b>

- Trình lemmatizer WordNet chỉ xóa các tiền tố nếu từ kết quả nằm trong từ điển của nó. Quá trình kiểm tra bổ sung này khiến trình lemmatizer chậm hơn các trình từ gốc ở trên. Lưu ý rằng nó không xử lý được việc nói dối, nhưng nó chuyển đổi phụ nữ thành phụ nữ.

- Trình lemmatizer WordNet là một lựa chọn tốt nếu bạn muốn biên soạn từ vựng của một số văn bản và muốn có danh sách các lemma hợp lệ (hoặc từ khóa chính của từ điển).

In [86]:
	
wnl = nltk.WordNetLemmatizer()
print([wnl.lemmatize(t) for t in tokens])

['DENNIS', ':', 'Listen', ',', 'strange', 'woman', 'lying', 'in', 'pond', 'distributing', 'sword', 'is', 'no', 'basis', 'for', 'a', 'system', 'of', 'government', '.', 'Supreme', 'executive', 'power', 'derives', 'from', 'a', 'mandate', 'from', 'the', 'mass', ',', 'not', 'from', 'some', 'farcical', 'aquatic', 'ceremony', '.']


# <b>7. Regular Expression for Tokenization</b>

In [87]:
text = 'That U.S.A. poster-print costs $12.40...'
pattern = r'''(?x)     # bật cờ để cho phép sử dụng biểu thức chính quy nhiều dòng
    (?:[A-Z]\.)+       # các chữ viết tắt, ví dụ như U.S.A.
  | \w+(?:-\w+)*       # các từ có thể có dấu gạch nối bên trong
  | \$?\d+(?:\.\d+)?%? # số tiền và tỷ lệ phần trăm, ví dụ như $12.40, 82%
  | \.\.\.             # dấu ba chấm
  | [][.,;"'?():-_`]   # các ký tự dấu câu riêng lẻ; bao gồm cả ], [
'''

# sử dụng regexp_tokenize() để thực hiện phân tách văn bản với nhiều regexp mà dễ đọc hơn
nltk.regexp_tokenize(text, pattern)

['That', 'U.S.A.', 'poster-print', 'costs', '$12.40', '...']