# **Text Tokenization and Stop Words Removal using NLTK**

# Động lực phát triển NLTK

- Vào đầu thế kỷ 21, nhu cầu về các công cụ hỗ trợ nghiên cứu và giảng dạy NLP ngày càng tăng. Nhận thấy điều này, Steven Bird và Edward Loper từ Đại học Pennsylvania đã phát triển NLTK vào năm 2001. Mục tiêu của họ là tạo ra một bộ công cụ dễ sử dụng, giúp sinh viên và nhà nghiên cứu tiếp cận NLP một cách trực quan và hiệu quả.

    | Steven Bird | Edward Loper |
    |---------|---------|
    | ![Steven Bird](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQ4Zzcdzwd4Rhw_a8Bnl6NUg1c-fxk_MKIxPQ&s) | ![Edward Loper](https://www.github.com/edloper.png) |

- Ra đời vào năm 2001, cho đến nay, NLTK đã trở thành một trong những thư viện NLP phổ biến nhất, được sử dụng rộng rãi trong cả học thuật và công nghiệp.

# Những điểm thú vị về NLTK

- **Kho ngữ liệu phong phú:** NLTK cung cấp hơn 50 kho ngữ liệu (corpora) khác nhau, giúp người dùng dễ dàng thực hiện các tác vụ NLP đa dạng.

- **Tính năng đa dạng:** Thư viện hỗ trợ nhiều chức năng như phân loại (classification), tách từ (tokenization), gán nhãn từ loại (POS tagging), phân tích cú pháp (parsing) và suy luận ngữ nghĩa (semantic reasoning).

- **Cộng đồng lớn mạnh:** Với sự phổ biến của mình, NLTK có một cộng đồng người dùng và nhà phát triển đông đảo, liên tục đóng góp và cải tiến thư viện.

  - GitHub repository của NLTK có đến hơn 13700 sao và hơn 2900 lượt fork. (27/12/2024)

  - NLTK được sử dụng ở hơn 329000 public GitHub repo. (27/12/2024)

  - Vào ngày 19 tháng 8 năm 2024, NLTK phiên bản 3.9 được released. Thì điều này nghĩa là thư viện này vẫn đang được phát triển và có lượng người dùng bền vững.

- **Tài liệu học tập:** NLTK đi kèm với nhiều tài liệu hướng dẫn và ví dụ minh họa, giúp người mới bắt đầu dễ dàng tiếp cận và học hỏi.

  - [Sách Natual Language Processing with Python](https://tjzhifei.github.io/resources/NLTK.pdf)

  - [Tutorial về NLTK của trang Real Python](https://realpython.com/nltk-nlp-python/)

# Một số ứng dụng thực tế của NLTK

- **Phân tích cảm xúc:** Xác định cảm xúc trong các đoạn văn bản, như đánh giá sản phẩm hoặc phản hồi của khách hàng.

- **Tóm tắt văn bản:** Tạo ra các bản tóm tắt ngắn gọn từ các tài liệu dài.

- **Nhận diện thực thể:** Xác định và phân loại các thực thể như tên người, địa điểm, tổ chức trong văn bản.

- Trong phần demo này, mình sẽ tập trung vào bài toán phân loại cảm xúc (sentiment analysis). Bộ dữ liệu mình sử dụng có thể tìm thấy ở link sau: [SPOT](https://github.com/EdinburghNLP/spot-data/tree/master/data).

# Nội dung chính

In [57]:
# Import các thư viện cần thiết từ NLTK, scikit-learn, và numpy
# để chuẩn bị cho bài toán phân loại.
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

In [58]:
# Tải các tài nguyên của NLTK, bao gồm punkt tokenizer
# và danh sácch các stop word.
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/conquerormikrokosmos/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/conquerormikrokosmos/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Tokenization

### Word Tokenization

In [59]:
text = "The quick brown fox jumps over the lazy dog."
tokens = word_tokenize(text)
tokens

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']

### Sentence Tokenization

In [60]:
text = "Hello there! How are you doing today? NLTK is pretty cool."
sentences = sent_tokenize(text)
sentences

['Hello there!', 'How are you doing today?', 'NLTK is pretty cool.']

### Character Tokenization

In [61]:
# Sample text
text = "Hello, NLTK!"

# Character tokenization
char_tokens = list(text)

char_tokens

['H', 'e', 'l', 'l', 'o', ',', ' ', 'N', 'L', 'T', 'K', '!']

### Subword Tokenization

#### Byte-pair Encoding (BPE)

In [62]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

# Initialize a tokenizer
tokenizer = Tokenizer(BPE())

# Set a pre-tokenizer to split input text into words
tokenizer.pre_tokenizer = Whitespace()

# Initialize a trainer with desired vocabulary size
trainer = BpeTrainer(vocab_size=100, min_frequency=2)

# Sample corpus
corpus = [
    "This is a simple example to demonstrate Byte Pair Encoding.",
    "Byte Pair Encoding is used in NLP for tokenization.",
    "Tokenization is essential for processing text data."
]

# Train the tokenizer
tokenizer.train_from_iterator(corpus, trainer)






In [63]:
# Encode a new sentence
encoding = tokenizer.encode("Byte Pair Encoding is effective for tokenization.")

# Print the tokens
print("Tokens:", encoding.tokens)

# Print the token IDs
print("Token IDs:", encoding.ids)

Tokens: ['Byte', 'Pair', 'Encoding', 'is', 'e', 'f', 'f', 'e', 'c', 't', 'i', 'e', 'for', 't', 'okenization', '.']
Token IDs: [50, 52, 58, 30, 10, 11, 11, 10, 8, 23, 14, 10, 54, 23, 57, 0]


#### WordPiece

In [64]:
from tokenizers import Tokenizer
from tokenizers.models import WordPiece
from tokenizers.trainers import WordPieceTrainer
from tokenizers.pre_tokenizers import Whitespace

# Initialize a tokenizer
tokenizer = Tokenizer(WordPiece(unk_token="[UNK]"))

# Set a pre-tokenizer to split input text into words
tokenizer.pre_tokenizer = Whitespace()

# Initialize a trainer with desired vocabulary size
trainer = WordPieceTrainer(vocab_size=100, special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

# Sample corpus
corpus = [
    "Natural language processing is a fascinating field.",
    "WordPiece tokenization helps in handling rare words.",
    "Tokenization is essential for processing text data."
]

# Train the tokenizer
tokenizer.train_from_iterator(corpus, trainer)






In [65]:
# Encode a new sentence
encoding = tokenizer.encode("Tokenization is crucial for NLP tasks.")

# Print the tokens
print("Tokens:", encoding.tokens)

# Print the token IDs
print("Token IDs:", encoding.ids)

Tokens: ['Tokenization', 'is', 'c', '##r', '##u', '##c', '##ial', 'for', '[UNK]', 't', '##a', '##s', '##k', '##s', '.']
Token IDs: [74, 55, 11, 38, 44, 32, 91, 79, 0, 25, 30, 31, 42, 31, 5]


#### Dùng WordPiece Tokenizer được huấn luyện trước

In [66]:
from transformers import BertTokenizer

# Load the pre-trained BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Encode a sentence
encoding = tokenizer.encode_plus(
    "Tokenization is crucial for NLP tasks.",
    add_special_tokens=True,  # Adds [CLS] and [SEP] tokens
    return_tensors='pt'       # Returns PyTorch tensors
)

# Print the input IDs
print("Input IDs:", encoding['input_ids'])

# Print the tokens
tokens = tokenizer.convert_ids_to_tokens(encoding['input_ids'][0])
print("Tokens:", tokens)

Unable to convert output to tensors format pt, PyTorch or TensorFlow is not available.


Input IDs: [101, 19204, 3989, 2003, 10232, 2005, 17953, 2361, 8518, 1012, 102]
Tokens: [CLS]


#### Khi nào dùng BPE và khi nào dùng WordPiece?

**BPE:**
- Khi cần tốc độ.
- Khi corpus không lớn và ngữ cảnh không phức tạp.

**WordPiece:**
- Khi cần ngữ cảnh chính xác hơn.
- Khi mô hình cần độ chính xác cao (như trong BERT).

## Stop Words Removal

### Dùng danh sách các stop word của NLTK

In [67]:
stop_words = set(stopwords.words('english'))
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
filtered_tokens

['[', 'C', 'L', ']']

### Customize danh sách stop word

In [68]:
custom_stop_words = stop_words.union({'quick', 'brown'})
filtered_tokens_custom = [word for word in tokens if word.lower() not in custom_stop_words]
filtered_tokens_custom

['[', 'C', 'L', ']']