## Tách câu (Sentence Tokenize)

In [1]:
from underthesea import sent_tokenize

text = 'Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng. Amanda cũng thoải mái với mối quan hệ này.'

sent_tokenize(text)


['Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng.',
 'Amanda cũng thoải mái với mối quan hệ này.']

## Tách từ (Word Tokenize)

In [2]:
from underthesea import word_tokenize

text = "Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò"

# Trả về dạng list
word_tokenize(text)

# Trả về dạng text với dấu gạch dưới
word_tokenize(text, format="text")

# Tách từ với từ cố định
text = "Viện Nghiên Cứu chiến lược quốc gia về học máy"
fixed_words = ["Viện Nghiên Cứu", "học máy"]
word_tokenize(text, fixed_words=fixed_words)


['Viện Nghiên Cứu', 'chiến lược', 'quốc gia', 'về', 'học máy']

## POS Tagging (Gán nhãn từ loại)

In [3]:
from underthesea import pos_tag

pos_tag('Chợ thịt chó nổi tiếng ở Sài Gòn bị truy quét')

[('Chợ', 'N'),
 ('thịt', 'N'),
 ('chó', 'N'),
 ('nổi tiếng', 'A'),
 ('ở', 'E'),
 ('Sài Gòn', 'Np'),
 ('bị', 'V'),
 ('truy quét', 'V')]

## Stopwords (Từ dừng)

In [9]:
import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords

# Lấy danh sách stopwords tiếng Anh
stop_words = set(stopwords.words('english'))

text = "This is a sample sentence with some stopwords"
words = text.split()
filtered = [word for word in words if word.lower() not in stop_words]
print(filtered)

['sample', 'sentence', 'stopwords']


[nltk_data] Downloading package stopwords to /home/temp-
[nltk_data]     user/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Similar Words (Từ đồng nghĩa/gần nghĩa)

In [5]:
from gensim.models import Word2Vec

# Train model với corpus của bạn
sentences = [["cat", "say", "meow"], ["dog", "say", "woof"], 
             ["cat", "like", "fish"], ["dog", "like", "bone"]]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1)

# Tìm từ tương tự
similar = model.wv.most_similar('cat', topn=3)
print(similar)

# Hoặc dùng pre-trained model (Google News, GloVe)
# import gensim.downloader as api
# model = api.load('word2vec-google-news-300')
# similar = model.most_similar('king', topn=5)


[('fish', 0.13149002194404602), ('dog', 0.06797593086957932), ('woof', 0.04157734289765358)]


## Stemming và Lemmatization

### stemming
Stemming in NLP (Gốc từ trong xử lý ngôn ngữ tự nhiên) là quá trình cắt bỏ phần đuôi của từ để đưa về dạng gốc hoặc dạng rút gọn, giúp mô hình nhận biết các từ cùng gốc nghĩa như nhau.

In [7]:
import nltk

# Download đúng resource name
nltk.download('punkt_tab')

from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()
text = "running runner runs easily fairly"
words = word_tokenize(text)
stemmed = [stemmer.stem(word) for word in words]
print(stemmed)  # Output: ['run', 'runner', 'run', 'easili', 'fairli']

[nltk_data] Downloading package punkt_tab to /home/temp-
[nltk_data]     user/nltk_data...


['run', 'runner', 'run', 'easili', 'fairli']


[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


### Lemmatization
Lemmatization là một kỹ thuật trong xử lý ngôn ngữ tự nhiên (NLP) dùng để chuẩn hóa các từ ngữ về dạng cơ bản (lemma), giúp loại bỏ các biến thể của từ như thì động từ, số (ít/số nhiều), hay dạng phân từ. Khác với stemming, lemmatization không chỉ cắt bỏ mà còn xét đến ngữ nghĩa, đảm bảo từ được chuẩn hóa vẫn có nghĩa gốc hợp lý. Ví dụ, từ "better" sẽ được lemmatize thành "good", "running" sẽ trở thành "run".

In [8]:
nltk.download('wordnet')
nltk.download('omw-1.4')

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ["running", "ran", "better", "geese"]
lemmatized = [lemmatizer.lemmatize(word, pos='v') for word in words]
print(lemmatized)  # Output: ['run', 'run', 'better', 'geese']


[nltk_data] Downloading package wordnet to /home/temp-
[nltk_data]     user/nltk_data...
[nltk_data] Downloading package omw-1.4 to /home/temp-
[nltk_data]     user/nltk_data...


['run', 'run', 'better', 'geese']
