Tokenization
Chuyển đổi văn bản thành các "token" nhỏ hơn (có thể là từ, cụm từ, hoặc câu).

In [15]:
from nltk.tokenize import word_tokenize, sent_tokenize 

text = "hello world. This is an NLTK test. "
words = word_tokenize(text)
sentences = sent_tokenize(text)
print(words)
print(sentences)

['hello', 'world', '.', 'This', 'is', 'an', 'NLTK', 'test', '.']
['hello world.', 'This is an NLTK test.']


Part-of-Speech Tagging
Gán nhãn từ loại cho mỗi token.

In [27]:
import nltk
nltk.download('averaged_perceptron_tagger')   
nltk.download('maxent_ne_chunker')
nltk.download('words')
nltk.download('wordnet')
nltk.download('gutenberg')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Think\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     C:\Users\Think\AppData\Roaming\nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to
[nltk_data]     C:\Users\Think\AppData\Roaming\nltk_data...
[nltk_data]   Package words is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Think\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package gutenberg to
[nltk_data]     C:\Users\Think\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\gutenberg.zip.


True

In [6]:
import nltk
from nltk import pos_tag

words_tagged = pos_tag(words)
print(words_tagged)

[('hello', 'JJ'), ('world', 'NN'), ('.', '.'), ('This', 'DT'), ('is', 'VBZ'), ('an', 'DT'), ('NLTK', 'JJ'), ('test', 'NN'), ('.', '.')]


Named Entity Recognition (NER)
Nhận diện và phân loại các thực thể đặc biệt như tên người, tổ chức, địa điểm.

In [18]:
from nltk import ne_chunk

ner = ne_chunk(pos_tag(word_tokenize(text)))


print(ner)

(S
  hello/JJ
  world/NN
  ./.
  This/DT
  is/VBZ
  an/DT
  (ORGANIZATION NLTK/JJ)
  test/NN
  ./.)


Lemmatization và Stemming
Chuẩn hóa các từ về dạng gốc của chúng.

In [24]:
from nltk.stem import WordNetLemmatizer, PorterStemmer

lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()

lemmatized = [lemmatizer.lemmatize(word) for word in words]
stemmed = [stemmer.stem(word) for word in words]
print(lemmatized)#Lemmatization thích hợp cho các ứng dụng cần đến độ chính xác cao
print(stemmed)#stemming có thể được sử dụng cho các ứng dụng cần đến tốc độ xử lý nhanh và không cần quá chính xác.

['hello', 'world', '.', 'This', 'is', 'an', 'NLTK', 'test', '.']
['hello', 'world', '.', 'thi', 'is', 'an', 'nltk', 'test', '.']


* 1. Word Probabilities
Xác suất của từ là cơ sở cho rất nhiều ứng dụng trong NLP, từ việc tạo mô hình ngôn ngữ cho đến việc phân tích cảm xúc và phân loại văn bản. Trong NLP, xác suất của một từ thường được xác định dựa trên tần suất xuất hiện của nó trong một tập dữ liệu lớn.

In [31]:
# Sử dụng thư viện
from nltk.probability import FreqDist
from nltk.tokenize import word_tokenize
from nltk.corpus import gutenberg

# Lấy một mẫu văn bản từ corpus của Gutenberg
sample_text = gutenberg.raw('shakespeare-macbeth.txt')
tokens = word_tokenize(sample_text)

# Tính tần suất xuất hiện của mỗi từ
freq_dist = FreqDist(tokens)

# Xác suất của một từ cụ thể
word = 'Macbeth'
word_probability = freq_dist[word] / len(tokens)
print(word_probability)

0.002743669320379616


In [30]:
#Code tay
from collections import Counter

# Giả sử `tokens` là một danh sách các từ trong văn bản của bạn
word_counts = Counter(tokens)
total_words = sum(word_counts.values())

# Xác suất của một từ cụ thể
word_probability = word_counts[word] / total_words
print

* 2. Dynamic Programming
(DP) là một kỹ thuật lập trình để giải quyết các bài toán tối ưu hóa bằng cách phân rã chúng thành các bài toán con nhỏ hơn và lưu trữ kết quả của các bài toán con để tránh tính toán lặp lại. DP thường được sử dụng trong các vấn đề như tìm kiếm đường đi tối ưu, tối ưu hóa các chuỗi, và tối thiểu hóa khoảng cách chỉnh sửa.

In [34]:
def fibonacci(n, memo={}):
    if n in memo:
        return memo[n]
    if n <= 2:
        return 1
    memo[n]=fibonacci(n-1, memo) + fibonacci(n-2, memo)
    return memo[n]
fibonacci(10)
#0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610

55

* 3. Minimum Edit Distance
Khoảng cách chỉnh sửa tối thiểu (Minimum Edit Distance) là số lượng thao tác tối thiểu cần thiết để biến đổi một chuỗi thành chuỗi khác, với các thao tác bao gồm chèn, xóa, và thay thế.

Hàm này sử dụng một thuật toán quy hoạch động để tính toán khoảng cách chỉnh sửa. Nó tạo ra một bảng dp kích thước (n+1) x (m+1), trong đó n là độ dài của source và m là độ dài của target. Mỗi ô dp[i][j] trong bảng biểu diễn khoảng cách chỉnh sửa tối thiểu giữa source[:i] và target[:j].

Đầu tiên, hàm khởi tạo hàng đầu tiên và cột đầu tiên của bảng, biểu diễn trường hợp một trong hai chuỗi là chuỗi rỗng.

Sau đó, hàm điền vào phần còn lại của bảng. Nếu source[i-1] bằng target[j-1], thì dp[i][j] bằng dp[i-1][j-1] vì không cần thao tác nào. Nếu không, dp[i][j] bằng 1 cộng với giá trị nhỏ nhất của dp[i-1][j] (xóa), dp[i][j-1] (chèn), và dp[i-1][j-1] (thay thế).

Cuối cùng, hàm trả về dp[n][m], là khoảng cách chỉnh sửa tối thiểu giữa source và target.

Trong trường hợp của bạn, min_edit_distance('intention','execution') trả về 5, có nghĩa là cần ít nhất 5 thao tác để biến đổi 'intention' thành 'execution'.

In [40]:
def min_edit_distance(source, target):
    n = len(source)
    m = len(target)
    dp = [[0]*(m+1) for _ in range(n+1)]
    
    for i in range(n+1):
        dp[i][0] = i
    for j in range(m+1):
        dp[0][j] = j
    
    for i in range(1,n+1):
        for j in range(1,m+1):
            if source[i-1]== target[j-1]:
                dp[i][j]=dp[i-1][j-1]
            else:
                dp[i][j]=1 + min(dp[i-1][j], dp[i][j-1],dp[i-1][j-1])
    return dp[n][m]
min_edit_distance('intention','execution')

5

* 4. Autocorrect
Tính năng tự động sửa lỗi thường dựa vào khoảng cách chỉnh sửa tối thiểu để tìm từ gần giống nhất với từ bị lỗi.

In [None]:
# Giả sử `vocabulary` là một danh sách các từ hợp lệ và `word` là từ cần sửa
def autocorrect(word, vocabulary):
    min_distance = float('inf')
    correct_word = word
    for v in vocabulary:
        distance = min_edit_distance(word, v)
        if distance < min_distance:
            min_distance = distance
            correct_word = v
    return correct_word
autocorrect(word=)