In [1]:
import string

remove_characters = '\t' + string.punctuation # Tạo danh sách các kí tự loại bỏ
def text_normalize(text):
    """
    Hàm chuẩn hóa văn bản
    
    Chuyển văn bản sang viết thường
    Xóa khoảng trắng ở rìa văn bản
    Thay kí tự xuống bằng khoảng trắng
    Xóa các kí tự đặc biệt
    """
    
    text = text.lower()
    text = text.strip()
    text = text.replace('\n', ' ')
    for char in remove_characters:
        text = text.replace(char, '')
        
    return text

def create_dictionary(corpus):
    """
    Hàm tạo bộ từ vựng
    
    Duyệt văn bản và chuẩn hóa
    Tách văn bản thành list các từ (tokens)
    Duyệt qua các token, nếu token đang xét chưa nằm trong bộ từ vừng thì thêm vào
    """
    dictionary = []
    for paragraph in corpus:
        paragraph = text_normalize(paragraph)
        tokens = paragraph.split()
        for token in tokens:
            if token not in dictionary:
                dictionary.append(token)
                
    return dictionary
        
def vectorize(text, dictionary, unknown_token_id):
    """
    Hàm biểu diễn văn bản
    - text: là một string (văn bản)
    - dictionary: là một list các từ (bộ từ vựng)
    - unknown_token_id: là một số nguyên đại diện cho kí tự không tồn tại trong bộ từ vựng
    
    Chuẩn hóa văn bản đầu vào
    Tách thành list các từ (tokens)
    Chuyển đổi các từ trong văn bản text thành các số nguyên sử dụng chỉ mục tương ứng của chúng trong dictionary. Nếu từ đang xét không nằm trong dictionary thì đổi từ đó thành unknown_token_id
    """
    text = text_normalize(text)
    tokens = text.split()
    vector = [dictionary.index(token) if token in dictionary else unknown_token_id for token in tokens]
    
    return vector

In [3]:
paragraph = 'Hello World . This is a text representation ( vectorization ) example .'
corpus = [paragraph]
dictionary = create_dictionary(corpus)
text = 'Hello World . My name is AI.'
unknown_token_id = len(dictionary)

print(dictionary)
print(vectorize(text, dictionary, unknown_token_id))

['hello', 'world', 'this', 'is', 'a', 'text', 'representation', 'vectorization', 'example']
[0, 1, 9, 9, 3, 9]


In [6]:
paragraph = """
Hướng nhìn về tương lai của Văn học Pháp tại Việt Nam

NXB Tri thức và Viện Pháp tại Hà Nội vừa tổ chức Tọa đàm 'Dấu ấn văn hóa Pháp qua một số tác phẩm xuất bản tại Việt Nam'.

Tham dự Tọa đàm Dấu ấn văn hóa Pháp qua một số tác phẩm xuất bản tại Việt Nam, có ba diễn giả: PGS.TS Phùng Ngọc Kiên, Trưởng Ban Văn học Nước ngoài, Viện Văn học; TS. Dịch giả Nguyễn Giáng Hương, Thư viện Quốc gia Pháp; ông Mai Anh Tuấn - Giảng viên Đại học Văn hóa Hà Nội; điều phối bởi GS Chu Hảo, nguyên Giám đốc NXB Tri thức.
“Gần 20 năm qua, chúng tôi đã xuất bản gần 50 cuốn sách của các tác giả người Pháp. NXB Tri thức luôn dành tình cảm lớn trong việc thể hiện văn hóa và dấu ấn của văn hóa Pháp, và mong muốn được truyền tải đến Việt Nam trong thời gian qua và thời gian tới”, bà Phạm Thị Bích Hồng, Giám đốc NXB Tri thức cho  biết.
Tại buổi tọa đàm, GS Chu Hảo nhận xét về sự thay đổi trong việc sử dụng ngoại ngữ hiện nay: “Sau một thời gian tiếng Anh hóa thì bây giờ các bạn trẻ quay lại với tiếng Pháp, Tây Ban Nha. Đó là một dấu hiệu tốt để đa dạng nền văn hóa. Tiếng Pháp được mệnh danh là một trong những ngôn ngữ lãng mạn nhất hành tinh, là thứ ngôn ngữ của tình yêu bởi sự tinh tế và thanh lịch".
TS. Dịch giả Nguyễn Giáng Hương nhận định rằng các tác giả người Pháp được NXB Tri Thức lựa chọn đều là những cá nhân đặc biệt. “Họ đại diện cho nền tư tưởng khoa học phương Tây. Tiêu biểu như Jean-Jacques Rousseau, một nhà triết học thuộc trường phái khai sáng, có ảnh hưởng lớn tới Cách mạng Pháp năm 1789. Ông cũng viết và đóng góp quan trọng cho trào lưu lãng mạn của văn học Pháp. Tác phẩm của Rousseau được đọc và nghiên cứu rộng rãi bởi chính cái nhìn sâu sắc về con người. Những lời bộc bạch đã mở đầu cho phong trào viết hồi ký hiện đại, tác động nhiều tới xu hướng này ở Việt Nam".
Với tư cách là một độc giả, ông Mai Anh Tuấn- Giảng viên Đại học Văn hóa Hà Nội háo hức khi đón nhận những cuốn sách dịch từ tiếng Pháp. Nhưng cũng có tâm lý e dè bởi đây là các tác phẩm không dễ đọc, đòi hỏi vượt qua bản thân để tiếp cận tri thức.
Trước câu hỏi "Phương pháp nào để giới trẻ tiếp cận những cuốn sách khó đọc trong Tủ sách Tinh hoa?", diễn giả Mai Anh Tuấn nêu rõ 3 bước: lựa chọn sách gần với sự quan tâm và khả năng làm việc; đọc trực tiếp trên văn bản, khó thì dành nhiều công nghiên cứu kỹ hơn; bắt đầu vận dụng những cuốn sách vào công việc.
TS. Dịch giả Nguyễn Giáng Hương bày tỏ mong muốn người đọc hãy chọn sách khéo léo: “Khi một NXB chọn cuốn nào, họ đều có lý do, vậy nên với tư cách là độc giả, chúng ta cũng phải có sở cứ của mình. Cần tìm hiểu tác giả là ai, dịch giả là ai, chọn tủ sách mình yêu thích phù hợp với sự tìm tòi của bản thân. Qua đó, hình thành thái độ đọc một cách chủ động, không mang tính dập khuôn, chịu sự áp đặt từ người khác”.
"""
corpus = [paragraph]
dictionary = create_dictionary(corpus)
unknown_token_id = len(dictionary)

In [7]:
dictionary

['hướng',
 'nhìn',
 'về',
 'tương',
 'lai',
 'của',
 'văn',
 'học',
 'pháp',
 'tại',
 'việt',
 'nam',
 'nxb',
 'tri',
 'thức',
 'và',
 'viện',
 'hà',
 'nội',
 'vừa',
 'tổ',
 'chức',
 'tọa',
 'đàm',
 'dấu',
 'ấn',
 'hóa',
 'qua',
 'một',
 'số',
 'tác',
 'phẩm',
 'xuất',
 'bản',
 'tham',
 'dự',
 'có',
 'ba',
 'diễn',
 'giả',
 'pgsts',
 'phùng',
 'ngọc',
 'kiên',
 'trưởng',
 'ban',
 'nước',
 'ngoài',
 'ts',
 'dịch',
 'nguyễn',
 'giáng',
 'hương',
 'thư',
 'quốc',
 'gia',
 'ông',
 'mai',
 'anh',
 'tuấn',
 'giảng',
 'viên',
 'đại',
 'điều',
 'phối',
 'bởi',
 'gs',
 'chu',
 'hảo',
 'nguyên',
 'giám',
 'đốc',
 '“gần',
 '20',
 'năm',
 'chúng',
 'tôi',
 'đã',
 'gần',
 '50',
 'cuốn',
 'sách',
 'các',
 'người',
 'luôn',
 'dành',
 'tình',
 'cảm',
 'lớn',
 'trong',
 'việc',
 'thể',
 'hiện',
 'mong',
 'muốn',
 'được',
 'truyền',
 'tải',
 'đến',
 'thời',
 'gian',
 'tới”',
 'bà',
 'phạm',
 'thị',
 'bích',
 'hồng',
 'cho',
 'biết',
 'buổi',
 'nhận',
 'xét',
 'sự',
 'thay',
 'đổi',
 'sử',
 'dụng',
 'ngo

In [8]:
text = 'thư viện'
vectorize(text, dictionary, unknown_token_id) 

[53, 16]