# dữ liệu text trong python

văn bản (text) là dữ liệu dạng chuỗi (sequential) thường gặp. Quá trình chuyển từ text sang vector được gọi là vectorization. Ta có thể thực hiện điều này bằng một trong các cách:

- Chuyển text sang word và biểu diễn mỗi word bằng một vector 

- chuyển text sang character (ký tự) và biểu diễn  mỗi character bằng một vector 

- Tạo một n-gram của các từ và biểu diễn chúng dưới dạng vector 

Text có thể được chia nhỏ ra thành một trong những biểu diễn trên. Mỗi đơn vị nhỏ đó được gọi là một ``token``, và quá trình này được gọi là ``tokenization``. Khi ta chuyển từ text sang token, ta cần map  mỗi token thành một vector. One-hot encoding và word embedding là 2 phương pháp phổ biến nht để làm điều này.

Ví dụ: trong python ta có thể dùng ``list`` để chuyển string sang character (chú ý: dấu cách cũng được xem như character):

In [1]:
python_lang = "Python is an objective programming language"

print(list(python_lang))

['P', 'y', 't', 'h', 'o', 'n', ' ', 'i', 's', ' ', 'a', 'n', ' ', 'o', 'b', 'j', 'e', 'c', 't', 'i', 'v', 'e', ' ', 'p', 'r', 'o', 'g', 'r', 'a', 'm', 'm', 'i', 'n', 'g', ' ', 'l', 'a', 'n', 'g', 'u', 'a', 'g', 'e']


để chuyển text sang word, ta dùng ``split``

In [2]:
print(python_lang.split())

['Python', 'is', 'an', 'objective', 'programming', 'language']


## N gram

N-gram là nhóm các từ được extract (chích xuất) từ text. Trong một **n**-gram, **n** biểu diễn của các word được sử dụng cùng nhau.

Ví dụ:

- Bi-gram (2-gram, $n=2$)

In [6]:
from nltk import ngrams
print(list(ngrams(python_lang.split(),2)))

[('Python', 'is'), ('is', 'an'), ('an', 'objective'), ('objective', 'programming'), ('programming', 'language')]


(nếu chưa có package nltk, bạn dùng lệnh 
 `` conda install -c anaconda nltk`` 
 trong anaconda để lắp)

- Tri-gram ($n=3$):

In [8]:
print(list(ngrams(python_lang.split(),3)))

[('Python', 'is', 'an'), ('is', 'an', 'objective'), ('an', 'objective', 'programming'), ('objective', 'programming', 'language')]


## Vectorization

### One-hot encoding:

In [10]:
import numpy as np

# tạo class để lưu các word và index (ta không tính các word lặp lại)
class dict(object):
    
    def __init__(self):
        self.word_to_index = {}
        self.index_to_word = []
        self.length = 0
        
    def add_word(self,word):
        if word not in self.index_to_word:
            self.index_to_word.append(word)
            self.word_to_index[word] = self.length + 1
            self.length += 1
            return self.word_to_index[word]
    
    def __len__(self):
        return len(self.index_to_word)
    
    def onehot_encoded(self,word):
        vec = np.zeros(self.length)
        vec[self.word_to_index[word]] = 1
        return vec

dic = dict()

for toke in python_lang.split():
    dic.add_word(toke)

print(dic.word_to_index)

{'language': 6, 'Python': 1, 'is': 2, 'programming': 5, 'an': 3, 'objective': 4}


In [18]:
dic.onehot_encoded('Python')

array([0., 1., 0., 0., 0., 0.])

### Word Embedding:

Nếu ta biểu diễn một text có độ dài 10 000 trong one-hot encoding thì ta sẽ có 10 000 vector có độ dài 10 000, mà hầu hết các thành phần trong các vector này có giá trị bằng 0.

``torchtext`` là một phần của PyTorch dành cho NLP. Để lắp trong conda: `` conda install -c derickl torchtext ``