# one-hot vectors

In [3]:
import numpy as np
sentence = """Thomas Jefferson began building Monticello at the age of 26."""
token_sequence = str.split(sentence)
vocab = sorted(set(token_sequence))
', '.join(vocab)

'26., Jefferson, Monticello, Thomas, age, at, began, building, of, the'

In [9]:
num_tokens = len(token_sequence)
vocab_size = len(vocab)
onehot_vectors = np.zeros((num_tokens, vocab_size),int)
for i, word in enumerate(token_sequence):
    onehot_vectors[i, vocab.index(word)] = 1
onehot_vectors

array([[0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [10]:
import pandas as pd
pd.DataFrame(onehot_vectors, columns=vocab)

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,0,0,0,1,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,1,0,0,0
3,0,0,0,0,0,0,0,1,0,0
4,0,0,1,0,0,0,0,0,0,0
5,0,0,0,0,0,1,0,0,0,0
6,0,0,0,0,0,0,0,0,0,1
7,0,0,0,0,1,0,0,0,0,0
8,0,0,0,0,0,0,0,0,1,0
9,1,0,0,0,0,0,0,0,0,0


Các vector one-hot là rất thưa, chỉ bao gồm một giá trị khác không cho mỗi hàng vector. Vì vậy có thể tạo 1 bảng one-hot vector bằng cách thay thế số 0 bằng các ký tự rỗng. Đừng làm điều này với bất kỳ DataFrame bạn đang sử dụng cho pipeline máy học của bạn, bởi vì nó sẽ tạo rất nhiều các đối tượng không số trong mảng numpy. Nhưng nếu bạn chỉ muốn nhìn xem vector one-hot nó như thế nào thì làm như sau:

In [11]:
df = pd.DataFrame(onehot_vectors, columns=vocab)
df[df==0] = ''
df

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,,,,1.0,,,,,,
1,,1.0,,,,,,,,
2,,,,,,,1.0,,,
3,,,,,,,,1.0,,
4,,,1.0,,,,,,,
5,,,,,,1.0,,,,
6,,,,,,,,,,1.0
7,,,,,1.0,,,,,
8,,,,,,,,,1.0,
9,1.0,,,,,,,,,


Cấu trên có 10 từ và không lặp lại bất kỳ từ nào. Bảng có 10 cột (các từ trong vocabulary) và 10 hàng (từ trong document). phần tử "1" trong một cột chỉ ra vị trí mà nó có mặt trong document. Vì vậy, nếu bạn muốn biết từ thứ 3 trong documnet thì bạn lên hàng thứ 3 trong bảng, và bạn sẽ nhìn thấy cột có giá trị một ở hàng 3 (cột có label là 2, bởi vì đánh số từ 0). Tìm cột thứ 7 trong bảng, bạn có thể thấy tương ứng là từ "began".

Mỗi hàng trong bảng là một vector nhị phân, và bạn có thể nhìn thấy rằng tại sao nó gọi là one-hot vector: tất cả vị trị trong 1 hàng là 0 hoặc rỗng, chỉ một cột, hoặc vị trí trong vector là "hot" ("1"). Một one (1) nghĩa là on, hoặc hot. Một zero(0) nghĩa là off, hoặc abesent (vắng mặt). Và bạn có thể sử dụng vector [0, 0, 0, 0, 0, 0, 1, 0, 0, 0] để biểu diễn từ "began" trong pipeline NLP.

<b> (Vấn đề về lưu trữ) </b><br/>
token gồm 1 triệu từ<br/>
Giả sử bạn có 3000 quyển sách với 3500 câu và 15 từ mỗi câu:

In [13]:
num_rows = 3000*3500*15
num_rows
# số hàng trong bảng

157500000

In [15]:
# số byte sử dụng, nếu bạn chỉ sử dụng 1 byte cho mỗi ô trong bảng
num_bytes = num_rows * 1000000
num_bytes

157500000000000

In [22]:
num_bytes/1e9
# số giabytes sử dụng

157500.0

In [23]:
_

157500.0

Trong python console, biến _ tự động lấy giá trị output trước

In [24]:
_/1000
# số terabytes

157.5

# Vector bag-of-words

In [25]:
sentence_bow = {}
for token in sentence.split():
    sentence_bow[token] = 1
sorted(sentence_bow.items())

[('26.', 1),
 ('Jefferson', 1),
 ('Monticello', 1),
 ('Thomas', 1),
 ('age', 1),
 ('at', 1),
 ('began', 1),
 ('building', 1),
 ('of', 1),
 ('the', 1)]

In [27]:
import pandas as pd
df = pd.DataFrame(pd.Series(dict([(token, 1) for token in sentence.split()])), columns=['sent']).T

In [30]:
dict([('26',1),('Thang',1)])

{'26': 1, 'Thang': 1}

In [31]:
df

Unnamed: 0,Thomas,Jefferson,began,building,Monticello,at,the,age,of,26.
sent,1,1,1,1,1,1,1,1,1,1


In [32]:
sentences = """Thomas Jefferson began building Monticello at the age of 26.\n"""
sentences += """Construction was done mostly by local masons and carpenters.\n"""
sentences += "He moved into the South Pavilion in 1770.\n"
sentences += """Turning Monticello into a neoclassical masterpiece was Jefferson's obsession."""


In [33]:
sentences

"Thomas Jefferson began building Monticello at the age of 26.\nConstruction was done mostly by local masons and carpenters.\nHe moved into the South Pavilion in 1770.\nTurning Monticello into a neoclassical masterpiece was Jefferson's obsession."

In [34]:
corpus = {}


In [36]:
for i, sent in enumerate(sentences.split('\n')):
    corpus['sent{}'.format(i)] = dict((tok,1) for tok in sent.split())
df = pd.DataFrame.from_records(corpus).fillna(0).astype(int).T
df[df.columns[:10]]

Unnamed: 0,1770.,26.,Construction,He,Jefferson,Jefferson's,Monticello,Pavilion,South,Thomas
sent0,0,1,0,0,1,0,1,0,0,1
sent1,0,0,1,0,0,0,0,0,0,0
sent2,1,0,0,1,0,0,0,1,1,0
sent3,0,0,0,0,0,1,1,0,0,0


In [37]:
df

Unnamed: 0,1770.,26.,Construction,He,Jefferson,Jefferson's,Monticello,Pavilion,South,Thomas,...,local,masons,masterpiece,mostly,moved,neoclassical,obsession.,of,the,was
sent0,0,1,0,0,1,0,1,0,0,1,...,0,0,0,0,0,0,0,1,1,0
sent1,0,0,1,0,0,0,0,0,0,0,...,1,1,0,1,0,0,0,0,0,1
sent2,1,0,0,1,0,0,0,1,1,0,...,0,0,0,0,1,0,0,0,1,0
sent3,0,0,0,0,0,1,1,0,0,0,...,0,0,1,0,0,1,1,0,0,1


Bạn có thể thấy rằng, ít overlap (chồng chéo) trong việc sử dụng các từ trong các câu. Nhìn qua thì ta chỉ thấy từ "Monticello" là xuất hiện nhiều hơn ở 1 câu. Bây giờ bạn cần tính toán overlap này với pipeline của bạn bất cứ khi nào bạn muốn so sánh các document hoặc tìm kiếm các document tương tự. Một cách để kiểm tra sự tương đồn giữa các sentences (câu) là đếm số overlaping tokens sử dụng <b>dot product</b>

## dot product

Bạn sẽ sử dụng dot product nhiều trong NLP, do đó hãy chắc chắn bạn hiểu nó là gì.

Dot product cũng được gọi là <b>inner product</b> vì "inner" chiều của 2 vector (số phần tử mỗi vector) hoặc matrices (các hàng của ma trận đầu tiện và các cột của ma trận thứ 2 phải giống nhau. Điều này giống như "inner join' trên 2 quan hệ bảng dữ liệu.

Sản lượng giá trị vô hướng bởi sản phẩm vô hướng có thể được tính bằng cách nhân tất cả các
các yếu tố của một vector bởi tất cả các yếu tố của một véc tơ thứ hai, và sau đó thêm lên
những sản phẩm nhân bình thường.

In [38]:
v1 = pd.np.array([1,2,3])
v2 = pd.np.array([2,3,4])
v1.dot(v2)

20

In [39]:
v1

array([1, 2, 3])

In [40]:
v2

array([2, 3, 4])

In [41]:
sum([x1*x2 for x1,x2 in zip(v1,v2)])

20

In [43]:
df = df.T

In [44]:
df

Unnamed: 0,sent0,sent1,sent2,sent3
1770.,0,0,1,0
26.,1,0,0,0
Construction,0,1,0,0
He,0,0,1,0
Jefferson,1,0,0,0
Jefferson's,0,0,0,1
Monticello,1,0,0,1
Pavilion,0,0,1,0
South,0,0,1,0
Thomas,1,0,0,0


In [45]:
df.sent0

1770.           0
26.             1
Construction    0
He              0
Jefferson       1
Jefferson's     0
Monticello      1
Pavilion        0
South           0
Thomas          1
Turning         0
a               0
age             1
and             0
at              1
began           1
building        1
by              0
carpenters.     0
done            0
in              0
into            0
local           0
masons          0
masterpiece     0
mostly          0
moved           0
neoclassical    0
obsession.      0
of              1
the             1
was             0
Name: sent0, dtype: int32

In [47]:
df.sent0.dot(df.sent1)

0

In [48]:
df.sent0.dot(df.sent2)

1

In [49]:
df.sent0.dot(df.sent3)

1

tìm các từ dùng chung bởi sent0 và sent3

In [50]:
[(k,v) for (k,v) in (df.sent0 & df.sent3).items() if v]

[('Monticello', 1)]

In [53]:
(df.sent0 & df.sent3).head(8)

1770.           0
26.             0
Construction    0
He              0
Jefferson       0
Jefferson's     0
Monticello      1
Pavilion        0
dtype: int32

In [54]:
import re
sentence = """Thomas Jefferson began building Monticello at the age of 26."""

In [57]:
tokens = re.split(r'[-\s.,;!?]+', sentences)
# tách theo dấu chấm câu hoặc khoảng trắng

In [58]:
tokens

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 'Construction',
 'was',
 'done',
 'mostly',
 'by',
 'local',
 'masons',
 'and',
 'carpenters',
 'He',
 'moved',
 'into',
 'the',
 'South',
 'Pavilion',
 'in',
 '1770',
 'Turning',
 'Monticello',
 'into',
 'a',
 'neoclassical',
 'masterpiece',
 'was',
 "Jefferson's",
 'obsession',
 '']

có thể sử dụng NLTK 

In [59]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
tokenizer

RegexpTokenizer(pattern='\\w+|$[0-9.]+|\\S+', gaps=False, discard_empty=True, flags=<RegexFlag.UNICODE|DOTALL|MULTILINE: 56>)

In [60]:
tokenizer.tokenize(sentence)

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '.']

Một tokenizer thậm chí tốt hơn là Treebank Lời Tokenizer từ gói NLTK.
Nó kết hợp một loạt các quy tắc chung cho từ tiếng Anh tokenization. Ví dụ,
nó tách cụm chấm dứt chấm câu (;?!.,) từ thẻ lân cận và giữ lại
số thập phân có chứa một khoảng thời gian như một thẻ duy nhất. Ngoài ra nó còn chứa các quy tắc cho
co thắt bằng tiếng Anh. Ví dụ “không” được tokenized như [ "làm", "không"]. tokenization Điều này sẽ giúp các bước tiếp theo trong các đường ống NLP, chẳng hạn như bắt nguồn. Bạn có thể
tất cả các quy tắc cho các Treebank Tokenizer tại http://www.nltk.org/api/nltk.tokenize
.html # mô-đun-nltk.tokenize.treebank

In [62]:
from nltk.tokenize import TreebankWordTokenizer
sentence = """Monticello wasn't designated as UNESCO World Heritage site until 1987."""
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(sentence)

['Monticello',
 'was',
 "n't",
 'designated',
 'as',
 'UNESCO',
 'World',
 'Heritage',
 'site',
 'until',
 '1987',
 '.']

### Tokenize informal text from social networks such as Twitter and Facebook

Chức năng casual_tokenize cho phép bạn dải tên người dùng và giảm số lượng các ký tự lặp đi lặp lại trong một mã thông báo:

In [64]:
from nltk.tokenize.casual import casual_tokenize
message = """RT @TJMonticello Best day everrrrrrr at Monticello. Awesommmmmmeeeeeeee day :*)"""

In [65]:
message

'RT @TJMonticello Best day everrrrrrr at Monticello. Awesommmmmmeeeeeeee day :*)'

In [66]:
casual_tokenize(message)

['RT',
 '@TJMonticello',
 'Best',
 'day',
 'everrrrrrr',
 'at',
 'Monticello',
 '.',
 'Awesommmmmmeeeeeeee',
 'day',
 ':*)']

In [67]:
casual_tokenize(message, reduce_len=True, strip_handles=True)

['RT',
 'Best',
 'day',
 'everrr',
 'at',
 'Monticello',
 '.',
 'Awesommmeee',
 'day',
 ':*)']

### Mở rộng vốn từ với n-grams

In [68]:
# 80/545