# one-hot vectors

In [1]:
import numpy as np
sentence = """Thomas Jefferson began building Monticello at the age of 26."""
token_sequence = str.split(sentence)
vocab = sorted(set(token_sequence))
', '.join(vocab)

'26., Jefferson, Monticello, Thomas, age, at, began, building, of, the'

In [2]:
num_tokens = len(token_sequence)
vocab_size = len(vocab)
onehot_vectors = np.zeros((num_tokens, vocab_size),int)
for i, word in enumerate(token_sequence):
    onehot_vectors[i, vocab.index(word)] = 1
onehot_vectors

array([[0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [3]:
import pandas as pd
pd.DataFrame(onehot_vectors, columns=vocab)

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,0,0,0,1,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,1,0,0,0
3,0,0,0,0,0,0,0,1,0,0
4,0,0,1,0,0,0,0,0,0,0
5,0,0,0,0,0,1,0,0,0,0
6,0,0,0,0,0,0,0,0,0,1
7,0,0,0,0,1,0,0,0,0,0
8,0,0,0,0,0,0,0,0,1,0
9,1,0,0,0,0,0,0,0,0,0


Các vector one-hot là rất thưa, chỉ bao gồm một giá trị khác không cho mỗi hàng vector. Vì vậy có thể tạo 1 bảng one-hot vector bằng cách thay thế số 0 bằng các ký tự rỗng. Đừng làm điều này với bất kỳ DataFrame bạn đang sử dụng cho pipeline máy học của bạn, bởi vì nó sẽ tạo rất nhiều các đối tượng không số trong mảng numpy. Nhưng nếu bạn chỉ muốn nhìn xem vector one-hot nó như thế nào thì làm như sau:

In [4]:
df = pd.DataFrame(onehot_vectors, columns=vocab)
df[df==0] = ''
df

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,,,,1.0,,,,,,
1,,1.0,,,,,,,,
2,,,,,,,1.0,,,
3,,,,,,,,1.0,,
4,,,1.0,,,,,,,
5,,,,,,1.0,,,,
6,,,,,,,,,,1.0
7,,,,,1.0,,,,,
8,,,,,,,,,1.0,
9,1.0,,,,,,,,,


Cấu trên có 10 từ và không lặp lại bất kỳ từ nào. Bảng có 10 cột (các từ trong vocabulary) và 10 hàng (từ trong document). phần tử "1" trong một cột chỉ ra vị trí mà nó có mặt trong document. Vì vậy, nếu bạn muốn biết từ thứ 3 trong documnet thì bạn lên hàng thứ 3 trong bảng, và bạn sẽ nhìn thấy cột có giá trị một ở hàng 3 (cột có label là 2, bởi vì đánh số từ 0). Tìm cột thứ 7 trong bảng, bạn có thể thấy tương ứng là từ "began".

Mỗi hàng trong bảng là một vector nhị phân, và bạn có thể nhìn thấy rằng tại sao nó gọi là one-hot vector: tất cả vị trị trong 1 hàng là 0 hoặc rỗng, chỉ một cột, hoặc vị trí trong vector là "hot" ("1"). Một one (1) nghĩa là on, hoặc hot. Một zero(0) nghĩa là off, hoặc abesent (vắng mặt). Và bạn có thể sử dụng vector [0, 0, 0, 0, 0, 0, 1, 0, 0, 0] để biểu diễn từ "began" trong pipeline NLP.

<b> (Vấn đề về lưu trữ) </b><br/>
token gồm 1 triệu từ<br/>
Giả sử bạn có 3000 quyển sách với 3500 câu và 15 từ mỗi câu:

In [5]:
num_rows = 3000*3500*15
num_rows
# số hàng trong bảng

157500000

In [6]:
# số byte sử dụng, nếu bạn chỉ sử dụng 1 byte cho mỗi ô trong bảng
num_bytes = num_rows * 1000000
num_bytes

157500000000000

In [7]:
num_bytes/1e9
# số giabytes sử dụng

157500.0

In [8]:
_

157500.0

Trong python console, biến _ tự động lấy giá trị output trước

In [9]:
_/1000
# số terabytes

157.5

# Vector bag-of-words

In [10]:
sentence_bow = {}
for token in sentence.split():
    sentence_bow[token] = 1
sorted(sentence_bow.items())

[('26.', 1),
 ('Jefferson', 1),
 ('Monticello', 1),
 ('Thomas', 1),
 ('age', 1),
 ('at', 1),
 ('began', 1),
 ('building', 1),
 ('of', 1),
 ('the', 1)]

In [11]:
import pandas as pd
df = pd.DataFrame(pd.Series(dict([(token, 1) for token in sentence.split()])), columns=['sent']).T

In [12]:
dict([('26',1),('Thang',1)])

{'26': 1, 'Thang': 1}

In [13]:
df

Unnamed: 0,Thomas,Jefferson,began,building,Monticello,at,the,age,of,26.
sent,1,1,1,1,1,1,1,1,1,1


In [14]:
sentences = """Thomas Jefferson began building Monticello at the age of 26.\n"""
sentences += """Construction was done mostly by local masons and carpenters.\n"""
sentences += "He moved into the South Pavilion in 1770.\n"
sentences += """Turning Monticello into a neoclassical masterpiece was Jefferson's obsession."""


In [15]:
sentences

"Thomas Jefferson began building Monticello at the age of 26.\nConstruction was done mostly by local masons and carpenters.\nHe moved into the South Pavilion in 1770.\nTurning Monticello into a neoclassical masterpiece was Jefferson's obsession."

In [16]:
corpus = {}


In [17]:
for i, sent in enumerate(sentences.split('\n')):
    corpus['sent{}'.format(i)] = dict((tok,1) for tok in sent.split())
df = pd.DataFrame.from_records(corpus).fillna(0).astype(int).T
df[df.columns[:10]]

Unnamed: 0,Thomas,Jefferson,began,building,Monticello,at,the,age,of,26.
sent0,1,1,1,1,1,1,1,1,1,1
sent1,0,0,0,0,0,0,0,0,0,0
sent2,0,0,0,0,0,0,1,0,0,0
sent3,0,0,0,0,1,0,0,0,0,0


In [18]:
df

Unnamed: 0,Thomas,Jefferson,began,building,Monticello,at,the,age,of,26.,...,South,Pavilion,in,1770.,Turning,a,neoclassical,masterpiece,Jefferson's,obsession.
sent0,1,1,1,1,1,1,1,1,1,1,...,0,0,0,0,0,0,0,0,0,0
sent1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
sent2,0,0,0,0,0,0,1,0,0,0,...,1,1,1,1,0,0,0,0,0,0
sent3,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,1,1,1,1,1,1


Bạn có thể thấy rằng, ít overlap (chồng chéo) trong việc sử dụng các từ trong các câu. Nhìn qua thì ta chỉ thấy từ "Monticello" là xuất hiện nhiều hơn ở 1 câu. Bây giờ bạn cần tính toán overlap này với pipeline của bạn bất cứ khi nào bạn muốn so sánh các document hoặc tìm kiếm các document tương tự. Một cách để kiểm tra sự tương đồn giữa các sentences (câu) là đếm số overlaping tokens sử dụng <b>dot product</b>

## dot product

Bạn sẽ sử dụng dot product nhiều trong NLP, do đó hãy chắc chắn bạn hiểu nó là gì.

Dot product cũng được gọi là <b>inner product</b> vì "inner" chiều của 2 vector (số phần tử mỗi vector) hoặc matrices (các hàng của ma trận đầu tiện và các cột của ma trận thứ 2 phải giống nhau. Điều này giống như "inner join' trên 2 quan hệ bảng dữ liệu.

Sản lượng giá trị vô hướng bởi sản phẩm vô hướng có thể được tính bằng cách nhân tất cả các
các yếu tố của một vector bởi tất cả các yếu tố của một véc tơ thứ hai, và sau đó thêm lên
những sản phẩm nhân bình thường.

In [19]:
v1 = pd.np.array([1,2,3])
v2 = pd.np.array([2,3,4])
v1.dot(v2)

20

In [20]:
v1

array([1, 2, 3])

In [21]:
v2

array([2, 3, 4])

In [22]:
sum([x1*x2 for x1,x2 in zip(v1,v2)])

20

In [23]:
df = df.T

In [24]:
df

Unnamed: 0,sent0,sent1,sent2,sent3
Thomas,1,0,0,0
Jefferson,1,0,0,0
began,1,0,0,0
building,1,0,0,0
Monticello,1,0,0,1
at,1,0,0,0
the,1,0,1,0
age,1,0,0,0
of,1,0,0,0
26.,1,0,0,0


In [25]:
df.sent0

Thomas          1
Jefferson       1
began           1
building        1
Monticello      1
at              1
the             1
age             1
of              1
26.             1
Construction    0
was             0
done            0
mostly          0
by              0
local           0
masons          0
and             0
carpenters.     0
He              0
moved           0
into            0
South           0
Pavilion        0
in              0
1770.           0
Turning         0
a               0
neoclassical    0
masterpiece     0
Jefferson's     0
obsession.      0
Name: sent0, dtype: int32

In [26]:
df.sent0.dot(df.sent1)

0

In [27]:
df.sent0.dot(df.sent2)

1

In [28]:
df.sent0.dot(df.sent3)

1

tìm các từ dùng chung bởi sent0 và sent3

In [29]:
[(k,v) for (k,v) in (df.sent0 & df.sent3).items() if v]

[('Monticello', 1)]

In [30]:
(df.sent0 & df.sent3).head(8)

Thomas        0
Jefferson     0
began         0
building      0
Monticello    1
at            0
the           0
age           0
dtype: int32

In [31]:
import re
sentence = """Thomas Jefferson began building Monticello at the age of 26."""

In [32]:
tokens = re.split(r'[-\s.,;!?]+', sentences)
# tách theo dấu chấm câu hoặc khoảng trắng

In [33]:
tokens

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 'Construction',
 'was',
 'done',
 'mostly',
 'by',
 'local',
 'masons',
 'and',
 'carpenters',
 'He',
 'moved',
 'into',
 'the',
 'South',
 'Pavilion',
 'in',
 '1770',
 'Turning',
 'Monticello',
 'into',
 'a',
 'neoclassical',
 'masterpiece',
 'was',
 "Jefferson's",
 'obsession',
 '']

có thể sử dụng NLTK 

In [34]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
tokenizer

ModuleNotFoundError: No module named 'nltk'

In [None]:
tokenizer.tokenize(sentence)

Một tokenizer thậm chí tốt hơn là Treebank Lời Tokenizer từ gói NLTK.
Nó kết hợp một loạt các quy tắc chung cho từ tiếng Anh tokenization. Ví dụ,
nó tách cụm chấm dứt chấm câu (;?!.,) từ thẻ lân cận và giữ lại
số thập phân có chứa một khoảng thời gian như một thẻ duy nhất. Ngoài ra nó còn chứa các quy tắc cho
co thắt bằng tiếng Anh. Ví dụ “không” được tokenized như [ "làm", "không"]. tokenization Điều này sẽ giúp các bước tiếp theo trong các đường ống NLP, chẳng hạn như bắt nguồn. Bạn có thể
tất cả các quy tắc cho các Treebank Tokenizer tại http://www.nltk.org/api/nltk.tokenize
.html # mô-đun-nltk.tokenize.treebank

In [None]:
from nltk.tokenize import TreebankWordTokenizer
sentence = """Monticello wasn't designated as UNESCO World Heritage site until 1987."""
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(sentence)

### Tokenize informal text from social networks such as Twitter and Facebook

Chức năng casual_tokenize cho phép bạn dải tên người dùng và giảm số lượng các ký tự lặp đi lặp lại trong một mã thông báo:

In [None]:
from nltk.tokenize.casual import casual_tokenize
message = """RT @TJMonticello Best day everrrrrrr at Monticello. Awesommmmmmeeeeeeee day :*)"""

In [None]:
message

In [None]:
casual_tokenize(message)

In [None]:
casual_tokenize(message, reduce_len=True, strip_handles=True)

### Mở rộng vốn từ với n-grams

Một n-gram là một chuỗi bao gồm n phần tử được trích xuất từ một chuỗi các phần tư, luôn luôn là string. Khái niệm phần tử của một n-gram có thể là các ký tự, âm tiết, từ, hoặc ký tự như là "A", "T", "G" và "C" sử dụng cho chuỗi DNA.

Trong quyển sách này, chúng ta chỉ quan tâm n-gram của từ. Khi chúng ta nói 2-gram, chúng có nghĩa là một cặp từ, ví dụ "đẹp trai", khi chúng ta nói 3-gram, có nghĩa là 3 từ, ví dụ như là "Thắng đẹp trai". n-gram chả phải là cái mẹ gì đặc biệt cả, nó giống như ghép từ.

Đọc thêm:
https://viblo.asia/p/mot-so-phuong-phap-lam-min-trong-mo-hinh-trong-mo-hinh-n-gram-aqkRnbMMRnA

http://elib.ictu.edu.vn/Opacdigital/wpViewFileConvertedTrailer.aspx?Id=3048

1-gram:

In [38]:
sentence = """Thomas Jefferson began building Monticello at the\
... age of 26."""

In [39]:
sentence

'Thomas Jefferson began building Monticello at theage of 26.'

In [52]:
pattern = re.compile(r"([-\s.,;!?])+")
tokens = pattern.split(sentence)

In [55]:
tokens

['Thomas',
 ' ',
 'Jefferson',
 ' ',
 'began',
 ' ',
 'building',
 ' ',
 'Monticello',
 ' ',
 'at',
 ' ',
 'theage',
 ' ',
 'of',
 ' ',
 '26',
 '.',
 '']

In [62]:
tokens = [x for x in tokens if x and x not in '- \t\n.,;!?']

In [63]:
tokens

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'theage',
 'of',
 '26']

n-gram với nltk:

In [64]:
from nltk.util import ngrams

In [65]:
list(ngrams(tokens, 2))

[('Thomas', 'Jefferson'),
 ('Jefferson', 'began'),
 ('began', 'building'),
 ('building', 'Monticello'),
 ('Monticello', 'at'),
 ('at', 'theage'),
 ('theage', 'of'),
 ('of', '26')]

In [67]:
two_grams = list(ngrams(tokens, 2))
[" ".join(x) for x in two_grams]

['Thomas Jefferson',
 'Jefferson began',
 'began building',
 'building Monticello',
 'Monticello at',
 'at theage',
 'theage of',
 'of 26']

Bạn có thể có thể cảm nhận được một vấn đề ở đây. Nhìn vào ví dụ trước, bạn có thể
tưởng tượng rằng các dấu hiệu “Thomas Jefferson” sẽ xảy ra trên một vài tài liệu.
Tuy nhiên, 2-gram “ of 26” hoặc thậm chí “Jefferson bắt đầu” có thể sẽ là cực kỳ hiếm

### Stop word

In [68]:
import nltk
nltk.download('stopwords')
stop_words = nltk.corpus.stopwords.words('english')
len(stop_words)
stop_words[:7]

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Thang\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


['i', 'me', 'my', 'myself', 'we', 'our', 'ours']

In [70]:
[sw for sw in stop_words if len(sw) == 1]

['i', 'a', 's', 't', 'd', 'm', 'o', 'y']

In [71]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS as sklearn_stop_words
len(sklearn_stop_words)

318

### Normalizing your vocabulary

#### CASE FOLDING

In [74]:
tokens = ['House', 'Visitor', 'Center']
normalized_tokens = [x.lower() for x in tokens]
print(normalized_tokens)

['house', 'visitor', 'center']


#### STEMMING

In [76]:
def stem(phrase):
    return ' '.join([re.findall('^(.*ss|.*?)(s)?$',word)[0][0].strip("'") for word in phrase.lower().split()])

In [77]:
stem('houses')

'house'

In [78]:
stem("Doctor House's calls")

'doctor house call'

Hàm stemmer đơn giản là một tập các quy tắc với một biểu thức chính quy ngắn:
* Nếu một từ kết thúc với nhiều từ s, thì stem là từ và suffix là một ký tự trống.
* Nếu một từ kết thúc với một ký tự đơn s, thì stem là từ không có s và suffix là s.
* Nếu một từ không bao gồm kết thúc s, stem là từ và không có suffix trả về.

In [81]:
stem("dishes") # ngu này

'dishe'

In [82]:
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
' '.join([stemmer.stem(w).strip("'") for w in "dish washer's washed dishes".split()])

'dish washer wash dish'

Xem thêm: https://github.com/jedijulia/porter-stemmer/blob/master/stemmer.py

In [83]:
def step1a(self, word):
    if word.endswith('sses'):
        word = self.replace(word, 'sses', 'ss')
    elif word.endswith('ies'):
        word = self.replace(word, 'ies', 'i')
    elif word.endswith('ss'):
        word = self.replace(word, 'ss', 'ss')
    elif word.endswith('s'):
        word = self.replace(word, 's', '')
    return word

#### LEMMATIZATION

Nếu bạn có quyền truy cập vào thông tin về mối liên hệ giữa những ý nghĩa khác nhau
lời nói, bạn có thể có thể nhiều từ kết hợp lại với nhau ngay cả khi chính tả của họ là
khá khác nhau. Đây bình thường xuống sâu hơn vào thư mục gốc ngữ nghĩa của một
word-nó-Bổ đề được gọi là lemmatization.

Lemmatization là một cách tiềm năng chính xác hơn để bình thường hóa một từ hơn bắt nguồn hoặc trường hợp bình thường bởi vì nó sẽ đưa vào tài khoản ý nghĩa của một từ. Một lemmatizer sử dụng một nền tảng kiến ​​thức từ đồng nghĩa từ và kết thúc từ để đảm bảo rằng chỉ
từ đó có nghĩa là những điều tương tự được hợp nhất thành một dấu hiệu đơn.

In [84]:
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Thang\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


In [85]:
lemmatizer.lemmatize("better")


'better'

In [86]:
lemmatizer.lemmatize("better", pos="a")

'good'

In [87]:
lemmatizer.lemmatize("good", pos="a")

'good'

In [88]:
lemmatizer.lemmatize("goods", pos="a")

'goods'

In [89]:
lemmatizer.lemmatize("goods", pos="n")

'good'

In [90]:
lemmatizer.lemmatize("goodness", pos="n")

'goodness'

In [91]:
lemmatizer.lemmatize("best", pos="a")

'best'

In [92]:
stemmer.stem('goodness')

'good'

#### Use case

Khi nao sử dụng stemmer và lemming? (94/545)

# Sentiment

Giới thiệu về bài toàn phân loại sắc thái bình luận.<br/>
Có 2 phương pháp chính để xử lý bài toán sentiment:
* 1. Dựa vào tập các quy tắc của con người, gọi là heuristic.
* 2. Sử dụng một mô hình machine learning để học từ dữ liệu cho máy

## VDER - Một tập các quy tắc cơ bản cho phân tích cảm xúc

Hutto and Gilbert at GA Tech came up with one of the first successful rule-based sentiment analysis algorithms. They called their algorithm VADER, for Valence Aware Dictionary for sEntiment Reasoning.  Many NLP packages implement some form of this
algorithm. The NLTK package has an implementation of the VADER algorithm in
nltk.sentiment.vader. 

Để chạy được code dưới đây, bạn cần pip install vaderSentiment

“VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text” by Hutto and Gilbert (http://comp.social.gatech.edu/papers/icwsm14.vader.hutto.pdf)<br/>
You can find more detailed installation instructions with the package source code on github ( https://github.com/cjhutto/vaderSentiment).

In [3]:
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

In [4]:
sa = SentimentIntensityAnalyzer()

In [6]:
sa.lexicon

{'$:': -1.5,
 '%)': -0.4,
 '%-)': -1.5,
 '&-:': -0.4,
 '&:': -0.7,
 "( '}{' )": 1.6,
 '(%': -0.9,
 "('-:": 2.2,
 "(':": 2.3,
 '((-:': 2.1,
 '(*': 1.1,
 '(-%': -0.7,
 '(-*': 1.3,
 '(-:': 1.6,
 '(-:0': 2.8,
 '(-:<': -0.4,
 '(-:o': 1.5,
 '(-:O': 1.5,
 '(-:{': -0.1,
 '(-:|>*': 1.9,
 '(-;': 1.3,
 '(-;|': 2.1,
 '(8': 2.6,
 '(:': 2.2,
 '(:0': 2.4,
 '(:<': -0.2,
 '(:o': 2.5,
 '(:O': 2.5,
 '(;': 1.1,
 '(;<': 0.3,
 '(=': 2.2,
 '(?:': 2.1,
 '(^:': 1.5,
 '(^;': 1.5,
 '(^;0': 2.0,
 '(^;o': 1.9,
 '(o:': 1.6,
 ")':": -2.0,
 ")-':": -2.1,
 ')-:': -2.1,
 ')-:<': -2.2,
 ')-:{': -2.1,
 '):': -1.8,
 '):<': -1.9,
 '):{': -2.3,
 ');<': -2.6,
 '*)': 0.6,
 '*-)': 0.3,
 '*-:': 2.1,
 '*-;': 2.4,
 '*:': 1.9,
 '*<|:-)': 1.6,
 '*\\0/*': 2.3,
 '*^:': 1.6,
 ',-:': 1.2,
 "---'-;-{@": 2.3,
 '--<--<@': 2.2,
 '.-:': -1.2,
 '..###-:': -1.7,
 '..###:': -1.9,
 '/-:': -1.3,
 '/:': -1.3,
 '/:<': -1.4,
 '/=': -0.9,
 '/^:': -1.0,
 '/o:': -1.4,
 '0-8': 0.1,
 '0-|': -1.2,
 '0:)': 1.9,
 '0:-)': 1.4,
 '0:-3': 1.5,
 '0:03': 1.9,
 '

SentimentIntensityAnalyzer.lexicon contains that
dictionary of tokens and their scores that we talked about.<br/>
A tokenizer better be good at dealing with
punctuation and emoticons (emojis) for VADER
to work well. After all, emoticons are designed
to convey a lot of sentiment (emotion).<br/>

In [7]:
 [(tok, score) for tok, score in sa.lexicon.items() if " " in tok]

[("( '}{' )", 1.6),
 ("can't stand", -2.0),
 ('fed up', -1.8),
 ('screwed up', -1.5)]

Out of 7500 tokens defined in VADER, only 3
contain spaces, and only 2 of those are actually
n-grams; the other is an emoticon for “kiss.”

In [9]:
sa.polarity_scores(text="Python is very readable and it's great for NLP.")

{'neg': 0.0, 'neu': 0.661, 'pos': 0.339, 'compound': 0.6249}

The VADER algorithm considers the intensity of
sentiment polarity in three separate scores (positive,
negative, and neutral) and then combines them
together into a compound positivity sentiment.

In [15]:
sa.polarity_scores(text="Python is very bad, like a shittt :((")

{'neg': 0.328, 'neu': 0.432, 'pos': 0.24, 'compound': -0.2534}

Vader tích hợp trong tokenizer bỏ qua bất kỳ từ nào mà không phải là
trong từ vựng của nó, và nó không xem xét n-gram nào cả.

In [18]:
sa.polarity_scores(text="Python is not a bad choice for most applications.")

{'neg': 0.0, 'neu': 0.711, 'pos': 0.289, 'compound': 0.431}

This looks a lot like what you wanted. So the only drawback is that VADER doesn’t
look at all the words in a document, only about 7,500. What if you want all the words
to help add to the sentiment score? And what if you don’t want to have to code your
own understanding of the words in a dictionary of thousands of words or add a bunch
of custom words to the dictionary in SentimentIntensityAnalyzer.lexicon? The
rule-based approach might be impossible if you don’t understand the language,
because you wouldn’t know what scores to put in the dictionary (lexicon)!

In [19]:
corpus = ["Absolutely perfect! Love it! :-) :-) :-)",
... "Horrible! Completely useless. :(",
... "It was OK. Some good and some bad things."]

In [21]:
for doc in corpus:
    scores = sa.polarity_scores(doc)
    print('{:+}: {}'.format(scores['compound'], doc))

+0.9428: Absolutely perfect! Love it! :-) :-) :-)
-0.8768: Horrible! Completely useless. :(
+0.3254: It was OK. Some good and some bad things.


## Naive bayes

Naive bayes là một mô hình cố gắng tìm kiếm các từ khoá ở trong tập document của bạn để dự đoán đầu ra mục tiêu. Khi các biến mục tiêu là cảm xúc bạn cần dự đoán, mô hình sẽ tìm kiếm các từ khoá về cảm xúc.

 Hutto compiled four different sentiment datasets for us when he and
his collaborators built VADER. 

If you haven’t already installed nlpia, check out the installation instructions at http://github.com/totalgood/nlpia.

### Sumary

You implemented tokenization and configured a tokenizer for your application.

 n-gram tokenization helps retain some of the word order information in a
document

Normalization and stemming consolidate words into groups that improve the
“recall” for search engines but reduce precision.

Lemmatization and customized tokenizers like casual_tokenize() can improve
precision and reduce information loss

Stop words can contain useful information, and discarding them is not always
helpful. 

In [2]:
data = open("./data/sentiment_analysis/train.crash")


In [3]:
data

<_io.TextIOWrapper name='./data/sentiment_analysis/train.crash' mode='r' encoding='cp1252'>

In [6]:
data.read()

UnicodeDecodeError: 'charmap' codec can't decode byte 0x90 in position 43: character maps to <undefined>

In [21]:
with open("./data/sentiment_analysis/train.crash", encoding="utf8") as data:
    lines = data.read()
samples = lines.strip().split("\n\ntrain_")

In [22]:
lines

'train_000000\n"Dung dc sp tot cam on \nshop Đóng gói sản phẩm rất đẹp và chắc chắn Chất lượng sản phẩm tuyệt vời"\n0\n\ntrain_000001\n" Chất lượng sản phẩm tuyệt vời . Son mịn nhưng khi đánh lên không như màu trên ảnh"\n0\n\ntrain_000002\n" Chất lượng sản phẩm tuyệt vời nhưng k có hộp k có dây giày đen k có tất"\n0\n\ntrain_000003\n":(( Mình hơi thất vọng 1 chút vì mình đã kỳ vọng cuốn sách khá nhiều hi vọng nó sẽ nói về việc học tập của cách sinh viên trường Harvard ra sao những nỗ lực của họ như thế nào 4h sáng? tại sao họ lại phải thức dậy vào thời khắc đấy? sau đó là cả một câu chuyện ra sao. Cái mình thực sự cần ở đây là câu chuyện ẩn dấu trong đó để tự bản thân mỗi người cảm nhận và đi sâu vào lòng người hơn. Còn cuốn sách này chỉ đơn thuần là cuốn sách dạy kĩ năng mà hầu như sách nào cũng đã có. BUồn..."\n1\n\ntrain_000004\n"Lần trước mình mua áo gió màu hồng rất ok mà đợt này lại giao 2 cái áo gió chất khác như vải mưa ý :(("\n1\n\ntrain_000005\n" Chất lượng sản phẩm tuyệt vời

In [23]:
samples

['train_000000\n"Dung dc sp tot cam on \nshop Đóng gói sản phẩm rất đẹp và chắc chắn Chất lượng sản phẩm tuyệt vời"\n0',
 '000001\n" Chất lượng sản phẩm tuyệt vời . Son mịn nhưng khi đánh lên không như màu trên ảnh"\n0',
 '000002\n" Chất lượng sản phẩm tuyệt vời nhưng k có hộp k có dây giày đen k có tất"\n0',
 '000003\n":(( Mình hơi thất vọng 1 chút vì mình đã kỳ vọng cuốn sách khá nhiều hi vọng nó sẽ nói về việc học tập của cách sinh viên trường Harvard ra sao những nỗ lực của họ như thế nào 4h sáng? tại sao họ lại phải thức dậy vào thời khắc đấy? sau đó là cả một câu chuyện ra sao. Cái mình thực sự cần ở đây là câu chuyện ẩn dấu trong đó để tự bản thân mỗi người cảm nhận và đi sâu vào lòng người hơn. Còn cuốn sách này chỉ đơn thuần là cuốn sách dạy kĩ năng mà hầu như sách nào cũng đã có. BUồn..."\n1',
 '000004\n"Lần trước mình mua áo gió màu hồng rất ok mà đợt này lại giao 2 cái áo gió chất khác như vải mưa ý :(("\n1',
 '000005\n" Chất lượng sản phẩm tuyệt vời có điều không cứng cáp 

In [27]:
samples[0] = samples[0][6:]
samples[0]

'000000\n"Dung dc sp tot cam on \nshop Đóng gói sản phẩm rất đẹp và chắc chắn Chất lượng sản phẩm tuyệt vời"\n0'

In [28]:
samples

['000000\n"Dung dc sp tot cam on \nshop Đóng gói sản phẩm rất đẹp và chắc chắn Chất lượng sản phẩm tuyệt vời"\n0',
 '000001\n" Chất lượng sản phẩm tuyệt vời . Son mịn nhưng khi đánh lên không như màu trên ảnh"\n0',
 '000002\n" Chất lượng sản phẩm tuyệt vời nhưng k có hộp k có dây giày đen k có tất"\n0',
 '000003\n":(( Mình hơi thất vọng 1 chút vì mình đã kỳ vọng cuốn sách khá nhiều hi vọng nó sẽ nói về việc học tập của cách sinh viên trường Harvard ra sao những nỗ lực của họ như thế nào 4h sáng? tại sao họ lại phải thức dậy vào thời khắc đấy? sau đó là cả một câu chuyện ra sao. Cái mình thực sự cần ở đây là câu chuyện ẩn dấu trong đó để tự bản thân mỗi người cảm nhận và đi sâu vào lòng người hơn. Còn cuốn sách này chỉ đơn thuần là cuốn sách dạy kĩ năng mà hầu như sách nào cũng đã có. BUồn..."\n1',
 '000004\n"Lần trước mình mua áo gió màu hồng rất ok mà đợt này lại giao 2 cái áo gió chất khác như vải mưa ý :(("\n1',
 '000005\n" Chất lượng sản phẩm tuyệt vời có điều không cứng cáp với kh

<b>TEST</b>

In [33]:
samples[0][8:-3]

'Dung dc sp tot cam on \nshop Đóng gói sản phẩm rất đẹp và chắc chắn Chất lượng sản phẩm tuyệt vời'

In [36]:
samples[1][8:-3]

' Chất lượng sản phẩm tuyệt vời . Son mịn nhưng khi đánh lên không như màu trên ảnh'

In [37]:
samples[1][8:-3].strip()

'Chất lượng sản phẩm tuyệt vời . Son mịn nhưng khi đánh lên không như màu trên ảnh'

In [40]:
int(samples[0][-1])

0

Ok, chúng ta tiếp tục tách dữ liệu.

In [47]:
data = []
label = []
for sample in samples:
    data.append(sample[8:-3].strip())
    label.append(sample[-1])

In [48]:
data

['Dung dc sp tot cam on \nshop Đóng gói sản phẩm rất đẹp và chắc chắn Chất lượng sản phẩm tuyệt vời',
 'Chất lượng sản phẩm tuyệt vời . Son mịn nhưng khi đánh lên không như màu trên ảnh',
 'Chất lượng sản phẩm tuyệt vời nhưng k có hộp k có dây giày đen k có tất',
 ':(( Mình hơi thất vọng 1 chút vì mình đã kỳ vọng cuốn sách khá nhiều hi vọng nó sẽ nói về việc học tập của cách sinh viên trường Harvard ra sao những nỗ lực của họ như thế nào 4h sáng? tại sao họ lại phải thức dậy vào thời khắc đấy? sau đó là cả một câu chuyện ra sao. Cái mình thực sự cần ở đây là câu chuyện ẩn dấu trong đó để tự bản thân mỗi người cảm nhận và đi sâu vào lòng người hơn. Còn cuốn sách này chỉ đơn thuần là cuốn sách dạy kĩ năng mà hầu như sách nào cũng đã có. BUồn...',
 'Lần trước mình mua áo gió màu hồng rất ok mà đợt này lại giao 2 cái áo gió chất khác như vải mưa ý :((',
 'Chất lượng sản phẩm tuyệt vời có điều không cứng cáp với không cố định dáng nói chung đẹp hợp túi tiền',
 'Đã nhận đc hàng rất nhanh mới

In [49]:
label

['0',
 '0',
 '0',
 '1',
 '1',
 '0',
 '0',
 '1',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '1',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '1',
 '1',
 '0',
 '1',
 '1',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '1',
 '0',
 '1',
 '1',
 '0',
 '0',
 '0',
 '1',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '1',
 '1',
 '0',
 '1',
 '1',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '1',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '1',
 '1',
 '1',
 '0',
 '0',
 '1',
 '1',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '1',
 '0',
 '1',
 '0',
 '1',
 '1',
 '0',
 '0',
 '0',
 '1',
 '1',
 '1',
 '1',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '1',
 '0',
 '1',
 '1',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '1'

In [50]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(data, label)

ValueError: Expected 2D array, got 1D array instead:
array=['Dung dc sp tot cam on \nshop Đóng gói sản phẩm rất đẹp và chắc chắn Chất lượng sản phẩm tuyệt vời'
 'Chất lượng sản phẩm tuyệt vời . Son mịn nhưng khi đánh lên không như màu trên ảnh'
 'Chất lượng sản phẩm tuyệt vời nhưng k có hộp k có dây giày đen k có tất'
 ... 'Mang êm chân. Đẹp'
 'Tôi đã nhận đc hàng.Sau đây là vài lời muốn nói.\nMã code để check hàng chính hãng không tồn tại trên trang web của hãng. Mặc dù chính tôi cào nó ra. Có dấu hiệu đã bị mở hộp, vỏ ngoài lem lem.\nTôi đã tin tưởng vào mã code, vì nhiều lần mua hàng của digiworl, nhưng đến hôm nay tikitrading đã làm mất hình ảnh đó.\nMón đồ không quá đắt đỏ mua được sự gian dối của tikitrading quá là hời cho tôi.\nNếu đây là món hàng vài chục triệu thì sao ?\nTất nhiên tôi sẽ làm sáng toả mọi chuyện trên các diễn đàn công nghệ.\nOK xem như tôi đặt niềm tin nhầm chỗ.'
 'Hình vậy mà túi xấu qá kém chất lg qá'].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.