# **Word Representation**



# **Bag of Word (BoW)**

---

ใช้ CountVectorizer ใน Scikit-learn ในการนับความถี่ของคำในข้อความ



ตัวอย่างที่ 1 แบบทำทีละขั้นตอน

1. สร้างถุงของคำที่ไม่ซ้ำกันก่อน
2. แปลงข้อความเป็น vector ความถี่ของคำ



In [1]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]

# สร้าง CountVectorizer object
vectorizer = CountVectorizer()

# สร้างถุงที่ประกอบด้วยคำ (bag of words) ที่ไม่ซ้ำกัน จาก corpus และกำหนดหมายเลขให้แต่ละคำ
vectorizer.fit(corpus)

# แสดงคำใน bow
print("Vocabulary:", vectorizer.vocabulary_)

# เปลี่ยนแต่ละข้อความใน corpus ให้แทนด้วย vector ที่ระบุความถี่ของคำในแต่ละข้อความ
bow_representation = vectorizer.transform(corpus)

# แสดง matrix ที่จัดเก็บข้อความด้วย bow โดยแสดงทุกค่า
print("\nBag-of-words representation (dense matrix):\n", bow_representation.toarray())

# แสดง matrix ที่จัดเก็บข้อความด้วย bow โดยแสดงเฉพาะตำแหน่งที่มีค่าที่ไม่ใช่ 0
print("\nBag-of-words representation (sparse matrix):\n", bow_representation)

Vocabulary: {'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}

Bag-of-words representation (dense matrix):
 [[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]

Bag-of-words representation (sparse matrix):
   (0, 1)	1
  (0, 2)	1
  (0, 3)	1
  (0, 6)	1
  (0, 8)	1
  (1, 1)	2
  (1, 3)	1
  (1, 5)	1
  (1, 6)	1
  (1, 8)	1
  (2, 0)	1
  (2, 3)	1
  (2, 4)	1
  (2, 6)	1
  (2, 7)	1
  (2, 8)	1
  (3, 1)	1
  (3, 2)	1
  (3, 3)	1
  (3, 6)	1
  (3, 8)	1


ตัวอย่างที่ 2 แบบสร้างถุงของคำที่ไม่ซ้ำกันก่อน และแปลงข้อความเป็น vector ความถี่ของคำในคำสั่งเดียว



In [2]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = CountVectorizer()

#สร้าง bow และแปลงข้อความเป็น vector พร้อมกัน
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X.toarray())


['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


ตัวอย่างที่ 3 สร้าง bow แบบ bigram

In [3]:
vectorizer_bigram = CountVectorizer(analyzer='word', ngram_range=(2, 2))
X2 = vectorizer_bigram.fit_transform(corpus)
print(len(vectorizer_bigram.get_feature_names_out()))
print(vectorizer_bigram.get_feature_names_out())
print(X2.toarray())

13
['and this' 'document is' 'first document' 'is the' 'is this'
 'second document' 'the first' 'the second' 'the third' 'third one'
 'this document' 'this is' 'this the']
[[0 0 1 1 0 0 1 0 0 0 0 1 0]
 [0 1 0 1 0 1 0 1 0 0 1 0 0]
 [1 0 0 1 0 0 0 0 1 1 0 1 0]
 [0 0 1 0 1 0 1 0 0 0 0 0 1]]


# **TF-IDF**


ทดลองเขียนโค้ดเพื่อสร้าง tfid vector ของประโยคใน corpus จากตัวอย่างก่อนหน้า



In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer
# สร้าง TfidfVectorizer object
vectorizer = TfidfVectorizer()

# สร้าง TF-IDF vectors
tfidf_representation = vectorizer.fit_transform(corpus)

# แสดง feature names
print("Feature names:", vectorizer.get_feature_names_out())

# แสดง TF-IDF matrix
print("\nTF-IDF: \n", tfidf_representation.toarray())

Feature names: ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']

TF-IDF: 
 [[0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]
 [0.         0.6876236  0.         0.28108867 0.         0.53864762
  0.28108867 0.         0.28108867]
 [0.51184851 0.         0.         0.26710379 0.51184851 0.
  0.26710379 0.51184851 0.26710379]
 [0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]]


# **Word Embedding**

ใช้ library gensim ในการสร้าง word embedding หรือเรียกใช้งาน word embedding model ที่เทรนมาเรียบร้อยแล้ว
ดูตัวอย่างการใช้ gensim ที่ https://radimrehurek.com/gensim/auto_examples/

ตัวอย่าง Pre-trained Word Embedding
- Word2vec ของ Google
- Glove ของ Standford
- FastText ของ Facebook


In [21]:
import gensim
gensim.__version__

'4.3.3'

In [22]:
import gensim.downloader as api
model = api.load('word2vec-google-news-300')

In [23]:
# ขนาดของ model (จำนวนคำ x จำนวนมิติ)
print(len(model.index_to_key) * model.vector_size)

900000000


In [24]:
# มิติของเวกเตอร์ใน model
model.vector_size

300

In [25]:
# จำนวนคำ
len(model.index_to_key)

3000000

In [26]:
# พิมพ์มิติของคำ และพิมพ์เวกเตอร์ของคำใน model
print(model['Bangkok'].shape)
print(model['Bangkok'])

(300,)
[ 1.60156250e-01 -1.25000000e-01 -1.13769531e-01  3.86718750e-01
 -1.46484375e-01 -2.18505859e-02 -2.32421875e-01 -1.74804688e-01
 -4.66308594e-02  1.73828125e-01  4.58984375e-02 -3.49121094e-02
  3.92578125e-01 -3.55468750e-01  4.19921875e-02 -2.07031250e-01
 -1.96289062e-01  9.47265625e-02  1.33056641e-02 -4.29687500e-02
  3.95507812e-02 -3.24218750e-01  2.26562500e-01  1.66992188e-01
  1.59179688e-01 -8.30078125e-02 -6.17675781e-02 -1.98974609e-02
 -1.33789062e-01  2.24609375e-01 -7.03125000e-02 -3.04687500e-01
 -1.83105469e-02 -1.97265625e-01 -2.22167969e-02  2.42919922e-02
 -4.37500000e-01  2.56347656e-02  5.46264648e-03 -1.55273438e-01
 -2.50000000e-01 -4.93164062e-02 -4.49218750e-02  2.94921875e-01
 -1.24511719e-01 -1.05468750e-01 -2.52685547e-02  1.75781250e-01
  3.90625000e-01  1.59179688e-01 -3.75976562e-02 -1.19628906e-01
 -4.78515625e-02 -5.68847656e-02 -3.92578125e-01 -1.34887695e-02
 -1.10839844e-01 -4.92187500e-01 -1.36718750e-01 -1.50390625e-01
 -1.51367188e-01  

In [27]:
# พิมพ์ตัวอย่างคำบางส่วน
vocab = model.index_to_key
for index, keyword in enumerate(vocab[:20]):
    print(index, keyword)


0 </s>
1 in
2 for
3 that
4 is
5 on
6 ##
7 The
8 with
9 said
10 was
11 the
12 at
13 not
14 as
15 it
16 be
17 from
18 by
19 are


In [28]:
# ในกรณีที่ไม่มีคำใน model ใช้ try-except ดักจับ
print('cameroon' in vocab)
try:
    vec_cameroon = model['cameroon']
except KeyError:
    print("The word 'cameroon' does not appear in this model")

False
The word 'cameroon' does not appear in this model


In [29]:
# เปรียบเทียบความคล้ายคลึงระหว่างคำสองคำ โดยใช้ cosine similarity

import numpy as np
from numpy.linalg import norm

vec_king = model['king']
vec_queen = model['queen']

# compute cosine similarity
# cosine = np.dot(A,B)/(norm(A)*norm(B))
cosine = np.dot(vec_king,vec_queen)/(norm(vec_king)*norm(vec_queen))
print("Cosine Similarity: ", cosine)

print("Model Similarity:  ", model.similarity('king','queen'))

Cosine Similarity:  0.6510956
Model Similarity:   0.6510956


In [36]:
# หาคำที่มีความคล้ายคลึงกันสูงสุด 10 อันดับแรก

model.most_similar('king', topn=10)

[('kings', 0.7138045430183411),
 ('queen', 0.6510956883430481),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204220056533813),
 ('prince', 0.6159993410110474),
 ('sultan', 0.5864824056625366),
 ('ruler', 0.5797567367553711),
 ('princes', 0.5646552443504333),
 ('Prince_Paras', 0.5432944297790527),
 ('throne', 0.5422105193138123)]

In [31]:
# เปรียบเทียบคำที่คล้ายคลึงกันหลายคู่

pairs = [
    ('car', 'minivan'),   # a minivan is a kind of car
    ('car', 'bicycle'),   # still a wheeled vehicle
    ('car', 'airplane'),  # ok, no wheels, but still a vehicle
    ('car', 'cereal'),    # ... and so on
    ('car', 'communism'),
]
for w1, w2 in pairs:
    print('%r\t%r\t%.2f' % (w1, w2, model.similarity(w1, w2)))

'car'	'minivan'	0.69
'car'	'bicycle'	0.54
'car'	'airplane'	0.42
'car'	'cereal'	0.14
'car'	'communism'	0.06


In [12]:
# 5 คำแรกที่มีความคล้ายคลึงกับคำว่า “car” หรือ “minivan”

model.most_similar(positive=['car', 'minivan'], topn=5)

[('SUV', 0.8532192707061768),
 ('vehicle', 0.8175783753395081),
 ('pickup_truck', 0.7763688564300537),
 ('Jeep', 0.7567334175109863),
 ('Ford_Explorer', 0.7565720081329346)]

In [13]:
# หาคำที่ไม่เข้าพวกจากลิสต์ของคำที่กำหนด

model.doesnt_match(['fire', 'water', 'land', 'sea', 'air', 'car'])

'car'

In [14]:
# หาคำที่คล้ายคลึงกับการรวมกันของคำสองคำ เช่น Thai + food จะได้รายการอาหารไทยคือ ส้มตำ หรือ ต้มยำกุ้ง

vec_thaifood = model['Thai'] + model['food']
model.similar_by_vector(vec_thaifood)

[('Thai', 0.8174213171005249),
 ('food', 0.7000386714935303),
 ('Cambodian', 0.6105940341949463),
 ('som_tam', 0.5984919667243958),
 ('tom_yum_kung', 0.5883138179779053),
 ('Thailand', 0.5812740325927734),
 ('spokesman_Vichienchot', 0.5794538855552673),
 ('Thais', 0.5724048018455505),
 ('Mee_Goreng', 0.5703278183937073),
 ('papaya_salad', 0.5645248293876648)]

In [15]:
# หาคำที่มีความหมายคล้ายกับ king และความหมายคล้ายกับ woman แต่ไม่ใช่ความหมายคล้ายกับ man

vec = model['king'] + model['woman'] - model['man']
model.similar_by_vector(vec)

[('king', 0.8449392318725586),
 ('queen', 0.7300517559051514),
 ('monarch', 0.645466148853302),
 ('princess', 0.6156251430511475),
 ('crown_prince', 0.5818676352500916),
 ('prince', 0.5777117609977722),
 ('kings', 0.5613663792610168),
 ('sultan', 0.5376775860786438),
 ('Queen_Consort', 0.5344247817993164),
 ('queens', 0.5289887189865112)]

In [16]:
from gensim.test.utils import datapath
from gensim import utils

class MyCorpus:
    """An iterator that yields sentences (lists of str)."""

    def __iter__(self):
        corpus_path = datapath('lee_background.cor')
        for line in open(corpus_path):
            # assume there's one document per line, tokens separated by whitespace
            print(line)
            print(utils.simple_preprocess(line))
            yield utils.simple_preprocess(line)

In [17]:
import gensim.models

sentences = MyCorpus()
model = gensim.models.Word2Vec(sentences=sentences)

[1;30;43mเอาต์พุตของการสตรีมมีการตัดเหลือเพียง 5000 บรรทัดสุดท้าย[0m

['the', 'new', 'solomon', 'islands', 'prime', 'minister', 'has', 'told', 'his', 'people', 'that', 'there', 'are', 'tough', 'times', 'ahead', 'sir', 'allan', 'kemakeza', 'the', 'parliamentary', 'leader', 'of', 'the', 'people', 'alliance', 'party', 'was', 'elected', 'prime', 'minister', 'on', 'the', 'first', 'ballot', 'sir', 'allan', 'heads', 'up', 'team', 'consisting', 'of', 'the', 'surviving', 'members', 'of', 'the', 'outgoing', 'government', 'and', 'large', 'grouping', 'of', 'newly', 'elected', 'independents', 'one', 'of', 'those', 'held', 'one', 'of', 'the', 'most', 'senior', 'positions', 'in', 'the', 'malaita', 'eagle', 'force', 'militia', 'that', 'conducted', 'last', 'year', 'coup', 'while', 'others', 'who', 'have', 'backed', 'him', 'were', 'elected', 'after', 'being', 'endorsed', 'by', 'the', 'rival', 'guadalcanal', 'militia', 'the', 'isatabu', 'freedom', 'movement', 'that', 'ethnic', 'conflict', 'has', 'left'

In [18]:
vec_king = model.wv['king']
print(vec_king.shape)

(100,)


In [19]:
for index, word in enumerate(model.wv.index_to_key):
    if index == 10:
        break
    print(f"word #{index}/{len(model.wv.index_to_key)} is {word}")

word #0/1750 is the
word #1/1750 is to
word #2/1750 is of
word #3/1750 is in
word #4/1750 is and
word #5/1750 is he
word #6/1750 is is
word #7/1750 is for
word #8/1750 is on
word #9/1750 is said


ทดลองใช้ Glove
1. ใช้ GloVe โดยดาวน์โหลดเวกเตอร์สำเร็จรูปและใช้งาน
2. เปรียบเทียบเวกเตอร์คำใน Word2Vec และ GloVe
3. วัดความคล้ายคลึงระหว่างคำด้วย Cosine Similarity


In [49]:
!pip install gensim



In [37]:
from gensim.test.utils import datapath, get_tmpfile
from gensim.models import KeyedVectors
from gensim.scripts.glove2word2vec import glove2word2vec

glove_file = datapath('test_glove.txt')
tmp_file = get_tmpfile("test_word2vec.txt")

_ = glove2word2vec(glove_file, tmp_file)

model2 = KeyedVectors.load_word2vec_format(tmp_file)

  _ = glove2word2vec(glove_file, tmp_file)


In [38]:
# มิติของเวกเตอร์ใน GloVe_model
model2.vector_size

50

In [39]:
# จำนวนคำ
len(model2.index_to_key)

76

In [40]:
# ขนาดของ GloVe_model (จำนวนคำ x จำนวนมิติ)
print(len(model2.index_to_key) * model.vector_size)

22800


In [59]:
# พิมพ์ตัวอย่างคำบางส่วน
vocab = model2.index_to_key
for index, keyword in enumerate(vocab[:30]):
    print(index, keyword)


0 the
1 ö
2 é
3 हु
4 ü
5 and
6 हि
7 a
8 या
9 of
10 for
11 -
12 that
13 on
14 is
15 was
16 said
17 with
18 he
19 as
20 it
21 by
22 at
23 (
24 )
25 from
26 his
27 ''
28 ``
29 an


In [60]:
# หาเวกเตอร์ของคำ "king"
if 'king' in model2.key_to_index:
    # If 'king' is present, get its vector
    king_vector = model.get_vector('king')
    print(king_vector)
else:
    # If 'king' is not present, print a message
    print("The word 'king' is not present in the vocabulary.")

The word 'king' is not present in the vocabulary.


In [61]:
# หาคำที่มีความคล้ายคลึงกันสูงสุด 10 อันดับแรก

model2.most_similar('she', topn=10)

[('her', 0.9433621764183044),
 ('he', 0.8852405548095703),
 ('his', 0.8489625453948975),
 ('when', 0.8256641626358032),
 ('i', 0.8018388152122498),
 ('but', 0.7795119285583496),
 ('who', 0.7724220752716064),
 ('was', 0.7652846574783325),
 ('é', 0.7641435861587524),
 ('one', 0.7548384666442871)]

In [68]:
#เปรียบเทียบเวกเตอร์คำใน Word2Vec และ GloVe
#ดูว่าเวกเตอร์คำของคำเดียวกันในแต่ละโมเดลมีความคล้ายคลึงกันในเชิงตัวเลขมากน้อยแค่ไหน
word2vec_similarity = model.similarity('she', 'he')
glove_similarity = model2.similarity('she', 'he')

print(f"Similarity in Word2Vec (Google News): {word2vec_similarity}")
print(f"Similarity in GloVe: {glove_similarity}")

# เปรียบเทียบคำที่คล้ายคลึงคำว่า she ของ Word2Vec
word2vec_similar = model.most_similar('she', topn=10)
print("\n Most similar words in Word2Vec:")
print(word2vec_similar)

# เปรียบเทียบคำที่คล้ายคลึงคำว่า she ของ GloVe
glove_similar = model2.most_similar('she', topn=10)
print("\n Most similar words in GloVe:")
print(glove_similar)


Similarity in Word2Vec (Google News): 0.612994909286499
Similarity in GloVe: 0.885240375995636

 Most similar words in Word2Vec:
[('her', 0.7834683060646057), ('She', 0.7553189396858215), ('herself', 0.669890820980072), ('hers', 0.6509943008422852), ('he', 0.612994909286499), ('woman', 0.5641393661499023), ('Rivadineira', 0.558593213558197), ('Jana_Bobek', 0.5365386605262756), ('mother', 0.5349627137184143), ("she'sa", 0.5337814688682556)]

 Most similar words in GloVe:
[('her', 0.9433621764183044), ('he', 0.8852405548095703), ('his', 0.8489625453948975), ('when', 0.8256641626358032), ('i', 0.8018388152122498), ('but', 0.7795119285583496), ('who', 0.7724220752716064), ('was', 0.7652846574783325), ('é', 0.7641435861587524), ('one', 0.7548384666442871)]


In [64]:
# เปรียบเทียบความคล้ายคลึงระหว่างคำสองคำ โดยใช้ cosine similarity

import numpy as np
from numpy.linalg import norm

vec_percent = model2['she']
vec_said = model2['he']

# compute cosine similarity
# cosine = np.dot(A,B)/(norm(A)*norm(B))
cosine = np.dot(vec_percent,vec_said)/(norm(vec_percent)*norm(vec_said))
print("Cosine Similarity: ", cosine)

print("Model Similarity:  ", model2.similarity('she','he'))

Cosine Similarity:  0.8852404
Model Similarity:   0.8852404
