In [1]:
import nltk
from nltk.tokenize import word_tokenize
from gensim.models import Word2Vec
import re

In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

##Bag of words

In [3]:
komentar = [
          "Pengiriman cepat, kualitas produk baik, penjual ramah",
          "Produk tidak sesuai gambar, tapi memang sesuai harga",
          "penjual responsif dan ramah, produk berfungsi dengan baik",
          "Lumayan untuk harga segini sudah dapat produk bagus",
          "Tidak sesuai ekspektasi, produk berbeda dengan gambar",    
]

Kita juga perlu merubah semua huruf kapital menjadi huruf kecil 

In [4]:
komentar = [re.sub(r'[,.]', '', k) for k in komentar]
komentar

['Pengiriman cepat kualitas produk baik penjual ramah',
 'Produk tidak sesuai gambar tapi memang sesuai harga',
 'penjual responsif dan ramah produk berfungsi dengan baik',
 'Lumayan untuk harga segini sudah dapat produk bagus',
 'Tidak sesuai ekspektasi produk berbeda dengan gambar']

In [5]:
corpus = [word_tokenize(k.lower()) for k in komentar]
print(corpus)

[['pengiriman', 'cepat', 'kualitas', 'produk', 'baik', 'penjual', 'ramah'], ['produk', 'tidak', 'sesuai', 'gambar', 'tapi', 'memang', 'sesuai', 'harga'], ['penjual', 'responsif', 'dan', 'ramah', 'produk', 'berfungsi', 'dengan', 'baik'], ['lumayan', 'untuk', 'harga', 'segini', 'sudah', 'dapat', 'produk', 'bagus'], ['tidak', 'sesuai', 'ekspektasi', 'produk', 'berbeda', 'dengan', 'gambar']]


## Train Word2Vec Model

In [6]:
model = Word2Vec(corpus, size=100, window=5, workers=2, min_count=1, iter=100)


## Menyimpan model

In [7]:
model.save("komentar_app.w2v")

## Load Model
> Menggunakan pretrained model (model yang sudah dibuat sebelumnya)

In [8]:
model = Word2Vec.load("komentar_app.w2v")


## Menampilkan Informasi dari Model yang Sudah Dibuat

In [9]:
w2v = model.wv

In [10]:
w2v.index2word

['produk',
 'sesuai',
 'baik',
 'penjual',
 'ramah',
 'tidak',
 'gambar',
 'harga',
 'dengan',
 'pengiriman',
 'cepat',
 'kualitas',
 'tapi',
 'memang',
 'responsif',
 'dan',
 'berfungsi',
 'lumayan',
 'untuk',
 'segini',
 'sudah',
 'dapat',
 'bagus',
 'ekspektasi',
 'berbeda']

In [11]:
# Menampilkan vector yang sudah dibuat dari dokumen teks
w2v.vectors

array([[-0.00109225,  0.00286131,  0.00131545, ..., -0.00132075,
         0.00425806, -0.00163595],
       [-0.00331353,  0.00440402,  0.00258265, ...,  0.00234063,
         0.00348242,  0.00478583],
       [-0.00210261, -0.00449874, -0.00390033, ...,  0.00096465,
        -0.00446764,  0.00489514],
       ...,
       [-0.00475329, -0.00299174, -0.00175179, ..., -0.00317617,
        -0.00473769,  0.00233511],
       [-0.00251066,  0.00464755,  0.00209159, ...,  0.00360044,
         0.00092356,  0.00133036],
       [-0.0005897 ,  0.00267006,  0.00056466, ..., -0.00216165,
         0.00089539,  0.0021831 ]], dtype=float32)

In [12]:
# Menampilkan ukuran vektor
w2v.vector_size

100

In [13]:
# Menampilkan vektor kata yang terdapat pada vocabulary
w2v['berbeda']

array([-5.8969780e-04,  2.6700613e-03,  5.6466350e-04,  4.7250702e-03,
        3.8424241e-03, -8.3889492e-04, -2.2081174e-03,  2.7647712e-03,
       -1.5839181e-03, -2.7146486e-03,  1.2511563e-03,  2.9439186e-03,
       -6.4831504e-05,  1.5964030e-03,  1.4554476e-03, -3.3504928e-03,
       -2.9737623e-03,  2.0387373e-03,  2.5727786e-03, -4.8972466e-03,
        4.0607937e-03, -2.2908769e-04, -3.7665460e-03, -2.9913837e-04,
        4.5843178e-04, -3.5918017e-03, -1.9380427e-03, -1.3693193e-03,
        3.1150135e-03,  7.1459648e-04,  9.9269266e-04,  1.7682065e-03,
        8.2892802e-06, -3.8047240e-03, -3.7330289e-03, -1.1683471e-03,
        8.6970971e-04, -1.1446578e-03,  1.1391816e-05, -2.5085416e-03,
       -1.6505454e-03,  2.1278681e-03,  4.6705487e-03, -2.8268381e-03,
        2.2592368e-03, -2.7209108e-03, -3.6760811e-03,  2.9667278e-03,
        3.4407154e-03, -4.2497055e-03, -8.2318677e-04,  1.6087864e-03,
        2.0460521e-03,  2.3404157e-03,  2.0790538e-03,  4.9449150e-03,
      

## Sanity Check
> Untuk mengetahui apakah model yang sudah kita train sudah memiliki makna atau masih perlu dilakukan training lanjutan

### Similar Word

In [14]:
# Menampilkan kata yang memiliki kemiripan makna dengan kata `produk`
# atau dalam kata lain yaitu melihat hubungan semantik dari kata `produk` dengan kata lainnya.
w2v.similar_by_word("produk", topn=5)

[('ekspektasi', 0.19999922811985016),
 ('responsif', 0.19057202339172363),
 ('segini', 0.155630961060524),
 ('penjual', 0.08516006171703339),
 ('kualitas', 0.07913870364427567)]

---

## TF-IDF

In [15]:
# Menggunakan dataset yang sama seperti pada Word2vec. 
komentar

['Pengiriman cepat kualitas produk baik penjual ramah',
 'Produk tidak sesuai gambar tapi memang sesuai harga',
 'penjual responsif dan ramah produk berfungsi dengan baik',
 'Lumayan untuk harga segini sudah dapat produk bagus',
 'Tidak sesuai ekspektasi produk berbeda dengan gambar']

In [16]:
komentar

['Pengiriman cepat kualitas produk baik penjual ramah',
 'Produk tidak sesuai gambar tapi memang sesuai harga',
 'penjual responsif dan ramah produk berfungsi dengan baik',
 'Lumayan untuk harga segini sudah dapat produk bagus',
 'Tidak sesuai ekspektasi produk berbeda dengan gambar']

In [17]:
# Import Library yang dibutuhkan
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd


vectorizer = TfidfVectorizer()
result = vectorizer.fit_transform(komentar) #tfidf

In [18]:
# Menampilkan nama fitur / token dari dataset
print(vectorizer.get_feature_names())

['bagus', 'baik', 'berbeda', 'berfungsi', 'cepat', 'dan', 'dapat', 'dengan', 'ekspektasi', 'gambar', 'harga', 'kualitas', 'lumayan', 'memang', 'pengiriman', 'penjual', 'produk', 'ramah', 'responsif', 'segini', 'sesuai', 'sudah', 'tapi', 'tidak', 'untuk']




In [19]:
# Menampilkan hasil vektor kata
print(result)

  (0, 17)	0.354491454113195
  (0, 15)	0.354491454113195
  (0, 1)	0.354491454113195
  (0, 16)	0.20936836335513379
  (0, 11)	0.4393830201954138
  (0, 4)	0.4393830201954138
  (0, 14)	0.4393830201954138
  (1, 10)	0.3097679976786992
  (1, 13)	0.38394944871221537
  (1, 22)	0.38394944871221537
  (1, 9)	0.3097679976786992
  (1, 20)	0.6195359953573985
  (1, 23)	0.3097679976786992
  (1, 16)	0.18295396952806844
  (2, 7)	0.33411913201775406
  (2, 3)	0.4141320520639498
  (2, 5)	0.4141320520639498
  (2, 18)	0.4141320520639498
  (2, 17)	0.33411913201775406
  (2, 15)	0.33411913201775406
  (2, 1)	0.33411913201775406
  (2, 16)	0.1973361417447812
  (3, 0)	0.3813025879625254
  (3, 6)	0.3813025879625254
  (3, 21)	0.3813025879625254
  (3, 19)	0.3813025879625254
  (3, 24)	0.3813025879625254
  (3, 12)	0.3813025879625254
  (3, 10)	0.30763252709183986
  (3, 16)	0.18169272619885407
  (4, 2)	0.4549817658305219
  (4, 8)	0.4549817658305219
  (4, 7)	0.36707642387391093
  (4, 9)	0.36707642387391093
  (4, 20)	0.367076

**(4, 16)	0.21680124922897376**
Artinya:
> Terdapat kata dengan index ke-16 pada `vectorizer.get_feature_names()` dalam dokumen ke-5 (index dari nol)
>
> dengan bobot TF-IDF 0.21680124922897376

In [20]:
print(f"Teks dokumen ke-{4+1}:\n{komentar[4]}")
print(f"Fitur Name ke-16: {vectorizer.get_feature_names()[16]}")

Teks dokumen ke-5:
Tidak sesuai ekspektasi produk berbeda dengan gambar
Fitur Name ke-16: produk




> Dapat diketahui bahwa di dalam dokumen ke-1 (index ke-0) terdapat kata produk

In [21]:
result.todense()

matrix([[0.        , 0.35449145, 0.        , 0.        , 0.43938302,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.43938302, 0.        , 0.        , 0.43938302,
         0.35449145, 0.20936836, 0.35449145, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.309768  ,
         0.309768  , 0.        , 0.        , 0.38394945, 0.        ,
         0.        , 0.18295397, 0.        , 0.        , 0.        ,
         0.619536  , 0.        , 0.38394945, 0.309768  , 0.        ],
        [0.        , 0.33411913, 0.        , 0.41413205, 0.        ,
         0.41413205, 0.        , 0.33411913, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.33411913, 0.19733614, 0.33411913, 0.41413205, 0.        ,
         0.        , 0.        ,

In [22]:
# Menampilkan hasil TF-IDF dalam bentuk list dua dimensi
result.todense()

matrix([[0.        , 0.35449145, 0.        , 0.        , 0.43938302,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.43938302, 0.        , 0.        , 0.43938302,
         0.35449145, 0.20936836, 0.35449145, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.309768  ,
         0.309768  , 0.        , 0.        , 0.38394945, 0.        ,
         0.        , 0.18295397, 0.        , 0.        , 0.        ,
         0.619536  , 0.        , 0.38394945, 0.309768  , 0.        ],
        [0.        , 0.33411913, 0.        , 0.41413205, 0.        ,
         0.41413205, 0.        , 0.33411913, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.33411913, 0.19733614, 0.33411913, 0.41413205, 0.        ,
         0.        , 0.        ,

In [23]:
# Membuat dataframe dari list dua dimensi tersebut. 
# Dilakukan transpose agar nama kolom berubah menjadi nama baris
# Nama kolom diubah menjadi urutan dokumen
df = pd.DataFrame(result.todense().T,
                  index=vectorizer.get_feature_names(),
                  columns=[f"D{i+1}" for i in range(len(komentar))])
df



Unnamed: 0,D1,D2,D3,D4,D5
bagus,0.0,0.0,0.0,0.381303,0.0
baik,0.354491,0.0,0.334119,0.0,0.0
berbeda,0.0,0.0,0.0,0.0,0.454982
berfungsi,0.0,0.0,0.414132,0.0,0.0
cepat,0.439383,0.0,0.0,0.0,0.0
dan,0.0,0.0,0.414132,0.0,0.0
dapat,0.0,0.0,0.0,0.381303,0.0
dengan,0.0,0.0,0.334119,0.0,0.367076
ekspektasi,0.0,0.0,0.0,0.0,0.454982
gambar,0.0,0.309768,0.0,0.0,0.367076


In [24]:
df = pd.DataFrame(result.todense().T,
                  index=vectorizer.get_feature_names(),
                  columns=[f"D{i+1}" for i in range(len(komentar))])
df



Unnamed: 0,D1,D2,D3,D4,D5
bagus,0.0,0.0,0.0,0.381303,0.0
baik,0.354491,0.0,0.334119,0.0,0.0
berbeda,0.0,0.0,0.0,0.0,0.454982
berfungsi,0.0,0.0,0.414132,0.0,0.0
cepat,0.439383,0.0,0.0,0.0,0.0
dan,0.0,0.0,0.414132,0.0,0.0
dapat,0.0,0.0,0.0,0.381303,0.0
dengan,0.0,0.0,0.334119,0.0,0.367076
ekspektasi,0.0,0.0,0.0,0.0,0.454982
gambar,0.0,0.309768,0.0,0.0,0.367076


Kata **tidak** memiliki bobot lebih tinggi pada dokumen ke-5 daripada bobot pada dokumen ke-2

## COSINE SIMILARITY



In [25]:
from sklearn.metrics.pairwise import cosine_similarity, cosine_distances

In [26]:
#Kalimat yang ingin dihitung cosine similaritynya 
doc1 = 'this is the first document'
doc2 = 'this document is the second document'


In [27]:
import pandas as pd

df = pd.DataFrame([
        {'this': 1, 'is':1, 'first':1, 'the':1, 'document':1, 'second':0},
        {'this': 1,'document': 2, 'is':1, 'the':1, 'second':1, 'first':0},   

    ],
    index=[
        "doc1",
        "doc2",
    ])

df

Unnamed: 0,this,is,first,the,document,second
doc1,1,1,1,1,1,0
doc2,1,1,0,1,2,1


In [28]:
df.loc["doc1":"doc1"]

Unnamed: 0,this,is,first,the,document,second
doc1,1,1,1,1,1,0


In [30]:
cosine_similarity(df.loc["doc1":"doc1"],df.loc["doc2":"doc2"])

array([[0.79056942]])

## LATIHAN



1.  Hitung TF_IDF pada contoh kalimat yang digunakan pada cosine similarity 
2.   Hitung cosine similarity pada kalimat berikut: 

*   Pengiriman dan kualitas produk sangat baik
*  Produk tidak sesuai gambar tapi memang sesuai harga
*   tidak sesuai ekspektasi produk berbeda dengan gambar



