In [1]:
import pandas as pd
from nltk.tokenize import sent_tokenize, word_tokenize
import re
import random

In [2]:
data = pd.read_json('./cerpenmu/output.json')

## Let's see what is our data (that we have scraped)

In [3]:
for d in data['text'][:3]:
    print(d)
    print('')

<p>Sore itu langit terlihat cerah, warna biru yang dibalut gumpalan-gumpalan putih awan menarik sekawanan burung untuk terbang melintasinya. Rumput dan pepohonan menyisakan beberapa tetes air hujan yang sempat turun beberapa saat lalu. Jalanan pun masih menyimpan genangan-genangan air yang sewaktu-waktu bisa muncrat jika ada yang melintasinya. Memang saat yang tepat untuk istirahat setelah aktivitas harian yang melelahkan. Meskipun tidak banyak yang memanfaatkannya untuk sejenak melepas lelah karena alasan pekerjaan. Seperti sebagian besar mahasiswa di kampus ini, yang masih lalu-lalang keluar-masuk kampus untuk menyelesaikan urusan masing-masing.</p>

<p>Di kampus ini, ada tempat favorit mahasiswa yang digunakan untuk berkumpul. Entah berkumpul karena tugas kuliah, diskusi, rapat organisasi atau mungkin sekedar kumpulan komunitas. Ketika ditanya kenapa suka tempat itu, ada yang bilang “sinyal wi-finya bagus, jadi browsing tugasnya cepat”, yang lain bilang “tempatnya strategis, dekat s

## Preprocessing

After we collect **list of paragraph**, we need to convert it into **list of sentence**, where **sentence** merupakan **list of word**

We can use NLTK library in this case, below is the code to process the raw paragraph

In [4]:
sentence_list = []
for d in data['text']:
    d = re.sub(r'<br>', '', d)
    d = re.sub(r'<[\/]{,1}p>', '', d)
    d = re.sub(r'“', '', d)
    d = re.sub(r'"', '', d)
    d = d.lower()
    for s in sent_tokenize(d):
        sentence_list.append(s)

In [5]:
word_list = [word_tokenize(s) for s in sentence_list]

## Modelling

In the last part, we will use gensim to generate the word vector. Word vector can be widely used in NLP, for this case, let me use it to show what words are closely related to each other

In [6]:
import gensim

In [7]:
model = gensim.models.Word2Vec(word_list, size=100, workers=4)  # an empty model, no training yet
model.train(word_list, total_examples=model.corpus_count, epochs=100)  # can be a non-repeatable, 1-pass generator

140971930

In [8]:
model.most_similar(positive=['jakarta'], topn=20)

[('bandung', 0.6503324508666992),
 ('surabaya', 0.6352939605712891),
 ('kota', 0.6281882524490356),
 ('kotaku', 0.5951042175292969),
 ('london', 0.5760133266448975),
 ('singapura', 0.5615594983100891),
 ('jogja', 0.555084228515625),
 ('amerika', 0.5486961603164673),
 ('garut', 0.5465463995933533),
 ('yogyakarta', 0.5410457849502563),
 ('bogor', 0.540931224822998),
 ('kalimantan', 0.5312919020652771),
 ('bekasi', 0.5277451276779175),
 ('kantor', 0.5251922607421875),
 ('perusahaan', 0.5234262347221375),
 ('asalku', 0.5202034115791321),
 ('daerah', 0.5190582871437073),
 ('bali', 0.5189632177352905),
 ('makasar', 0.5181764364242554),
 ('pasar', 0.5167723894119263)]