In [2]:
import codecs, json
import numpy as np
import pandas as pd
import glob
import pickle
from nltk.tokenize import word_tokenize
from tqdm import tqdm

In [None]:
data_path = 'data/'
files = glob.glob(data_path + '/*')
train = pickle.load(open(files[1], 'rb'))
test = pickle.load(open(files[0], 'rb'))
d_train = pd.DataFrame({'text': train[0], 'kategori': train[1]})
d_test = pd.DataFrame({'text': test[0], 'kategori': test[1]})
githubdata = pd.concat([d_train, d_test], ignore_index=True, sort =False)
githubdata = githubdata.loc[githubdata['kategori'] == 'bisnis'].reset_index(drop=True)
githubdata = githubdata.loc[0:299]
print(len(githubdata))

In [3]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from preprocess import prep
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# import StopWordRemoverFactory class
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory, StopWordRemover, ArrayDictionary
stoplist = pd.read_csv('stoplist.csv')

# Ambil Stopword bawaan
stop_factory = StopWordRemoverFactory().get_stop_words()

# Custom stopword
data = stoplist['list'].tolist()

dictionary = ArrayDictionary(data)
stopword = StopWordRemover(dictionary)

# CREATING VOCAB & WORD COUNTS

In [7]:
def sort_coo(coo_matrix):
    tuples = zip(coo_matrix.col, coo_matrix.data)
    return sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)

def extract_topn_from_vector(feature_names, sorted_items, topn=10):
    """get the feature names and tf-idf score of top n items"""
    
    #use only topn items from vector
    sorted_items = sorted_items[:topn]

    score_vals = []
    feature_vals = []
    
    # word index and corresponding tf-idf score
    for idx, score in sorted_items:
        
        #keep track of feature name and its corresponding score
        score_vals.append(round(score, 3))
        feature_vals.append(feature_names[idx])

    #create a tuples of feature,score
    #results = zip(feature_vals,score_vals)
    results= {}
    for idx in range(len(feature_vals)):
        results[feature_vals[idx]]=score_vals[idx]
    
    return results

In [8]:
from sklearn.feature_extraction.text import CountVectorizer
#get the text column 
docs=githubdata['text'].tolist()
cv=CountVectorizer(max_df=0.85,stop_words=data,max_features=10000)
word_count_vector=cv.fit_transform(docs)
list(cv.vocabulary_.keys())[:10]

  'stop_words.' % sorted(inconsistent))


['menanggapi',
 'aksi',
 'eks',
 'pekerja',
 'pt',
 'freeport',
 'indonesia',
 'ptfi',
 'menggelar',
 'tenda']

# TfidfTransformer to Compute Inverse Document Frequency (IDF)

In [9]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer=TfidfTransformer(smooth_idf=True,use_idf=True)
tfidf_transformer.fit(word_count_vector)

TfidfTransformer()

# Computing TF-IDF and Extracting keywords

In [10]:
# get test docs into a list
docs_test=githubdata['stemmed'].tolist()

In [12]:
# you only needs to do this once, this is a mapping of index to 
feature_names=cv.get_feature_names()

# get the document that we want to extract keywords from
doc=docs_test[1]

#generate tf-idf for the given document
tf_idf_vector=tfidf_transformer.transform(cv.transform([doc]))

#sort the tf-idf vectors by descending order of scores
sorted_items=sort_coo(tf_idf_vector.tocoo())

#extract only the top n; n here is 10
keywords=extract_topn_from_vector(feature_names,sorted_items,10)

# now print the results
print("\n=====Doc=====")
print(doc)
print("\n===Keywords===")
for k in keywords:
    print(k,keywords[k])



=====Doc=====
liputancom jakarta kasih sayang valentines day ajang tepat pasang bahagia sama buket bunga cokelat tonton film bioskop jarang bikin makan malam romantis mewah akan uras isi dompet di tengah bukan jangan jadi ini suatu alas hadiah laku khusus pasang tetap raya valentine pasang jaga isi dompet tahu cara adalah tips kutip laman smartaboutmoney boleh pasang hadiah halhal istimewa saat valentine jangan terlalu lebih milik hubung pasang sikap hitung pasang tidak mengapa banding anda harus tahan lapar valentine atau bahkan hilang jika lama jalin hubung pasang buka uang anda agar pasang erti tidak harap hal spesial dari anda

===Keywords===
valentine 0.439
hadiah 0.278
dompet 0.266
isi 0.256
smartaboutmoney 0.157
lapar 0.157
laku 0.157
jaga 0.157
hilang 0.157
bioskop 0.157


# PREPROCESSING

In [6]:
for i in tqdm(range(len(githubdata))):
    githubdata.loc[i, 'stemmed'] = stemmer.stem(stopword.remove(prep(githubdata.loc[i, 'text'])))
# githubdata = githubdata.drop(columns=['text']) # Get rid of the unstemmed column.
# githubdata.to_json('bigdata.json', orient='records', lines=True)

  0%|                                                                                          | 0/300 [00:00<?, ?it/s]

300


100%|████████████████████████████████████████████████████████████████████████████████| 300/300 [06:50<00:00,  1.37s/it]


# FIT & TRANSFORM LABEL

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer as tfidf
from sklearn.model_selection import train_test_split
vectorizer=tfidf()
X = vectorizer.fit_transform(githubdata['stemmed'])
y=githubdata['kategori']
x_train,x_test,y_train,y_test= train_test_split(X,y,
test_size=.075, random_state= 42) 

# TRAINING

In [7]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import joblib
from sklearn.naive_bayes import MultinomialNB

# # Mengaktifkan/memanggil/membuat fungsi klasifikasi Naive Bayes dan OnVsRest
classifier = MultinomialNB()
# # Memasukkan data training
classifier.fit(x_train, y_train)
y_pred = classifier.predict(x_test)
#hitung akurasi data test
score = classifier.score(x_test, y_test)
# all_labels = mlb.inverse_transform(pred)
modelfile = 'modelNB-real.sav'
labelfile = 'vectorizer-real.sav'
joblib.dump(classifier, modelfile)
joblib.dump(vectorizer, labelfile)
for item, labels in zip(vectorizer.inverse_transform(x_test), y_test):
    print('{0} => {1}'.format(" ".join(item),labels))


bilang itu profesi driver ojol tengah ada masa jaya hasil hingga rp jutabulan => bisnis
minta masker lonjak tingkat kasus virus corona baru apotek toko habis stok masker ikut komentar kemenkes maskern via => bisnis,kesehatan
ilmuwan china sebut trenggiling mungkin jadi hubung sebar virus corona trenggiling kenal hewan nokturnal makan semut => bisnis,kesehatan
liputancom jakarta pt bank rakyat indonesia tbk bri gandeng aplikasi layan mesan tempat inap indohomestay menteri pariwisata kemenpar rangka rangka optimalisasi jasa layan homestay kembang sektor pariwisata tanah air evp retail payment bri arif wicaksono kata lalu kerja sama bri beri bagai program promosi tarik seluruh wisatawan ingin rasa layan homestay indonesia lalu aplikasi lndohomestay tutur promo beri bri bagi nasabah bri pegang kartu kredit debit alat bayar bri lain dapat diskon hingga persen mes homestay lalu indohomestay indohomestay transaksi kan online satusatunya bank terima bayar situ bri debit kredit epay bri virtual

liputancom jakarta lembaga lidi ekonomi masyarakat universitas indonesia lpem ui turut komentar kait jumlah utang perintah meski tingkat cepat empat tahun akhir utang perintah nilai kendali ungkap seri analisis makroekonomi indonesia economic outlook terima merdekacom selasa bagi besar utang ada mata uang domestik kuartaliii utang mata uang asing capai rp triliun utang mata uang rupiah capai rp triliun tara persen total utang demikian banding tahun porsi utang mata uang asing alami sedikit turun persen jadi persen kata kepala riset lpem feui febrio kacaribu walaupun rupiah depresiasi persen sejak akhir proporsi utang mata uang asing cukup stabil sangat kesan jelas utang indonesia kelola tahan lebih baik fluktuasi mata uang tanda ada disiplin kuat memitigasi risiko nilai tukar mampu kurang rentan guncang eksternal kait utang luar negeri aspek dua dianalisa lpem ui banding beri pinjam domestik asing perintah indonesia lebih gantung kreditor eksternal banding kreditor domestik sebut cukup

liputancom jakarta masyarakat saksi langsung ajang balap motor paling gengsi dunia motogp lantar tahun sebut indonesia jadi salah satu tuan rumah motogp laksana sirkuit mandalika nusa tenggara barat ntb direktur utama pt kembang pariwisata indonesia abdulbar m mansoer kata pihak teken kontrak dorna selenggara motogp dorna beri sempat indonesia jadi tuan rumah motogp mulai tandatangan kontrak januari dorna saing brasil akhir yang siap venue bangun sirkuit ujar jakarta selasa abdulbar ungkap bangun sirkuit mandalika pihak gandeng usaha asal prancis vinci contruction grands projects itu itdc telah dapat dana asi infrastructure investment bank aiib dana dapat jadi bangun motogp balap motor besar dunia tonton juta indonesia nomor china tonton bangun vinci bangun awal kalau di negara tidak kata abdulbar optimistis bangun sirkuit panjang kilometer km sebut rampung bisa tarik wisatawan saksi motogp di mandalika kita punya waktu tahun harap selesai panjang km keliling bukit pantai ujar => bisni

liputancom jakarta presiden joko widodo jokowi janji panggil menteri pendayagunaan aparatur negara reformasi birokrasi panrb selesai masalah tenaga hari lepas tenaga bantu suluh tani thl tbpp abdi lama tahun kira alam lapang sangat penting damping tani rangka baik produktivitas tani nanti panggil pak menteri panrb kata jokowi kutip laman sekretariat kabinet senin jokowi aku baru diberitahu gubernur jawa tengah ganjar pranowo ketua thl tbpp indonesia gunadi kena ada thl tbpp belum angkat jadi pegawai negeri sipil pns aparatur sipil negara asn kait aku sulit jawab langsung ngomong langsung senang tidak harus bicara masalah prosedur harus lalu percaya kita selesai masalahmasalah ada jangan paksa jawab sekarang jelas dia presiden aku ada suluh tani lapang sangat perlu sampai ini indonesia kurang banyak suluh tani lapang kalau ini bisa isi thl tbpp presiden akan lebih baik mereka sudah punya alam lapang tahun => bisnis
liputancom jakarta calon presiden capres joko widodo jokowi nyata bijak 

liputancom jakarta sinergi bumn resmi luncur linkaja rupa layan uang digital rupa gabung bagai layan uang digital bumn ganti wajah jadi satu linkaja linkaja rupa bentuk komitmen bumn hadir layan uang elektronik lebih baik lengkap masyarakat indonesia manfaat jaring bisnis kredibel milik bumn lalu mampu linkaja saing usaha jenis gopay ovo lain bagai deputi bidang usaha jasa uang survey konsultasi menteri bumn gatot trihargo kata hadir linkaja ramai pasar uang elektronik ikut ramai bukan hadir saing customer base gopay lain belum banyak juta kaya gatot wartawan jumat jelas gatot tahap awal linkaja bakal guna layan perban bumn sifat mandatori pilih bayar gerbang tol parkir bagai fasilitas kelola bumn lain bagai potensi pasar cukup besar sekarang sudah jadi ekosistem misal bayar jalan tol tinggal akselerasi alat bisa pakai qr code tegas hadir linkaja tuju utama beri efisiensi bankbank bumn begitu mulai saat bankbank bumn lagi investasi sendirisendiri selenggara uang elektronik sistem bayar

liputancom jakarta gerak indeks harga saham gabung ihsg gerak zona hijau dagang saham kamis pekan hal ikut gera bursa saham global pra buka dagang saham kamis ihsg kuat poin persen posisi pukul wib ihsg naik poin persen posisi indeks saham lq kuat persen posisi bagi besar indeks saham acu kuat indeks saham pefindo turun persen banyak saham kuat angkat ihsg saham lemah saham diam tempat awal sesi dagang ihsg sempat ada level tinggi rendah total frekuensi dagang saham kali volume dagang juta saham nilai transaksi hari saham rp miliar investor asing lanjut aksi jual rp miliar pasar regular posisi dolar amerika serikat as ada kisar rp sektor saham kompak kuat sektor saham tambang naik persen catat kuat besar susul sektor saham dagang daki persen sektor saham aneka industri tanjak persen sahamsaham mampu catat top gainers lain saham soss daki persen posisi per saham saham inpp tanjak persen posisi per saham saham bmsr kuat persen posisi per saham itu sahamsaham tekan lain saham giaa turun p