# WEB CRAWLING

Web crawling merupakan salah satu teknik  dalam mengumpulkan suatu data yang digunakan untuk mengindekskan suatu informasi yang ada pada halaman menggunakan URL (Uniform Resource Locator) disertai dengan API (Application Programming Interface) dalam melakukan penambangan dataset dengan jumlah yang besar. 

Adapun library yang memiliki fungsi untuk membantu proses crawling data yang ada di webstie yakni Scrapy. Berikut ini merupakan cara install library Scrapy. Adapun proses di bawah ini merupakan proses install dari library scrapy.

In [1]:
pip install scrapy

^C


Note: you may need to restart the kernel to use updated packages.


# Import Library

Setelah berhasil menginstall Scrapy, dapat dilakukan proses crawling data yang ada pada webstie. Pertama dengan mengimportkan library Scrapy yang telah diinstall.

In [1]:
import scrapy
from scrapy.crawler import CrawlerProcess

Setelah mengimportkan beberapa library yang akan digunakan dalam proses crawling. Selanjutnya buat sebuah class, dalam class tersebut berisikan nama dari website yang akan dicrawling disini yakni website "Sindonews" dengan keyword "teknologi" dan ditambahkan urlnya. Tidak lupa mensetting format dari file yang akan tersimpan untuk formatnya yakni .csv 
Tentukan atribut yang akan di crawl yakni judul, tanggal, kategori, dan deskripsi.

In [2]:
class SpiderWeb(scrapy.Spider):
    name = "sindonews"
    keyword = 'teknologi'
    start_urls = [
        'https://tekno.sindonews.com/'+keyword
        ]
    custom_settings = {
        'FEED_FORMAT': 'csv',
        'FEED_URI': 'berita3.csv'
        }
    
    def parse(self, response):
        for data in response.css('div.desc-news'):
            yield {
                'judul': data.css('div.title a::text').get(),
                'tanggal': data.css('span.date::text').get(),
                'kategori': data.css('span.subkanal::text').get(),
                'deskripsi': data.css('div.desc::text').get()
                }
proses = CrawlerProcess()
proses.crawl(SpiderWeb)
proses.start()

2022-06-29 21:06:41 [scrapy.utils.log] INFO: Scrapy 2.6.1 started (bot: scrapybot)
2022-06-29 21:06:41 [scrapy.utils.log] INFO: Versions: lxml 4.8.0.0, libxml2 2.9.12, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 22.2.0, Python 3.8.2 (tags/v3.8.2:7b3ab59, Feb 25 2020, 23:03:10) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 22.0.0 (OpenSSL 1.1.1m  14 Dec 2021), cryptography 36.0.1, Platform Windows-10-10.0.17763-SP0
2022-06-29 21:06:41 [scrapy.crawler] INFO: Overridden settings:
{}
2022-06-29 21:06:41 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2022-06-29 21:06:42 [scrapy.extensions.telnet] INFO: Telnet Password: e5ae82ad5f75f7cb
  exporter = cls(crawler)

2022-06-29 21:06:42 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
2022-06-29 21:06:44 [scrapy.middleware] INFO: Enabled do

2022-06-29 21:06:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://tekno.sindonews.com/>
{'judul': 'Cara Mengamankan Akun WhatsApp Jika HP Hilang atau Dicuri', 'tanggal': 'Selasa, 28 Juni 2022 - 15:36 WIB', 'kategori': 'TELCO', 'deskripsi': 'Cara mengamankan Akun WhatsApp jika HP hilang atau dicuri wajib diketahui pengguna. Sehingga, mereka tahu apa yang harus dilakukan seandainya mengalami musibah kehilangan HP.'}
2022-06-29 21:06:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://tekno.sindonews.com/>
{'judul': 'Kulkas di Rumah Boros Listrik? Ini Solusinya Moms!', 'tanggal': 'Selasa, 28 Juni 2022 - 15:00 WIB', 'kategori': 'SPONSORED', 'deskripsi': 'Kulkas yang boros listrik bisa menjadi permasalahan bagi yang berpenghasilan pas-pasan. Pasalnya, dengan kulkas yang boros listrik itu bisa membikin tagihan listrik menjadi membengkak, kini hadir kulkas hemat listrik dari Polytron.'}
2022-06-29 21:06:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://tekno.sindonews.c

Crawling data telah berhasil dilakukan, dengan file yang telah tersimpan dengan nama berita3.csv

# Pre-Processing

Dalam proses selanjutnya yakni proses Pre-Processing, dalam proses ini memiliki fungsi untuk memastikan kualitas dari data agar data yang digunakan saat analisis data memiliki hasil yang baik dan memiliki data yang clean.

# Import Library

Adapun juga library yang dibutuhkan dalam proses pre-processing seperti nltk,swifter,Sastrawi dan masih banyak library yang digunakan. Library-librart tersebut diimport. Seperti dapat dilihat seperti berikut ini 

In [3]:
import pandas as pd
import numpy as np
import string
import re #regrex libray
import nltk
import swifter
import Sastrawi

from nltk.tokenize import word_tokenize
from nltk.tokenize.punkt import PunktSentenceTokenizer
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from nltk.probability import FreqDist
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer

# Load Dataset

Proses berikutnya yakni membuat dan menload dataset.Dalam dataset ini dibuat dengan nama "data_berita" kemudian tambahkan file hasil crawling dengan nama file berikut ini "berita3.csv" 

In [4]:
data_berita = pd.read_csv('berita3.csv')

Lalu, tampilkan datasetnya dengan .head() data terata akan ditampilkan

In [5]:
data_berita.head()

Unnamed: 0,judul,tanggal,kategori,deskripsi
0,"2 Cara Screenshot di MacBook, Ternyata Mudah d...","Selasa, 14 Juni 2022 - 18:16 WIB",ELEKTRONIK,Cara screenshot di MacBook penting diketahui o...
1,Cara Restart HP Xiaomi Tanpa Tombol Power,"Selasa, 14 Juni 2022 - 18:00 WIB",GADGET,Cara restart HP Xiaomi tanpa tombol power bisa...
2,Begini Cara Menyembunyikan Foto dan Video di H...,"Selasa, 14 Juni 2022 - 17:45 WIB",GADGET,Sedikitnya ada dua cara menyembunyikan foto da...
3,Partai Perindo: Mars Partai Perindo dengan QR ...,,sponsored,Lahir dari semangat untuk mengembalikan cita-c...
4,"Migrasi ke TV Digital, Samsung Tawarkan Super ...","Selasa, 14 Juni 2022 - 17:00 WIB",ELEKTRONIK,Super Smart TV+ jadi upaya Samsung untuk membe...


# Case Folding

Case folding adalag proses pre-processing yang memiliki fungsi untuk menyeragamkan karakter pada data yang ada. Proses Case Folding merupakan proses dalam mengubah huruf kecil. Pada karakter "A-Z" menjadi "a-z"

In [6]:
# ------ Case Folding --------
# gunakan fungsi Series.str.lower() pada Pandas
data_berita['deskripsi'] = data_berita['deskripsi'].str.lower()


print('Case Folding Result : \n')
print(data_berita['deskripsi'].head(20))
print('\n\n\n')

Case Folding Result : 

0     cara screenshot di macbook penting diketahui o...
1     cara restart hp xiaomi tanpa tombol power bisa...
2     sedikitnya ada dua cara menyembunyikan foto da...
3     lahir dari semangat untuk mengembalikan cita-c...
4     super smart tv+ jadi upaya samsung untuk membe...
5     keberhasilan ajang formula e di jakarta tak le...
6     bone conduction headphone belakangan semakin d...
7     erajaya active lifestyle mengenalkan 4 model h...
8     cara melihat terakhir dilihat whatsapp yang di...
9     google telah mengembangkan berbagai alat yang ...
10    tourbox neo adalah perangkat yang memiliki fun...
11    cara mengatasi whastapp kena sadap agar data-d...
12    kode redeem ff free fire, selasa 14 juni 2022,...
13    cara mengatasi hp xiaomi fastboot penting dike...
14    film pendek seperti sediakala menjadi bagian d...
15    cara menyembunyikan aplikasi di hp xiaomi sebe...
16    perbedaan wa gb dan whatsapp resmi serta bahay...
17    perusahaan induk t

Digunakan fungsi series.str.lower() yang terdapat pandas. Atribut yang dilakukan proses case folding yakni "Deskripsi"

# Tokenizing

Tokenizing merupakan tahap pemotongan string yang berdasarkan kata-kata yang menyusunkan atau memcahkan kalimat menjadi sebuah kata. 

Dalam tahap tokenizing yang pertama import string dan juga mengimport library re. Dan juga diperlukan library yang digunakan untuk memproses tokenize yakni nltk.tokenize dan nltk.probability

In [7]:
import string 
import re #regex library

# import word_tokenize & FreqDist from NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist

Adapun proses yang dilakukan yakni :
1. remove_tweet_special
2. remove_number
3. remove_punctuation
4. remove_whitespace_LT
5. remove_whitespace_multiple
6. remove_singl_char
7. word_tokenize_wrapper

In [8]:
def remove_tweet_special(text):
    # remove tab, new line, ans back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
    # remove non ASCII (emoticon, chinese word, .etc)
    text = text.encode('ascii', 'replace').decode('ascii')
    # remove mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    # remove incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
                
data_berita['deskripsi'] = data_berita['deskripsi'].apply(remove_tweet_special)

#remove number
def remove_number(text):
    return re.sub(r"\d+", "", text)

data_berita['deskripsi'] = data_berita['deskripsi'].apply(remove_number)

#remove punctuation
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

data_berita['deskripsi'] = data_berita['deskripsi'].apply(remove_punctuation)

#remove whitespace leading & trailing
def remove_whitespace_LT(text):
    return text.strip()

data_berita['deskripsi'] = data_berita['deskripsi'].apply(remove_whitespace_LT)

#remove multiple whitespace into single whitespace
def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

data_berita['deskripsi'] = data_berita['deskripsi'].apply(remove_whitespace_multiple)

# remove single char
def remove_singl_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

data_berita['deskripsi'] = data_berita['deskripsi'].apply(remove_singl_char)

# NLTK word rokenize 
def word_tokenize_wrapper(text):
    return word_tokenize(text)

data_berita['deskripsi_tokens'] = data_berita['deskripsi'].apply(word_tokenize_wrapper)

print('Tokenizing Result : \n') 
print(data_berita['deskripsi_tokens'].head(20))
print('\n\n\n')

Tokenizing Result : 

0     [cara, screenshot, di, macbook, penting, diket...
1     [cara, restart, hp, xiaomi, tanpa, tombol, pow...
2     [sedikitnya, ada, dua, cara, menyembunyikan, f...
3     [lahir, dari, semangat, untuk, mengembalikan, ...
4     [super, smart, tv, jadi, upaya, samsung, untuk...
5     [keberhasilan, ajang, formula, di, jakarta, ta...
6     [bone, conduction, headphone, belakangan, sema...
7     [erajaya, active, lifestyle, mengenalkan, mode...
8     [cara, melihat, terakhir, dilihat, whatsapp, y...
9     [google, telah, mengembangkan, berbagai, alat,...
10    [tourbox, neo, adalah, perangkat, yang, memili...
11    [cara, mengatasi, whastapp, kena, sadap, agar,...
12    [kode, redeem, ff, free, fire, selasa, juni, l...
13    [cara, mengatasi, hp, xiaomi, fastboot, pentin...
14    [film, pendek, seperti, sediakala, menjadi, ba...
15    [cara, menyembunyikan, aplikasi, di, hp, xiaom...
16    [perbedaan, wa, gb, dan, whatsapp, resmi, sert...
17    [perusahaan, induk, 

# Menghitung Frekuensi Distribusi Token

In [9]:
# NLTK calc frequency distribution
def freqDist_wrapper(text):
    return FreqDist(text)

data_berita['deskripsi_tokens_fdist'] = data_berita['deskripsi_tokens'].apply(freqDist_wrapper)

print('Frequency Tokens : \n') 
print(data_berita['deskripsi_tokens_fdist'].head(20).apply(lambda x : x.most_common()))

Frequency Tokens : 

0     [(di, 2), (macbook, 2), (cara, 1), (screenshot...
1     [(cara, 2), (restart, 1), (hp, 1), (xiaomi, 1)...
2     [(menyembunyikan, 2), (foto, 2), (dan, 2), (vi...
3     [(untuk, 2), (lahir, 1), (dari, 1), (semangat,...
4     [(tv, 3), (smart, 2), (super, 1), (jadi, 1), (...
5     [(dan, 2), (yang, 2), (keberhasilan, 1), (ajan...
6     [(headphone, 2), (bone, 1), (conduction, 1), (...
7     [(erajaya, 2), (active, 1), (lifestyle, 1), (m...
8     [(cara, 1), (melihat, 1), (terakhir, 1), (dili...
9     [(yang, 2), (google, 1), (telah, 1), (mengemba...
10    [(tourbox, 1), (neo, 1), (adalah, 1), (perangk...
11    [(cara, 1), (mengatasi, 1), (whastapp, 1), (ke...
12    [(bisa, 2), (kode, 1), (redeem, 1), (ff, 1), (...
13    [(xiaomi, 2), (fastboot, 2), (cara, 1), (menga...
14    [(film, 2), (pendek, 1), (seperti, 1), (sediak...
15    [(aplikasi, 2), (cara, 1), (menyembunyikan, 1)...
16    [(untuk, 2), (perbedaan, 1), (wa, 1), (gb, 1),...
17    [(perusahaan, 1), (in

# Filtering (Stopword Removal)

Stopword removal merupakan tahapan mengambil kata-kata yang penting dari hasil token dengan menggunakan algoritma stoplist (membuang kata yang dinilai kurang penting) atau bisa disebit worldlist (menyimpan kata yang penting). Contoh dari stopword dalam bahasa indonesia yakni sepert "dan","di","dari" dan masih banyak lainnya.

Gunakan library nltk.cotpus dan import stopwords. Seperti dibawah ini

Stopword memiliki additional stopword yang dilist. Jadi ada beberapa kata yang tidak diperlukan dalam data. Kata tersebut dimuat dalam list_stopwords.exted
Kemudian dibuat sebuah fungsi dengan nama stopword_removal yang akan membuang kata yang tidak penting di dalam atribut "deskripsi"

In [10]:
from nltk.corpus import stopwords
# ----------------------- get stopword from NLTK stopword -------------------------------
# get stopword indonesia
list_stopwords = stopwords.words('indonesian')


# ---------------------------- manualy add stopword  ------------------------------------
# append additional stopword
list_stopwords.extend(["yg", "dg", "rt", "dgn", "ny", "d", 'klo', 
                       'kalo', 'amp', 'biar', 'bikin', 'bilang', 
                       'gak', 'ga', 'krn', 'nya', 'nih', 'sih', 
                       'si', 'tau', 'tdk', 'tuh', 'utk', 'ya', 
                       'jd', 'jgn', 'sdh', 'aja', 'n', 't', 
                       'nyg', 'hehe', 'pen', 'u', 'nan', 'loh', 'rt',
                       '&amp', 'yah'])

# ----------------------- add stopword from txt file ------------------------------------
# read txt stopword using pandas
txt_stopword = pd.read_csv("berita3.csv", names= ["stopwords"], header = None)

# convert stopword string to list & append additional stopword
list_stopwords.extend(txt_stopword["stopwords"][0].split(' '))

# ---------------------------------------------------------------------------------------

# convert list to dictionary
list_stopwords = set(list_stopwords)


#remove stopword pada list token
def stopwords_removal(words):
    return [word for word in words if word not in list_stopwords]

data_berita['deskripsi_tokens_WSW'] = data_berita['deskripsi_tokens'].apply(stopwords_removal) 


print(data_berita['deskripsi_tokens_WSW'].head(20))

0     [screenshot, macbook, pengguna, ekosistem, app...
1     [restart, hp, xiaomi, tombol, power, mudah, me...
2     [menyembunyikan, foto, video, hp, samsung, mud...
3     [lahir, semangat, mengembalikan, citacita, kem...
4     [super, smart, tv, upaya, samsung, opsi, smart...
5     [keberhasilan, ajang, formula, jakarta, lepas,...
6     [bone, conduction, headphone, diminati, jenis,...
7     [erajaya, active, lifestyle, mengenalkan, mode...
8         [whatsapp, disembunyikan, aplikasi, tambahan]
9     [google, mengembangkan, alat, luas, mendorong,...
10    [tourbox, neo, perangkat, memiliki, fungsi, sp...
11    [mengatasi, whastapp, kena, sadap, datadata, t...
12    [kode, redeem, ff, free, fire, selasa, juni, m...
13    [mengatasi, hp, xiaomi, fastboot, mi, fans, pe...
14    [film, pendek, sediakala, tren, unjuk, gigi, k...
15    [menyembunyikan, aplikasi, hp, xiaomi, mudah, ...
16    [perbedaan, wa, gb, whatsapp, resmi, bahayanya...
17    [perusahaan, induk, tiktok, bytedance, ser

# Normalization

Normalization merupakan salah satu tahapan yang ada dalam pre-processing. Normalization memiliki fungsi untuk menyamakan nilai yang ada dalam data dalam rentan tertentu.

In [11]:
normalizad_word = pd.read_csv("berita3.csv")

normalizad_word_dict = {}

for index, row in normalizad_word.iterrows():
    if row[0] not in normalizad_word_dict:
        normalizad_word_dict[row[0]] = row[1] 

def normalized_term(document):
    return [normalizad_word_dict[term] if term in normalizad_word_dict else term for term in document]

data_berita['deskripsi_normalized'] = data_berita['deskripsi_tokens_WSW'].apply(normalized_term)

data_berita['deskripsi_normalized'].head(20)

0     [screenshot, macbook, pengguna, ekosistem, app...
1     [restart, hp, xiaomi, tombol, power, mudah, me...
2     [menyembunyikan, foto, video, hp, samsung, mud...
3     [lahir, semangat, mengembalikan, citacita, kem...
4     [super, smart, tv, upaya, samsung, opsi, smart...
5     [keberhasilan, ajang, formula, jakarta, lepas,...
6     [bone, conduction, headphone, diminati, jenis,...
7     [erajaya, active, lifestyle, mengenalkan, mode...
8         [whatsapp, disembunyikan, aplikasi, tambahan]
9     [google, mengembangkan, alat, luas, mendorong,...
10    [tourbox, neo, perangkat, memiliki, fungsi, sp...
11    [mengatasi, whastapp, kena, sadap, datadata, t...
12    [kode, redeem, ff, free, fire, selasa, juni, m...
13    [mengatasi, hp, xiaomi, fastboot, mi, fans, pe...
14    [film, pendek, sediakala, tren, unjuk, gigi, k...
15    [menyembunyikan, aplikasi, hp, xiaomi, mudah, ...
16    [perbedaan, wa, gb, whatsapp, resmi, bahayanya...
17    [perusahaan, induk, tiktok, bytedance, ser

# Stemming 

Stemming juga merupakan salah satu tahap yang ada di dalam teks pre-processing. Stemming sendiri memiliki fungsi guna mengubah term ke dalam bentuk akar. Stemming bisasny menghilangkan kata imbuhan seperti awalan maupun akhiran.

In [12]:

# import Sastrawi package
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import swifter


# create stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# stemmed
def stemmed_wrapper(term):
    return stemmer.stem(term)

term_dict = {}

for document in data_berita['deskripsi_normalized']:
    for term in document:
        if term not in term_dict:
            term_dict[term] = ' '
            
print(len(term_dict))
print("------------------------")

for term in term_dict:
    term_dict[term] = stemmed_wrapper(term)
    print(term,":" ,term_dict[term])
    
print(term_dict)
print("------------------------")


# apply stemmed term to dataframe
def get_stemmed_term(document):
    return [term_dict[term] for term in document]

data_berita['deskripsi_tokens_stemmed'] = data_berita['deskripsi_normalized'].swifter.apply(get_stemmed_term)
print(data_berita['deskripsi_tokens_stemmed'])

610
------------------------
screenshot : screenshot
macbook : macbook
pengguna : guna
ekosistem : ekosistem
apple : apple
tangkapan : tangkap
layar : layar
pc : pc
berbeda : beda
restart : restart
hp : hp
xiaomi : xiaomi
tombol : tombol
power : power
mudah : mudah
melakukannya : laku
menyembunyikan : sembunyi
foto : foto
video : video
samsung : samsung
menyimak : simak
ulasan : ulas
ponsel : ponsel
bingung : bingung
file : file
galeri : galeri
lahir : lahir
semangat : semangat
mengembalikan : kembali
citacita : citacita
kemerdekaan : merdeka
partai : partai
perindo : perindo
hadir : hadir
membangun : bangun
indonesia : indonesia
negara : negara
bersatu : satu
berdaulat : daulat
adil : adil
makmur : makmur
berlandaskan : landas
pancasila : pancasila
super : super
smart : smart
tv : tv
upaya : upaya
opsi : opsi
harga : harga
kompetitif : kompetitif
konsumen : konsumen
beralih : alih
analog : analog
digital : digital
keberhasilan : hasil
ajang : ajang
formula : formula
jakarta : jakarta


Pandas Apply:   0%|          | 0/153 [00:00<?, ?it/s]

0      [screenshot, macbook, guna, ekosistem, apple, ...
1      [restart, hp, xiaomi, tombol, power, mudah, laku]
2      [sembunyi, foto, video, hp, samsung, mudah, si...
3      [lahir, semangat, kembali, citacita, merdeka, ...
4      [super, smart, tv, upaya, samsung, opsi, smart...
                             ...                        
148    [aplikasi, bawa, hp, xiaomi, hapus, mi, fans, ...
149    [aplikasi, iphone, baik, wajib, milik, guna, i...
150    [sembunyi, last, seen, whatsapp, kontak, fitur...
151    [aplikasi, khusus, xiaomi, baik, gratis, rekom...
152    [sebab, atas, whatsapp, kirim, pesan, komunika...
Name: deskripsi_tokens_stemmed, Length: 153, dtype: object


# Simpan Hasil Pre-Processing ke CSV

Setalah tahapan pre-processing telah dilakukan, maka data dari hasil pre-processing tersebut disimpan ke dalam format .csv
Seperti berikut ini 

In [13]:
data_berita.to_csv("Text_Preprocessing_Berita1.csv")

# Modeling Using LSA

Tahap selanjutnya yakni membuat model dengan menggunakan LSA atau Latent Semantic Analysis

# Import Library

Dalam tahap modeling menggunakan LSA juga diperlukan library tersendiri gun mendukung proses modeling. Adapun library yang diperlukan yakni numpy, pandas, matplotlib, seaborn, dan nltk. 
Berikut ini merupakan proses import yang dilakukan

In [14]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

#import nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

# for named entity recognition (NER)
from nltk import ne_chunk

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

#stop-words
stop_words=set(nltk.corpus.stopwords.words('english'))

2022-06-29 21:08:19 [matplotlib] DEBUG: matplotlib data path: c:\users\asus\appdata\local\programs\python\python38\lib\site-packages\matplotlib\mpl-data
2022-06-29 21:08:19 [matplotlib] DEBUG: CONFIGDIR=C:\Users\ASUS\.matplotlib
2022-06-29 21:08:19 [matplotlib] DEBUG: matplotlib version 3.4.3
2022-06-29 21:08:19 [matplotlib] DEBUG: interactive is False
2022-06-29 21:08:19 [matplotlib] DEBUG: platform is win32


2022-06-29 21:08:20 [matplotlib] DEBUG: CACHEDIR=C:\Users\ASUS\.matplotlib
2022-06-29 21:08:21 [matplotlib.font_manager] DEBUG: Using fontManager instance from C:\Users\ASUS\.matplotlib\fontlist-v330.json
2022-06-29 21:08:25 [matplotlib.pyplot] DEBUG: Loaded backend module://matplotlib_inline.backend_inline version unknown.
2022-06-29 21:08:25 [matplotlib.pyplot] DEBUG: Loaded backend module://matplotlib_inline.backend_inline version unknown.
2022-06-29 21:08:26 [matplotlib.pyplot] DEBUG: Loaded backend module://matplotlib_inline.backend_inline version unknown.


Dalam proses import tersebut ada library yang digunakan dalam visualisasi dan manipulasi data diantaranya yakni :
1. numpy
2. pandas
3. matplotlib
4. seaborn

Serta library yang digunakan dalam pre-processing yakni :
1. nltk

# Load Dataset

Dalam proses modeling juga dilakukan pembuatan dataframe disini data framenya dinamai seperti yang sebelumnya yakni "data_berita". Dan data yang digunakan merupakan data hasil preprocessing dengan nama file "Text_Preprocessing_Berita.csv"

In [15]:
data_berita = pd.read_csv('berita3.csv')

Lalu, tampilkan datasetnya dengan .head() data terata akan ditampilkan

In [16]:
data_berita.head()

Unnamed: 0,judul,tanggal,kategori,deskripsi
0,"2 Cara Screenshot di MacBook, Ternyata Mudah d...","Selasa, 14 Juni 2022 - 18:16 WIB",ELEKTRONIK,Cara screenshot di MacBook penting diketahui o...
1,Cara Restart HP Xiaomi Tanpa Tombol Power,"Selasa, 14 Juni 2022 - 18:00 WIB",GADGET,Cara restart HP Xiaomi tanpa tombol power bisa...
2,Begini Cara Menyembunyikan Foto dan Video di H...,"Selasa, 14 Juni 2022 - 17:45 WIB",GADGET,Sedikitnya ada dua cara menyembunyikan foto da...
3,Partai Perindo: Mars Partai Perindo dengan QR ...,,sponsored,Lahir dari semangat untuk mengembalikan cita-c...
4,"Migrasi ke TV Digital, Samsung Tawarkan Super ...","Selasa, 14 Juni 2022 - 17:00 WIB",ELEKTRONIK,Super Smart TV+ jadi upaya Samsung untuk membe...


Sebelum beralih pada tahap selanjutnya, ada beberapa atribut yang perlu dihapus yakni judul, tanggal, dan kategori. Dikarenakan atribut yang digunakan yakni atribut deskripsi.

In [17]:
# drop judul, tanggal, dan kategori
data_berita.drop(['judul','tanggal','kategori'],axis=1,inplace=True)

Tampilkan data yang telah di hapus atributnya dan menyisakan deskripsi

In [18]:
data_berita.head()

Unnamed: 0,deskripsi
0,Cara screenshot di MacBook penting diketahui o...
1,Cara restart HP Xiaomi tanpa tombol power bisa...
2,Sedikitnya ada dua cara menyembunyikan foto da...
3,Lahir dari semangat untuk mengembalikan cita-c...
4,Super Smart TV+ jadi upaya Samsung untuk membe...


# Data Cleaning & Pre-Processing

Pada tahap selnajutnya yakni melakukan cleaning dan juga tahap pre-processing kembali. Menggunakan lemmatizer danjuga stemmer. Terdapat juga kata-kata yang tidak digubakan bersama dan juga kata-kata yang panjanya kurang dari 3 karakter yang berguna untuk mengurangi beberapa kata yang tidak cocok.

In [19]:
def clean_text(headline):
  le=WordNetLemmatizer()
  word_tokens=word_tokenize(headline)
  tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
  cleaned_text=" ".join(tokens)
  return cleaned_text

In [20]:
# time taking
data_berita['deskripsi_cleaned_text']=data_berita['deskripsi'].apply(clean_text)

In [21]:
data_berita.head()

Unnamed: 0,deskripsi,deskripsi_cleaned_text
0,Cara screenshot di MacBook penting diketahui o...,Cara screenshot MacBook penting diketahui oleh...
1,Cara restart HP Xiaomi tanpa tombol power bisa...,Cara restart Xiaomi tanpa tombol power bisa di...
2,Sedikitnya ada dua cara menyembunyikan foto da...,Sedikitnya cara menyembunyikan foto video Sams...
3,Lahir dari semangat untuk mengembalikan cita-c...,Lahir dari semangat untuk mengembalikan cita-c...
4,Super Smart TV+ jadi upaya Samsung untuk membe...,Super Smart jadi upaya Samsung untuk memberika...


Dapat dilihat perbedaan setelah dilakukan stopwords dan juga kata yang lebih pendek. Juga ada beberapa kata yang telah diestimasi seperti "calls"-->"call"

Lalu hapus kolom yang belum dilakuak pre-processing, disini adalah kolom deskripsi

In [22]:
data_berita.drop(['deskripsi'],axis=1,inplace=True)

In [23]:
data_berita.head()

Unnamed: 0,deskripsi_cleaned_text
0,Cara screenshot MacBook penting diketahui oleh...
1,Cara restart Xiaomi tanpa tombol power bisa di...
2,Sedikitnya cara menyembunyikan foto video Sams...
3,Lahir dari semangat untuk mengembalikan cita-c...
4,Super Smart jadi upaya Samsung untuk memberika...


Dapat dilihat bahwa ada beberapa judul berita tertentu

In [24]:
data_berita['deskripsi_cleaned_text'][0]

'Cara screenshot MacBook penting diketahui oleh pengguna ekosistem Apple Sebab melakukan tangkapan layar MacBook sangat berbeda'

# Extracting Feature dan Membuat Dokumen Term-Matrik (DTM)

DTM memiliki nilai TF-Idf
Tentukan pula parameter dari vectore TF-Idf

Adapun beberapa poin penting yang perlu diperhatoakn :
1. LSA pada umumnua diimplementasikan dengan menggunakan nilai TF-Idff dan tidak dengan Count Vectorizer
2. max_feature bergantubg pada daya komputasi dan juga pada eval. Metrik merupakan skor yang koheren untuk menentukan model
3. Nilai default untuk min_df dan max_df dapat bekerja dengan baik
4. Dapat mencoba nilai yang berbeda-beda dalam ngram_range

In [25]:
vect =TfidfVectorizer(stop_words=stop_words, max_features=1000) # to play with. min_df,max_df,max_features etc...

In [26]:
vect_text=vect.fit_transform(data_berita['deskripsi_cleaned_text'])

Dalam hasilnya, dapat dilihat kata yang sering muncul dan kata yang jarang muncul dalam berita yang ada dalam idf. Apabila memiliki nilai yang kecil maka katanya lebih umum digunakan dalam berita utama

In [27]:
print(vect_text.shape)
print(vect_text)

(153, 761)
  (0, 74)	0.28860402459692663
  (0, 589)	0.23908666511899235
  (0, 332)	0.27179145222663637
  (0, 677)	0.28860402459692663
  (0, 357)	0.25875060795900284
  (0, 595)	0.190774327752326
  (0, 37)	0.23128288998948118
  (0, 179)	0.28860402459692663
  (0, 508)	0.13870453196976726
  (0, 469)	0.20758690012261627
  (0, 152)	0.14846742356817522
  (0, 512)	0.1807311406436934
  (0, 344)	0.4961909247195429
  (0, 593)	0.28860402459692663
  (0, 112)	0.12536475353703794
  (1, 358)	0.3299038132797849
  (1, 736)	0.16390063664014418
  (1, 63)	0.27330042482000255
  (1, 51)	0.27330042482000255
  (1, 449)	0.2102060517194504
  (1, 121)	0.29577831554275125
  (1, 130)	0.12867090561862438
  (1, 154)	0.21402449627547593
  (1, 94)	0.13558789850327502
  (1, 548)	0.3299038132797849
  :	:
  (151, 266)	0.17128956413314456
  (151, 363)	0.19230890949875398
  (151, 36)	0.17128956413314456
  (151, 759)	0.17792277431801434
  (151, 47)	0.1967423517336957
  (151, 249)	0.1882041831190288
  (151, 418)	0.15391655528

In [29]:
idf=vect.idf_

In [30]:
dd=dict(zip(vect.get_feature_names(), idf))
l=sorted(dd, key=(dd).get)
# print(l)
print(l[0],l[-1])
print(dd['yang'])
print(dd['york'])  # police is most common and forecast is least common among the news headlines.

yang york
1.6061358035703155
5.343805421853684


Oleh karena itu, berdasarkan pada nilai idf yang ada 'adil' adalah kata yang paling sering muncul sedangkan 'alat' paling jarang muncul dalam berita

# Topik Modeling

# Latent Semantic Analysis (LSA)

Pada pendekatan pertama digunakan LSA. LSA pada dasarnya adalah dekomposisi dari nilai tunggal.

SVD akan menguraikan DTM menajdi tiga matriks = S=U.(sigma).(V.T). Nilai matrik U menunjukkan matriks dari dokumen topik sementara (V) adalah matriks dari term.

Pada setiap baris dari matriks U (matriks istilah dari dokumen) merupakan representasi vektor yang ada dalam dokumen yang sesuai. Panjang vektor ini ialah jumlah topik yang diinginkan. Representasi dari vektor untuk suku yang ada dalam data dapat ditemui dalam matriks V.

Jadi, SVD memberikan nilai vektor pada setiap dokumen dan juga istilah dalam data. Panjang dari setiap vektor adalah k. Vektor ini digunakan untuk menentukan kata dan dokumen serupa dalam metode kesamaan kosinus. 

Dapat digunakan fungsi truncastedSVD untuk mengimplementasikan LSA. Parameter n_components merupakan jumlah topik yang akan diekstrak. Model tersebut nantinya akan di fit dan ditransformasikan pada hasil yang diberikan oleh vectorizer.

Tahap terakhir yakni LSA dan LSI (I digunakan untuk mengindekskan) ialah sama dan yang terakhir digunakan dalam konteks pencarian sebuah informasi.

In [30]:
from sklearn.decomposition import TruncatedSVD
lsa_model = TruncatedSVD(n_components=10, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)

In [31]:
print(lsa_top)
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

[[ 1.69237957e-01 -1.96983437e-02 -1.22566452e-01  2.44056443e-02
  -1.16689454e-04  2.03918538e-01 -2.15858335e-01  3.99105101e-01
  -2.72807277e-03 -2.93871679e-01]
 [ 3.34715991e-01 -1.02355383e-02 -1.50914854e-01 -6.45064921e-02
   4.43539270e-05  2.95451812e-01  4.26684573e-01  2.59862354e-02
  -5.72579231e-02 -6.82824830e-02]
 [ 4.49761389e-01 -6.49818112e-02 -3.76097182e-01  8.08797055e-02
   2.43216843e-04 -3.04162219e-01  4.49890548e-02  6.16491136e-02
   7.64951170e-02 -8.70055191e-02]
 [ 2.35234826e-01  9.15528407e-01  1.33437886e-01 -2.69763508e-01
   1.49477272e-06 -4.04563231e-02  7.17636207e-02 -1.64899780e-03
   8.86661191e-03 -1.82822727e-02]
 [ 2.11403485e-01  6.70272767e-02 -2.78943239e-02 -3.08050550e-02
   2.81254019e-04  1.62357292e-01 -3.08810539e-01 -1.46419732e-01
   1.10939981e-01  1.48432968e-01]
 [ 1.19521971e-01  3.88914166e-02  2.89035238e-02  9.07479975e-02
  -2.13563949e-04  7.06843262e-02 -3.51415483e-01  8.77316708e-02
   2.48224171e-01  8.68196123e-02

In [32]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  16.92379570653126
Topic  1  :  -1.969834371295788
Topic  2  :  -12.256645161637127
Topic  3  :  2.4405644306872496
Topic  4  :  -0.011668945427747742
Topic  5  :  20.391853809210705
Topic  6  :  -21.5858334521288
Topic  7  :  39.9105101178529
Topic  8  :  -0.27280727683155653
Topic  9  :  -29.38716791539958


Hampir sama dengan dokumen lainnya, dapat dilakukan proses seperti di bawah ini. Akan tetapi perlu diperhatikan bahwa dalam setiap nilai tidak menambah 1 itu bukan sebuah kemungkinan topik yang ada dalam dokumen.

In [33]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(10, 612)
[[ 1.33983581e-02  8.05180796e-04  7.92813607e-03 ...  3.09649565e-03
   2.34459497e-01  8.05180796e-04]
 [ 5.80196881e-03 -4.89866208e-04  1.74341786e-03 ... -6.37746449e-04
  -4.27348134e-02 -4.89866208e-04]
 [ 1.06751800e-05  1.52226911e-03  8.08489798e-03 ... -1.26670835e-03
   3.58434035e-02  1.52226911e-03]
 ...
 [ 3.31302920e-02 -1.27367242e-03  1.27740024e-02 ... -2.67920122e-03
  -1.82853392e-01 -1.27367242e-03]
 [ 3.34465938e-02 -2.84436431e-03 -1.20588736e-02 ... -2.41998260e-03
   3.30616866e-03 -2.84436431e-03]
 [ 1.22911188e-02 -8.18387001e-04  4.24624537e-03 ...  6.88454155e-03
   2.45254312e-02 -8.18387001e-04]]


Sehingga, didapatkan sebuah list dari kata-kata yang penting dan memiliki makna dari setiap 10 topic yang ditampilkan. Sederhananya dibawah ini ditampilkan 10 kata dalam setiap topic.

In [34]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
yang dengan foto bisa cara tidak pengguna perlu untuk ulasan 

Topic 1: 
cita untuk indonesia adil berdaulat berlandaskan bersatu kemerdekaan lahir makmur 

Topic 2: 
fire free redeem juni kode 2022 banyak rabu hari gratis 

Topic 3: 
pameran 22 dibuka indocomtech terbesar komunikasi resmi informasi ajang teknologi 

Topic 4: 
deskripsi video melihat aplikasi 1986 berhasil harta home karun kaset 

Topic 5: 
aplikasi dilakukan melihat sangat bisa digital fitur iphone sederhana apple 

Topic 6: 
cara mudah dilakukan bahkan xiaomi tanpa bisa cukup melakukannya power 

Topic 7: 
penting diketahui macbook oleh layanan menggunakan seluruh backup diambil faktanya 

Topic 8: 
lebih instagram anda sosial mengubah platform dari akun cermati dibandingkan 

Topic 9: 
fitur baru headphone para memungkinkan ak berlangganan mendapatkan sejumlah terhadap 

