# Sentiment Analisis dengan Web Scrapping

## Sumber : Detik.com search "Pembakaran Bendera Tauhid"

### 1. Import Semua Library yang dibutuhkan

In [2]:
from bs4 import BeautifulSoup as bs
import urllib

### 2. Mengambil link berita dan membuka dalam bentuk HTML

In [3]:
url = 'https://www.detik.com/search/searchall?query=pembakaran+bendera+tauhid'
html = urllib.request.urlopen(url).read()
print(str(html[:2000])+'...')

b'<!DOCTYPE html>\n<html lang="en">\n\n    <head>\n<meta charset="utf-8">\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n<meta name="viewport" content="initial-scale = 1.0, user-scalable = no, width=device-width, height=device-height, maximum-scale=1.0">\n<meta name="apple-mobile-web-app-capable" content="yes" />\n<title>detiksearch</title>\n<script type="text/javascript">\n_atrk_opts = { atrk_acct:"JGO+j1a0CM00q/", domain:"detik.com",dynamic: true};\n(function() { var as = document.createElement(\'script\'); as.type = \'text/javascript\'; as.async = true; as.src = "https://d31qbv1cthcecs.cloudfront.net/atrk.js"; var s = document.getElementsByTagName(\'script\')[0];s.parentNode.insertBefore(as, s); })();\n</script>\n<noscript><img src="https://d5nxst8fruw4z.cloudfront.net/atrk.gif?account=JGO+j1a0CM00q/" style="display:none" height="1" width="1" alt="" /></noscript><link href="https://cdn.detik.net.id/detik2/images/favicon.ico" rel="shortcut icon" type="image/x-icon" />\n\n<!-

### 3. Inisiasi crawling di halaman pertama

In [4]:
soup = bs(html,'lxml')
divs = soup.find_all('article')

news_links = []
for div in divs:
    news_links.append(div.a['href'])
news_links

['https://news.detik.com/berita/d-4275316/kata-gerindra-soal-teriakan-ganti-presiden-di-aksi-bela-tauhid',
 'https://news.detik.com/berita/d-4275294/uus-pembawa-bendera-hti-tersangka-ini-kata-ketum-gp-ansor',
 'https://news.detik.com/detiktv/d-4275256/video-pernyataan-sikap-bersama-sejumlah-ormas-islam-di-kediaman-jk',
 'https://20.detik.com/detikflash/20181024-181024094/lpoi-soal-pembakaran-bendera-hti-cooldown-biarkan-fitnah-tidur',
 'https://news.detik.com/berita/d-4275246/ormas-islam-harap-pernyataan-bersama-dapat-redam-situasi',
 'https://news.detik.com/berita/d-4275243/bersama-jk-bahas-kasus-bendera-ormas-ormas-islam-tolak-adu-domba',
 'https://news.detik.com/berita-jawa-barat/d-4275192/uus-jadi-tersangka-bagaimana-nasib-pembakar-bendera-hti',
 'https://news.detik.com/foto-news/d-4275267/potret-aksi-bela-tauhid-di-jakarta',
 'https://news.detik.com/foto-news/d-4275267/potret-aksi-bela-tauhid-di-jakarta',
 'https://news.detik.com/foto-news/d-4274992/perwakilan-massa-aksi-bela-tauh

### 4. Crawling di halaman pertama

In [5]:
titles = []
articles = []    
for news_link in news_links:
    if 'https://news.detik.com/berita' in news_link:
        sub_url = news_link
        sub_html = urllib.request.urlopen(sub_url).read()
        sub_soup = bs(sub_html,'lxml')
        
        title = sub_soup.find_all('div', attrs={'class':'jdl'})[0].h1.text
        article = sub_soup.find_all('div', attrs={'class':'detail_text'})[0].text
        
        titles.append(title)
        articles.append(article)
titles

["Kata Gerindra soal Teriakan 'Ganti Presiden' di Aksi Bela Tauhid",
 'Uus Pembawa Bendera HTI Tersangka, Ini Kata Ketum GP Ansor',
 'Ormas Islam Harap Pernyataan Bersama Dapat Redam Situasi',
 'Bersama JK Bahas Kasus Bendera, Ormas-Ormas Islam Tolak Adu Domba',
 'Uus Jadi Tersangka, Bagaimana Nasib Pembakar Bendera HTI?',
 'Jadi Tersangka, Uus Pembawa Bendera HTI Tak Ditahan',
 'Kunjungi Kemah Menwa, Ketua MPR Kampanyekan Friendly Competition',
 'Status Hukum Uus Masih Saksi, Polisi akan Gelar Perkara Lagi']

### 5. Inisiasi dan crawling di halaman selanjutnya dengan loop

In [6]:
for page in range (2,10):
    url = 'https://www.detik.com/search/searchall?query=pembakaran+bendera+tauhid'
    html = urllib.request.urlopen(url).read()
    
    soup = bs(html,'lxml')
    divs = soup.find_all('article')

    news_links = []
    for div in divs:
        news_links.append(div.a['href'])
        
    for news_link in news_links:
        if 'https://news.detik.com/berita' in news_link:
            sub_url = news_link
            sub_html = urllib.request.urlopen(sub_url).read()
            sub_soup = bs(sub_html,'lxml')

            title = sub_soup.find_all('div', attrs={'class':'jdl'})[0].h1.text
            article = sub_soup.find_all('div', attrs={'class':'detail_text'})[0].text

            titles.append(title)
            articles.append(article)   
    

### 6. Menyimpan data dalam Tabel Pandas

In [7]:
import pandas as pd
table = pd.DataFrame(columns = ['title','article'])

table['title'] = titles
table['article'] = articles

table.head(16)

Unnamed: 0,title,article
0,Kata Gerindra soal Teriakan 'Ganti Presiden' d...,\n\n\n\n\nJakarta -\n Orator dan massa Aksi Be...
1,"Uus Pembawa Bendera HTI Tersangka, Ini Kata Ke...",\n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tPol...
2,Ormas Islam Harap Pernyataan Bersama Dapat Red...,\n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tOrm...
3,"Bersama JK Bahas Kasus Bendera, Ormas-Ormas Is...",\n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tSej...
4,"Uus Jadi Tersangka, Bagaimana Nasib Pembakar B...",\n\n\n\n\nBandung -\n\t\t\t\t\t\t\t\t\t\t\tPem...
5,"Jadi Tersangka, Uus Pembawa Bendera HTI Tak Di...",\n\n\n\n\nBandung -\n Polisi menetapkan Uus Su...
6,"Kunjungi Kemah Menwa, Ketua MPR Kampanyekan Fr...",\n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tKet...
7,"Status Hukum Uus Masih Saksi, Polisi akan Gela...",\n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tPol...
8,Kata Gerindra soal Teriakan 'Ganti Presiden' d...,\n\n\n\n\nJakarta -\n Orator dan massa Aksi Be...
9,"Uus Pembawa Bendera HTI Tersangka, Ini Kata Ke...",\n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tPol...


### 7. Simpan ke XLSX

In [8]:
writer = pd.ExcelWriter('hasil_scrap_detik_pembakaran_kalimat_tauhid.xlsx')
table.to_excel(writer,'Sheet1',index=False)
writer.save()

### 8. Import Data hasil Scrapping

In [2]:
import pandas as pd

file = 'hasil_scrap_detik_pembakaran_kalimat_tauhid.xlsx'
df = pd.read_excel(file)
print(df[1:10])

                                               title  \
1  Uus Pembawa Bendera HTI Tersangka, Ini Kata Ke...   
2  Ormas Islam Harap Pernyataan Bersama Dapat Red...   
3  Bersama JK Bahas Kasus Bendera, Ormas-Ormas Is...   
4  Uus Jadi Tersangka, Bagaimana Nasib Pembakar B...   
5  Jadi Tersangka, Uus Pembawa Bendera HTI Tak Di...   
6  Kunjungi Kemah Menwa, Ketua MPR Kampanyekan Fr...   
7  Status Hukum Uus Masih Saksi, Polisi akan Gela...   
8  Kata Gerindra soal Teriakan 'Ganti Presiden' d...   
9  Uus Pembawa Bendera HTI Tersangka, Ini Kata Ke...   

                                             article  
1  \n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tPol...  
2  \n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tOrm...  
3  \n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tSej...  
4  \n\n\n\n\nBandung -\n\t\t\t\t\t\t\t\t\t\t\tPem...  
5  \n\n\n\n\nBandung -\n Polisi menetapkan Uus Su...  
6  \n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tKet...  
7  \n\n\n\n\nJakarta -\n\t\t\t\t\t\t\t\t\t\t\tPol...  

### 9. Bersihkan Noise

#### 9.1 Clean Title

In [3]:
#bersihkan Judul
clean_title = []
for judul in df['title']:
    judul = judul.replace("/", " ")
    judul = judul.replace("(", " ")
    judul = judul.replace(")", " ")
    judul = judul.replace("-", " ")
    judul = judul.replace(",", " ")
    judul = judul.replace("'", " ")
    judul = judul.replace("?", " ")
    judul = judul.upper()
    clean_title.append(judul)
print(clean_title)

['KATA GERINDRA SOAL TERIAKAN  GANTI PRESIDEN  DI AKSI BELA TAUHID', 'UUS PEMBAWA BENDERA HTI TERSANGKA  INI KATA KETUM GP ANSOR', 'ORMAS ISLAM HARAP PERNYATAAN BERSAMA DAPAT REDAM SITUASI', 'BERSAMA JK BAHAS KASUS BENDERA  ORMAS ORMAS ISLAM TOLAK ADU DOMBA', 'UUS JADI TERSANGKA  BAGAIMANA NASIB PEMBAKAR BENDERA HTI ', 'JADI TERSANGKA  UUS PEMBAWA BENDERA HTI TAK DITAHAN', 'KUNJUNGI KEMAH MENWA  KETUA MPR KAMPANYEKAN FRIENDLY COMPETITION', 'STATUS HUKUM UUS MASIH SAKSI  POLISI AKAN GELAR PERKARA LAGI', 'KATA GERINDRA SOAL TERIAKAN  GANTI PRESIDEN  DI AKSI BELA TAUHID', 'UUS PEMBAWA BENDERA HTI TERSANGKA  INI KATA KETUM GP ANSOR', 'ORMAS ISLAM HARAP PERNYATAAN BERSAMA DAPAT REDAM SITUASI', 'BERSAMA JK BAHAS KASUS BENDERA  ORMAS ORMAS ISLAM TOLAK ADU DOMBA', 'UUS JADI TERSANGKA  BAGAIMANA NASIB PEMBAKAR BENDERA HTI ', 'JADI TERSANGKA  UUS PEMBAWA BENDERA HTI TAK DITAHAN', 'KUNJUNGI KEMAH MENWA  KETUA MPR KAMPANYEKAN FRIENDLY COMPETITION', 'STATUS HUKUM UUS MASIH SAKSI  POLISI AKAN GELAR 

#### 9.2 Clean Article

In [4]:
clean_article = []
for isi in df['article']:
    isi = isi.replace("/", " ")
    isi = isi.replace("(", " ")
    isi = isi.replace(")", " ")
    isi = isi.replace("-", " ")
    isi = isi.replace(",", " ")
    isi = isi.replace("'", " ")
    isi = isi.replace("?", " ")
    isi = isi.replace(".", " ")
    isi = isi.replace("\"", " ")
    isi = isi.replace("GAMBAS:VIDEO 20DETIK", " ")
    isi = isi.replace(":"," ")
    isi = isi.replace("["," ")
    isi = isi.replace("]"," ")
    isi = isi.replace("<!"," ")
    isi = isi.replace(">"," ")
    isi = isi.replace("CDATA"," ")
    isi = isi.replace(";"," ")
    isi = isi.replace("\n"," ")
    isi = isi.replace("\t"," ")
    isi = isi.upper()
    clean_article.append(isi)
print(clean_article)

['     JAKARTA    ORATOR DAN MASSA AKSI BELA TAUHID MENYERUKAN  2019 GANTI PRESIDEN  DALAM AKSINYA  KUBU CAPRES CAWAPRES PRABOWO SUBIANTO SANDIAGA UNO MENGAKU TIDAK PAHAM DENGAN TERIAKAN ITU  YA SAYA NGGAK TAHU YA  MUNGKIN ITU EKSPRESI DARI PENDEMO GITU   UJAR JURU BICARA BADAN PEMENANGAN NASIONAL  BPN  PRABOWO SANDI  SABTU  27 10 2018  BACA JUGA  ORATOR MASSA AKSI BELA TAUHID TERIAK  2019 GANTI PRESIDEN ANDRE MENYEBUT MASSA AKSI BELA TAUHID MUNGKIN KECEWA DENGAN RESPONS PEMERINTAH TERKAIT PEMBAKARAN BENDERA HTI YANG MEMUAT KALIMAT TAUHID  SOAL TERIAKAN  GANTI PRESIDEN   ANDRE ENGGAN MENAFSIRKANNYA  PASTINYA TANYA KE DEMONSTRAN   UCAP ANDRE  ORATOR SALING BERGANTIAN BERORASI DALAM AKSI YANG DIGELAR DI DEPAN DEPAN KEMENKO POLHUKAM  JAKARTA PUSAT  JUMAT  26 10   SALAH SATU ORATOR AWALNYA MEMBAHAS BENDERA YANG DIBAKAR ANGGOTA BANSER DALAM PERINGATAN HARI SANTRI NASIONAL  YANG DINYATAKAN SEBAGAI BENDERA HTI BACA JUGA  POTRET AKSI BELA TAUHID DI JAKARTAMENURUTNYA  HINGGA KINI TIDAK ADA BEND

#### 9.3 Split dan Strip

In [5]:
list_clean_title = []
a = []
for k in clean_title:
    #print(k)
    #print("===")
    ab = k.split()
    for j in ab:
        cl = j.strip()
        #print(cl)
        #print("++++++")
        a.append(cl)
    #print("--- Gati Iterasi ---")
    list_clean_title.append(a)
print(list_clean_title)  

[['KATA', 'GERINDRA', 'SOAL', 'TERIAKAN', 'GANTI', 'PRESIDEN', 'DI', 'AKSI', 'BELA', 'TAUHID', 'UUS', 'PEMBAWA', 'BENDERA', 'HTI', 'TERSANGKA', 'INI', 'KATA', 'KETUM', 'GP', 'ANSOR', 'ORMAS', 'ISLAM', 'HARAP', 'PERNYATAAN', 'BERSAMA', 'DAPAT', 'REDAM', 'SITUASI', 'BERSAMA', 'JK', 'BAHAS', 'KASUS', 'BENDERA', 'ORMAS', 'ORMAS', 'ISLAM', 'TOLAK', 'ADU', 'DOMBA', 'UUS', 'JADI', 'TERSANGKA', 'BAGAIMANA', 'NASIB', 'PEMBAKAR', 'BENDERA', 'HTI', 'JADI', 'TERSANGKA', 'UUS', 'PEMBAWA', 'BENDERA', 'HTI', 'TAK', 'DITAHAN', 'KUNJUNGI', 'KEMAH', 'MENWA', 'KETUA', 'MPR', 'KAMPANYEKAN', 'FRIENDLY', 'COMPETITION', 'STATUS', 'HUKUM', 'UUS', 'MASIH', 'SAKSI', 'POLISI', 'AKAN', 'GELAR', 'PERKARA', 'LAGI', 'KATA', 'GERINDRA', 'SOAL', 'TERIAKAN', 'GANTI', 'PRESIDEN', 'DI', 'AKSI', 'BELA', 'TAUHID', 'UUS', 'PEMBAWA', 'BENDERA', 'HTI', 'TERSANGKA', 'INI', 'KATA', 'KETUM', 'GP', 'ANSOR', 'ORMAS', 'ISLAM', 'HARAP', 'PERNYATAAN', 'BERSAMA', 'DAPAT', 'REDAM', 'SITUASI', 'BERSAMA', 'JK', 'BAHAS', 'KASUS', 'BENDERA

In [13]:
list_clean_article = []
b = []
for x in clean_article:
   # print(x)
   # print("===")
    mn = x.split()
    for y in mn:
        aam = y.strip()
       # print(aam)
        #print("++++++")
        b.append(aam)
    #print("--- Gati Iterasi ---")
    list_clean_article.append(b)
#print(list_clean_article)  
print(list_clean_article[:10])

[['JAKARTA', 'ORATOR', 'DAN', 'MASSA', 'AKSI', 'BELA', 'TAUHID', 'MENYERUKAN', '2019', 'GANTI', 'PRESIDEN', 'DALAM', 'AKSINYA', 'KUBU', 'CAPRES', 'CAWAPRES', 'PRABOWO', 'SUBIANTO', 'SANDIAGA', 'UNO', 'MENGAKU', 'TIDAK', 'PAHAM', 'DENGAN', 'TERIAKAN', 'ITU', 'YA', 'SAYA', 'NGGAK', 'TAHU', 'YA', 'MUNGKIN', 'ITU', 'EKSPRESI', 'DARI', 'PENDEMO', 'GITU', 'UJAR', 'JURU', 'BICARA', 'BADAN', 'PEMENANGAN', 'NASIONAL', 'BPN', 'PRABOWO', 'SANDI', 'SABTU', '27', '10', '2018', 'BACA', 'JUGA', 'ORATOR', 'MASSA', 'AKSI', 'BELA', 'TAUHID', 'TERIAK', '2019', 'GANTI', 'PRESIDEN', 'ANDRE', 'MENYEBUT', 'MASSA', 'AKSI', 'BELA', 'TAUHID', 'MUNGKIN', 'KECEWA', 'DENGAN', 'RESPONS', 'PEMERINTAH', 'TERKAIT', 'PEMBAKARAN', 'BENDERA', 'HTI', 'YANG', 'MEMUAT', 'KALIMAT', 'TAUHID', 'SOAL', 'TERIAKAN', 'GANTI', 'PRESIDEN', 'ANDRE', 'ENGGAN', 'MENAFSIRKANNYA', 'PASTINYA', 'TANYA', 'KE', 'DEMONSTRAN', 'UCAP', 'ANDRE', 'ORATOR', 'SALING', 'BERGANTIAN', 'BERORASI', 'DALAM', 'AKSI', 'YANG', 'DIGELAR', 'DI', 'DEPAN', 'DEP

### 10. Membuat Scoring Kata

#### 10.1 Scoring Kata pada Judul

In [25]:
dic = {}
dic_modus_article = {0: 0}
dic[list_clean_title[0][0]] = 0

for f in list_clean_title:
    for g in f:
        if g in dic:
            dic[g] = dic[g]+1
        else:
            dic[g] = 1
print(dic)

{'KATA': 1296, 'GERINDRA': 648, 'SOAL': 648, 'TERIAKAN': 648, 'GANTI': 648, 'PRESIDEN': 648, 'DI': 648, 'AKSI': 648, 'BELA': 648, 'TAUHID': 648, 'UUS': 2592, 'PEMBAWA': 1296, 'BENDERA': 2592, 'HTI': 1944, 'TERSANGKA': 1944, 'INI': 648, 'KETUM': 648, 'GP': 648, 'ANSOR': 648, 'ORMAS': 1944, 'ISLAM': 1296, 'HARAP': 648, 'PERNYATAAN': 648, 'BERSAMA': 1296, 'DAPAT': 648, 'REDAM': 648, 'SITUASI': 648, 'JK': 648, 'BAHAS': 648, 'KASUS': 648, 'TOLAK': 648, 'ADU': 648, 'DOMBA': 648, 'JADI': 1296, 'BAGAIMANA': 648, 'NASIB': 648, 'PEMBAKAR': 648, 'TAK': 648, 'DITAHAN': 648, 'KUNJUNGI': 648, 'KEMAH': 648, 'MENWA': 648, 'KETUA': 648, 'MPR': 648, 'KAMPANYEKAN': 648, 'FRIENDLY': 648, 'COMPETITION': 648, 'STATUS': 648, 'HUKUM': 648, 'MASIH': 648, 'SAKSI': 648, 'POLISI': 648, 'AKAN': 648, 'GELAR': 648, 'PERKARA': 648, 'LAGI': 648}


In [35]:
test12 = {}
list_t = [['Farham','Farham', 'Farham','Evi','Evi','Evi','Evi','Evi','Evi','Mizan'],['Farham','Evi','Evi','Mizan'],['Farham','Evi', 'Mizan']]
for iterasi2 in list_t:
    for iterasi in iterasi2:
        if iterasi in test12:
            test12[iterasi] = test12[iterasi]+1
            print(test12)
        else:
            test12[iterasi] = 1
            print(test12)
#print(test12)

{'Farham': 1}
{'Farham': 2}
{'Farham': 3}
{'Farham': 3, 'Evi': 1}
{'Farham': 3, 'Evi': 2}
{'Farham': 3, 'Evi': 3}
{'Farham': 3, 'Evi': 4}
{'Farham': 3, 'Evi': 5}
{'Farham': 3, 'Evi': 6}
{'Farham': 3, 'Evi': 6, 'Mizan': 1}
{'Farham': 4, 'Evi': 6, 'Mizan': 1}
{'Farham': 4, 'Evi': 7, 'Mizan': 1}
{'Farham': 4, 'Evi': 8, 'Mizan': 1}
{'Farham': 4, 'Evi': 8, 'Mizan': 2}
{'Farham': 5, 'Evi': 8, 'Mizan': 2}
{'Farham': 5, 'Evi': 9, 'Mizan': 2}
{'Farham': 5, 'Evi': 9, 'Mizan': 3}


#### 10.2 Scoring Kata pada Artikel

In [34]:
dic_article = {}
dic_modus_article = {0: 0}
dic_article[list_clean_article[0][0]] = 0

for it in list_clean_article:
    for it2 in it:
        if it2 in dic_article:
            dic_article[it2] = dic_article[it2]+1
        else:
            dic_article[it2] = 1
print(dic_article)

{'JAKARTA': 7776, 'ORATOR': 5184, 'DAN': 18792, 'MASSA': 7128, 'AKSI': 7776, 'BELA': 4536, 'TAUHID': 11016, 'MENYERUKAN': 1944, '2019': 4536, 'GANTI': 3888, 'PRESIDEN': 7128, 'DALAM': 12960, 'AKSINYA': 648, 'KUBU': 648, 'CAPRES': 648, 'CAWAPRES': 648, 'PRABOWO': 1296, 'SUBIANTO': 648, 'SANDIAGA': 648, 'UNO': 648, 'MENGAKU': 1296, 'TIDAK': 17496, 'PAHAM': 648, 'DENGAN': 5184, 'TERIAKAN': 1296, 'ITU': 11016, 'YA': 1296, 'SAYA': 1944, 'NGGAK': 648, 'TAHU': 648, 'MUNGKIN': 1296, 'EKSPRESI': 648, 'DARI': 5184, 'PENDEMO': 648, 'GITU': 648, 'UJAR': 3240, 'JURU': 648, 'BICARA': 648, 'BADAN': 648, 'PEMENANGAN': 648, 'NASIONAL': 5184, 'BPN': 648, 'SANDI': 648, 'SABTU': 1296, '27': 648, '10': 8424, '2018': 7128, 'BACA': 9072, 'JUGA': 15552, 'TERIAK': 648, 'ANDRE': 1944, 'MENYEBUT': 1944, 'KECEWA': 648, 'RESPONS': 1296, 'PEMERINTAH': 1296, 'TERKAIT': 2592, 'PEMBAKARAN': 10368, 'BENDERA': 34992, 'HTI': 20088, 'YANG': 31752, 'MEMUAT': 648, 'KALIMAT': 1944, 'SOAL': 2592, 'ENGGAN': 648, 'MENAFSIRKANNY