# Web Scraping


**Defenisi**

*Web scraping* adalah kegiatan ekstraksi data dari halaman situs web.

## Beberapa Library yang Dibutuhkan

Berikut merupakan daftar library yang akan digunakan untuk melakukan web scraping

- ```request```
- ```beautifulSoup4```
- ```html5lib```

## Instalasi Library

Untuk instalasi package, kita dapat menggunakan perintah pip pada command-line sebagai berikut:

```pip
pip install requests
pip install html5lib
pip install beautifulSoup4
```

## Struktur Halaman Web


![Struktur Halaman HTML](./images/HTMLDOMTree.png)

## Scraping Halaman Web

**Load Library**

In [1]:
import requests
from bs4 import BeautifulSoup

Selanjutnya kita akan mencoba scrape halaman https://regional.kompas.com/read/2019/10/07/12230021/fakta-terkini-ott-bupati-lampung-utara-rp-600-juta-diamankan-hingga-jadi


In [2]:
# buat variabel url yang menyimpan link
url = "https://regional.kompas.com/read/2019/10/07/12230021/fakta-terkini-ott-bupati-lampung-utara-rp-600-juta-diamankan-hingga-jadi"

# load halaman berdasarkan url
hasil_request = requests.get(url)
# parsing halaman web
soup = BeautifulSoup(hasil_request.text, "html.parser") # Parses HTTP Response
# Tunjukkan struktur halaman web
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <!-- Google Tag Manager -->
  <script>
   (function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
})(window,document,'script','dataLayer','GTM-PT7PC4');
  </script>
  <!-- End Google Tag Manager -->
  <title>
   Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga
  </title>
  <link href="//securepubads.g.doubleclick.net" rel="dns-prefetch"/>
  <link href="//asset.kompas.com" rel="dns-prefetch"/>
  <link href="//adsimg.kompas.com" rel="dns-prefetch"/>
  <link href="//static.criteo.net" rel="dns-prefetch"/>
  <link href="//bidder.criteo.com" rel="dns-prefetch"/>
  <link href="//rtax.criteo.com" rel="dns-prefetch"/>
  <link href="//tpc.googlesyndication.com" rel="dns-prefetch"/>
  <li

In [5]:
hasil_request.text

'<!DOCTYPE html>\n<html lang="en">\n<head>\n       \n<!-- Google Tag Manager -->\n<script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\':\nnew Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0],\nj=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src=\n\'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\n})(window,document,\'script\',\'dataLayer\',\'GTM-PT7PC4\');</script>\n<!-- End Google Tag Manager -->\n<title>Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga</title>\n<link href="//securepubads.g.doubleclick.net" rel="dns-prefetch">\n<link href="//asset.kompas.com" rel="dns-prefetch">\n<link href="//adsimg.kompas.com" rel="dns-prefetch">\n<link href="//static.criteo.net" rel="dns-prefetch">\n<link href="//bidder.criteo.com" rel="dns-prefetch">\n<link href="//rtax.criteo.com" rel="dns-prefetch">\n<link href="//tpc.googlesyndication.com" rel="dns-prefetch">\n<li

## Mengambil Judul dari Halaman Web Berita Kompas

Untuk mengambil judul pada halaman tersebut, maka kita harus menemukan tag html nya terlebih dahulu. Hal ini dapat dilakukan dengan method ```find```

In [6]:
# cari tag title lalu ambil teks dari tag tersebut
soup.find('title').text

'Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga'

Selain sekedar menggunakan tag, kita dapat melakukan scrape berdasarkan atribut pada tag tersebut

In [12]:
# ambil atribut alt dari tag img di dalam tag div dengan class 'photo'
soup.find('div', class_='photo').find('img').attrs['data-src']

'https://asset.kompas.com/crops/zeBoySm0R6rJYjHvi9Nn9fZmPMQ=/6x10:504x342/750x500/data/photo/2019/10/06/5d9a1d5b1a275.jpg'

## Mengambil Paragraf Berita

Untuk mengambil paragraf berita, kita akan menggunakan method ```find_all``` karena paragraf di dalam berita lebih dari 1 tag

In [14]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <!-- Google Tag Manager -->
  <script>
   (function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
})(window,document,'script','dataLayer','GTM-PT7PC4');
  </script>
  <!-- End Google Tag Manager -->
  <title>
   Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga
  </title>
  <link href="//securepubads.g.doubleclick.net" rel="dns-prefetch"/>
  <link href="//asset.kompas.com" rel="dns-prefetch"/>
  <link href="//adsimg.kompas.com" rel="dns-prefetch"/>
  <link href="//static.criteo.net" rel="dns-prefetch"/>
  <link href="//bidder.criteo.com" rel="dns-prefetch"/>
  <link href="//rtax.criteo.com" rel="dns-prefetch"/>
  <link href="//tpc.googlesyndication.com" rel="dns-prefetch"/>
  <li

In [15]:
# Ambil semua tag p dalam halaman html
soup.find_all('p')

[<p class="social--dshare" id="dsharetitle">Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga</p>,
 <p><strong></strong></p>,
 <p><strong>KOMPAS.com</strong> - Setelah melakukan operasi tangkap tangan (OTT) terhadap Buapti  <a class="inner-link-tag" href="https://www.kompas.com/tag/Lampung" style="color:#428bca;" target="_self">Lampung</a> Utara Agung Ilmu Mangkunegara, Komisi Pemberantasan Korupsi ( <a class="inner-link-tag" href="https://www.kompas.com/tag/KPK" style="color:#428bca;" target="_self">KPK</a>) menyegel ruang kerja bupati, Minggu (6/10/2019) malam.</p>,
 <p>Selain itu, menurutu juru bicara KPK, Febri Diansyah, mengatakan, tim juga menyegel sejumlah benda dan lokasi.</p>,
 <p>Sejumlah Barang bukti berupa uang juga diamankan dalam operasi tangkap tangan tersebut.</p>,
 <p>Seperti diketahui, Bupati Agung diduga terkait kasus suap proyek di Dinas PU atau Koperindag di Kabupaten Lampung Utara.</p>,
 <p>Berikut ini fakta lengkapnya:</p>,


In [17]:
print(soup.find_all('p')[0].text)

Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga


Kita bisa melakukan indexing dari hasil diatas

In [18]:
# Ambil paragraf ke-0
print(soup.find_all('p')[0])
# Ambil paragraf ke-1
print(soup.find_all('p')[1])
# Ambil paragraf ke-2
print(soup.find_all('p')[2])

<p class="social--dshare" id="dsharetitle">Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga</p>
<p><strong></strong></p>
<p><strong>KOMPAS.com</strong> - Setelah melakukan operasi tangkap tangan (OTT) terhadap Buapti  <a class="inner-link-tag" href="https://www.kompas.com/tag/Lampung" style="color:#428bca;" target="_self">Lampung</a> Utara Agung Ilmu Mangkunegara, Komisi Pemberantasan Korupsi ( <a class="inner-link-tag" href="https://www.kompas.com/tag/KPK" style="color:#428bca;" target="_self">KPK</a>) menyegel ruang kerja bupati, Minggu (6/10/2019) malam.</p>


Seperti biasa, untuk mengambil teks pada paragraf, kita bisa menggunakan method ```text```


In [19]:
soup.find_all('p')[0].text

'Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga'

Untuk bisa menunjukkan semua text kita dapat menggunakan iterasi

In [52]:
teks_artikel = []
for hasil in soup.find_all('p'):
    teks_artikel.append(hasil.text + "\n")

In [56]:
teks_artikel

"Gerindra mengimbau pemerintah mengajak komunikasi PA 212. Diharapkan dengan adanya komunikasi, situasi politik akan semakin kondusif.\n\nMendagri Tito Karnavian menyebut stabilitas politik di RI stabil setelah ada rekonsiliasi 01 dan 02. Namun, dia mengatakan masih ada urusan 212.\n\ndetikers punya rencana melancong ke luar negeri tahun depan? Jika ya, kamu perlu tahu negara-negara yang paling aman dan paling berbahaya untuk dikunjungi.\n\nBudi beserta rombongan tiba di Bandara Internasional Heathrow, London sekitar pukul 07.20 pagi waktu Inggris atau 14.20 WIB.\n\nKetiga pejabat yang dikunjungi Esam adalah Menteri Agama Fachrul Razi, Menko Polhukam Mahfud Md, dan Menteri Pertahanan Prabowo Subianto.\n\nPA 212 merespons Mendagri Tito Karnavian yang bicara soal stabilitas di Indonesia. PA 212 mengklaim sebagai kebanggan umat Islam di Indonesia.\n\nKaesang Pangarep datang ke Ngawi untuk mengangkat sektor pariwisata di kabupaten itu. Meski begitu, sempat bertanya-tanya beberapa hal berba

## Scrape Link Berita

Kali ini kita akan scrape link berita dari halaman https://www.detik.com/search/searchall?query=politik&siteid=2

In [21]:
url = "https://www.detik.com/search/searchall?query=politik&siteid=2"

# load halaman berdasarkan url
hasil_request = requests.get(url)
# parsing halaman web
soup = BeautifulSoup(hasil_request.text, "html.parser") # Parses HTTP Response
# Tunjukkan struktur halaman web
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="initial-scale = 1.0, user-scalable = no, width=device-width, height=device-height, maximum-scale=1.0" name="viewport"/>
  <meta content="yes" name="apple-mobile-web-app-capable">
   <title>
    detiksearch
   </title>
   <!--s:dtkprv-->
   <!--e:dtkprv-->
   <link href="https://cdn.detik.net.id/detik2/images/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
   <!-- Core CSS -->
   <link href="https://cdn.detik.net.id/search/css/style.css?v=3b9d0adc" rel="stylesheet" type="text/css"/>
   <script src="https://cdn.detik.net.id/search/js/jquery.js?v=3b9d0adc" type="text/javascript">
   </script>
   <script>
    var APP = "https://www.detik.com/search/searchall";
    var base_url = "https://www.detik.com/search"
    var wid_method = "get"
   </script>
   <!-- S: (script) Google Tag Manager -->
   <script>
    (function(w,d,s,l,i){w[l]=w[l]||[];w[l

Perhatikan bahwa setiap link artikel pada daftar terdapat di dalam tag div dengan class "list media_rows list-berita". Maka dari itu kita akan ekstraksi link dengan menggunakan method ```select```. Method ```select``` dapat digunakan untuk mengambil tag hirarki.

In [28]:
# ambil tag div dengan class "list media_rows list-berita" lalu ambil tag a
# menggunakan CSS Selector
soup.select('div[class="list media_rows list-berita"] a')

<a href="https://news.detik.com/berita/d-4801282/love-hate-relationship-menag-fpi">
<span class="ratiobox box_thumb">
<span class="ratiobox_content lqd">
<img alt="Love Hate Relationship Menag-FPI" class="" src="https://akcdn.detik.net.id/community/media/visual/2019/11/21/55ef7468-5107-4bf1-a587-1810d444a1a7_43.jpeg?w=250&amp;q=" title="Love Hate Relationship Menag-FPI"/> </span>
</span>
<span class="box_text">
<span class="date"><span class="category">detikNews</span>Kamis, 28 Nov 2019 08:24 WIB</span>
<h2 class="title">'Love Hate Relationship' Menag-FPI</h2>
<p>Pasang-surut emosi mewarnai hubungan Menteri Agama Fachrul Razi dan Front Pembela Islam (FPI).</p>
</span>
</a>

Perhatikan bahwa hasil yang diperoleh berupa list, sehingga kita perlu melakukan indexing untuk mengambil atribut link ```href```:

In [32]:
# ambil tag div dengan class "list media_rows list-berita" lalu ambil tag a dan ambil atribut 'href'
soup.select('div[class="list media_rows list-berita"] a')[3].attrs['href']

'https://20.detik.com/detikflash/20191126-191126021/pks-guru-ditarik-politik-praktis-buruk-buat-masa-depan-pendidikan'

In [33]:
# menggunakan iterasi untuk membaca atribut href
for hasil in soup.select('div[class="list media_rows list-berita"] a'):
    print(hasil.attrs['href'])

https://news.detik.com/internasional/d-4801385/trump-resmi-teken-ruu-mendukung-demonstran-hong-kong
https://news.detik.com/berita-jawa-timur/d-4801332/lima-tokoh-mendaftar-jadi-bacabup-situbondo-lewat-partai-gerindra
https://news.detik.com/berita/d-4801299/usulan-presiden-dipilih-mpr-dinilai-berpotensi-mengulang-era-kegelapan-orba
https://20.detik.com/detikflash/20191126-191126021/pks-guru-ditarik-politik-praktis-buruk-buat-masa-depan-pendidikan
https://news.detik.com/berita/d-4801282/love-hate-relationship-menag-fpi
https://news.detik.com/berita/d-4801252/politikus-nasdem-setuju-usul-pbnu-presiden-kembali-dipilih-oleh-mpr
https://news.detik.com/berita/d-4801249/loyalis-tepis-isu-ada-menteri-tekan-dpd-untuk-pilih-airlangga-jangan-ngigau
https://news.detik.com/foto-news/d-4800561/pendidikan-politik-untuk-mahasiswa-di-dpr
https://wolipop.detik.com/foto-entertainment/d-4795735/potret-model-playboy-tolak-tawaran-masuk-politik-takut-ganggu-konsentrasi
https://news.detik.com/foto-news/d-4780

In [72]:
import pandas as pd

In [73]:
pd.DataFrame(artikel, columns=['judul', 'paragraf'])

Unnamed: 0,judul,paragraf
0,Trump Resmi Teken RUU Mendukung Demonstran Hon...,
1,Lima Tokoh Mendaftar Jadi Bacabup Situbondo Le...,
2,Usulan Presiden Dipilih MPR Dinilai Berpotensi...,
3,"PKS: Guru Ditarik Politik Praktis, Buruk Buat ...","Presiden Partai Keadilan Sejahtera (PKS), Sohi..."
4,'Love Hate Relationship' Menag-FPI,
5,Politikus NasDem Setuju Usul PBNU Presiden Kem...,
6,Loyalis Tepis Isu Ada Menteri Tekan DPD untuk ...,
7,Pendidikan Politik untuk Mahasiswa di DPR,
8,Potret Model Playboy Tolak Tawaran Masuk Polit...,Jakarta - Maria Liman menolak masuk partai pol...
9,"Potret Politik Mesra: Jokowi, Surya Paloh, dan...",


## Tugas



Buat script yang fungsinya adalah sebagai berikut:

1. Mengambil link dari halaman https://www.detik.com/search/searchall?query=politik dari 5 halaman pertama
2. Dari link yang diperoleh dari (1), scrape judul dan paragraf dari berita tersebut

In [39]:
container_link = []
for i in range(1,6):
    container_link.append("https://www.detik.com/search/searchall?query=politik&siteid=2&page=" + str(i))

['https://www.detik.com/search/searchall?query=politik&siteid=2&page=1',
 'https://www.detik.com/search/searchall?query=politik&siteid=2&page=2',
 'https://www.detik.com/search/searchall?query=politik&siteid=2&page=3',
 'https://www.detik.com/search/searchall?query=politik&siteid=2&page=4',
 'https://www.detik.com/search/searchall?query=politik&siteid=2&page=5']

In [49]:
container_link

['https://www.detik.com/search/searchall?query=politik&siteid=2&page=1',
 'https://www.detik.com/search/searchall?query=politik&siteid=2&page=2',
 'https://www.detik.com/search/searchall?query=politik&siteid=2&page=3',
 'https://www.detik.com/search/searchall?query=politik&siteid=2&page=4',
 'https://www.detik.com/search/searchall?query=politik&siteid=2&page=5']

In [45]:
link_berita = []

for link in container_link:
    hasil_request = requests.get(link)
    # parsing halaman web
    soup = BeautifulSoup(hasil_request.text, "html.parser") # Parses HTTP Response
    for hasil in soup.select('div[class="list media_rows list-berita"] a'):
        link_berita.append(hasil.attrs['href'])

In [46]:
link_berita

['https://news.detik.com/internasional/d-4801385/trump-resmi-teken-ruu-mendukung-demonstran-hong-kong',
 'https://news.detik.com/berita-jawa-timur/d-4801332/lima-tokoh-mendaftar-jadi-bacabup-situbondo-lewat-partai-gerindra',
 'https://news.detik.com/berita/d-4801299/usulan-presiden-dipilih-mpr-dinilai-berpotensi-mengulang-era-kegelapan-orba',
 'https://20.detik.com/detikflash/20191126-191126021/pks-guru-ditarik-politik-praktis-buruk-buat-masa-depan-pendidikan',
 'https://news.detik.com/berita/d-4801282/love-hate-relationship-menag-fpi',
 'https://news.detik.com/berita/d-4801252/politikus-nasdem-setuju-usul-pbnu-presiden-kembali-dipilih-oleh-mpr',
 'https://news.detik.com/berita/d-4801249/loyalis-tepis-isu-ada-menteri-tekan-dpd-untuk-pilih-airlangga-jangan-ngigau',
 'https://news.detik.com/foto-news/d-4800561/pendidikan-politik-untuk-mahasiswa-di-dpr',
 'https://wolipop.detik.com/foto-entertainment/d-4795735/potret-model-playboy-tolak-tawaran-masuk-politik-takut-ganggu-konsentrasi',
 'h

In [61]:
artikel = []

for link in link_berita:
    hasil_request = requests.get(link)
    soup = BeautifulSoup(hasil_request.text, "html.parser")
    judul = soup.find('title').text
    teks_artikel = []
    for hasil in soup.find_all('p'):
        teks_artikel.append(hasil.text + "\n")
    paragraf = ' '.join(teks_artikel)
    artikel.append([judul, paragraf])

In [70]:
artikel

[['Trump Resmi Teken RUU Mendukung Demonstran Hong Kong', ''],
 ['Lima Tokoh Mendaftar Jadi Bacabup Situbondo Lewat Partai Gerindra', ''],
 ['Usulan Presiden Dipilih MPR Dinilai Berpotensi Mengulang Era Kegelapan Orba',
  ''],
 ['PKS: Guru Ditarik Politik Praktis, Buruk Buat Masa Depan Pendidikan',
  'Presiden Partai Keadilan Sejahtera (PKS), Sohibul Iman menyinggung soal profesi guru yang kerap ditarik masuk ke dalam politik praktis. Menurutnya, hal tersebut tidak baik untuk masa depan guru dan pendidikan di Indonesia.\n Presiden Partai Keadilan Sejahtera (PKS), Sohibul Iman menyinggung soal profesi guru yang kerap ditarik masuk ke dalam politik praktis. Menurutnya, hal tersebut tidak baik untuk masa depan guru dan pendidikan di Indonesia.\n'],
 ["'Love Hate Relationship' Menag-FPI", ''],
 ['Politikus NasDem Setuju Usul PBNU Presiden Kembali Dipilih oleh MPR', ''],
 ['Loyalis Tepis Isu Ada Menteri Tekan DPD untuk Pilih Airlangga: Jangan Ngigau!',
  ''],
 ['Pendidikan Politik untuk Mah

In [69]:
hasil_request = requests.get(link_berita[0])

soup = BeautifulSoup(hasil_request.text, "html.parser")
soup.select("div[class='detail_text']")[0].text

"\n\n\n\n\nWashington DC -\n Presiden Amerika Serikat (AS) Donald Trump menandatangani rancangan undang-undang (RUU) yang mendukung demonstran pro-demokrasi di Hong Kong. Hal ini diperkirakan akan memicu kemarahan China yang berulang kali menuduh AS mencampuri urusan Hong Kong.Seperti dilansir AFP, Kamis (28/11/2019), Trump sebelumnya tampak enggan untuk menandatangani RUU itu. Namun dengan dukungan penuh yang diberikan oleh Kongres AS terhadap RUU itu, Trump hanya memiliki sedikit ruang politik untuk bermanuver. Dalam pernyataannya usai menandatangani RUU itu pada Rabu (27/11) waktu setempat, Trump menyatakan rasa hormat' untuk Presiden China Xi Jinping. Dia juga mengungkapkan harapannya agar 'para pemimpin dan perwakilan China dan Hong Kong mampu menyelesaikan perbedaan mereka secara damai'. \n\n #div-gpt-ad-1572507980488-0 iframe{\n border: 0px;\n vertical-align: bottom;\n position: fixed !important;\n z-index: 1 !important;\n left: 0px;\n top: 0;\n right: 0;\n margin: auto;\n }\n\n