# Web Scraping


**Defenisi**

*Web scraping* adalah kegiatan ekstraksi data dari halaman situs web.

## Beberapa Library yang Dibutuhkan

Berikut merupakan daftar library yang akan digunakan untuk melakukan web scraping

- ```request```
- ```beautifulSoup4```
- ```html5lib```

## Instalasi Library

Untuk instalasi package, kita dapat menggunakan perintah pip pada command-line sebagai berikut:

```pip
pip install requests
pip install html5lib
pip install beautifulSoup4
```

In [1]:
import html5lib

## Struktur Halaman Web


![Struktur Halaman HTML](./images/HTMLDOMTree.png)

## Scraping Halaman Web

**Load Library**

In [2]:
import requests
from bs4 import BeautifulSoup

Selanjutnya kita akan mencoba scrape halaman https://regional.kompas.com/read/2019/10/07/12230021/fakta-terkini-ott-bupati-lampung-utara-rp-600-juta-diamankan-hingga-jadi


In [3]:
# buat variabel url yang menyimpan link
url = "https://regional.kompas.com/read/2019/10/07/12230021/fakta-terkini-ott-bupati-lampung-utara-rp-600-juta-diamankan-hingga-jadi"

# load halaman berdasarkan url
hasil_request = requests.get(url)
# parsing halaman web
soup = BeautifulSoup(hasil_request.text, "html.parser") # Parses HTTP Response
# Tunjukkan struktur halaman web
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <!-- Google Tag Manager -->
  <script>
   (function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
})(window,document,'script','dataLayer','GTM-PT7PC4');
  </script>
  <!-- End Google Tag Manager -->
  <title>
   Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga
  </title>
  <link href="//securepubads.g.doubleclick.net" rel="dns-prefetch"/>
  <link href="//asset.kompas.com" rel="dns-prefetch"/>
  <link href="//adsimg.kompas.com" rel="dns-prefetch"/>
  <link href="//static.criteo.net" rel="dns-prefetch"/>
  <link href="//bidder.criteo.com" rel="dns-prefetch"/>
  <link href="//rtax.criteo.com" rel="dns-prefetch"/>
  <link href="//tpc.googlesyndication.com" rel="dns-prefetch"/>
  <li

## Mengambil Judul dari Halaman Web Berita Kompas

Untuk mengambil judul pada halaman tersebut, maka kita harus menemukan tag html nya terlebih dahulu. Hal ini dapat dilakukan dengan method ```find```

In [4]:
# cari tag title lalu ambil teks dari tag tersebut
soup.find('title').text

'Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga'

Selain sekedar menggunakan tag, kita dapat melakukan scrape berdasarkan atribut pada tag tersebut

In [5]:
# ambil atribut alt dari tag img di dalam tag div dengan class 'photo'
soup.find('div', class_='photo').find('img').attrs['alt']

'Warga sekitar rumah dinas Lampung Utara bersorak saat mobil yang diduga kendaraan operasional KPK keluar dari rumah dinas. Dalam OTT itu, KPK mengamankan Bupati Lampung Utara, AIM, dan dua kepala dinas serta satu orang perantara. (Foto tangkap)'

## Mengambil Paragraf Berita

Untuk mengambil paragraf berita, kita akan menggunakan method ```find_all``` karena paragraf di dalam berita lebih dari 1 tag

In [6]:
# Ambil semua tag p dalam halaman html
soup.find_all('p')

[<p class="social--dshare" id="dsharetitle">Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga</p>,
 <p><strong></strong></p>,
 <p><strong>KOMPAS.com</strong> - Setelah melakukan operasi tangkap tangan (OTT) terhadap Buapti  <a class="inner-link-tag" href="https://www.kompas.com/tag/Lampung" style="color:#428bca;" target="_self">Lampung</a> Utara Agung Ilmu Mangkunegara, Komisi Pemberantasan Korupsi ( <a class="inner-link-tag" href="https://www.kompas.com/tag/KPK" style="color:#428bca;" target="_self">KPK</a>) menyegel ruang kerja bupati, Minggu (6/10/2019) malam.</p>,
 <p>Selain itu, menurutu juru bicara KPK, Febri Diansyah, mengatakan, tim juga menyegel sejumlah benda dan lokasi.</p>,
 <p>Sejumlah Barang bukti berupa uang juga diamankan dalam operasi tangkap tangan tersebut.</p>,
 <p>Seperti diketahui, Bupati Agung diduga terkait kasus suap proyek di Dinas PU atau Koperindag di Kabupaten Lampung Utara.</p>,
 <p>Berikut ini fakta lengkapnya:</p>,


Kita bisa melakukan indexing dari hasil diatas

In [7]:
# Ambil paragraf ke-0
print(soup.find_all('p')[0])
# Ambil paragraf ke-1
print(soup.find_all('p')[1])
# Ambil paragraf ke-2
print(soup.find_all('p')[2])

<p class="social--dshare" id="dsharetitle">Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga</p>
<p><strong></strong></p>
<p><strong>KOMPAS.com</strong> - Setelah melakukan operasi tangkap tangan (OTT) terhadap Buapti  <a class="inner-link-tag" href="https://www.kompas.com/tag/Lampung" style="color:#428bca;" target="_self">Lampung</a> Utara Agung Ilmu Mangkunegara, Komisi Pemberantasan Korupsi ( <a class="inner-link-tag" href="https://www.kompas.com/tag/KPK" style="color:#428bca;" target="_self">KPK</a>) menyegel ruang kerja bupati, Minggu (6/10/2019) malam.</p>


Seperti biasa, untuk mengambil teks pada paragraf, kita bisa menggunakan method ```text```


In [8]:
soup.find_all('p')[0].text

'Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga'

Untuk bisa menunjukkan semua text kita dapat menggunakan iterasi

In [9]:
for hasil in soup.find_all('p'):
    print(hasil.text)

Fakta Terkini OTT Bupati Lampung Utara, Rp 600 Juta Diamankan hingga Jadi Tontonan Warga

KOMPAS.com - Setelah melakukan operasi tangkap tangan (OTT) terhadap Buapti  Lampung Utara Agung Ilmu Mangkunegara, Komisi Pemberantasan Korupsi ( KPK) menyegel ruang kerja bupati, Minggu (6/10/2019) malam.
Selain itu, menurutu juru bicara KPK, Febri Diansyah, mengatakan, tim juga menyegel sejumlah benda dan lokasi.
Sejumlah Barang bukti berupa uang juga diamankan dalam operasi tangkap tangan tersebut.
Seperti diketahui, Bupati Agung diduga terkait kasus suap proyek di Dinas PU atau Koperindag di Kabupaten Lampung Utara.
Berikut ini fakta lengkapnya:
KOMPAS.com/TRI PURNA JAYA  Rumah pribadi Bupati Lampung Utara Agung Ilmu Mangkunegara tampak sepi tanpa aktivitas, Senin (7/10/2019). Agung ditangkap KPK terkait proyek dinas PU Lampung Utara.
OTT dilakukan KPK di rumah dinas Bupati Agung dan mengamankan tiga orang lain yaitu dua kepala dinas dan satu orang perantara.
Febri membenarkan kejadian terseb

## Scrape Link Berita

Kali ini kita akan scrape link berita dari halaman https://www.detik.com/search/searchall?query=politik&siteid=2

In [10]:
url = "https://www.detik.com/search/searchall?query=politik&siteid=2"

# load halaman berdasarkan url
hasil_request = requests.get(url)
# parsing halaman web
soup = BeautifulSoup(hasil_request.text, "html.parser") # Parses HTTP Response
# Tunjukkan struktur halaman web
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="initial-scale = 1.0, user-scalable = no, width=device-width, height=device-height, maximum-scale=1.0" name="viewport"/>
  <meta content="yes" name="apple-mobile-web-app-capable">
   <title>
    detiksearch
   </title>
   <!--s:dtkprv-->
   <!--e:dtkprv-->
   <link href="https://cdn.detik.net.id/detik2/images/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
   <!-- Core CSS -->
   <link href="https://cdn.detik.net.id/search/css/style.css?v=ad265dfe" rel="stylesheet" type="text/css"/>
   <script src="https://cdn.detik.net.id/search/js/jquery.js?v=ad265dfe" type="text/javascript">
   </script>
   <script>
    var APP = "https://www.detik.com/search/searchall";
    var base_url = "https://www.detik.com/search"
    var wid_method = "get"
   </script>
   <!-- S: (script) Google Tag Manager -->
   <script>
    (function(w,d,s,l,i){w[l]=w[l]||[];w[l

Perhatikan bahwa setiap link artikel pada daftar terdapat di dalam tag div dengan class "list media_rows list-berita". Maka dari itu kita akan ekstraksi link dengan menggunakan method ```select```. Method ```select``` dapat digunakan untuk mengambil tag hirarki.

In [11]:
# ambil tag div dengan class "list media_rows list-berita" lalu ambil tag a
soup.select('div[class="list media_rows list-berita"] a')

[<a href="https://news.detik.com/berita/d-4805941/billy-mambrasar-tersandung-stafsusrasabuzzerp-fadli-kelasnya-buzzer">
 <span class="ratiobox box_thumb">
 <span class="ratiobox_content lqd">
 <img alt="Billy Mambrasar Tersandung #StafsusRasaBuzzeRp, Fadli: Kelasnya Buzzer" class="" src="https://akcdn.detik.net.id/community/media/visual/2019/11/23/4e2f1c75-468c-4a7d-ad52-48f872a0af0f_43.jpeg?w=250&amp;q=" title="Billy Mambrasar Tersandung #StafsusRasaBuzzeRp, Fadli: Kelasnya Buzzer"> </img></span>
 </span>
 <span class="box_text">
 <span class="date"><span class="category">detikNews</span>Senin, 02 Des 2019 09:17 WIB</span>
 <h2 class="title">Billy Mambrasar Tersandung #StafsusRasaBuzzeRp, Fadli: Kelasnya Buzzer</h2>
 <p>"Itulah ciri-ciri stafsus yang masih labil dan menunjukkan kelasnya sebagai buzzer saja," kata Fadli Zon.</p>
 </span>
 </a>,
 <a href="https://news.detik.com/berita/d-4805855/kicauan-kontroversial-staf-khusus-presiden-berujung-permintaan-maaf">
 <span class="ratiobox 

Perhatikan bahwa hasil yang diperoleh berupa list, sehingga kita perlu melakukan indexing untuk mengambil atribut link ```href```:

In [12]:
# ambil tag div dengan class "list media_rows list-berita" lalu ambil tag a dan ambil atribut 'href'
soup.select('div[class="list media_rows list-berita"] a')[0].attrs['href']

'https://news.detik.com/berita/d-4805941/billy-mambrasar-tersandung-stafsusrasabuzzerp-fadli-kelasnya-buzzer'

In [13]:
# menggunakan iterasi untuk membaca atribut href
for hasil in soup.select('div[class="list media_rows list-berita"] a'):
    print(hasil.attrs['href'])

https://news.detik.com/berita/d-4805941/billy-mambrasar-tersandung-stafsusrasabuzzerp-fadli-kelasnya-buzzer
https://news.detik.com/berita/d-4805855/kicauan-kontroversial-staf-khusus-presiden-berujung-permintaan-maaf
https://finance.detik.com/berita-ekonomi-bisnis/d-4805699/reuni-212-harus-damai-supaya-tak-ganggu-ekonomi
https://20.detik.com/detikflash/20191126-191126021/pks-guru-ditarik-politik-praktis-buruk-buat-masa-depan-pendidikan
https://news.detik.com/berita/d-4805749/anies-hingga-wamenhan-hadiri-maulid-nabi-bersama-habib-luthfi
https://news.detik.com/berita-jawa-timur/d-4805696/mantan-jubir-prabowo-sandi-gamal-albinsaid-nyalon-wali-kota-surabaya
https://news.detik.com/berita-jawa-timur/d-4805510/radikalisme-marak-di-kampus-bpip-turun-ke-kampus-sosialisasi-pancasila
https://news.detik.com/foto-news/d-4802078/airlangga-hartarto-hadir-di-pendidikan-politik-partai-golkar
https://news.detik.com/foto-news/d-4800561/pendidikan-politik-untuk-mahasiswa-di-dpr
https://wolipop.detik.com/fo

## Tugas



Buat script yang fungsinya adalah sebagai berikut:

1. Mengambil link dari halaman https://www.detik.com/search/searchall?query=politik dari 5 halaman pertama
2. Dari link yang diperoleh dari (1), scrape judul dan paragraf dari berita tersebut