# Web Scraping


**Defenisi**

*Web scraping* adalah kegiatan ekstraksi data dari halaman situs web.

## Beberapa Library yang Dibutuhkan

Berikut merupakan daftar library yang akan digunakan untuk melakukan web scraping

- ```request```
- ```beautifulSoup4```
- ```html5lib```

## Instalasi Library

Untuk instalasi package, kita dapat menggunakan perintah pip pada command-line sebagai berikut:

```pip
pip install requests
pip install html5lib
pip install beautifulSoup4
```

In [1]:
import html5lib

## Struktur Halaman Web


![Struktur Halaman HTML](./images/HTMLDOMTree.png)

## Scraping Halaman Web

**Load Library**

In [2]:
import requests
from bs4 import BeautifulSoup

Selanjutnya kita akan mencoba scrape halaman https://regional.kompas.com/read/2019/10/07/12230021/fakta-terkini-ott-bupati-lampung-utara-rp-600-juta-diamankan-hingga-jadi


In [None]:
# buat variabel url yang menyimpan link
url = "https://regional.kompas.com/read/2019/10/07/12230021/fakta-terkini-ott-bupati-lampung-utara-rp-600-juta-diamankan-hingga-jadi"

# load halaman berdasarkan url
hasil_request = requests.get(url)
# parsing halaman web
soup = BeautifulSoup(hasil_request.text, "html.parser") # Parses HTTP Response
# Tunjukkan struktur halaman web
print(soup.prettify())

## Mengambil Judul dari Halaman Web Berita Kompas

Untuk mengambil judul pada halaman tersebut, maka kita harus menemukan tag html nya terlebih dahulu. Hal ini dapat dilakukan dengan method ```find```

In [None]:
# cari tag title lalu ambil teks dari tag tersebut
soup.find('title').text

Selain sekedar menggunakan tag, kita dapat melakukan scrape berdasarkan atribut pada tag tersebut

In [None]:
# ambil atribut alt dari tag img di dalam tag div dengan class 'photo'
soup.find('div', class_='photo').find('img').attrs['alt']

## Mengambil Paragraf Berita

Untuk mengambil paragraf berita, kita akan menggunakan method ```find_all``` karena paragraf di dalam berita lebih dari 1 tag

In [None]:
# Ambil semua tag p dalam halaman html
soup.find_all('p')

Kita bisa melakukan indexing dari hasil diatas

In [None]:
# Ambil paragraf ke-0
print(soup.find_all('p')[0])
# Ambil paragraf ke-1
print(soup.find_all('p')[1])
# Ambil paragraf ke-2
print(soup.find_all('p')[2])

Seperti biasa, untuk mengambil teks pada paragraf, kita bisa menggunakan method ```text```


In [None]:
soup.find_all('p')[0].text

Untuk bisa menunjukkan semua text kita dapat menggunakan iterasi

In [None]:
for hasil in soup.find_all('p'):
    print(hasil.text)

## Scrape Link Berita

Kali ini kita akan scrape link berita dari halaman https://www.detik.com/search/searchall?query=politik&siteid=2

In [None]:
url = "https://www.detik.com/search/searchall?query=politik&siteid=2"

# load halaman berdasarkan url
hasil_request = requests.get(url)
# parsing halaman web
soup = BeautifulSoup(hasil_request.text, "html.parser") # Parses HTTP Response
# Tunjukkan struktur halaman web
print(soup.prettify())

Perhatikan bahwa setiap link artikel pada daftar terdapat di dalam tag div dengan class "list media_rows list-berita". Maka dari itu kita akan ekstraksi link dengan menggunakan method ```select```. Method ```select``` dapat digunakan untuk mengambil tag hirarki.

In [None]:
# ambil tag div dengan class "list media_rows list-berita" lalu ambil tag a
soup.select('div[class="list media_rows list-berita"] a')

Perhatikan bahwa hasil yang diperoleh berupa list, sehingga kita perlu melakukan indexing untuk mengambil atribut link ```href```:

In [None]:
# ambil tag div dengan class "list media_rows list-berita" lalu ambil tag a dan ambil atribut 'href'
soup.select('div[class="list media_rows list-berita"] a')[0].attrs['href']

In [None]:
# menggunakan iterasi untuk membaca atribut href
for hasil in soup.select('div[class="list media_rows list-berita"] a'):
    print(hasil.attrs['href'])

## Tugas



Buat script yang fungsinya adalah sebagai berikut:

1. Mengambil link dari halaman https://www.detik.com/search/searchall?query=politik dari 5 halaman pertama
2. Dari link yang diperoleh dari (1), scrape judul dan paragraf dari berita tersebut