# WEB SCRAPING PADA WEBSITE TIKET.COM MENGGUNAKAN BEAUTIFULSOUP

ANGGOTA KELOMPOK 
1. Fitrah Amaliah           (18051204007)
2. Muhammad Jazaal Aufa     (18051204013)
3. M. Fikri Rizki Romadhoni (18051204060)

## PENGERTIAN
**Web Scraping** adalah proses pengambilan data atau esktraksi dari sebuah website, yang kemudian datanya disimpan dalam sebuah format tertentu. Dalam bisnis, scraping biasanya dilakukan untuk memantau competitor bisnis tentang strategi yang digunakan.

### Teknik Scrapping
Secara umum, ada dua teknik yaitu : 

1.   Manual – teknik ini mengharuskan kita menyalin data dengan melakukan copy paste dari sebuah laman. 
2.   Otomatis – teknik ini menggunakan coding, aplikasi, hingga extension browser. Penggunaan Tool sekarang ini lebih digemari karena dapat melakukan scraping secara cepat.

Teknik scrapping yang akan kami gunakan adalah **teknik parsing HTML**


### Parsing HTML
Parsing HTML adalah teknik yang menggunakan JavaScript untuk menargetkan halaman linear HTML dan nested HTML. Teknik parsing ini bisa dengan lebih cepat dalam melakukan identifikasi semua script HTML dari suatu halaman website. Selain itu teknik ini bisa melakukan ekstraksi file berupa text, data dan links tergantung dari kebutuhan. Kami menggunakan library **BeatifulSoup** untuk membantu dalam mengekstraksi file dalam format HTML

### BeautifulSoup
BeautifulSoup merupakan sebuah *Python Library* yang digunakan untuk melakukan ekstraksi file dengan format XML atau HTML. 

## EKSTRAKSI ELEMENT HTML DARI URL

### Import Library
Import seluruh library yang diperlukan, antara lain:

1.   **request** - untuk melakukan request terhadap website tujuan kita (URL)
2.   **BeautifulSoup** - library Python yang memungkinkan kita untuk melakukan scraping dengan mudah dan cepat.karena dapat
3.   **csv** - library untuk menyimpan data url ke dalam file csv

In [None]:
import requests
from bs4 import BeautifulSoup
import csv

### Request HTTP
Dengan melakukan rquest kita bisa mengecek apakah website yang akan kita scraping dapat diakses. Pastikan status HTTP kodenya *200*-an. Kode tersebut berarti bahwa permintaan berhasil diterima, dipahami, dan diproses oleh server.

In [None]:
url = 'https://www.tiket.com/hotel/indonesia/city/denpasar-108001534490277507'
req = requests.get(url)

### Inspect Element Website
Karena kita akan melakukan parsing html, maka bisa menggunakan `html.parser` yang disediakan oleh Library BeautifulSoup. Kemudian untuk mengambil data dari halaman website kita dapat memanfaatkan elemen class/id atribut di HTML, caranya dengan inspeksi halaman. Class yang memuat elemen yang kita butuhkan, seperti nama hotel, lokasi, rating, harga dll ditampung pada Class `hotel-card seo-card`. Gunakan fungsi `findAll()` untuk melakukan iterasi di setiap kategori atau elemen yang ada pada class.

In [None]:
soup   = BeautifulSoup(req.text, 'html.parser')
hotels = soup.findAll('div', class_='hotel-card seo-card')

In [None]:
hotels[0]

<div class="hotel-card seo-card" data='{"position":0,"index":0}'><a href="/hotel/indonesia/d-bali-residence-206001560358845958?checkin=2021-10-25&amp;checkout=2021-10-26&amp;room=1&amp;adult=1" target="_blank"><div class="image-wrap"><img alt="D Bali Residence, Denpasar" loading="lazy" src="https://s-light.tiket.photos/t/01E25EBZS3W0FY9GTG6C42E1SE/t_htl-dskt/tix-hotel/images-web/2020/10/31/562786d8-dfaa-4878-9350-aaf70253fa7f-1604132042031-d4f67fe740d0e0cc38b2708d02d20340.jpg"/></div><div class="data-wrap"><h3 class="title ellipsis">D Bali Residence</h3><div class="detail-container"><div class="detail-wrap"><div class="star-location"><div class="star-wrap"><i class="tix tixicon tixicon-star-full"></i><i class="tix tixicon tixicon-star-full"></i></div><div class="dot"></div><div class="location ellipsis">Denpasar Barat, Denpasar</div></div><div class="rating"><div class="tiket-rating-wrap"><div class="tiket-rating">2.5</div><div class="tiket-impression">Okay</div></div></div><div class=

### HTML menjadi Teks
Salah satu elemen tersebut adalah `h3` yang memuat nama hotel. Outputkan ke dalam text.

In [None]:
hotels[0].find('h3').text

'D Bali Residence'

Kemudian lakukan *looping* pada setiap elemen `h3` yang ada pada Class.

In [None]:
hotel_items = [hotel.find('h3').text for hotel in hotels]

Sehingga kita bisa menampilakan data nama hotel tersebut seperti di bawah ini

In [None]:
hotel_items[:10]

['D Bali Residence',
 'Hotel Intansari',
 'Merak Lifestyle Hotel',
 'Hotel Nikki Denpasar',
 'Bali True Living Apartment',
 'Mahatma Residence',
 'Hotel Grand Santhi',
 'Puri Saron Hotel Denpasar',
 'Catur Adi Putra Hotel',
 'Adikara Renon']

## EKSTRAKSI SEMUA PAGE
Karena webiste ini memiliki banyak page, maka kita perlu mendapatkan URL dari masing-masing page.

In [None]:
base_url = 'https://www.tiket.com'
url      = 'https://www.tiket.com/hotel/indonesia/city/denpasar-108001534490277507'

In [None]:
def get_pages(url):
    req = requests.get(url)
    soup = BeautifulSoup(req.text, 'html.parser')

    return soup

In [None]:
soup = get_pages(url)

Iterasi semua elemen `a` pada class `btn-pages` dalam website

In [None]:
pages = soup.findAll('a', class_='btn-pages')
pages

[<a class="btn-pages active" href="/hotel/indonesia/city/denpasar-108001534490277507">1</a>,
 <a class="btn-pages" href="/hotel/indonesia/city/denpasar-108001534490277507/page-2">2</a>,
 <a class="btn-pages" href="/hotel/indonesia/city/denpasar-108001534490277507/page-3">3</a>,
 <a class="btn-pages" href="/hotel/indonesia/city/denpasar-108001534490277507/page-30">30</a>]

Lakukan looping untuk mendapatkan semua URL halaman website. Website memiliki 30 halaman 

In [None]:
pages_url = [base_url + page.attrs['href'] for page in pages]
pages_url

['https://www.tiket.com/hotel/indonesia/city/denpasar-108001534490277507',
 'https://www.tiket.com/hotel/indonesia/city/denpasar-108001534490277507/page-2',
 'https://www.tiket.com/hotel/indonesia/city/denpasar-108001534490277507/page-3',
 'https://www.tiket.com/hotel/indonesia/city/denpasar-108001534490277507/page-30']

Kemudian lakukan iterasi menggunakan fungsi `findAll()` pada semua elemen yang memuat data yang dibutuhkan, seperti nama hotel, lokasi, harga, rating dsb. Elemen-elemen tersebut dimuat pada class `hotel-card seo-card`. Secara garis besar cara ini hampir sama dengan sebelumnya.

Untuk mengambil potongan kode HTML atau konten dari HTML gunakan fungsi `find()`. Fungsi `find()` akan mengambil data berdasarkan tag atau elemen HTML. Elemen `h3` untuk **nama hotel**

In [None]:
hotels = soup.findAll('div', class_='hotel-card seo-card')
hotels[4].find('h3').text

'Bali True Living Apartment'

Elemen `div` dengan Class `after-price` untuk **harga hotel**

In [None]:
hotels[4].find('div', class_='after-price').text

'IDR 197.999'

Elemen `div` dengan Class `location` untuk **lokasi hotel**

In [None]:
hotels[4].find('div', class_='location').text

'Denpasar Barat, Denpasar'

Elemen `div` dengan Class `tiket-rating` untuk **rating hotel**

In [None]:
hotels[4].find('div', class_='tiket-rating').text

'4.2'

Berbeda dengan elemen lainnya, untuk mendapatkan gambar kita menggunakan elemen `src` 

In [None]:
hotels[4].find('img').attrs['src']

'https://s-light.tiket.photos/t/01E25EBZS3W0FY9GTG6C42E1SE/t_htl-dskt/tix-hotel/images-web/2021/01/31/3d73eded-1125-49af-87c8-cea991061979-1612046442921-371153f0c7998b1f188917c6d9d47568.jpg'

## GABUNGKAN DATA SEMUA HALAMAN KE DALAM FORMAT CSV

In [None]:
def get_hotel(pages_url):
    names = []
    address = []
    prices = []
    ratings = []
    images = []

    # ekstrak elemen html di setiap page
    for page in pages_url:
        soup = get_pages(page)
        hotels = soup.findAll('div', class_='hotel-card seo-card')
        # get title
        names = names + [hotel.find('h3').text for hotel in hotels]
        # get location
        address = address + [hotel.find('div', class_='location').text for hotel in hotels]
        # get price
        prices = prices + [hotel.find('div', class_='after-price').text if hotel.find('div', class_='after-price') != None else None for hotel in hotels]
        # get rating
        ratings = ratings + [hotel.find('div', class_='tiket-rating').text if hotel.find('div', class_='tiket-rating') != None else None for hotel in hotels]
        # get image url
        images = images + [hotel.find('img').attrs['src'] for hotel in hotels]

    return {
        'names'     : names,
        'locations' : address,
        'prices'    : prices,
        'ratings'   : ratings,
        'images'    : images
    }

Tampung hasil ekstraksi semua halaman ke dalam varibael `hotels_data`

In [None]:
hotels_data = get_hotel(pages_url)

Ubah hasil ekstrasi ke dalam format .csv mengunakan **library pandas**

In [None]:
import pandas as pd
pd.DataFrame(hotels_data)

Unnamed: 0,names,locations,prices,ratings,images
0,D Bali Residence,"Denpasar Barat, Denpasar",IDR 194.400,2.5,https://s-light.tiket.photos/t/01E25EBZS3W0FY9...
1,Hotel Intansari,"Denpasar Barat, Denpasar",,4.3,https://s-light.tiket.photos/t/01E25EBZS3W0FY9...
2,Merak Lifestyle Hotel,"Denpasar Barat, Denpasar",,,https://s-light.tiket.photos/t/01E25EBZS3W0FY9...
3,Hotel Nikki Denpasar,"Denpasar Utara, Denpasar",,3.1,https://s-light.tiket.photos/t/01E25EBZS3W0FY9...
4,Bali True Living Apartment,"Denpasar Barat, Denpasar",IDR 197.999,4.2,https://s-light.tiket.photos/t/01E25EBZS3W0FY9...
...,...,...,...,...,...
195,OYO 90671 Petanu Residence,"Denpasar Selatan, Denpasar",IDR 134.973,,https://s-light.tiket.photos/t/01E25EBZS3W0FY9...
196,Deluxe Room-Breakfast|WRWK,"Kuta, Denpasar",,,https://s-light.tiket.photos/t/01E25EBZS3W0FY9...
197,AKAYA BALI,"Denpasar Selatan, Denpasar",,,
198,SPOT ON 90365 Rumah Kost Alor,"Denpasar Barat, Denpasar",,,


In [None]:
df= pd.DataFrame(hotels_data)
df.to_csv('denpasar_hotels.csv', index=False, encoding="utf-8")