## **Xpath Introduction to Scraping**

### **Xpath Syntax**

Example of Xpath Syntax you need to know: 

**//TagName[contains(@AtributName, 'Value')]**

### **Xpath Operation**

Example of Xpath Operator

**//TagName[(Expression 1) and (Expression 2)]**

### **HTML Code Example** 

```HTML
<body>
	<article class="main-article" style="height: auto !important;">
			<h1>Vacation Home Nightmare (2023) - full transcript</h1>
						<p class="plot">When a woman is attacked in her short term rental, the company's Clean-Up Team steps in to help her pick up the pieces. But she soon finds that they might not be who they say they are.</p>
	</article>

	<div id="cue-app" class="full-script" data-imdb-id="26458228">
				<div class="subtitle-cue">
						<p class="cue-line" data-cue-idx="0" data-line-idx="0">(dark music)</p>
					</div>
				<div class="subtitle-cue">
						<p class="cue-line" data-cue-idx="1" data-line-idx="0">♪</p>
					</div>
				<div class="subtitle-cue">
						<p class="cue-line" data-cue-idx="2" data-line-idx="0">Yeah, it's so quiet out here,</p>
						<p class="cue-line" data-cue-idx="2" data-line-idx="1">I feel like I'm all alone.</p>
					</div>
	</div>
	<footer>
			<span class="contactus">Have any questions? Contact us: subslikescript(doggysign)gmail.com | <a href="https://subslikescript.com/dmca">DMCA</a></span>
	</footer>
</body>
```

**contoh penggunaan sytanx Xpath untuk kode diatas:**

- Untuk mengambil keseluruhan isi tag article

    kita dapat menggunakan syntax:

    > //article
     
    >//article[@class="main-article"]
    

- Untuk mengamil tag h1
    
    kita dapat menggunakan syntax:

    > //article[@class="main-article"]/h1/text()

    hasil akan seperti ini : Vacation Home Nightmare (2023) - full transcript

- Untuk mengambil text script yang ada di p 
     
    kita dapat menggunakan syntax:

    > //p[contains(@data-cue-idx , "0")]

    atau 

    > //p[contains(@class , "cue")]

    hasil akan seperti ini : 
    
    ```html
    <p class="cue-line" data-cue-idx="0" data-line-idx="0">(dark music)</p>
    <p class="cue-line" data-cue-idx="1" data-line-idx="0">♪</p>
    <p class="cue-line" data-cue-idx="2" data-line-idx="0">Yeah, it's so quiet out here,</p>
    <p class="cue-line" data-cue-idx="2" data-line-idx="1">I feel like I'm all alone.</p>


### **Special Characters Xpath Syntax**

* **/. atau /..** -> digunakan untuk mengambil node parents 
* **/***-> digunakan untuk mengambil seluruh elemen tidap penting apapun elemennya
* **./*** -> digunakan untuk mengambil seluruh elemen dari childern node
* **@** -> untuk memilih attribut
* **()** -> untuk grouping xpath expression
* **[n]** -> untuk mengindikasikan setiap node dengan index 'n' akan diambil  

## **Introduction to Selenium Scraping**

Selenium merupakan library seperti Bs4 yang juga berfungsi untuk melakukan scraping. Bedanya Selenium melakukan pendekatakn scraping menggunakan Webdriver. Bs4 dan Selenium memiliki target jenis website yang berbeda. Scraping menggunakan Bs4 tidak bisa dilakukan pada website yang dinamis (contoh menggunakan JavaScipt), berbeda dengan Selenium yang mampu melakukan scraping data pada website dinamis.

### **Set Up Package**

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import csv

In [2]:
import pandas as pd
import time

### **Running Webdriver to Get Website**

In [None]:
# Inisialisasi path ke file chromedriver.exe
path = "../chromedriver-win64/chromedriver.exe"

# Set service
service = Service(executable_path=path)

# Opsi tambahan (opsional, tapi berguna)
options = Options()
options.add_argument("--start-maximized")

# Inisialisasi driver
# driver = webdriver.Chrome(service=service, options=options)

# Buka website
# driver.get("https://www.vlr.gg/matches")

### **How to Find Element with Selenium**

Biasanya untuk mengambil elemen kita menggunakan kode seperti:

```Python
driver.find_element_by_id("id")
driver.find_element_by_class_name("class_name")
driver.find_element_by_tag_name("tag_name")
driver.find_element_by_xpath("//@xpath syntax")
driver.find_elements_by_tag_name("tag_name") # for multiple write "elements" in plural 
```
Namun kode diatas sudah usang dan tidak lagi digunakan pada versi selnium > 4.30 dan dihapus di versi setelahnya dan berubah menjadi `find_element()` atau `find_elements()`. Contoh kodenya akan seperti ini:
```python
# menggunakan import by
from selenium.webdriver.common.by import By

driver.find_element(By.XPATH, '//Attribut[@class= "clas_name"]')
driver.find_element(By.ID, 'id')
driver.find_element(By.CLASS_NAME, 'class_name')
driver.find_element(By.TAG_NAME, 'tag_name')
```

Target website untuk kasus ini menggunakan website dari https://vlr.gg/matches

![valorant matches](../media/vlrgg_website.png)

kali ini kita akan mencoba menggunakan selenium untuk mengambil dan melakukan action pada driver untuk mengambil button **Results**

In [None]:
# Inisialisasi driver
driver = webdriver.Chrome(service=service, options=options)

# Buka driver
driver.get("https://www.vlr.gg/matches")

# buat driver untuk mengklik elemen yang ada di dalam website
result_mathces = driver.find_element(By.XPATH, '//div[@class="wf-nav"]/a[@href="/matches/results"]/div[@class="wf-nav-item-title"]')
# klik elemen yang telah diambil
result_mathces.click()

### **Scraping Table with Selenium and Export Data to CSV**

Website ini berisikan statistik data player Valorant Region Pacific. Didalam website tersebut bisa kita lihat data disimpan dalam bentuk tabel.

![valorant-stats-table](../media/vlrgg_stats_table.png)

Data-data tersebut tersimpan dalam tag html 
``` html
<table>
    <thead>
        <tr>
            <td></td>
        </tr>
    </thead>
</table>
```    
![valorant-stats-table-zoom](../media/vlrgg_stats_table_zoom.png)

In [None]:
# Inisialisasi driver
driver = webdriver.Chrome(service=service, options=options)

# Buka driver
driver.get("https://www.vlr.gg/event/stats/2379/champions-tour-2025-pacific-stage-1")


time.sleep(7)  # Tunggu beberapa detik agar halaman sepenuhnya dimuat

rows = driver.find_elements(By.XPATH, '//table/tbody/tr')

# tulis data ke dalam file csv
with open('../data export/val_stats.csv', 'w', encoding='utf-8') as file:
    writer = csv.writer(file)
    # Tulis header kolom sesuai dengan struktur tabel
    writer.writerow(["Player", "Agents", "RND", "R", "ACS", 
                     "K:D", "KAST", "ADR", "KPR", "APR", "FKPR", "FDPR", "HS%", 
                     "CL%", "CL", "KMAX", "K", "D", "A", "FK", "FD"])
    
    for row in rows:
        cells = row.find_elements(By.TAG_NAME, "td")
        # Ekstrak teks dari setiap sel
        data = [cell.text.strip() for cell in cells]
        writer.writerow(data)

driver.quit()  # Tutup driver setelah selesai
# Menampilkan pesan selesai
print('Data statistik Valorant telah disimpan ke val_stats.csv!')

Data statistik Valorant telah disimpan ke val_stats.csv!


In [None]:
# cek apakah file csv telah dibuat
df = pd.read_csv('../data export/val_stats.csv')
df

Unnamed: 0,Player,Agents,RND,R,ACS,K:D,KAST,ADR,KPR,APR,...,FDPR,HS%,CL%,CL,KMAX,K,D,A,FK,FD
0,invy\r\nTS,(+2),271,1.26,237.2,1.27,73%,158.4,0.87,0.35,...,0.07,29%,10%,3/31,27,236,186,95,23,18
1,Jemkin\r\nRRQ,(+1),573,1.22,253.9,1.30,73%,161.3,0.91,0.15,...,0.15,38%,18%,9/50,32,524,404,87,137,84
2,dos9\r\nBME,(+2),344,1.19,212.2,1.18,75%,136.3,0.76,0.47,...,0.07,26%,29%,14/48,35,261,222,160,30,24
3,Jinggg\r\nPRX,(+2),536,1.14,220.9,1.18,76%,145.4,0.79,0.32,...,0.08,26%,11%,7/62,31,422,359,171,53,43
4,Foxy9\r\nGEN,(+2),360,1.12,207.8,1.25,78%,137.3,0.77,0.18,...,0.08,34%,29%,9/31,23,277,222,65,35,30
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
60,Jinboong\r\nDFM,,225,0.80,157.4,0.72,62%,111.1,0.54,0.21,...,0.13,33%,12%,4/33,16,121,169,48,14,29
61,SyouTa\r\nZETA,(+1),255,0.79,162.8,0.77,61%,108.1,0.58,0.19,...,0.07,35%,9%,3/32,18,147,190,48,26,18
62,Suggest\r\nGEN,,112,0.66,152.2,0.77,65%,110.8,0.57,0.12,...,0.12,30%,,0/8,21,64,83,13,10,13
63,Art\r\nDFM,(+1),225,0.61,135.7,0.52,61%,92.8,0.42,0.31,...,0.12,21%,,0/18,16,94,182,69,9,28


## **Select Elements Dropdown With Seleneium**

### **Additional Package**

In [10]:
from selenium.webdriver.support.ui import Select, WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

### **Initialize Driver**

In [4]:
# Inisialisasi path ke file chromedriver.exe
path = "../chromedriver-win64/chromedriver.exe"

# Set service
service = Service(executable_path=path)

# Opsi tambahan (opsional, tapi berguna)
options = Options()
options.add_argument("--start-maximized")

### **Activate Driver and Scrape**

**Contoh Website**
![valgg-element dropdown](../media/selenium_dropdown_select.png)

Dalam contoh kali ini, saya akan mengambil struktur elemen dari attribut Name menggunkan `By.NAME`. Pada selenium untuk melakukan aksi "klik" pada sebuah button ktia hanya perlu menggunakan fungsi `Select()`.

In [5]:
# Inisialisasi driver
driver = webdriver.Chrome(service=service, options=options)

# Buka driver
driver.get("https://www.vlr.gg/event/stats/2282/valorant-masters-2025-toronto")

## Tunggu beberapa detik agar halaman sepenuhnya dimuat
time.sleep(7)  # Tunggu beberapa detik agar halaman sepenuhnya dimuat

# Ambil elemen dropdown
select_agents =  Select(driver.find_element(By.NAME, 'agent'))

# tampilkan semua opsi yang tersedia dalam dropdown
for option in select_agents.options:
    print(option.text)

# Pilih opsi yang diinginkan
select_agents.select_by_visible_text('Killjoy')

# print opsi yang telah dipilih
print('Opsi berhasil dipilih!')
print("Opsi yang dipilih:", select_agents.first_selected_option.text)

All
Astra
Breach
Brimstone
Chamber
Clove
Cypher
Deadlock
Fade
Gekko
Harbor
Iso
Jett
Kayo
Killjoy
Neon
Omen
Phoenix
Raze
Reyna
Sage
Skye
Sova
Tejo
Viper
Vyse
Waylay
Yoru
Opsi berhasil dipilih!
Opsi yang dipilih: Killjoy


## **Dealing Multiple Pages Using Selenium**

### **Additional Package**

In [3]:
from selenium.common.exceptions import NoSuchElementException

### **Initiaize Driver**

In [13]:
# Inisialisasi path ke file chromedriver.exe
path = "../chromedriver-win64/chromedriver.exe"

# Set service
service = Service(executable_path=path)

# Opsi tambahan (opsional, tapi berguna)
options = Options()
options.add_argument("--start-maximized")

**Contoh Website**

![web audiobooks](../media/website_multiple_pages_selenium.png)

Pada contoh kali ini kita akan mengambil sebuah data pada situs penjualan audiobooks.

Pertama-tama kita akan membuat "bot" untuk mengakses web dan melakukan scraping beberapa elemen, kemudian melakukan pagination untuk mengambil data di halaman selanjutnya.

![web audiobooks html struktur](../media/stukrur_html_audiobooks.png)

**Lakukan pengambilan beberapa elemen dan simpan dalam suatu dataframe kemudian Export**

Jika diperhatikan dalam struktur html pada contoh website, ktia bisa melihat bahwa judul dan pencipta masuk pada tag parent div dengan class "book__info__creators" dan sisa dibwahnya terdapat pada tag parent div dengan class "book__info_meta". Jika kita mengabil menggunakan XPATH dari awal parent tag, path akan seperti ini:

`//div[@class="row books"]/div[contains(@class, "bb-link")]/div[contains(@class, "book")]/a[contains(@class, "no-decoration")]/div[contains(@class, "book__info")]/div[contains(@class, "book__info__creators")]/h6[contains(@class, "h6--blue book__info__title")]`

Sangat panjang dan memakan waktu untuk mencari. Untuk Menyederhanakannya kita bisa melihat nama Class yang spesifik dan hanya dimiliki elemen itu sendiri. Jika kita lihat terdapat nama class yang menyimpan judul terdapat `book__info__title` yang hanya dimiliki elemen yang menyimpan judul. Kita bisa memanfaatkan ini dengan menggunakan `contains(@class, "class_name")`.

### **Running The Driver and Scrape Multiple Elements**

In [15]:
web = 'https://www.audiobooks.com/browse/page/{}'

# untuk mengatur agar drriver tidak terbuka di background
# kita bisa gunakan opsi headless
# options.add_argument("--headless=new")

# untuk membuat data lebih banyak terambil kita bisa mengubah window size
# options.add_argument("--window-size=1920,1080")

# Inisialisasi driver
driver = webdriver.Chrome(service=service, options=options)

# Buka driver
driver.get(web)

# driver.save_screenshot("debug_headless.png")


# Tunggu sampai kontainer muncul (maks 10 detik)
# wait = WebDriverWait(driver, 10)
# tunggu sampai elemen dengan class "row books" muncul
# container = wait.until(EC.presence_of_element_located((By.XPATH, '//div[@class="row books"]')))

container = driver.find_element(By.XPATH, '//div[@class="row books"]')
# ambil produk yang ada di dalam elemen tersebut
products = container.find_elements(By.XPATH, '//div[contains(@class, "bb-link")]')

## buat list untuk menyimpan data buku
books_title = []
books_rating = []
books_author = []
books_duration = []
books_price = []

# buat loop untuk mengambil data dari setiap produk
for product in products:
    # ambil nama buku
    books_title.append(product.find_element(By.XPATH, './/h6[contains(@class, "book__info__title")]').text)
    
    # ambil rating buku
    books_rating.append(product.find_element(By.XPATH, './/div[contains(@class, "book__info__rating__stars")]').get_attribute('title'))

    # ambil penulis buku
    books_author.append(product.find_element(By.XPATH, './/h6[contains(@class, "book__info__author d-block")]').text)
    
    # ambil durasi buku
    books_duration.append(product.find_element(By.XPATH, './/span[contains(@class, "book__info__meta--duration d-block")]').text)
 
  # ambil harga buku, tangani jika tidak ada elemen harga
    try:
        price = product.find_element(By.XPATH, './/span[contains(@class, "book__info__meta--price")]').text
    except NoSuchElementException:
        price = 'Comming Soon'
    books_price.append(price)

# Tutup driver setelah selesai
driver.quit()

df_books = pd.DataFrame({'Title': books_title, 
                         'Rating': books_rating,
                         'Author': books_author,
                         'Duration': books_duration,
                         'Price': books_price})  
df_books

Unnamed: 0,Title,Rating,Author,Duration,Price
0,A COURT OF THORNS AND ROSES,4.37,SARAH J. MAAS,16 hr 11 min,$29.99
1,FUNNY STORY,4.38,EMILY HENRY,11 hr 23 min,$22.50
2,THE SUBTLE ART OF NOT GIVING A F*CK: A COUNTER...,4.31,MARK MANSON,5 hr 18 min,$21.99
3,"TUESDAYS WITH MORRIE: AN OLD MAN, A YOUNG MAN,...",4.37,MITCH ALBOM,3 hr 51 min,$9.95
4,CAUGHT UP,4.66,NAVESSA ALLEN,10 hr 41 min,$34.99
5,ONYX STORM (2 OF 2) [DRAMATIZED ADAPTATION]: T...,4.6,REBECCA YARROS,9 hr 0 min,Comming Soon
6,THE TENANT,4.15,FREIDA MCFADDEN,8 hr 50 min,$34.99
7,THE EX,4.23,FREIDA MCFADDEN,8 hr 33 min,$25.00
8,THRONE OF GLASS [DRAMATIZED ADAPTATION]: THRON...,4.38,SARAH J. MAAS,11 hr 0 min,Comming Soon
9,NEVER FLINCH: A NOVEL,4.09,STEPHEN KING,14 hr 45 min,$29.99


### **Headles Selenium**

`options.add_argument("--headless=new")` merupakan fungsi pada selenium yang memungkinkan kita melakukan scraping tanpa membuka driver browser, sehingga dapat menghemat waktu tanpa harus menunggu animasi pada website. Namun, kekurangan dalam menggunakan headless dalam beberapa website akan terdetekti sebagai bot dan verifikasi captcha.

Sebagai contoh ini yang saya alami ketika ingin mengambil data pada website audiobooks.com menggunakan headless:

![debug headlees](../media/debug_headless.png)

In [19]:
df_books.to_csv('../data export/audiobooks.csv', index=False, encoding='utf-8')
# Menampilkan pesan selesai
print('Data buku telah disimpan ke audiobooks.csv!')

Data buku telah disimpan ke audiobooks.csv!


### **Pagination with Selenium**

In [17]:
web = 'https://www.audiobooks.com/browse/page/{}'

# Inisialisasi driver
driver = webdriver.Chrome(service=service, options=options)

# Buka driver
driver.get(web)

## buat list untuk menyimpan data buku
books_title = []
books_rating = []
books_author = []
books_duration = []
books_price = []

current_page = 1

while current_page <= 3:  # Ambil data dari 5 halaman
    # Tunggu beberapa detik agar halaman sepenuhnya dimuat
    time.sleep(3)  # Tunggu beberapa detik agar halaman sepenuhnya dimuat

    container = driver.find_element(By.XPATH, '//div[@class="row books"]')
    # ambil produk yang ada di dalam elemen tersebut
    products = container.find_elements(By.XPATH, '//div[contains(@class, "bb-link")]')

    # buat loop untuk mengambil data dari setiap produk
    for product in products:
        # ambil nama buku
        books_title.append(product.find_element(By.XPATH, './/h6[contains(@class, "book__info__title")]').text)
        
        # ambil rating buku
        books_rating.append(product.find_element(By.XPATH, './/div[contains(@class, "book__info__rating__stars")]').get_attribute('title'))

        # ambil penulis buku
        books_author.append(product.find_element(By.XPATH, './/h6[contains(@class, "book__info__author d-block")]').text)
        
        # ambil durasi buku
        books_duration.append(product.find_element(By.XPATH, './/span[contains(@class, "book__info__meta--duration d-block")]').text)
    
      # ambil harga buku, tangani jika tidak ada elemen harga
        try:
            price = product.find_element(By.XPATH, './/span[contains(@class, "book__info__meta--price")]').text
        except NoSuchElementException:
            price = 'Comming Soon'
        books_price.append(price)


    current_page += 1

    # Cek apakah tombol next ada dan klik untuk pindah ke halaman berikutnya
    try :
        next_page = driver.find_element(By.XPATH, '//li[contains(@class, "next")]')
        next_page.click()
        current_page += 1
    except:
        pass

# Tutup driver setelah selesai
driver.quit()

df_books = pd.DataFrame({'Title': books_title, 
                         'Rating': books_rating,
                         'Author': books_author,
                         'Duration': books_duration,
                         'Price': books_price})  
df_books

Unnamed: 0,Title,Rating,Author,Duration,Price
0,A COURT OF THORNS AND ROSES,4.37,SARAH J. MAAS,16 hr 11 min,$29.99
1,FUNNY STORY,4.38,EMILY HENRY,11 hr 23 min,$22.50
2,THE SUBTLE ART OF NOT GIVING A F*CK: A COUNTER...,4.31,MARK MANSON,5 hr 18 min,$21.99
3,"TUESDAYS WITH MORRIE: AN OLD MAN, A YOUNG MAN,...",4.37,MITCH ALBOM,3 hr 51 min,$9.95
4,CAUGHT UP,4.66,NAVESSA ALLEN,10 hr 41 min,$34.99
5,ONYX STORM (2 OF 2) [DRAMATIZED ADAPTATION]: T...,4.6,REBECCA YARROS,9 hr 0 min,Comming Soon
6,THE TENANT,4.15,FREIDA MCFADDEN,8 hr 50 min,$34.99
7,THE EX,4.23,FREIDA MCFADDEN,8 hr 33 min,$25.00
8,THRONE OF GLASS [DRAMATIZED ADAPTATION]: THRON...,4.38,SARAH J. MAAS,11 hr 0 min,Comming Soon
9,NEVER FLINCH: A NOVEL,4.09,STEPHEN KING,14 hr 45 min,$29.99


In [18]:
df_books.to_csv('../data export/audiobooks-pagination.csv', index=False, encoding='utf-8')
# Menampilkan pesan selesai
print('Data buku telah disimpan ke audiobooks.csv!')

Data buku telah disimpan ke audiobooks.csv!
