## **Basics Python for Scraping**

In [6]:
import pandas as pd

In [None]:
states = ['Indonesia', 'Malaysia', 'Philippines', 'Thailand', 'Vietnam']
id_states = ['INA', 'MY', 'PH', 'TH', 'VN']

dict_states = {'States': states, 'ID States': id_states}

df_states = pd.DataFrame.from_dict(dict_states)

In [None]:
df_states

Unnamed: 0,States,ID States
0,Indonesia,INA
1,Malaysia,MY
2,Philippines,PH
3,Thailand,TH
4,Vietnam,VN


In [None]:
# you can etiher export to csv or excel
# df_states.to_csv('states.csv', index=False)

### **Handling Exception Errors Using try-except**

In [None]:
a_list = [2,4,6, 'string element']

for element in a_list:
    try:
        print(element/2)
    except:
        print('the element is not a number!')

1.0
2.0
3.0
the element is not a number!


Ketika kita melakukan scraping terkadang kita menemukan error pada elemen yang ingin kita ambil karena ketidak sesuaian data, sebagai contoh pada kasus try-except digunakan agar code yang kita bisa berjalan hingga akhir walaupun elemen yang ingin kita ambil tidak memenuhi kriteria.

Jika try-excepet tidak digunakan code akan mengeluarkan error messages sehingga data yang berhasil diambil tidak dapat tersimpan karena salah satu elemen tidak sesuai kriteria, maka dari itu try-except digunakan.

### **Pagination Using while-break**

In [None]:
num_pages = 5 # number of pages

while num_pages > 0 : # expception
    print(num_pages)
    num_pages -= 1

    if num_pages == 2:
        break
print('End of the pages loop')

5
4
3
End of the pages loop


**Pagination** merupakan cara untuk kita mengambil data dari setiap halaman website yang ada. Umumnya digunakan pada librarry Beautiful soup dan Selenium.

## **Basics Scraping With Beautifulsoup4**

In [2]:
import requests
from bs4 import BeautifulSoup

### **What we need to know about Beautifulsoup4 (Bs4)?**

Bs4 merupakan librarry yang digunakan untuk melakukan web scraping pada suatu website. Dalam penggunaan Bs4 kita bergantung pada *Request* dari suatu website untuk mendapatkan data yang kita mau. Meskipun terlihat simpel Bs4 merupakan web scraper yang juga membutuhkan *parser* seperti **html parser** atau **xml parser** untuk mengekstrak data dari suatu website. 

### **Scraping Method**

Biasanya dalam scraping menggunakan Bs4 kita membutuhkan:

    1. Inisiasi URL
    2. Buat Request
    3. Parsing Data
    4. Ekstraksi Data


In [None]:
# membuat insisiaisi website
website = 'https://subslikescript.com/movie/The_Love_Club-19896920'
# melakukan request ke website
result = requests.get(website)
# menggambil konten dari hasil request
content = result.text

# membuat soup untuk parsing lxml/html
soup = BeautifulSoup(content, 'lxml')
# memuncuklan hasil parsing
print(soup.prettify())

<!DOCTYPE html>
<html dir="ltr" lang="en">
 <head>
  <!-- Global site tag (gtag.js) - Google Analytics -->
  <script async="" src="https://www.googletagmanager.com/gtag/js?id=UA-120598793-1">
  </script>
  <script>
   window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'UA-120598793-1');
  </script>
  <meta charset="utf-8"/>
  <title>
   The Love Club (2023) Movie Script
 | Subs like Script
  </title>
  <meta club="" content="    Read " created="" from="" love="" movie="" name="description" script="" srt="" subtitles="" the=""/>
  <meta content="    transcript, movie, subtitles, scripts, film, video, media, subs, srt
" name="keywords"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <meta content="index, follow" name="robots"/>
  <link href="/favicon.ico" rel="shortcut icon"/>
  <meta content="rlnmmjLUgMkyp1eOlA2zdNdVWkM2Qql8TtI9Y6tS" name="csrf-token"/>
  <meta content="rlnmmjLU

**Screenshot website yang ingin dilakukan scraping**

![media - website subslikescript](../media/basics_scraping_subslikescript.png)

Untuk melihat elemen — kita bisa melakukan inspect langsung pada website dan pilih elemen yang ingin diambil datanya. Pada contoh kali ini saya ingin mengambil data judul dari film "THE LOVE CLUB (2023) - FULL TRANSCRIPT".

In [5]:
# karena judul film berada di dalam tag <h1> dan <article>
# kita perlu mencari tag sebelumnya yaitu <article>
box = soup.find('article', class_='main-article')
# mengambil judul film dari tag <h1>
title = box.find('h1').text
# print hasil judul film
print(f'Title: {title}')

Title: The Love Club (2023) - full transcript


In [None]:
# selanjutnya kita akan mengambil transkrip film dan membuat file txtnya

# mengambil transkrip film dari tag <div> dengan class 'full-script'
transcript = box.find('div', class_='full-script').get_text(strip=True, separator=' ')

# membuat file
# ketika membuat file, gunakan mode 'w' untuk menulis
# dan encoding 'utf-8' untuk mendukung karakter non-ASCII
# pastikan direktori '../data export/' sudah ada
# jika belum ada, buat direktori tersebut terlebih dahulu
# dalah contoh ini, kita akan menyimpan file dengan nama sesuai judul film
with open(f'../data export/{title}.txt', 'w', encoding= 'utf-8') as file:
    file.write(transcript)

### **Scraping Multiple Element**

![subslikescript - multiple element href true](../media/href_true.png)


![subslikescript - href zoom](../media/href_zoom.png)

Dalam contoh kali ini, untuk mengambil beberapa element yang sama kita perlu memahami struktur html dari suatu website. Jika diperhatikan **href** menunjukkan bahwa setiap movies akan menampilkan tampilan transcript dihalaman yang terpisah

In [14]:
# membuat insisiaisi website
website = 'https://subslikescript.com/movies'
# melakukan request ke website
result = requests.get(website)
# menggambil konten dari hasil request
content = result.text

# membuat soup untuk parsing lxml/html
soup = BeautifulSoup(content, 'lxml')

box = soup.find('article', class_='main-article')

links = []

for link in box.find_all('a', href=True):
    # mengambil link dari atribut href
    links.append(link['href'])
print(links)

['/movie/Gereza-22857380', '/movie/Dragon_Hunter-22008250', '/movie/House_of_Inequity-5598934', '/movie/Jackpot_Island_Kumanthong_Returns-25260658', '/movie/Match-13490000', '/movie/Snow_White_and_the_Fairytale_Fun_Force-22700808', '/movie/The_Love_Club-19896920', '/movie/Haunted_Hotties-24018636', '/movie/One_Year_Off-14130940', '/movie/Sweeter_Than_Chocolate-25391002', '/movie/Disquiet-25869142', '/movie/Among_the_Beasts-26343318', '/movie/Taming_Speed-25969676', '/movie/Randy_Feltface_The_Last_Temptation_of_Randy-17527566', '/movie/Alemanji-23666980', '/movie/Darkheart_Manor-12569866', '/movie/Innocent_Vengeance-26505553', '/movie/Ho_Ja_Mukt-25150506', '/movie/Boy_from_Nowhere-26713915', '/movie/Rent-a-Groom-15352290', '/movie/Unlocked-26160190', '/movie/j-hope_IN_THE_BOX-26425683', '/movie/Suki-26734145', '/movie/Re-Resonator_Looking_Back_at_from_Beyond-26625455', '/movie/Americas_National_Parks_at_100-26740893', '/movie/Under_His_Influence-26083016', '/movie/Why_Cant_My_Life_Be_a_

In [17]:
root = 'https://subslikescript.com'
# mengambil setiap link dan mengambil transkrip filmnya menggunakan loop
for link in links:
    movies = f'{root}{link}'
    # melakukan request ke website
    result = requests.get(movies)
    # menggambil konten dari hasil request
    content = result.text
    # membuat soup untuk parsing lxml/html
    soup = BeautifulSoup(content, 'lxml')

    box = soup.find('article', class_='main-article')
    # mengambil judul film dari tag <h1>
    title = box.find('h1').text
    # mengambil transkrip film dari tag <div> dengan class 'full-script'
    transcript = box.find('div', class_='full-script').get_text(strip=True, separator=' ')

    with open(f'../data export/{title}.txt', 'w', encoding= 'utf-8') as file:
        file.write(transcript)
        
# menampilkan pesan selesai
print('Semua transkrip film telah diambil dan disimpan!')

OSError: [Errno 22] Invalid argument: "../data export/Why Can't My Life Be a Rom Com? (2023) - full transcript.txt"

Jika kita lihat diatas terdapat error yang disebabkan karena adanya karakter ilegal untuk membuat nama file. Kita bisa menggunakan try-except untuk solusi seperti ini atau gunakaan fungsi regex untuk membersihkan karakter yang tidak aman, tetapi fokus utama dalam mengambil multiple element sudah berhasil diterapkan. jika kita cek di directory file sudah berhasil dibuat dan diambil datanya.

![multiple element scraping](../media/multiple_element_scraping.png)

### **Pagination Using Bs4**

![pagination element](../media/pagination.png)

Untuk melakukan pagination kita perlu mangambil elemen yang memuat akses ke halama berikutnya. Dalam website "subslikescript.com" dapan dilihat elemen berapa pada box ul dan link pada li. Jika diperhatikan juga situs akan berubah menjadi "subslikescript.com/**movies?page=2**" artinya setiap perubahan ke halaman berikutnya situs akan berubah menjadi seperti ini. Jika sudah diketahui karakteristik dari web ketika berpindah ke halaman berikutnya kita bisa mengakali dengan mengambil banyak halaman dan memasukkannya dengan angka pada **page={}**.

Sayangnya website ini telah membatasi aktivitas seperti ini, karena sistem website akan mengenali pergerakan tidak wajar dari user. Walaupun mungkin bisa diatasi menggunakan fungsi time untuk melakukan jeda pada proses scraping, akan tetapi tidak ada jaminan data dapat terambil semua.

In [3]:
import re

def clean_text(text):
    return re.sub(r'[\\/*?:"<>|]', "", text)

In [1]:
import time

In [5]:
root = 'https://subslikescript.com'
base_url = 'https://subslikescript.com/movies'
result = requests.get(base_url)
# menggambil konten dari hasil request
content = result.text

# membuat soup untuk parsing lxml/html
soup = BeautifulSoup(content, 'lxml')

# pagination adalah elemen yang berisi link ke halaman-halaman berikutnya
pagination = soup.find('ul', class_='pagination')
pages = pagination.find_all('li', class_='page-item')
last_pages = pages[-2].text  # mengambil jumlah halaman terakhir


# for page in range(1, int(last_pages) + 1)[:2]: # [:2] mengambil 2 halaman pertama
for page in range(1, 3): 
    try:
        get_ref = requests.get(f'{base_url}?page={page}')
        pg_content = get_ref.text
        soup = BeautifulSoup(pg_content, 'lxml')

        box = soup.find('article', class_='main-article')
        # mengambil link dari setiap halaman
        # for link in box.find_all('a', href=True):
        # # mengambil link dari atribut href
        #     links.append(link['href'])

        # reset link untuk tiap halaman
        links = [link['href'] for link in box.find_all('a', href=True)]
    
        # mengambil setiap link dan mengambil transkrip filmnya menggunakan loop
        for link in links:
            try:
                # melakukan request ke website menggunakan link yang telah diambil
                result = requests.get(f'{root}{link}')
                time.sleep(2)  # menunggu 2 detik untuk menghindari terlalu banyak request
                # menggambil konten dari hasil request
                content = result.text
                # membuat soup untuk parsing lxml/html
                soup = BeautifulSoup(content, 'lxml')

                box = soup.find('article', class_='main-article')
                # mengambil judul film dari tag <h1>
                title = box.find('h1').text
                # membersihkan judul film dari karakter yang tidak diinginkan
                safe_title = clean_text(title)
                # mengambil transkrip film dari tag <div> dengan class 'full-script'
                transcript = box.find('div', class_='full-script').get_text(strip=True, separator=' ')

                with open(f'../data export/{safe_title}.txt', 'w', encoding= 'utf-8') as file:
                    file.write(transcript)
                print(f'Transkrip untuk {safe_title} telah disimpan.')
            except Exception as e:
                print(f'Error pada link {link}: {e}')
                continue
    except:
        print(f'Error pada halaman {page}, melanjutkan ke halaman berikutnya.')
        continue

Transkrip untuk Gereza (2022) - full transcript telah disimpan.
Transkrip untuk Dragon Hunter (2022) - full transcript telah disimpan.
Transkrip untuk House of Inequity (2021) - full transcript telah disimpan.
Transkrip untuk Jackpot Island Kumanthong Returns (2022) - full transcript telah disimpan.
Transkrip untuk Match (2022) - full transcript telah disimpan.
Transkrip untuk Snow White and the Fairytale Fun Force (2023) - full transcript telah disimpan.
Transkrip untuk The Love Club (2023) - full transcript telah disimpan.
Transkrip untuk Haunted Hotties (2022) - full transcript telah disimpan.
Transkrip untuk One Year Off (2023) - full transcript telah disimpan.
Transkrip untuk Sweeter Than Chocolate (2023) - full transcript telah disimpan.
Transkrip untuk Disquiet (2023) - full transcript telah disimpan.
Transkrip untuk Among the Beasts (2023) - full transcript telah disimpan.
Transkrip untuk Taming Speed (2022) - full transcript telah disimpan.
Transkrip untuk Randy Feltface The L

## **Xpath Introduction to Scraping**

### **Xpath Syntax**

Example of Xpath Syntax you need to know: 

**//TagName[contains(@AtributName, 'Value')]**

### **Xpath Operation**

Example of Xpath Operator

**//TagName[(Expression 1) and (Expression 2)]**

### **HTML Code Example** 

```HTML
<body>
	<article class="main-article" style="height: auto !important;">
			<h1>Vacation Home Nightmare (2023) - full transcript</h1>
						<p class="plot">When a woman is attacked in her short term rental, the company's Clean-Up Team steps in to help her pick up the pieces. But she soon finds that they might not be who they say they are.</p>
	</article>

	<div id="cue-app" class="full-script" data-imdb-id="26458228">
				<div class="subtitle-cue">
						<p class="cue-line" data-cue-idx="0" data-line-idx="0">(dark music)</p>
					</div>
				<div class="subtitle-cue">
						<p class="cue-line" data-cue-idx="1" data-line-idx="0">♪</p>
					</div>
				<div class="subtitle-cue">
						<p class="cue-line" data-cue-idx="2" data-line-idx="0">Yeah, it's so quiet out here,</p>
						<p class="cue-line" data-cue-idx="2" data-line-idx="1">I feel like I'm all alone.</p>
					</div>
	</div>
	<footer>
			<span class="contactus">Have any questions? Contact us: subslikescript(doggysign)gmail.com | <a href="https://subslikescript.com/dmca">DMCA</a></span>
	</footer>
</body>
```

**contoh penggunaan sytanx Xpath untuk kode diatas:**

- Untuk mengambil keseluruhan isi tag article

    kita dapat menggunakan syntax:

    > //article
     
    >//article[@class="main-article"]
    

- Untuk mengamil tag h1
    
    kita dapat menggunakan syntax:

    > //article[@class="main-article"]/h1/text()

    hasil akan seperti ini : Vacation Home Nightmare (2023) - full transcript

- Untuk mengambil text script yang ada di p 
     
    kita dapat menggunakan syntax:

    > //p[contains(@data-cue-idx , "0")]

    atau 

    > //p[contains(@class , "cue")]

    hasil akan seperti ini : 
    
    ```html
    <p class="cue-line" data-cue-idx="0" data-line-idx="0">(dark music)</p>
    <p class="cue-line" data-cue-idx="1" data-line-idx="0">♪</p>
    <p class="cue-line" data-cue-idx="2" data-line-idx="0">Yeah, it's so quiet out here,</p>
    <p class="cue-line" data-cue-idx="2" data-line-idx="1">I feel like I'm all alone.</p>


### **Special Characters Xpath Syntax**

* **/. atau /..** -> digunakan untuk mengambil node parents 
* **/***-> digunakan untuk mengambil seluruh elemen tidap penting apapun elemennya
* **./*** -> digunakan untuk mengambil seluruh elemen dari childern node
* **@** -> untuk memilih attribut
* **()** -> untuk grouping xpath expression
* **[n]** -> untuk mengindikasikan setiap node dengan index 'n' akan diambil  

## **Introduction to Selenium Scraping**

Selenium merupakan library seperti Bs4 yang juga berfungsi untuk melakukan scraping. Bedanya Selenium melakukan pendekatakn scraping menggunakan Webdriver. Bs4 dan Selenium memiliki target jenis website yang berbeda. Scraping menggunakan Bs4 tidak bisa dilakukan pada website yang dinamis (contoh menggunakan JavaScipt), berbeda dengan Selenium yang mampu melakukan scraping data pada website dinamis.

### **Set Up Package**

In [2]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import csv

### **Running Webdriver to Get Website**

In [3]:
# Inisialisasi path ke file chromedriver.exe
path = "../chromedriver-win64/chromedriver.exe"

# Set service
service = Service(executable_path=path)

# Opsi tambahan (opsional, tapi berguna)
options = Options()
options.add_argument("--start-maximized")

# Inisialisasi driver
# driver = webdriver.Chrome(service=service, options=options)

# Buka website
# driver.get("https://www.vlr.gg/matches")

### **How to Find Element with Selenium**

Biasanya untuk mengambil elemen kita menggunakan kode seperti:

```Python
driver.find_element_by_id("id")
driver.find_element_by_class_name("class_name")
driver.find_element_by_tag_name("tag_name")
driver.find_element_by_xpath("//@xpath syntax")
driver.find_elements_by_tag_name("tag_name") # for multiple write "elements" for plural 

Target website untuk kasus ini menggunakan website dari https://vlr.gg/matches

![valorant matches](../media/vlrgg_website.png)

kali ini kita akan mencoba menggunakan selenium untuk mengambil dan melakukan action pada driver untuk mengambil button **Results**

In [8]:
# Inisialisasi driver
driver = webdriver.Chrome(service=service, options=options)

# Buka driver
driver.get("https://www.vlr.gg/matches")

# buat driver untuk mengklik elemen yang ada di dalam website
result_mathces = driver.find_element(By.XPATH, '//div[@class="wf-nav"]/a[@href="/matches/results"]/div[@class="wf-nav-item-title"]')
# klik elemen yang telah diambil
result_mathces.click()

### **Scraping Table with Selenium and Export Data to CSV**

Website ini berisikan statistik data player Valorant Region Pacific. Didalam website tersebut bisa kita lihat data disimpan dalam bentuk tabel.

![valorant-stats-table](../media/vlrgg_stats_table.png)

Data-data tersebut tersimpan dalam tag html 
``` html
<table>
    <thead>
        <tr>
            <td></td>
        </tr>
    </thead>
</table>
```    
![valorant-stats-table-zoom](../media/vlrgg_stats_table_zoom.png)

In [5]:
# Inisialisasi driver
driver = webdriver.Chrome(service=service, options=options)

# Buka driver
driver.get("https://www.vlr.gg/event/stats/2379/champions-tour-2025-pacific-stage-1")


time.sleep(7)  # Tunggu beberapa detik agar halaman sepenuhnya dimuat

rows = driver.find_elements(By.XPATH, '//table/tbody/tr')

# tulis data ke dalam file csv
with open('../data export/val_stats.csv', 'w', encoding='utf-8') as file:
    writer = csv.writer(file)
    # Tulis header kolom sesuai dengan struktur tabel
    writer.writerow(["Player", "Agents", "RND", "R", "ACS", 
                     "K:D", "KAST", "ADR", "KPR", "APR", "FKPR", "FDPR", "HS%", 
                     "CL%", "CL", "KMAX", "K", "D", "A", "FK", "FD"])
    
    for row in rows:
        cells = row.find_elements(By.TAG_NAME, "td")
        # Ekstrak teks dari setiap sel
        data = [cell.text.strip() for cell in cells]
        writer.writerow(data)

driver.quit()  # Tutup driver setelah selesai
# Menampilkan pesan selesai
print('Data statistik Valorant telah disimpan ke val_stats.csv!')

Data statistik Valorant telah disimpan ke val_stats.csv!


In [8]:
# cek apakah file csv telah dibuat
df = pd.read_csv('../data export/val_stats.csv')
df

Unnamed: 0,Player,Agents,RND,R,ACS,K:D,KAST,ADR,KPR,APR,...,FDPR,HS%,CL%,CL,KMAX,K,D,A,FK,FD
0,invy\r\nTS,(+2),271,1.26,237.2,1.27,73%,158.4,0.87,0.35,...,0.07,29%,10%,3/31,27,236,186,95,23,18
1,Jemkin\r\nRRQ,(+1),573,1.22,253.9,1.30,73%,161.3,0.91,0.15,...,0.15,38%,18%,9/50,32,524,404,87,137,84
2,dos9\r\nBME,(+2),344,1.19,212.2,1.18,75%,136.3,0.76,0.47,...,0.07,26%,29%,14/48,35,261,222,160,30,24
3,Jinggg\r\nPRX,(+2),536,1.14,220.9,1.18,76%,145.4,0.79,0.32,...,0.08,26%,11%,7/62,31,422,359,171,53,43
4,Foxy9\r\nGEN,(+2),360,1.12,207.8,1.25,78%,137.3,0.77,0.18,...,0.08,34%,29%,9/31,23,277,222,65,35,30
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
60,Jinboong\r\nDFM,,225,0.80,157.4,0.72,62%,111.1,0.54,0.21,...,0.13,33%,12%,4/33,16,121,169,48,14,29
61,SyouTa\r\nZETA,(+1),255,0.79,162.8,0.77,61%,108.1,0.58,0.19,...,0.07,35%,9%,3/32,18,147,190,48,26,18
62,Suggest\r\nGEN,,112,0.66,152.2,0.77,65%,110.8,0.57,0.12,...,0.12,30%,,0/8,21,64,83,13,10,13
63,Art\r\nDFM,(+1),225,0.61,135.7,0.52,61%,92.8,0.42,0.31,...,0.12,21%,,0/18,16,94,182,69,9,28
