# Selenium Demo

A demo to the minimum steps for scrapping a site that requires interaction with javascript. Did not implement any advanced stuffs like random timeout.

#### 0. Launch the headless browser (I use Google Chrome here).

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

ser = Service(r'D:\mings\Documents\IT_dog\python\#webdriver\chromedriver.exe')
options = Options()
options.add_argument("headless")              # headless is the option to whether to have a browser popping out
driver = webdriver.Chrome(service=ser, options=options)
driver.get("https://search.kmb.hk/kmbwebsite/")

#### 1. Click on route serach button

In [2]:
route_button = driver.find_element(By.ID, 'imgRouteSearchIcon')
route_button.click()

#### 2. Type the bus line number into the input field

In [3]:
line_no = driver.find_element(By.ID, 'txtRoute')
line_no.clear()
line_no.send_keys('91m')

#### 3. Click the search button

In [4]:
search_button = driver.find_element(By.ID, 'routeSearchButton')
search_button.click()

#### 4. For loop 

- Click on each station's name.
- Extract the information in the panel appearing on the map.

Note that selenium can only select element that are visible in the viewport, so you need to excecute javascript to scroll the bottom stations into view.

In [5]:
# it takes some time before the website returning the search result
# so we need to tell the driver to wait a bit until the table elements show up
driver.implicitly_wait(5)

stop_list = []

# first stop and last stop have a different xpath selector
first_stop = driver.find_element(By.XPATH, '//td[contains(@class, "routeStopStartBulletTextTD")]')
last_stop = driver.find_element(By.XPATH, '//td[contains(@class, "routeStopEndBulletTextTD")]')

stops = driver.find_elements(By.XPATH, '//td[contains(@class, "imgHover") and contains(@class, "stopTd")]')
stops = [first_stop]+stops+[last_stop]

for stop in stops:
    
    # this is the javascript to scroll into view
    driver.execute_script("arguments[0].scrollIntoView();", stop) 
    stop.click()
    
    time_table = driver.find_elements(By.XPATH, '//div[@class="contentPane"]/table/tbody/tr[5]/td/table/tbody/tr[position()>1]')
    stop_list.append([stop.text]+[time.text for time in time_table])

In [6]:
print(stop_list)

[['寶林總站', ''], ['欣景路', ''], ['景林邨', '2 分鐘 預定班次', '22 分鐘 預定班次', '37 分鐘 預定班次'], ['厚德邨', '5 分鐘 預定班次', '25 分鐘 預定班次', '40 分鐘 預定班次'], ['重華路', '6 分鐘 預定班次', '26 分鐘 預定班次', '41 分鐘 預定班次'], ['坑口站', '7 分鐘 預定班次', '27 分鐘 預定班次', '42 分鐘 預定班次'], ['富寧花園', '9 分鐘 預定班次', '29 分鐘 預定班次', '44 分鐘 預定班次'], ['將軍澳醫院', '12 分鐘 預定班次', '32 分鐘 預定班次', '47 分鐘 預定班次'], ['聖雲仙天主堂', '14 分鐘 預定班次', '34 分鐘 預定班次', '49 分鐘 預定班次'], ['水邊村', '14 分鐘 預定班次', '34 分鐘 預定班次', '49 分鐘 預定班次'], ['影業路', '15 分鐘 預定班次', '35 分鐘 預定班次', '50 分鐘 預定班次'], ['銀影路', '16 分鐘 預定班次', '36 分鐘 預定班次', '51 分鐘 預定班次'], ['香港科技大學(南)', '18 分鐘 預定班次', '38 分鐘 預定班次', '53 分鐘 預定班次'], ['大埔仔', '即將到達', '20 分鐘 預定班次', '40 分鐘 預定班次'], ['大埔仔坳', '4 分鐘', '24 分鐘 預定班次', '44 分鐘 預定班次'], ['打鼓嶺新村', '5 分鐘', '25 分鐘 預定班次', '45 分鐘 預定班次'], ['壁屋', '7 分鐘', '27 分鐘 預定班次', '47 分鐘 預定班次'], ['白石窩', '8 分鐘', '28 分鐘 預定班次', '48 分鐘 預定班次'], ['井欄樹', '10 分鐘', '30 分鐘 預定班次', '50 分鐘 預定班次'], ['龍窩村', '11 分鐘', '31 分鐘 預定班次', '51 分鐘 預定班次'], ['安達臣道', '12 分鐘', '32 分鐘 預定班次', '52 分鐘 預定班次'], ['德望學校', '12 分鐘', '32 分鐘 預定班次', '52 分鐘

#### 5. Use pandas to organize

Then you can do the analysis by pandas or after exporting to excel as you like.

In [7]:
import pandas as pd

In [8]:
df = pd.DataFrame(stop_list, columns=['name', 'bus1', 'bus2', 'bus3'])

df

Unnamed: 0,name,bus1,bus2,bus3
0,寶林總站,,,
1,欣景路,,,
2,景林邨,2 分鐘 預定班次,22 分鐘 預定班次,37 分鐘 預定班次
3,厚德邨,5 分鐘 預定班次,25 分鐘 預定班次,40 分鐘 預定班次
4,重華路,6 分鐘 預定班次,26 分鐘 預定班次,41 分鐘 預定班次
5,坑口站,7 分鐘 預定班次,27 分鐘 預定班次,42 分鐘 預定班次
6,富寧花園,9 分鐘 預定班次,29 分鐘 預定班次,44 分鐘 預定班次
7,將軍澳醫院,12 分鐘 預定班次,32 分鐘 預定班次,47 分鐘 預定班次
8,聖雲仙天主堂,14 分鐘 預定班次,34 分鐘 預定班次,49 分鐘 預定班次
9,水邊村,14 分鐘 預定班次,34 分鐘 預定班次,49 分鐘 預定班次


#### 6. Kill the browser

There is no reason to keep the browser running each time we finish running a script. So remember to kill it so save resources.

In [9]:
driver.quit()