# 使用設定
### a. 檢查更新及查看目前的瀏覽器版本
1. 在電腦上開啟 Chrome。
2. 按一下右上方的「更多」圖示
3. 依序按一下 [說明] 下一步 [關於 Google Chrome]。
   Google Chrome 標題下方顯示的一連串數字就是目前的版本號碼。當您開啟這個頁面時，Chrome 就會自動檢查更新。
   如要安裝可用的更新，請按一下 [重新啟動]。

### b. 接著，必須根據您想啟用的瀏覽器、作業系統，下載各自對應的WebDriver，
為了避免版本不符的問題，建議下載最新的版本，同時也將瀏覽器更新到最新的版本。

載點: firefox: geckodriver:https://github.com/mozilla/geckodriver/releases  <br>
      chrome: chromedriver:https://chromedriver.chromium.org/downloads

下載之後，你必須

(1) 將WebDriver放到你的環境目錄底下，或是

(2) 運行時指定driver的路徑。

由於執行selenium時，會開啟這個執行檔，因此必須設定好路徑。
    
### c. 安裝Selenium
輸入pip install selenium

# 動態網頁
動態網頁是指網站會因使用者的互動、時間或各種參數來決定回應的網頁內容。<br>
Selenium可以幫助我們爬取動態網頁內容。<br>
動態內容是指使用JavaScript程式碼產生的HTML網頁內容，這些網頁在檢視原始碼時，會看不到對應的HTML標籤。<br>
所以無法使用BeautifulSoup或lxml來爬取資料。<br>

# 關於 Selenium
* Selenium原為網頁測試工具，但由於可以直接以程式碼操控瀏覽器的特性，使其成為網路爬蟲必備的工具之一。
* 啟用selenium之後，你指定的瀏覽器就會開啟，並依照你所編寫的指令依序執行，所有網頁的操作，
* 包含: 輸入帳號、密碼、點選按鈕、滾動頁面、變化視窗等，都可以使用程式碼進行。
* 由於是真正的瀏覽器在運作，絕大多數的網站都可以輕鬆的突破，但也因此導致運行速度極慢、占用較高的電腦效能。
* 一般還是會先嘗試使用requests獲取網頁原始碼，但如果實在無法突破對方網站伺服器的阻隔時，就可以改用selenium試試看。
* 被運用於解決擷取網站資料所碰到的問題，例如面對到需要登入、填寫表單或者點選按鈕後才會顯示出資料的網站。
* Python 可以透過 Selenium WebDriver 呼叫瀏覽器驅動程式，再由瀏覽器驅動程式去呼叫瀏覽器。
* Selenium WebDriver 對 Google Chrome 與 Mozilla Firefox 兩個主流瀏覽器的支援最好
* 為了確保使用上不會碰到問題，建議都使用最新版的瀏覽器、瀏覽器驅動程式與模組。
* selenium支援多種程式語言，包含Java、JavaScript、Python等

# WebDriver簡介

selenium從2.0開始集成了webdriver的API,提供了更簡單,更簡潔的程式設計介面。<br>
selenium webdriver的目標是提供一個設計良好的面向物件的API,提供了更好的支援進行web-app測試。<br>
從這篇部落格開始,將學習使用如何使用python呼叫webdriver框架對瀏覽器進行一系列的操作

In [2]:
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://freelancerlife.info/") #前往這個網址
driver.close()

In [2]:
#Ch7_3
from selenium import webdriver
import time

driver = webdriver.Chrome("./chromedriver") #chrome("驅動程式路徑"):啟動chrom瀏覽器
time.sleep(5)  #暫停五秒後
driver.quit()  #關閉瀏覽器

In [3]:
#Ch7_3a
from selenium import webdriver

driver = webdriver.Chrome("./chromedriver")  
driver.implicitly_wait(10)   #隱含等待十秒，以便等待瀏覽器成功載入
driver.get("http://example.com") #取得該網站的原始碼
print(driver.title)
html = driver.page_source
print(html)
driver.quit()

Example Domain
<html><head>
    <title>Example Domain</title>

    <meta charset="utf-8">
    <meta http-equiv="Content-type" content="text/html; charset=utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 50px;
        background-color: #fff;
        border-radius: 1em;
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        body {
            background-color: #fff;
        }
        div {
            width: auto;
            margin: 0 auto;
            border-radius: 0;
            padding: 1em;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is es

In [7]:
#Ch7_3b : 剖析儲存成HTML網頁檔案

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
driver.get("http://example.com")
print(driver.title)

soup = BeautifulSoup(driver.page_source, "lxml") #剖析網站
fp = open("index.html", "w", encoding="utf8") #存成檔案
fp.write(soup.prettify())
print("寫入檔案index.html...")
fp.close()
driver.quit()

Example Domain
寫入檔案index.html...


In [8]:
#Ch7_3c : 使用Selenium定位網頁資料

from selenium import webdriver

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
driver.get("http://example.com")

# 使用Selenium的定位函數
h1 = driver.find_element_by_tag_name("h1")
print(h1.text)
p = driver.find_element_by_tag_name("p")
print(p.text)
driver.quit()

Example Domain
This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission.


In [7]:
#Ch7_3d : 使用Beautiful Soup定位HTML網頁
#雖然動態網頁不能直接用 BS，但可以先透過Selenium取得HTML後，搭配 BS來剖析和擷取資料

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
driver.get("http://example.com")

# 使用Beautiful Soup剖析HTML網頁
soup = BeautifulSoup(driver.page_source, "lxml")
tag_h1 = soup.find("h1") 
print(tag_h1.string)
tag_p = soup.find("p") 
print(tag_p.string)
driver.quit()

Example Domain
This domain is established to be used for illustrative examples in documents. You may use this
    domain in examples without prior coordination or asking for permission.


# Selenium 網頁資料定位函數
find_element_by_??( ) : 取回符合的第一筆<br>
find_elements_by_??( ) : 取回符合的所有筆

In [3]:
#Ch7_4_2
from selenium import webdriver
import os  #為處理作業系統相關及目錄路徑的模組 (module)

driver = webdriver.Chrome("./chromedriver")
html_path = "file:///" +os.path.abspath("Ch7_4.html")   #os.path.abspath()返回絕對路徑
driver.implicitly_wait(10)
driver.get(html_path)
form = driver.find_element_by_id("loginForm")
print(form.tag_name)
print(form.get_attribute("id"))
driver.quit()

AttributeError: 'NoneType' object has no attribute 'tag_name'

In [12]:
#Ch7_4_2a
from selenium import webdriver
import os

driver = webdriver.Chrome("./chromedriver")
html_path = "file:///" +os.path.abspath("Ch7_4.html")
driver.implicitly_wait(10)
driver.get(html_path)
user = driver.find_element_by_name("username")
print(user.tag_name)
print(user.get_attribute("type"))
eles = driver.find_elements_by_name("continue")
for ele in eles:
    print(ele.get_attribute("type"))
driver.quit()

input
text
submit
button


In [13]:
#Ch7_4_2b : 使用xpath定位
from selenium import webdriver
import os

driver = webdriver.Chrome("./chromedriver")
html_path = "file:///" +os.path.abspath("Ch7_4.html")
driver.implicitly_wait(10)
driver.get(html_path)
# 定位<form>標籤
form1 = driver.find_element_by_xpath("/html/body/form[1]")
print(form1.tag_name)
form2 = driver.find_element_by_xpath("//form[1]")
print(form2.tag_name)
form3 = driver.find_element_by_xpath("//form[@id='loginForm']")
print(form3.tag_name)
# 定位密碼欄位
pwd1 = driver.find_element_by_xpath("//form/input[2][@name='password']")
print(pwd1.get_attribute("type"))
pwd2 = driver.find_element_by_xpath("//form[@id='loginForm']/input[2]")
print(pwd2.get_attribute("type"))
pwd3 = driver.find_element_by_xpath("//input[@name='password']")
print(pwd3.get_attribute("type"))
# 定位清除按鈕
clear1 = driver.find_element_by_xpath("//input[@name='continue'][@type='button']")
print(clear1.get_attribute("type"))
clear2 = driver.find_element_by_xpath("//form[@id='loginForm']/input[4]")
print(clear2.get_attribute("type"))
driver.quit()

form
form
form
text
text
text
button
button


In [14]:
#Ch7_4_2c : 使用超連結文字定位
from selenium import webdriver
import os

driver = webdriver.Chrome("./chromedriver")
html_path = "file:///" +os.path.abspath("Ch7_4.html")
driver.implicitly_wait(10)
driver.get(html_path)
link1 = driver.find_element_by_link_text('Continue')
print(link1.text)
link2 = driver.find_element_by_partial_link_text('Conti')
print(link2.text)
link3 = driver.find_element_by_link_text('取消')
print(link3.text)
link4 = driver.find_element_by_partial_link_text('取')
print(link4.text)
driver.quit()

Continue
Continue
取消
取消


In [15]:
#Ch7_4_2d 
from selenium import webdriver
import os

driver = webdriver.Chrome("./chromedriver")
html_path = "file:///" +os.path.abspath("Ch7_4.html")
driver.implicitly_wait(10)
driver.get(html_path)
h3 = driver.find_element_by_tag_name("h3")
print(h3.text)
p = driver.find_element_by_tag_name("p")
print(p.text)
driver.quit()

請輸入名稱和密碼登入網站...
確認執行登入操作?


In [16]:
#Ch7_4_2e :使用class屬性定位
from selenium import webdriver
import os

driver = webdriver.Chrome("./chromedriver")
html_path = "file:///" +os.path.abspath("Ch7_4.html")
driver.implicitly_wait(10)
driver.get(html_path)
content = driver.find_element_by_class_name("content")
print(content.text)
driver.quit()

請輸入名稱和密碼登入網站...


In [17]:
#Ch7_4_2f :使用CSS選擇器定位
from selenium import webdriver
import os

driver = webdriver.Chrome("./chromedriver")
html_path = "file:///" +os.path.abspath("Ch7_4.html")
driver.implicitly_wait(10)
driver.get(html_path)
content = driver.find_element_by_css_selector("h3.content")
print(content.text)
p = driver.find_element_by_css_selector("p")
print(p.text)
driver.quit()

請輸入名稱和密碼登入網站...
確認執行登入操作?


In [1]:
#Ch7_4_3 : 元素不存在的例外處理

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import os

driver = webdriver.Chrome("./chromedriver")
html_path = "file:///" +os.path.abspath("Ch7_4.html")
driver.implicitly_wait(10)
driver.get(html_path)
try:
    content = driver.find_element_by_css_selector("h2.content")
    print(content.text)
except NoSuchElementException:
    print("選取的元素不存在...")
driver.quit()

AttributeError: 'NoneType' object has no attribute 'text'

# 與HTML表單進行互動
使用程式碼來模擬使用者與網站進行互動的過程

### Keys - 鍵盤操作

提供了比較完整的鍵盤操作，在使用的模擬鍵盤操作之前需要我們導入<br>
from selenium.webdriver.common.keys import Keys即可，<br>
然後就可以來模擬鍵盤操作。<br>

send_keys(Keys.CONTROL,‘a‘) 　　#全選（Ctrl+A）<br>

send_keys(Keys.CONTROL,‘c‘) 　　#復制（Ctrl+C）<br>

send_keys(Keys.CONTROL,‘x‘) 　　#剪切（Ctrl+X）<br>

send_keys(Keys.CONTROL,‘v‘) 　　#粘貼（Ctrl+V）<br>

回車鍵 Keys.ENTER<br>
刪除鍵 Keys.BACK_SPACE<br>
空格鍵 Keys.SPACE<br>
制表鍵 Keys.TAB<br>
回退鍵 Keys.ESCAPE<br>
刷新鍵 Keys.F5<br>

In [43]:
#Ch7_5_1 : 與Google搜尋表單進行互動

from selenium import webdriver
from selenium.webdriver.common.keys import Keys  #導入鍵盤操作模組

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
url = "https://www.google.com"
driver.get(url)


keyword = driver.find_element_by_css_selector("input.gLFyf.gsfi")  #利用css_selector定位到網頁的搜尋欄
keyword.send_keys("XPath")     #在搜尋欄輸入"XPath"
#鍵盤操作
keyword.send_keys(Keys.ENTER); #輸入完按 ENTER

items = driver.find_elements_by_xpath("//div[@class='r']")

for item in items:
    h3 = item.find_element_by_tag_name("h3")
    print(h3.text)
    a = item.find_element_by_tag_name("a")   
    print(a.get_attribute("href"))
    
driver.quit()

XPath - 維基百科，自由的百科全書 - Wikipedia
https://zh.wikipedia.org/zh-tw/XPath
XPath - 維基百科，自由的百科全書 - Wikipedia
https://zh.wikipedia.org/zh-tw/XPath
什麼是XPath - 菜鳥工程師肉豬
https://matthung0807.blogspot.com/2017/12/xpath.html
Nightwatch101 #6：使用Xpath 定位網頁元素| Summer。桑莫 ...
https://cythilya.github.io/2017/12/16/nightwatch-xpath/
XPath Syntax - W3Schools
https://www.w3schools.com/xml/xpath_syntax.asp
XPath Tutorial - W3Schools
https://www.w3schools.com/xml/xpath_intro.asp
XPath 语法 - w3school 在线教程
http://www.w3school.com.cn/xpath/xpath_syntax.asp
Nightwatch101 #6：使用Xpath 定位網頁元素- iT 邦幫忙::一起 ...
https://ithelp.ithome.com.tw/articles/10191811
[料理佳餚] XPath 常用的範例| 軟體主廚的程式料理廚房- 點部落
https://dotblogs.com.tw/supershowwei/2018/09/03/145254
XPath 教程| 菜鸟教程
http://www.runoob.com/xpath/xpath-tutorial.html
XPathNavigator.Select Method (System.Xml.XPath) | Microsoft ...
https://docs.microsoft.com/zh-tw/dotnet/api/system.xml.xpath.xpathnavigator.select


In [45]:
#Ch7_5_1a : 
from selenium import webdriver

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
url = "https://www.google.com"
driver.get(url)

keyword = driver.find_element_by_css_selector("input.gLFyf.gsfi")
keyword.send_keys("XPath")
button = driver.find_element_by_css_selector("input[type='submit']")  #定位到"搜尋"鍵
button.click()  #點選"搜尋"鍵

items = driver.find_elements_by_xpath("//div[@class='r']")

for item in items:
    h3 = item.find_element_by_tag_name("h3")
    print(h3.text)
    a = item.find_element_by_tag_name("a")   
    print(a.get_attribute("href"))
    
driver.quit()

XPath - 維基百科，自由的百科全書 - Wikipedia
https://zh.wikipedia.org/zh-tw/XPath
XPath - 維基百科，自由的百科全書 - Wikipedia
https://zh.wikipedia.org/zh-tw/XPath
什麼是XPath - 菜鳥工程師肉豬
https://matthung0807.blogspot.com/2017/12/xpath.html
Nightwatch101 #6：使用Xpath 定位網頁元素| Summer。桑莫 ...
https://cythilya.github.io/2017/12/16/nightwatch-xpath/
XPath Syntax - W3Schools
https://www.w3schools.com/xml/xpath_syntax.asp
XPath Tutorial - W3Schools
https://www.w3schools.com/xml/xpath_intro.asp
XPath 语法 - w3school 在线教程
http://www.w3school.com.cn/xpath/xpath_syntax.asp
Nightwatch101 #6：使用Xpath 定位網頁元素- iT 邦幫忙::一起 ...
https://ithelp.ithome.com.tw/articles/10191811
[料理佳餚] XPath 常用的範例| 軟體主廚的程式料理廚房- 點部落
https://dotblogs.com.tw/supershowwei/2018/09/03/145254
XPath 教程| 菜鸟教程
http://www.runoob.com/xpath/xpath-tutorial.html
XPathNavigator.Select Method (System.Xml.XPath) | Microsoft ...
https://docs.microsoft.com/zh-tw/dotnet/api/system.xml.xpath.xpathnavigator.select


In [41]:
#Ch7_5_2 :登入GitHub

from selenium import webdriver

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
url = "https://github.com/login"
driver.get(url)

username = "ricky1229x@gmail.com"
password = "rw423577"
user = driver.find_element_by_css_selector("#login_field")  #定位"Username or email address"輸入區
user.send_keys(username)   #將前面輸入的帳號send出
pwd = driver.find_element_by_css_selector("#password")      #定位"Password"輸入區
pwd.send_keys(password)    #將前面輸入的密碼send出
button = driver.find_element_by_css_selector("input.btn.btn-primary.btn-block")  #定位"sign in"鍵
button.click()             #點擊"sign in"鍵

items = driver.find_elements_by_xpath("//a[@class='link-gray']")  #定位網站最下方的資訊連結

for item in items:
    print(item.text)
    print(item.get_attribute("href"))
    
driver.quit()

Blog
https://github.blog/
About
https://github.com/about
Shop
https://shop.github.com/
Contact GitHub
https://github.com/contact
Pricing
https://github.com/pricing
API
https://developer.github.com/
Training
https://training.github.com/
Status
https://githubstatus.com/
Security
https://help.github.com/articles/github-security/
Terms
https://github.com/site/terms
Privacy
https://github.com/site/privacy
Help
https://help.github.com/


### ActionChains(動作鏈) - 滑鼠操作
https://huilansame.github.io/huilansame.github.io/archivers/mouse-and-keyboard-actionchains

提供了許多滑鼠操作的方法,這些操作方法都封裝在ActionChains類中,包括滑鼠右擊、雙擊、懸停和滑鼠拖動等功能<br>
from selenium.webdriver.common.action_chains import ActionChains<br>
當你調用ActionChains的方法時，不會立即執行，而是會將所有的操作按順序存放在一個隊列裡，<br>
當你調用perform()方法時，隊列中的時間會依次執行。<br>

context_click():點選滑鼠右鍵<br>

double_click():雙擊滑鼠<br>

drag_and_drop():拖動滑鼠<br>

move_to_element():滑鼠懸停<br>

In [47]:
#Ch7_5_3 : 滑鼠操作 - 分步寫法
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains  #導入鍵盤操作模組
import time

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
url = "https://www.python.org/"
driver.get(url)

menu = driver.find_element_by_css_selector("#about")   #定位到"about"
item = driver.find_element_by_css_selector("#about>ul>li.tier-2.element-1")   #定位到"about"之下的"applications"

#滑鼠操作 - 分步寫法
actions = ActionChains(driver) 
actions.move_to_element(menu)  #滑鼠懸停在"about"，下拉式選單即會出現
actions.click(item)            #點擊"applications"
actions.perform()              #調用ActionChains的方法時，不會立即執行，使用perform()方法時，才會依次執行
time.sleep(5)  #暫停五秒後
driver.quit()  #關閉瀏覽器

In [48]:
#Ch7_5_3a : 滑鼠操作 - 鏈式寫法
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
url = "https://www.python.org/"
driver.get(url)

menu = driver.find_element_by_css_selector("#about")
item = driver.find_element_by_css_selector("#about>ul>li.tier-2.element-1")

#滑鼠操作 - 鏈式寫法
ActionChains(driver).move_to_element(menu).click(item).perform()                                              

time.sleep(5)
driver.quit()

In [51]:
#Ch7_6_1 : 寫入檔案

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
driver.get("https://hahow.in/courses")
print(driver.title)

soup = BeautifulSoup(driver.page_source, "lxml")
fp = open("hahow.html", "w", encoding="utf8")
fp.write(soup.prettify())   #prettify()將soup這個物件美化，soup就是的html_doc解析的結果
print("寫入檔案hahow.html...")

fp.close()
driver.quit()

探索課程 - Hahow 好學校
寫入檔案hahow.html...


In [25]:
#Ch7_6_1a : 
from selenium import webdriver

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
url = "https://hahow.in/courses"
driver.get(url)

items = driver.find_elements_by_css_selector("h4.title")
                                            
for item in items:
    print(item.text)                    

driver.quit()

創作你的療癒香草茶！百種風味搭配邏輯
托福口說拿分 4 原則｜發音、表達一把罩
LOGO 必修課：發展品牌識別的第一步
Excel VBA 金融資料抓取 | 打造股票研究系統
Python 工作簿：解決 88 個習題
開啟你的 AI 技能 —— 無痛入門 NLP
日本求職全攻略，開啟你海外求職第一步
3D 列印實戰：產品設計開發與打樣
AI 行銷學：用 Python 機器學習創造商業新價值
戶外攝影實戰：用鏡頭看見台灣
從生活小物到街景，用鋼筆速寫在日子裡旅行
illustrator 入門：從形狀到美麗的向量插畫
小資族 ETF 狠會賺投資法
不用動腦的攝影課-七堂課拍出有質感的照片
英雄之旅：自己的故事，別當配角
AutoLisp - 紮實入門與實例應用
GA 從零上手！數位時代必學的數據行銷秘笈
真空烹調在家做，科學方法學舒肥
區塊鏈應用敲門磚：行動支付到商業案例
開啟程式設計之門 - C++ 核心課程
R語言和文字探勘 - 洞悉巨量文字的商業價值
網路行銷新手入門，打造品牌電商 (上)
職場必備的批判思考力：創意力篇
品牌力革命：運動品牌塑造心法


In [26]:
#Ch7_6_2 : 爬取NBA球員數據，並換頁分別匯出csv檔案(使用Pandas)
from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd
import time

driver = webdriver.Chrome("./chromedriver")
driver.implicitly_wait(10)
driver.get("http://stats.nba.com/players/traditional/?sort=PTS&dir=-1")

pages_remaining = True
page_num = 1                  #從第一頁起
while pages_remaining:
    # 使用Beautiful Soup剖析HTML網頁
    soup = BeautifulSoup(driver.page_source, "lxml")
    #確定只有一個內容可以用select_one()，和find()一樣
    table = soup.select_one("body > main > div.stats-container__inner > div > div.row > div > div > nba-stat-table > div.nba-stat-table > div.nba-stat-table__overflow > table") 
    
    df = pd.read_html(str(table))
    # print(df[0].to_csv())
    df[0].to_csv("ALL_players_stats" + str(page_num) + ".csv")
    print("儲存頁面:", page_num)
    try:
        # 自動按下一頁按鈕
        next_link = driver.find_element_by_xpath('/html/body/main/div[2]/div/div[2]/div/div/nba-stat-table/div[3]/div/div/a[2]')
        next_link.click()
        time.sleep(5)
        if page_num < 11:
            page_num = page_num + 1
        else:
            pages_remaining = False
    except Exception:
        pages_remaining = False  
        
driver.close()

儲存頁面: 1
儲存頁面: 2
儲存頁面: 3
儲存頁面: 4
儲存頁面: 5
儲存頁面: 6
儲存頁面: 7
儲存頁面: 8
儲存頁面: 9
儲存頁面: 10
儲存頁面: 11


In [3]:
#網路範例 : https://medium.com/datainpoint/python-essentials-web-scraping-with-selenium-638175f839ee
from pyquery import PyQuery as pq
from selenium import webdriver
from random import randint
import time

def get_movie_info(movie_url):
    """
    Get movie info from certain IMDB url
    """
    d = pq(movie_url)
    movie_rating = float(d("strong span").text())
    movie_genre = [x.text() for x in d(".subtext a").items()]
    movie_release_date = movie_genre.pop()
    movie_poster = d(".poster img").attr('src')
    movie_cast = [x.text() for x in d(".primary_photo+ td a").items()]

    # 回傳資訊
    movie_info = {
        "movieRating": movie_rating,
        "movieReleaseDate": movie_release_date,
        "movieGenre": movie_genre,
        "moviePosterLink": movie_poster,
        "movieCast": movie_cast
    }
    return movie_info

def get_movies(*args):
    """
    Get multiple movies' info from movie titles
    """
    imdb_home = "https://www.imdb.com/"
    #driver = webdriver.Firefox(executable_path="PATHTOYOURGECKODRIVER") # Use Firefox
    driver = webdriver.Chrome(executable_path="PATHTOYOURCHROMEDRIVER") # Use Chrome
    movies = dict()
    for movie_title in args:
        # 前往 IMDB 首頁
        driver.get(imdb_home)
        # 定位搜尋欄位
        search_elem = driver.find_element_by_xpath("//input[@id='navbar-query']")
        # 輸入電影名稱
        search_elem.send_keys(movie_title)
        # 定位搜尋按鈕
        submit_elem = driver.find_element_by_xpath("//div[@class='magnifyingglass navbarSprite']")
        # 按下搜尋按鈕
        submit_elem.click()
        # 限縮搜尋結果為「電影」類
        category_movie_elem = driver.find_element_by_xpath("//ul[@class='findTitleSubfilterList']/li[1]/a")
        # 按下限縮搜尋結果
        category_movie_elem.click()
        # 定位搜尋結果連結
        first_result_elem = driver.find_element_by_xpath("//tr[@class='findResult odd'][1]/td[@class='result_text']/a")
        # 按下搜尋結果連結
        first_result_elem.click()
        # 呼叫 get_movie_info()
        current_url = driver.current_url
        movie_info = get_movie_info(current_url)
        movies[movie_title] = movie_info
        time.sleep(randint(3, 8))
    driver.close()
    return movies

get_movies("Avengers: Endgame", "Captain Marvel")

WebDriverException: Message: 'PATHTOYOURCHROMEDRIVER' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home
