# 動態網頁爬蟲 - 使用 Selenium

* 了解 Selenium 用於動態網頁爬蟲的原理
* 能夠使用 Selenium 撰寫動態網頁爬蟲

## 作業目標

* 1. 根據範例使用 selenuim 取出 Hahow 網站中所有課程的資料，並用一個適合的資料結構儲存（Hint: 將所有資料存在一個變數當中取出）
* 2. 剛剛的做法只能取出第一頁，試著取出所有頁面的資料。



### 1. 根據範例使用 selenuim 取出 Hahow 網站中所有課程的資料，並用一個適合的資料結構儲存（Hint: 將所有資料存在一個變數當中取出）

In [1]:
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup

browser = webdriver.Chrome(executable_path='chromedriver')
browser.get("https://hahow.in/courses")

In [2]:
# 取得資料（等瀏覽器資料出現後才執行）
html_source = browser.page_source
html_source

# 取得資料
html_source = browser.page_source
soup = BeautifulSoup(html_source, 'html.parser')


In [3]:
courses = []
    
course_list = soup.find_all('h4', class_='title')

for course in course_list:
    courses.append(course.text)
    
print(courses)

['王永福教學的技術：翻轉課堂的職業講師祕訣', '職場英文即戰力 :  一步步打造最佳自學途徑', 'IG 風格策展人：創造你的光影烏托邦', '打造動態報表！雲端 Python 爬蟲資料流', '職場溝通管理學：打造團隊好關係與高績效', '深入淺出：專案管理方法-敏捷式開發 Scrum ', '超級業務員的絕學：輕鬆說服任何人的銷售課', '為什麼你的影音內容，OTT 平台不買單?', '遠端工作必備：跨國英語 con-call 實戰力', '產品 x 創新：從需求洞察到產品策略', '用影像收藏人生：學會拍片，認識自己', '大小數據如何協助影視創作', '出門好狗兒：抓住狗狗注意力，提升信任關係', '韓式和菓子自己做：一次學會 12 種造型', '微甜的仲夏氣息：雪莉療癒水彩時光', '從零到專業-成為影片製作師的教學手冊', '不小心就學會！用 UI 設計方法製作網站', '個人品牌變現力：開始打造你的多元收入！', '喬老師模型課：出神入化模型技法｜鋼普拉篇', '職場必備的 Excel 關鍵技法－進階', '用「英文邏輯」溝通說服！職場、生活都適用', '從零開始，Unity3D 射擊遊戲製作真簡單', '手繪珠寶設計入門：完成你的第一件珠寶設計', '職場寫作課：從個人品牌到自媒體']


In [4]:
browser.close()

### 2. 剛剛的做法只能取出第一頁，試著取出所有頁面的資料。

In [5]:
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup

browser = webdriver.Chrome(executable_path='chromedriver')
browser.get("https://hahow.in/courses")

In [6]:
# 取得資料（等瀏覽器資料出現後才執行）
html_source = browser.page_source
soup = BeautifulSoup(html_source, 'html.parser')
print(soup)

<html data-react-helmet="lang" lang="zh-TW"><head><meta content="超過百堂有趣的線上課程，讓你輕鬆自學那些學校沒有教的事！" data-react-helmet="true" name="description"/><meta content="1287520191288194" data-react-helmet="true" property="fb:app_id"/><meta content="zh-TW" data-react-helmet="true" property="og:locale"/><meta content="Hahow 提供最多元有趣的線上課程，並透過獨特的課程募資機制，讓熱愛自學與交換技能的你，在家就可以完成高效率的線上學習與成就！" data-react-helmet="true" property="og:description"/><meta content="https://hahow.in/" data-react-helmet="true" property="og:url"/><meta content="https://hahow.in/static/images/og-image.jpg" data-react-helmet="true" property="og:image"/><meta content="article" data-react-helmet="true" property="og:type"/><meta content="Hahow - 好學校" data-react-helmet="true" property="og:site_name"/><meta content="Hahow 好學校 | 最有趣的線上課程平台 | 自學那些學校沒教的事" data-react-helmet="true" property="og:title"/><meta content="dxQXUxo-Ypo_w3JIINgVr9PJItIfniuKoi5FJ4LZFcU" data-react-helmet="true" name="google-site-verification"/><meta content="Hahow" data-reac

In [7]:
# 1. 先取出全部有幾頁

import re

last_page = soup.find_all("a", href = re.compile('\/courses\?page='))[-2].text

urls=[]

for i in range(1, int(last_page)+1):
    urls.append("https://hahow.in/courses?page=" + str(i))
    
print(urls)

['https://hahow.in/courses?page=1', 'https://hahow.in/courses?page=2', 'https://hahow.in/courses?page=3', 'https://hahow.in/courses?page=4', 'https://hahow.in/courses?page=5', 'https://hahow.in/courses?page=6', 'https://hahow.in/courses?page=7', 'https://hahow.in/courses?page=8', 'https://hahow.in/courses?page=9', 'https://hahow.in/courses?page=10', 'https://hahow.in/courses?page=11', 'https://hahow.in/courses?page=12', 'https://hahow.in/courses?page=13', 'https://hahow.in/courses?page=14', 'https://hahow.in/courses?page=15', 'https://hahow.in/courses?page=16', 'https://hahow.in/courses?page=17', 'https://hahow.in/courses?page=18', 'https://hahow.in/courses?page=19', 'https://hahow.in/courses?page=20', 'https://hahow.in/courses?page=21']


In [8]:
# 2. 每頁都取出資料放入 courses

courses = []
for url in urls:
    
    browser.get(url)
    
    # 取得資料（等瀏覽器資料出現後才執行）
    html_source = browser.page_source
    html_source

    # 取得資料
    html_source = browser.page_source
    soup = BeautifulSoup(html_source, 'html.parser')
    
    course_list = soup.find_all('h4', class_='title')

    for course in course_list:
        courses.append(course.text)

browser.close()

In [9]:
# 3. done!

print(courses)

['紙上的美妝師：連禾時尚彩妝畫', '顧客分類大師：Python x RFM 會員經營新觀點', '翻轉文字：給孩子好玩的創意寫作課！', '大人的蠟筆畫：活用油畫知識，寫實生活微光', '機器學習攻略：實戰心法到求職技巧', '法式甜點在地魂製作攻略－日日在家菓實日', '林長揚職場簡報術：一次搞定所有工作簡報！', '概念式時尚插畫｜我的小小時裝週', '羅寶鴻的安定教養課：12 個對話練習與心法', '七日減醣計畫「一週持續執行！」邊吃邊享瘦', '閱讀攝影的眼神 - 啟動你的影像理解力', '手機 App 開發入門：App Inventor 2 實作', '全民防疫通識課：陳建仁副總統來開講', '省錢攝影術：零基礎拍好美食＆商品！', 'Linux 我來教: CentOS/ RHEL 8 新世代雲端', '口譯員浩爾的打獵式聆聽＆資訊處理術', '資料變決策！從零上手 Tableau 大數據視覺化', '互動藝術程式創作入門 Creative Coding ', '人生管理學：把自己當成公司經營', '薩克斯風 - 13 堂基本功吹出專輯的美聲', '用實際案例學設計-美編的 InDesign 排版課', '動盪時代的資產配置：王伯達人生財務規劃學', '手繪轉電繪，我選 Procreate！', '氣球達人不藏私！宋俊霖的塞球雕塑造型課', '指尖上的閃亮秘密 - 你的第一堂指甲養護課', '資料應用：Excel VBA 爬蟲與 IE 操控入門', '把美肌關了吧！韓星好膚質底妝，是畫出來的', '超強印象！人與動物的 logo 設計課', '職場必備的批判思考力：反省力篇', '日本電商代購批貨：銷售獲利心法', '程式交易極速上手！用 Eleader 30 秒寫策略', '開運陽宅系列：人人必備的臥房風水常識', '兩小時學會子彈筆記：訂製專屬你的高效生活', '跨平台 APP - React Native 快速學習攻略', 'YouTuber 的 36 堂課：讓你被更多人看到', '英文寫作經典指南：10個流暢俐落的必備法則', '讓創作帶來長期收入！圖像 IP 授權第一課', 'Python 資料分析 - 網頁爬蟲與視覺呈現', '低熱量馬卡龍自己做：韓國金老師的甜點時光', '產品思維：Spotify 產品經理帶你快速入門', '自學程式如何