### 一、網路資料擷取的方法

- 串接目的網站提供的 API


- 網路爬蟲(Web scraping)

  It transforms the unstructured data (HTML format) on the web into structured data (database or spreadsheet)
  
  
- 使用 import.io (a non-programming way)

  It provides a GUI driven interface to perform all basic web scraping operations.


### 二、爬取網路資料的 Python 模組

- **urllib2** (python 2)/ **urllib.request** (python 3)/ **requests**: 用來解析 URL


- **BeautifulSoup**: 用來取得網頁的資訊 (tables, lists, paragraph...)


- **Selenium**: 以自動化的方式來取得網頁的資訊


### 三、Python’s Requests Library

較詳細的介紹可參考此篇文章: [Python’s Requests Library (Guide)](https://realpython.com/python-requests/)

#### 1. HTTP GET method

- 讀取網頁原始碼

      html = requests.get('url')
      
      html.encoding = "utf-8"
      
      if html.status_code == requests.codes.ok:
      
          print(html.text)


- 在 URL 加入參數進行查詢

      payload = {'key1': value1, 'key2': value2, ...}

      html = requests.get('url', params=payload)
      
      
- 設定 HTTP Headers

      hearders:{
          'user-agent': ...,
          ...
      }
      
      html = requests.get('url', headers=headers)


#### 2. HTTP POST method

- 將查詢參數放入 HTTP Body 來向網站發出請求

      payload = {'key1': value1, 'key2': value2, ...}

      html = requests.post('url', data=payload)

      
#### 3. Cookie 與 Session

- 建立 session

      rs = requests.Session()


- 使用 session 請求，將使用者資訊儲存在 server 端

      payload = {'key1': value1, 'key2': value2, ...}

      hearders:{
          'user-agent': ...,
          ...
      }
      
      rs.post('url_1', data=payload, headers=headers)
      
      
- 用已建立的 session 來儲存 cookie，並使用此 cookie 對同一網站的不同頁面發出請求

      res = rs.get('url_2', headers=headers)


### 四、網頁解析 - BeautifulSoup

#### 1. 匯入模組

- Import the library used to query a website

      import urllib2 (python 2) / urllib.request (python 3) / requests


- Specify the url

      url = ...


- Query the website and return the html to the variable 'page'

      page = urllib2.urlopen(url) / urllib.request.urlopen(url) / requests.get(url)


- Import the Beautiful soup functions to parse the data returned from the website

      from bs4 import BeautifulSoup


- Parse the html in the 'page' variable and store it in BeautifulSoup format

      soup = BeautifulSoup(page) / BeautifulSoup(page.text, 'html.parser')


#### 2. BeautifulSoup 的屬性和方法:

- soup.prettify(): 查看 HTML 的結構


- soup.tag: 回傳 tag 的內容(包含 tag)


- soup.tag.string: 回傳 tag 內的字串


- soup.find("tag"): 尋找第一個 tag


- soup.find_all("tag"): 尋找所有的 tag


- soup.find_all(["title", "a"]): 尋找多個的 tag


- soup.find / soup.find_all("標籤名稱", {"屬性名稱": "屬性內容"}): 尋找指定標籤中符合屬性條件的內容


- soup.select("#id or .classname"): 回傳指定的 CSS selector


- soup.select("html head title"): 逐層尋找 title 內容


- soup.select("div img")[0]["src"]: 多層過濾取得屬性內容


- 取得標籤的屬性內容:

      回傳值.get("屬性名稱") or 回傳值["屬性名稱"]
        
      Example: .get('href'): 回傳所有的連結名稱


- .find(text=True): 取得 tag 內的內文


### 五、瀏覽器的自動化操作 - Selenium

#### 1. 安裝 Selenium

    pip install selenium

#### 2. 下載驅動程式 Chrome WebDriver，將 ChromeDriver.exe 複製到開發專案的目錄中

    https://site.google.com/a/chromium.org/chromedriver/downloads

#### 3. 建立 google chrome 瀏覽器物件

    from selenium import webdriver
    driver = webdriver.Chrome()
    
#### 4. Webdriver 的屬性和方法:

- .current_url: 取得目前的網址


- .get('url'): 連結 url 網址


- .page_source: 讀取網頁原始碼


- .text: 讀取元素內容


- .size: 回傳元素大小


- .get_window_position(): 取得視窗左上角的位置


- .set_window_position(x, y): 設定視窗左上角的位置


- .get_window_size(): 取得視窗的高度和寬度


- .set_window_size(x, y): 設定視窗的高度和寬度


- .maximize_window(): 瀏覽器視窗最大化


- .click(): 按點擊紐


- .send_keys(): 用鍵盤輸入


- .submit(): 提交


- .clear(): 清除輸入內容


- .back(): 返回上一頁


- .forward(): 進入下一頁


- .refresh(): 重新整理頁面


- .close(): 關閉瀏覽器


- .quit(): 關閉瀏覽器並退出驅動程序


#### 5. 收尋網頁元素

- find_element_by_id('id'): 以 id 查詢符合的玩素


- find_element_by_class_name('class name'): 以類別名稱查詢符合的玩素


- find_element_by_tag_name('tag name'): 以 HTML 標籤查詢符合的玩素


- find_element_by_name('name'): 以名稱查詢符合的玩素


- find_element_by_link_text('text'): 以連結文字查詢符合的玩素


- find_element_by_partial_link_text('text'): 以部分連結文字查詢符合的玩素


- find_element_by_css_selector('selector'): 以 CSS 選擇器查詢符合的玩素


- find_element_by_xpath(): 以 xml 的路徑(xpath)查詢與每個 node 的特性來找尋玩素


#### 6. 取消 Alert 彈出式視窗的設定

    chrome_options = webdriver.ChromeOptions()
    
    prefs = {"profile.default_content_setting_values.notifications": 2}
    
    chrome_options.add_experimental_option("prefs": prefs)
    
    driver = webdriver.Chrome(chrome_options=chrome_options)


### References: 

- [Beginner’s guide to Web Scraping in Python using BeautifulSoup](https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/#)


- [Beautiful Soup Basic HTML Scraping](https://chrisalbon.com/python/web_scraping/beautiful_soup_html_basics/)