# 初見網路爬蟲

## 以但開始學習採集網路上的數據，就會感受到網頁瀏覽器為我們做得所以細節。

## 首先會學習如何使用GET請求來向網路伺服器還獲取網頁。在從網頁中讀取HTML內容，最後做一些簡單的訊息抽取，把我們要尋找的內容分離出來。

## 假設今天我們要使用電腦來瀏覽Booking.com的網站，找看看這次旅行要下榻的飯店有哪些可以選擇。對電腦來說，我們人類操作電腦來做這項工作時，以電腦的觀點來看這是一項機器與機器之間的對話。以下的事情將會發生。

## 1.我的電腦會發送一段由0和1組成的bit值，表示電路上的高低電壓，這些bit值代表著某一種訊息，包括「Request Header」和「Information Body」。「Request Header」包含我的網路路由器的MAC地址和Booking.com網站的IP位址(IP是在TCP/IP協定中網路層的主要協定)。「Information Body」則包含我的電腦對Booking.com網站應用的請求。

## 2.網路路由器會收到我所有的0和1的bit值，把它解讀為「封包 Packet」，在替這些封包加上路由器自己的IP位址來作為「發件」的地址，然後通過網際網路發送出去。

## 3.我送出的封包會在網際網路經過一些中介的伺服器，沿著一些正確的電路路徑前進，直到Booking.com的伺服器。

## 4.Booking.com在他的IP位址收到了封包。

## 5.Booking.com伺服器會讀取封包的「Request Header」帶有的目標端口(例如 80/TCP	HTTP（超文字傳輸協定）- 用於傳輸網頁)，然後把它傳遞到對應的應用，「網頁伺服器Web Server」上。

## 6.網頁伺服器處理後得到兩串的數據:
### (1)一個GET的請求。
### (2)請求的文件 index.html

## 7.網路伺服器找到的相對應的HTML文件，把他打包成一個新的封包傳送到Booking.com自己的路由器，路由器再透過同樣的過程回傳到我的電腦上。





# 該選擇 urllib 還是 urllib2 ?

## 在python 2.x的版本，是用urllib2，而在python 3.x的版本，改用urllib，兩者的功能其實很相似。

## 如果你用過python 2.x 的 urllib2 ，你可能會發現urllib2 和 urllib有些不同。但是在python 3裡，urllib2改名為urllib，兩者個差異則改由使用子模組來實作，例如:urllib.request、urllib.parse 和 urllib.error。

## 簡而言之，python 3 中的 urllib 已經整了 python 2 的 urllib 和 urllib2。

## urllib可以存取網頁、下載資料、剖析資料、修改表頭(header)、執行GET與POST的請求…。

## 使用較新的python 3 來實作。 

In [1]:
# -*- coding: utf-8 -*-

import nltk
from bs4 import BeautifulSoup
import lxml
import urllib
from urllib import parse
from urllib import request

### 執行nltk.download()時，會開啟一個新的視窗，在視窗中選擇要下載的NLTK相關套件包()，下載路徑和其餘的設定基本上保持預設狀態即可。

In [2]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [3]:
web = "http://www.booking.com/reviews/tw/hotel/tai-bei-fa-xian-qing-lu.zh-tw.html?aid=397642;label=gog235jc-index-XX-XX-XX-unspec-tw-com-L%3Axt-O%3Aabn-B%3Aunk-N%3Ayes-S%3Abo-U%3Asalo;sid=83349c9f35261a2ee9abd0d1c30202bc"

## 呈現發出請求後的結果，會出現網頁的HTML原始碼。

## urlopen()函式是用來打開並讀取一個從網際網路上獲取到的對象。urllib是一個非常通用的函式庫，可以輕鬆的讀取HTML文件，圖像，或其他任何的文件流。

In [4]:
request_urlopen = request.urlopen(web)
print(request_urlopen.read())



### 上述的HTML碼在內文顯示的部分是使用了utf-8格式的編碼，所以我們接下來要使用正確的decode()來解碼成我們能理解的文字符號。

## 嘗試使用utf-8編碼來解析網頁的資料。

In [5]:
values = {"s":"basic",
         "submit":"search"}

data = urllib.parse.urlencode(values)
print(data)

submit=search&s=basic


In [6]:
data = data.encode("utf-8")
print(data)

b'submit=search&s=basic'


In [7]:
request_urlopen = request.Request(web,data)
print(request_urlopen)

<urllib.request.Request object at 0x0000000009DD1C50>


In [8]:
request_urlopen = request.urlopen(request_urlopen)
print(request_urlopen.read()) 



## 如果再送出請求時，回傳錯誤為HTTP Error 403: Forbidden
## 便可以嘗試在送出請求時在headers上加入User-Agent。

In [9]:
headers = {"User-Agent":"Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0. 1312.27 Safari/537.17"}
print(headers)

{'User-Agent': 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0. 1312.27 Safari/537.17'}


## 在使用read()函數時，必須要解碼為正確的編碼(例如.utf-8)才可以順利解讀網頁資料。

In [10]:
request_urlopen = request.Request(web,headers=headers)
request_urlopen = request.urlopen(request_urlopen)
simple_page = request_urlopen.read().decode("utf-8")
print(simple_page)

<!DOCTYPE html>
<!--
You know you could be getting paid to poke around in our code?
We're hiring designers and developers to work in Amsterdam:
http://www.workingatbooking.com/
-->
<!-- wdot-802 -->
<html
lang="zh-tw"
prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# booking_com: http://ogp.me/ns/fb/booking_com#"
class="noJS b_chrome b_chrome_24   supports_inline-block supports_fontface "
>
<head profile="http://a9.com/-/spec/opensearch/1.1/">
<meta http-equiv="content-type" content="text/html; charset=utf-8" />
<link rel="stylesheet" href="http://t-ec.bstatic.com/static/css/main_ecv6.iq2/63ee9a2426982754104e88be7c2369323db9dfa1.css" data-main-css="1" />
<link rel="stylesheet" href="http://t-ec.bstatic.com/static/css/main_exps_ecv6.iq2/83970d412a458c5c3c958a2b9dfc1f4ee4e1ee16.css" />
<link rel="stylesheet" href="http://t-ec.bstatic.com/static/css/gprof_icons_ecv6.iq2/afa93bf7b3e8e7ddd51d5da0957769be80e321dd.css" /> 
<link rel="stylesheet" type="text/css" href="http://s-ec.bstatic.

## BeautifulSoup 簡介

### BeautifulSoup函式庫的名字取自Lewis Carroll在「Alice's Adventures in Wonderland」裡的同名詩歌，函式庫的功能就和詩歌一樣，嘗試化平淡為神奇。他通過定位HTML標籤來格式化和組織複雜的網路訊息，用簡單易用的Python語言來已存取XML的方式來存取HTML。


### BeautifulSoup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱，通過解析文檔為用戶提供需要抓取的數據，因為簡單，所以不需要多少代碼就可以寫出一個完整的應用程序。

### BeautifulSoup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時BeautifulSoup就不能自動識別編碼方式了。

### 然後，你僅僅需要說明一下原始編碼方式就可以了。BeautifulSoup已成為和lxml、html6lib一樣出色的python解釋器，為用戶靈活地提供不同的解析策略或強勁的速度。


###  解析器                 使用方法                 優勢
###  html.parser       BeautifulSoup(markup, “html.parser”)          Python的內置標準庫
###  lxml                   BeautifulSoup(markup, “html.parser”)          速度快
###  xml                    BeautifulSoup(markup, “xml”)                       唯一支持XML的解析器
###  html5lib            BeautifulSoup(markup, “html5lib”)	              以瀏覽器的方式解析文檔



### 由於BeautifulSoup不是Python內建的標準函式庫，所以需要再額外安裝
### 下載網址如右 https://pypi.python.org/pypi/beautifulsoup4 
###  如果有安裝pip套件管理器，則可以下指令 pip install beautifulsoup4 來安裝函式庫。

### 安裝完成後可以在python裡執行右側敘述 from bs4 import BeautifulSoup ，如果沒有出現錯誤，就代表安裝成功了。

## 下半段開始使用BeautifulSoup來解析定址網頁原始碼

### 先把網頁的原始碼建立成BeautifulSoup的物件。
### 選擇使用內建的html.parser來作為解析時的解釋器。

In [11]:
simple_page = BeautifulSoup(simple_page,"html.parser")

#### BeautifulSoup對象和它的tag節點都可以調用 prettify()方法，prettify()方法將Beautiful Soup的文檔樹格式化後以Unicode編碼輸出,每個XML/HTML標籤都獨占一行。

In [12]:
print(simple_page.prettify())

<!DOCTYPE html>
<!--
You know you could be getting paid to poke around in our code?
We're hiring designers and developers to work in Amsterdam:
http://www.workingatbooking.com/
-->
<!-- wdot-802 -->
<html class="noJS b_chrome b_chrome_24 supports_inline-block supports_fontface " lang="zh-tw" prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# booking_com: http://ogp.me/ns/fb/booking_com#">
 <head profile="http://a9.com/-/spec/opensearch/1.1/">
  <meta content="text/html; charset=utf-8" http-equiv="content-type"/>
  <link data-main-css="1" href="http://t-ec.bstatic.com/static/css/main_ecv6.iq2/63ee9a2426982754104e88be7c2369323db9dfa1.css" rel="stylesheet"/>
  <link href="http://t-ec.bstatic.com/static/css/main_exps_ecv6.iq2/83970d412a458c5c3c958a2b9dfc1f4ee4e1ee16.css" rel="stylesheet"/>
  <link href="http://t-ec.bstatic.com/static/css/gprof_icons_ecv6.iq2/afa93bf7b3e8e7ddd51d5da0957769be80e321dd.css" rel="stylesheet"/>
  <link href="http://s-ec.bstatic.com/static/css/hotel_base_ecv6

## BeautifulSoup將複雜HTML文檔轉換成一個複雜的樹形結構,每個節點都是Python對象。

In [13]:
tag = simple_page.div
print(type(tag))

<class 'bs4.element.Tag'>


In [14]:
print(tag["class"])

print(tag["id"])

['', 'clearfix', '']
bodyconstraint


In [15]:
print(tag)

<div class=" clearfix " id="bodyconstraint"> <div id="bodyconstraint-inner">
<div id="top" role="banner">
<a class="js-header__logo" href="http://www.booking.com/index.zh-tw.html?aid=397642;label=gog235jc-index-XX-XX-XX-unspec-tw-com-L%3Axt-O%3Aabn-B%3Aunk-N%3Ayes-S%3Abo-U%3Asalo;sid=a69dc815b256b32729409bba84f65554;click_from_logo=1" style="text-decoration: none;">
<img alt="Booking.com：線上訂房專家" class=" " id="logo_no_globe_new_logo" src="http://s-ec.bstatic.com/static/img/b26logo/booking_logo_retina/22615963add19ac6b6d715a97c8d477e8b95b7ea.png"/>
</a>
<div class="ticker_space smaller_booking_nr_login user_center_bar" id="user_form">
<div data-component="track" data-hash="GCaRZEGcCSRPLSGSZKe" data-stage="1" data-track="view"></div>
<ul class="user_center_nav">
<li class="user_center_option" id="uc_feedbacklink_box">
<a class="popover_trigger feedback_link_look" data-component="track" data-custom-goal="1" data-google-track="Click/Action: reviews_hotel/header_feedback_link_box" data-hash=

In [16]:
for string in simple_page.find_all("div",{"id":"review_list_score"}):
    print(string.get_text("\n",strip=True))

整體評分
根據 1057  則青年旅館評語
9.2
單項評分
整潔度
9.4
舒適程度
9.2
住宿地點
8.9
設施
9.2
員工素質
9.2
性價比
9.2
免費 WiFi
8.7


## 關於.get_text()函數，會把你正在處理的HTML文件中的所有標籤都清除，回傳一個只包含文字的字串。意思便是，如果你的任務中包含要擷取HTML原始碼中的超連結，段落或是標籤之類的訊息，那麼便避免一開始就使用.get_text()函數，通常是要保存純文字數據時，才會在最後使用.get_text()函數。


## BeautifulSoup的 find() 和 find_all() ，這兩個函數可能是我們在BeautifulSoup中最常使用的兩個函數。借助這兩個函數，可以通過標籤的不同屬性輕鬆個過濾HTML頁面。查找一組標籤或是單個標籤。



### 嘗試打印出飯店的總評分。

In [17]:
for string in simple_page.find_all("li",{"class":"review_item clearfix "}):
    try:
        print("日期:"+string.find("p",{"class":"review_item_date"}).get_text("\n",strip=True))
        print("名稱:"+string.find("span",{"itemprop":"name"}).get_text("\n",strip=True))
        print("國籍:"+string.find("span",{"class":"reviewer_country"}).get_text("\n",strip=True))
        print("留言數:"+string.find("div",{"class":"review_item_user_review_count"}).get_text("\n",strip=True))
        print("評分:"+string.find("div",{"class":"review_item_review_score jq_tooltip"}).get_text("\n",strip=True))
        print(string.find_next("div",{"class":"review_item_review_content"}).find("p",{"class":"review_neg"}).get_text("\n",strip=True))
        print(string.find_next("div",{"class":"review_item_review_content"}).find("p",{"class":"review_pos"}).get_text("\n",strip=True))
    except AttributeError:
        print("continue here")
        continue

日期:2017 年 2 月 2 日
名稱:小歡歡
國籍:臺灣
留言數:1 則評語
continue here
日期:2017 年 1 月 15 日
名稱:Wen
國籍:臺灣
留言數:3 則評語
評分:9.2
눉
小缺點是宿舍房間沒有USB的充電，不過不影響住宿品質
눇
空間很乾淨，準備早餐的阿姨們人也很好，櫃台的小姐親切有禮，因為是住女生專屬的宿舍房，浴室設備跟之前住過的青旅不同，乾淨衛生，下次會回去住房
日期:2017 年 1 月 11 日
名稱:匿名
國籍:臺灣
留言數:6 則評語
評分:7.1
눉
冷氣有點太冷，進出要升降簾幕，不方便使用。兩邊設計是對稱的，會讓人產生錯覺以為對面是倒影，有點嚇人。- 
눇
地點很好，旁邊就是公車站，離捷運也很近，附近也有很多消夜和便利商店可以用餐，離台北車站也不遠。。
日期:2017 年 1 月 11 日
名稱:Jincos
國籍:臺灣
留言數:1 則評語
continue here
日期:2016 年 12 月 26 日
名稱:Evie
國籍:臺灣
留言數:2 則評語
評分:8.8
눉
廁所垃圾桶太小地上周圍都是衛生紙，才晚上衛生紙就見底，應適時補充
눇
溫馨 舒適 安全感
Check in時服務很親切 近捷運 近小7
日期:2016 年 12 月 25 日
名稱:David
國籍:臺灣
留言數:9 則評語
評分:7.9
눉
價格稍微貴一些，物質的品質很不錯，但員工的服務就稍嫌差一點。應該也是可以的。
눇
床鋪很乾淨，晚上很安靜。
日期:2016 年 12 月 16 日
名稱:林郁哲
國籍:臺灣
留言數:2 則評語
評分:8.3
눉
床頭空調口有點吵,離開床位(洗澡)無法充電(3c產品),浴室置物架損毀,早餐頗陽春
눇
地點很好交通方便
日期:2016 年 11 月 27 日
名稱:SHU MEI YANG
國籍:臺灣
留言數:4 則評語
評分:9.2
continue here
日期:2016 年 11 月 16 日
名稱:Ming
國籍:臺灣
留言數:1 則評語
評分:7.9
눉
早餐只有吐司,軟法,沖泡咖啡跟奶茶,水果切片...選項有點少。房間空調有點小,室友帶回來吃消夜,味道整晚都一直在
눇
頂樓開放式廚房,可以提供房客自己煮東西吃,不過只住一兩天的人似乎用不到。浴室乾淨,有免治馬桶(屁屁用水洗~),提供沐浴乳跟洗髮