## 使用 GET 方法在博客來網路書店搜尋特定字串，並爬取單頁所有項目名稱與價格

### 本範例欲爬的目標網站：[博客來網路書店](https://www.books.com.tw/)

In [None]:
#
# 可以去掉 python 輸出時，因為軟體版本所引起的警告的警告。
#
import warnings # 警告模組

warnings.filterwarnings('ignore')

#==========================================================================================

import requests   # Python 中使用 requests 模組建立各種 HTTP 請求，從網頁伺服器上取得想要的資料

item = input('請輸入要搜尋的項目：')

url = "http://search.books.com.tw/search/query/key/%s/cat/all" % item   # key 與 cat 內容可以修改

headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)\
             AppleWebKit/537.36 (KHTML, like Gecko)\
             Chrome/112.0.0.0 Safari/537.36', 
          }       # '\'為續行字符，代表與下一行為同一行的敘述


# 注意！注意！ 如果隔一陣子這一個 cell 在執行上有莫名的錯誤發生，特別是連線不通
# 的錯誤訊息，多半是與 Chrome/X.Y.Z.W 有關，此時要使用『檢視』或 F12 確認一下
# User-Agent: 訊息裡面的 Chrome/X.Y.Z.W 內容為何再做修正

res = requests.get(url, headers = headers)     # 博客來書店網站使用的是 http.get() 方法

print (res.text)   # 使用 text 屬性將取得博客來書店網站網頁的原始碼呈現出來

#### 1. HTML 標籤列表 [[1]](http://web.thu.edu.tw/hzed/www/tag.htm) [[2]](https://www.happycoding.today/posts/27) [[3]](https://www.csie.ntu.edu.tw/~r91112/myDownload/WEB/html.html)<br><br>2. HTML 語法教學 [[1]](http://cc.cust.edu.tw/~ven/100-1.html) [[2]](https://tw.alphacamp.co/blog/html-guide) [[3]](https://htmltutorial.linwebs.tw/1/1-3) [[w3school 自學網]](https://www.w3schools.com/html/default.asp/) [[dofactory HTML 自學網]](https://www.dofactory.com/html)<br><br>3. 認識 HTML, CSS, DOM, JavaScript [[1*]](https://ithelp.ithome.com.tw/articles/10202326) [[2]](https://medium.com/mr-efacani-teatime/%E4%BA%94%E5%88%86%E9%90%98%E8%AA%8D%E8%AD%98css-html-js-2527e3b4ce6e) [[3]](http://blog.ywpu.me/2015/01/21-xmlhtmlxhtmldhtmlhtml-dom.html) [[w3school 自學教材]](https://www.w3schools.com/) [[video]](https://www.youtube.com/watch?v=uDgA8yyCnHo&t=1s&ab_channel=%E5%9B%BE%E7%81%B5%E6%98%9F%E7%90%83TuringPlanet) [[dofactory CSS 自學網]](https://www.dofactory.com/css)<br><br>4. [HTML Reference](https://www.dofactory.com/html/ref)<br><br>5. [CSS Reference](https://www.dofactory.com/css/ref)

#### BeautifulSoup4 是一個 Python 的函式庫模組，可以讓開發者僅須撰寫非常少量的程式碼，就可以快速解析網頁 HTML 內碼，從中萃取出使用者有興趣的資料、去蕪存菁，降低網路爬蟲程式的開發門檻、加快程式撰寫速度。

#### BeautifulSoup 可以支援的解析器其實不只一種，有 <font color = red>html.parser</font>（Python 內建）、 <font color = red>html5lib</font> 與  <font color = red>lxml</font> 等三種，根據官方文件的推薦，解析速度最快的是 lxml。

In [None]:
from bs4 import BeautifulSoup    # 必須先裝 BeautifulSoup4

soup = BeautifulSoup(res.text, 'html.parser')   # 將 html格式的字串傳進 BeautifulSoup

print(soup)              # 直接印結果

In [None]:
print(soup.prettify())   # 如果想要呈現正常的 html 格式的話，可以多加 prettify()這個函式進來

In [None]:
print (soup.title.string)    # 取得不同 tag 的內容，例如 'title'，在此亦可用 soup.title.text 來取得標題內容。

In [None]:
#soup?

In [None]:
#dir(soup)

In [None]:
#help(soup.find_all)

In [None]:
#
# 搜尋 class 為 table-td 的 div 節點
#
all_items = soup.find_all("div", class_ = "table-td")    # 撈出所有頁面上相關的 tbody 區塊


items = []

for item in all_items:
    
    if item.find("div", class_ = "box") != None:
        
        items.append(item)
        

# 列印出頁面上書籍資訊的網頁原始碼
print('\n本頁面共有', len(items), '筆資料！\n')

print(items)

In [None]:
print(type(items), '\n')   # 以一個 List 型態傳回

#
# 以下是用來取出第一本書的資料區塊
#
print(items[0], '\n')       # List 中的第一個資料 (index = 0)

print(type(items[0]), '\n') # List 中的第一個資料的資料類別型態

In [None]:
#
# 以下是試著來取出網頁上第一本書的書名與價格
#

print("\n書名：", items[0].select("div.box > a > img")[0]['alt'])  # 寫法一
#print("\n書名：", items[0].select("div.box a img")[0]['alt'])    # 寫法二

print("\n價格：", items[0].select("ul > li > b")[0].text)   # 寫法一
#print("\n價格：", items[0].select("ul.price.clearfix li b")[0].text)    # 寫法二

In [None]:
dir(items[0])

In [None]:
!pip install pandas==1.5.3 --user

In [None]:
#
# 以下是試著來取出網頁上所有書的書名
#
index = 0

for item in items:
    
    index += 1
    
    print('%03d  %s\n' % (index, item.select("div.box a img")[0]['alt']))

In [None]:
import pandas as pd

#
# 爬取書名
#
books = pd.Series()

#
# 爬取價格
#
prices = pd.Series()

for item in items:

    book = item.select("div.box a img")[0]['alt']
    
    #print(book)
    
    #加到 pd.Series,(drop = True)用以重設索引值，從 0 開始
    books = pd.concat([books, pd.Series([book])]).reset_index(drop = True)
    
    price = item.select("ul > li > b")
    
    #print(price)

    
    if len(price) == 1:  # 只有優惠價格
        
        # .string 取 tag<strong></strong> 中的文字內容 
        prices = pd.concat([prices, pd.Series([price[0].string])]).reset_index(drop = True) 
        
    elif (len(price) == 2): #有打折數 +價格
        
        # .string 取 tag<strong></strong> 中的文字內容 
        prices = pd.concat([prices, pd.Series([price[1].string])]).reset_index(drop = True)
        
    else:
        
        break   

In [None]:
print('\n\n')    

#
# 書名(Pandas Series)資料列的索引值重設由 1 開始
#
books.index += 1

#
# 價格(Pandas Series)資料列的索引值重設由 1 開始
#
prices.index += 1


#
# 列印出書名資料列與價格資料列的內容
#
print(books, '\n\n')

print(prices)

In [None]:
#
# 將書名資料列與價格資料列合併成一個新的表格 (Pandas DataFrame)
#
df = pd.DataFrame({'書名':books, '價格': prices})

df     #df[['書名','價格']]

#### Dataframe Styling using Pandas（all good ones）: [[1]](https://mode.com/example-gallery/python_dataframe_styling/)  [[2]](https://zhuanlan.zhihu.com/p/357732790)  [[3]](https://medium.com/@kristina.reut96/you-think-you-know-stylish-tables-ee59beadb487)  [[官網]](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)

In [None]:
#
# 用網頁程式技巧來美化視覺
#
df.style\
    .set_table_styles([ dict(selector = 'th', \
                             props = [('text-align', 'center'),\
                                      ('color', 'Green'), \
                                      ("font-size", "125%"),\
                                      ('background-color', '#f7f7f9')])])\
    .set_properties(**{'text-align': 'left', \
                       'background-color': 'black', \
                       'max-width': '650px',\
                       'color': 'lawngreen',\
                       'border-color': 'white'})