# 使用GET方法在博客來網路書店搜尋特定字串，並爬取單頁所有項目名稱與價格

### [博客來網路書店](http://search.books.com.tw)

In [None]:
# 可以去掉 python 輸出時，因為軟體版本所引起的警告的警告。
import warnings # 警告模組
warnings.filterwarnings('ignore')

#==========================================================================================

import requests   # Python 中使用 requests 模組建立各種 HTTP 請求，從網頁伺服器上取得想要的資料

item = input('請輸入要搜尋的項目：')

url = "http://search.books.com.tw/search/query/key/%s/cat/all" % item

headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)\
             AppleWebKit/537.36 (KHTML, like Gecko)\
             Chrome/91.0.4472.77 Safari/537.36', 
          }       # '\'為續行字符，代表與下一行為同一行的敘述

res = requests.get(url, headers = headers)

print (res.text)   # 使用 text 屬性將取得網頁的原始碼呈現出來

### [HTML標籤列表](http://web.thu.edu.tw/hzed/www/tag.htm)， [HTML語法教學](http://www.dlps.tc.edu.tw/html_teach/)


#### BeautifulSoup4 是一個 Python 的函式庫模組，可以讓開發者僅須撰寫非常少量的程式碼，就可以快速解析網頁 HTML 內碼，從中萃取出使用者有興趣的資料、去蕪存菁，降低網路爬蟲程式的開發門檻、加快程式撰寫速度。
#### BeautifulSoup 可以支援的解析器其實不只一種，有 html.parser（Python 內建）、html5lib 與 lxml 等三種，根據官方文件的推薦，解析速度最快的是 lxml。

In [None]:
from bs4 import BeautifulSoup    # 必須先裝 BeautifulSoup4

soup = BeautifulSoup(res.text, 'html.parser')   # 將 html格式的字串傳進 BeautifulSoup

#print(soup)              # 直接印結果
#print(soup.prettify())   # 如果想要呈現正常的 html 格式的話，可以多加 prettify()這個函式進來

print (soup.title.string)    # 取得不同 tag 的內容，例如 'title'，在此亦可用 soup.title.text 來取得標題內容。

In [None]:
#soup?

In [None]:
#dir(soup)

In [None]:
#help(soup.find_all)

In [None]:
import re

items = soup.find_all('tbody', id = re.compile("itemlist_[A-Z0-9]\d{9}"))    # 撈出所有頁面上相關的 tbody 區塊

print(items)

In [None]:
print('本頁面共有', len(items), '筆資料！')

In [None]:
print(type(items), '\n')   # 以一個 List 型態傳回

# 以下是用來取出第一本書的資料區塊
print(items[0], '\n')       # List 中的第一個資料 (index = 0)

print(type(items[0]), '\n') # List 中的第一個資料的資料類別型態

In [None]:
# 以下是用來取出第一本書的書名
print(items[0].select("div.box_1 a img")[0]['alt'], '\n')

print(type(items[0].select("div.box_1 a img")[0]['alt']))

In [None]:
# 以下是用來取出書的價格，注意：頁面上最後有一些是博客來推薦的書籍，非查詢結果

items[0].select("ul.list-nav.clearfix li strong")[0].text   # 抓出整個 span 區塊

In [None]:
import pandas as pd

# 爬取書名
books = pd.Series()

# 爬取價格
prices = pd.Series()

for item in items:
    
    book = item.select("div.box_1 a img")[0]['alt']
    
    #print(book)
    
    #加到 pd.Series,(drop = True)用以重設索引值，從 0 開始
    books = books.append(pd.Series([book])).reset_index(drop = True)
    
    price = item.select("ul.list-nav.clearfix li strong")
    
    if len(price) == 1:  # 只有優惠價格
        
        # .string 取 tag<strong></strong> 中的文字內容 
        prices = prices.append(pd.Series([price[0].string])).reset_index(drop = True) 
        
    elif (len(price) == 2): #有打折數 +價格
        
        # .string 取 tag<strong></strong> 中的文字內容 
        prices = prices.append(pd.Series([price[1].string])).reset_index(drop = True)
        
    else:
        
        break  
        

print('\n\n')    

# 文章索引值由 1 開始
books.index += 1

prices.index += 1

print(books, '\n\n')

print(prices)

In [None]:
#合併成 DataFrame
df = pd.DataFrame({'書名':books, '價格': prices})

df     #df[['書名','價格']]

In [None]:
df.style\
    .set_table_styles([ dict(selector = 'th', \
                             props = [('text-align', 'center'),\
                                      ('color', 'Green'), \
                                      ("font-size", "125%"),\
                                      ('background-color', '#f7f7f9')])])\
    .set_properties(**{'text-align': 'left', \
                       'background-color': 'black', \
                       'max-width': '650px',\
                       'color': 'lawngreen',\
                       'border-color': 'white'})

#### Dataframe Styling using Pandas(all good ones) : [[1]](https://mode.com/example-gallery/python_dataframe_styling/)  [[2]](https://zhuanlan.zhihu.com/p/357732790)  [[3]](https://medium.com/@kristina.reut96/you-think-you-know-stylish-tables-ee59beadb487)  [[官網]](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)