# Crawler基礎－requests、BeautifulSoup

## 目錄
- [Requests](#requests)
- [BeautifulSoup](#BeautifulSoup)
    - [bs物件](#bs物件)
    - [find](#find)
    - [find_all](#find_all)
    - [select](#select)

In [1]:
# 發送我們網路請求(request)的套件
import requests
# 解析 HTML 語法的套件
from bs4 import BeautifulSoup

- 爬第一個網站 http://pala.tw/class-id-example/

In [2]:
# 先把後面會用到的全域變數放在這裡
url = "http://pala.tw/class-id-example/"
headers = {'user-agent':'Safari'}

user-agent是提供給網站了解使用者的基本資訊（電腦系統、使用哪款瀏覽器...等）  
部分網站會檢查user-agent字串內容來防止惡意爬蟲  
可以從[這裡](https://www.whoishostingthis.com/tools/user-agent/)查詢你電腦、瀏覽器的user-agent字串  
或是放入簡單的資訊（有的網站是會檢查user-agent有沒有內容而已 空白的也會給你過XD）

## requests

In [3]:
# 透過 requests 來幫我傳送 ge t請求
res = requests.get(url,headers=headers)

In [4]:
# post也很簡單
# res = requests.post(url,headers=headers)

執行之後，requests會去目標網站，幫你把原始碼抓回來  
res有一些基本的屬性可以使用

In [5]:
# 回傳狀況是否正常
res.ok

True

In [6]:
# 回傳的狀況的數值
# 常用的 200 是 一切順利 404 是 not found
res.status_code

200

In [7]:
# 此回傳的編碼
res.encoding

'utf-8'

In [8]:
# 把原始碼輸出
print(res.text)

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>辦公室的下午茶</title>
</head>
<body>
    <p id="老闆" class="半糖 去冰 珍珠 奶茶">老闆的半糖去冰珍珠奶茶</p>
    <p id="資深前輩" class="無糖 去冰 綠茶">資深前輩的無糖去冰綠茶</p>
    <p id="Pala" class="無糖 微冰 鐵觀音">Pala的無糖微冰鐵觀音</p>
    <p id="心儀同事" class="半糖 去冰 文山青茶">心儀同事的半糖去冰文山青茶</p>
    <p id="工讀生" class="半糖 微冰 珍珠 紅茶">工讀生的半糖微冰珍珠紅茶</p>
</body>
</html>


太好了～我們已經取得我們要的 HTML 內容了  
再來是解析 HTML  
找到我們要的內容

## BeautifulSoup
以下簡稱 bs

In [9]:
# 把 HTML 丟到 bs 裡面，使用 「html」的解析器
soup = BeautifulSoup(res.text,"html.parser")

In [10]:
# 可以看到soup會變成一個 bs 物件
type(soup)

bs4.BeautifulSoup

### bs物件

bs 物件的一些基本屬性

In [11]:
# 標題標籤
soup.title

<title>辦公室的下午茶</title>

In [12]:
# 取出該標籤的字串
soup.title.string

'辦公室的下午茶'

In [13]:
# 找到那個標籤上一層的標籤
soup.title.parent

<head>
<meta charset="utf-8"/>
<title>辦公室的下午茶</title>
</head>

In [14]:
# 尋找a標籤
# 但是 HTML 裡面沒有 所以回傳 None
print(soup.a)

None


In [15]:
# 回傳「第一個」p標籤
soup.p

<p class="半糖 去冰 珍珠 奶茶" id="老闆">老闆的半糖去冰珍珠奶茶</p>

In [16]:
# 用[attribute]的方式 來抓取該標籤的屬性
soup.p['class']

['半糖', '去冰', '珍珠', '奶茶']

### find

In [17]:
# 尋找「第一個」p標籤
soup.find('p')

<p class="半糖 去冰 珍珠 奶茶" id="老闆">老闆的半糖去冰珍珠奶茶</p>

In [18]:
# 尋找 id 為 "Pala"的標籤
soup.find(id="Pala")

<p class="無糖 微冰 鐵觀音" id="Pala">Pala的無糖微冰鐵觀音</p>

In [29]:
# 錯誤 尋找class
# 但是因為 class 是保留字 所以加一個底線
# print(soup.find(class="無糖"))

SyntaxError: invalid syntax (<ipython-input-29-a1f74783a7b6>, line 3)

In [20]:
# 尋找 class 為 "無糖"的標籤
soup.find(class_="無糖")

<p class="無糖 去冰 綠茶" id="資深前輩">資深前輩的無糖去冰綠茶</p>

In [21]:
# 混用標籤與 id
soup.find("p",id="心儀同事")

<p class="半糖 去冰 文山青茶" id="心儀同事">心儀同事的半糖去冰文山青茶</p>

In [22]:
# 混用標籤與 class
soup.find("p",class_="微冰")

<p class="無糖 微冰 鐵觀音" id="Pala">Pala的無糖微冰鐵觀音</p>

### find_all

find 只會回傳「第一個」符合條件的標籤  
使用 find_all 會回傳「所有」符合條件的標籤

In [23]:
# 找出所有 p 標籤
# 會做成 list 回傳給你
find_all_list = soup.find_all('p')
find_all_list

[<p class="半糖 去冰 珍珠 奶茶" id="老闆">老闆的半糖去冰珍珠奶茶</p>,
 <p class="無糖 去冰 綠茶" id="資深前輩">資深前輩的無糖去冰綠茶</p>,
 <p class="無糖 微冰 鐵觀音" id="Pala">Pala的無糖微冰鐵觀音</p>,
 <p class="半糖 去冰 文山青茶" id="心儀同事">心儀同事的半糖去冰文山青茶</p>,
 <p class="半糖 微冰 珍珠 紅茶" id="工讀生">工讀生的半糖微冰珍珠紅茶</p>]

In [24]:
# 用法和 find 相像
# 一樣可以用 id 和 class 來搜尋
find_all_list = soup.find_all('p',class_="無糖")
find_all_list

[<p class="無糖 去冰 綠茶" id="資深前輩">資深前輩的無糖去冰綠茶</p>,
 <p class="無糖 微冰 鐵觀音" id="Pala">Pala的無糖微冰鐵觀音</p>]

### select

使用 css selector 來選取元素
- [W3school - CSS_selector](https://www.w3schools.com/cssref/css_selectors.asp)

In [25]:
# 使用 css selector 搜尋
target = input("請輸入要尋找的目標（class使用. ID使用#）：")
found_list = soup.select(target)
found_list

請輸入要尋找的目標（class使用. ID使用#）：#老闆


[<p class="半糖 去冰 珍珠 奶茶" id="老闆">老闆的半糖去冰珍珠奶茶</p>]

In [26]:
# select 不論結果是一個或是多個
# 都會用 list 回傳
found_list = soup.select('.去冰')
found_list

[<p class="半糖 去冰 珍珠 奶茶" id="老闆">老闆的半糖去冰珍珠奶茶</p>,
 <p class="無糖 去冰 綠茶" id="資深前輩">資深前輩的無糖去冰綠茶</p>,
 <p class="半糖 去冰 文山青茶" id="心儀同事">心儀同事的半糖去冰文山青茶</p>]

In [27]:
# 把需要的字串擷取出來
str_list = [each.string for each in found_list]
str_list

['老闆的半糖去冰珍珠奶茶', '資深前輩的無糖去冰綠茶', '心儀同事的半糖去冰文山青茶']

In [28]:
# 取出特別的屬性
get_list = [each.get('id') for each in found_list]
get_list

['老闆', '資深前輩', '心儀同事']

爬蟲的技術不算太複雜  
比較難的是找出我們要的資訊  
還有實作的經驗  
所以讓我們試著開始實作吧