http://ithelp.ithome.com.tw/articles/10186119

並不是所有的資料都能這麼方便地以表格式資料（Tabular data），EXCEL 試算表或者 JSON 載入工作環境，

有時候我們的資料散落在網路不同的角落裡，然而並不是每一個網站都會建置 API（Application Programming Interface）讓你很省力地把資料帶回家，

這時候我們就會需要網頁解析（Web scraping）。

Python 對應的代表套件就是 BeautifulSoup

# 第一個 BeautifulSoup 應用

In [1]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器
print(soup.prettify()) # 把排版後的 html 印出來

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <title>
   看板 NBA 文章列表 - 批踢踢實業坊
  </title>
  <link href="//images.ptt.cc/bbs/v2.22/bbs-common.css" rel="stylesheet" type="text/css"/>
  <link href="//images.ptt.cc/bbs/v2.22/bbs-base.css" media="screen" rel="stylesheet" type="text/css"/>
  <link href="//images.ptt.cc/bbs/v2.22/bbs-custom.css" rel="stylesheet" type="text/css"/>
  <link href="//images.ptt.cc/bbs/v2.22/pushstream.css" media="screen" rel="stylesheet" type="text/css"/>
  <link href="//images.ptt.cc/bbs/v2.22/bbs-print.css" media="print" rel="stylesheet" type="text/css"/>
 </head>
 <body>
  <div id="topbar-container">
   <div class="bbs-content" id="topbar">
    <a href="/" id="logo">
     批踢踢實業坊
    </a>
    <span>
     ›
    </span>
    <a class="board" href="/bbs/NBA/index.html">
     <span class="board-label">
      看板
     </span>
     NBA
    </a>
    <a class="right small" href="/about.htm

# 一些 BeautifulSoup 的屬性或方法

很快試用一些 BeautifulSoup 的屬性或方法。

+ title 屬性
+ title.name 屬性
+ title.string 屬性
+ title.parent.name 屬性
+ a 屬性
+ find_all() 方法

In [3]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

# 一些屬性或方法
print(soup.title) # 把 tag 抓出來
print("---")
print(soup.title.name) # 把 title 的 tag 名稱抓出來
print("---")
print(soup.title.string) # 把 title tag 的內容欻出來
print("---")
print(soup.title.parent.name) # title tag 的上一層 tag
print("---")
print(soup.a) # 把第一個 <a></a> 抓出來
print("---")
print(soup.find_all('a')) # 把所有的 <a></a> 抓出來

<title>看板 NBA 文章列表 - 批踢踢實業坊</title>
---
title
---
看板 NBA 文章列表 - 批踢踢實業坊
---
head
---
<a href="/" id="logo">批踢踢實業坊</a>
---
[<a href="/" id="logo">批踢踢實業坊</a>, <a class="board" href="/bbs/NBA/index.html"><span class="board-label">看板 </span>NBA</a>, <a class="right small" href="/about.html">關於我們</a>, <a class="right small" href="/contact.html">聯絡資訊</a>, <a class="btn selected" href="/bbs/NBA/index.html">看板</a>, <a class="btn" href="/man/NBA/index.html">精華區</a>, <a class="btn wide" href="/bbs/NBA/index1.html">最舊</a>, <a class="btn wide" href="/bbs/NBA/index5204.html">‹ 上頁</a>, <a class="btn wide disabled">下頁 ›</a>, <a class="btn wide" href="/bbs/NBA/index.html">最新</a>, <a href="/bbs/NBA/M.1504486383.A.E5A.html">[花邊] G.Hayward出現在 NA LCS 夏季冠軍賽上</a>, <a href="/bbs/NBA/M.1504492105.A.731.html">[討論] 歷史上有無鬧翻繼續打的紀錄</a>, <a href="/bbs/NBA/M.1504492439.A.59B.html">[情報] LaVar Ball相信LeBron James會加入湖人</a>, <a href="/bbs/NBA/M.1504494388.A.0F4.html">[討論] 昔日黃蜂巨頭都奪冠了，那CP3還要多久呢?</a>, <a href="/bbs/NBA/M.150

# bs4 元素

Beautiful Soup 幫我們將 html 檔案轉換為 bs4 的物件，像是標籤（Tag），標籤中的內容（NavigableString）與 BeautifulSoup 物件本身。

## 標籤（Tag）

In [4]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

print(type(soup.a))
print("---")
print(soup.a.name) # 抓標籤名 a
print("---")
print(soup.a['id']) # 抓<a></a>的 id 名稱

<class 'bs4.element.Tag'>
---
a
---
logo


## 標籤中的內容（NavigableString）

In [5]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

print(type(soup.a.string))
print("---")
soup.a.string

<class 'bs4.element.NavigableString'>
---


'批踢踢實業坊'

## BeautifulSoup

In [6]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, 'lxml') # 指定 lxml 作為解析器

type(soup)

bs4.BeautifulSoup

# 爬樹

DOM（Document Object Model）的樹狀結構觀念在使用 BeautifulSoup 扮演至關重要的角色，所以我們也要練習爬樹。

## 往下爬

從標籤中回傳更多資訊。

+ contents 屬性
+ children 屬性
+ string 屬性

In [7]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

print(soup.body.a.contents)
print(list(soup.body.a.children))
print(soup.body.a.string)

['批踢踢實業坊']
['批踢踢實業坊']
批踢踢實業坊


## 往上爬

回傳上一階層的標籤。

+ parent 屬性

In [8]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

print(soup.title)
print("---")
print(soup.title.parent)

<title>看板 NBA 文章列表 - 批踢踢實業坊</title>
---
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>看板 NBA 文章列表 - 批踢踢實業坊</title>
<link href="//images.ptt.cc/bbs/v2.22/bbs-common.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.22/bbs-base.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.22/bbs-custom.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.22/pushstream.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.22/bbs-print.css" media="print" rel="stylesheet" type="text/css"/>
</head>


## 往旁邊爬

回傳同一階層的標籤。

+ next_sibling 屬性
+ previous_sibling 屬性

In [9]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

first_a_tag = soup.body.a
next_to_first_a_tag = first_a_tag.next_sibling
print(first_a_tag)
print("---")
print(next_to_first_a_tag)
print("---")
print(next_to_first_a_tag.previous_sibling)

<a href="/" id="logo">批踢踢實業坊</a>
---


---
<a href="/" id="logo">批踢踢實業坊</a>


# 搜尋

這是我們主要使用 BeautifulSoup 套件來做網站解析的方法。

+ find() 方法
+ find_all() 方法

In [10]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

print(soup.find("a")) # 第一個 <a></a>
print("---")
print(soup.find_all("a")) # 全部 <a></a>

<a href="/" id="logo">批踢踢實業坊</a>
---
[<a href="/" id="logo">批踢踢實業坊</a>, <a class="board" href="/bbs/NBA/index.html"><span class="board-label">看板 </span>NBA</a>, <a class="right small" href="/about.html">關於我們</a>, <a class="right small" href="/contact.html">聯絡資訊</a>, <a class="btn selected" href="/bbs/NBA/index.html">看板</a>, <a class="btn" href="/man/NBA/index.html">精華區</a>, <a class="btn wide" href="/bbs/NBA/index1.html">最舊</a>, <a class="btn wide" href="/bbs/NBA/index5204.html">‹ 上頁</a>, <a class="btn wide disabled">下頁 ›</a>, <a class="btn wide" href="/bbs/NBA/index.html">最新</a>, <a href="/bbs/NBA/M.1504486383.A.E5A.html">[花邊] G.Hayward出現在 NA LCS 夏季冠軍賽上</a>, <a href="/bbs/NBA/M.1504492105.A.731.html">[討論] 歷史上有無鬧翻繼續打的紀錄</a>, <a href="/bbs/NBA/M.1504492439.A.59B.html">[情報] LaVar Ball相信LeBron James會加入湖人</a>, <a href="/bbs/NBA/M.1504494388.A.0F4.html">[討論] 昔日黃蜂巨頭都奪冠了，那CP3還要多久呢?</a>, <a href="/bbs/NBA/M.1504494887.A.447.html">[花邊] 總管讚柯神就是挺勇士　終於換來2座總冠</a>, <a href="/bbs/NBA/M.1504496076.A.1

可以在第二個參數 class_= 加入 CSS 的類別。

In [11]:
import requests as rq
from bs4 import BeautifulSoup

url = "https://www.ptt.cc/bbs/NBA/index.html" # PTT NBA 板
response = rq.get(url) # 用 requests 的 get 方法把網頁抓下來
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

print(soup.find("div", class_= "r-ent"))

<div class="r-ent">
<div class="nrec"><span class="hl f3">22</span></div>
<div class="mark"></div>
<div class="title">
<a href="/bbs/NBA/M.1504486383.A.E5A.html">[花邊] G.Hayward出現在 NA LCS 夏季冠軍賽上</a>
</div>
<div class="meta">
<div class="date"> 9/04</div>
<div class="author">ts012108</div>
</div>
</div>


# BeautifulSoup 牛刀小試

大略照著官方文件練習了前面的內容之後，我們參考Tutorial of PTT crawler來應用 BeautifulSoup 把 PTT NBA 版首頁資訊包含推文數，作者 id，文章標題與發文日期搜集下來。

我們需要的資訊都放在 CSS 類別為 r-ent 的 <div></div> 中。

In [12]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/NBA/index.html'
response = rq.get(url)
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

posts = soup.find_all("div", class_ = "r-ent")
print(posts)
type(posts)

[<div class="r-ent">
<div class="nrec"><span class="hl f3">22</span></div>
<div class="mark"></div>
<div class="title">
<a href="/bbs/NBA/M.1504486383.A.E5A.html">[花邊] G.Hayward出現在 NA LCS 夏季冠軍賽上</a>
</div>
<div class="meta">
<div class="date"> 9/04</div>
<div class="author">ts012108</div>
</div>
</div>, <div class="r-ent">
<div class="nrec"></div>
<div class="mark"></div>
<div class="title">
			
				(本文已被刪除) [pneumo]
			
			</div>
<div class="meta">
<div class="date"> 9/04</div>
<div class="author">-</div>
</div>
</div>, <div class="r-ent">
<div class="nrec"><span class="hl f3">17</span></div>
<div class="mark"></div>
<div class="title">
<a href="/bbs/NBA/M.1504492105.A.731.html">[討論] 歷史上有無鬧翻繼續打的紀錄</a>
</div>
<div class="meta">
<div class="date"> 9/04</div>
<div class="author">simon0987</div>
</div>
</div>, <div class="r-ent">
<div class="nrec"><span class="hl f3">45</span></div>
<div class="mark"></div>
<div class="title">
<a href="/bbs/NBA/M.1504492439.A.59B.html">[情報] LaVar Ball相信Le

bs4.element.ResultSet

## 先練習一下作者 id

注意這個 posts 物件是一個 ResultSet，一般我們使用迴圈將裡面的每一個元素再抓出來，先練習一下作者 id。

In [13]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/NBA/index.html'
response = rq.get(url)
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

author_ids = [] # 建立一個空的 list 來放置作者 id
posts = soup.find_all("div", class_ = "r-ent")
for post in posts:
    author_ids.extend(post.find("div", class_ = "author"))

print(author_ids)

['ts012108', '-', 'simon0987', 'Raskolnikov', 'Ayanami5566', 'adam7148', 'kosha', 'permoon', 'fukawa947', 'zzyyxx77', 'james008', 'Yui5', 'Yui5', 'kadasaki', 'gap6060', 'laigei', 'laigei', 'abc7360393']


## 接下來我們把推文數，文章標題與發文日期一起寫進去。

In [15]:
import numpy as np
import requests as rq
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/NBA/index.html'
response = rq.get(url)
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

author_ids = [] # 建立一個空的 list 來放作者 id
recommends = [] # 建立一個空的 list 來放推文數
post_titles = [] # 建立一個空的 list 來放文章標題
post_dates = [] # 建立一個空的 list 來放發文日期

posts = soup.find_all("div", class_ = "r-ent")
for post in posts:
    try:
        author_ids.append(post.find("div", class_ = "author").string)    
    except:
        author_ids.append(np.nan)
    try:
        post_titles.append(post.find("a").string)
    except:
        post_titles.append(np.nan)
    try:
        post_dates.append(post.find("div", class_ = "date").string)
    except:
        post_dates.append(np.nan)

# 推文數藏在 div 裡面的 span 所以分開處理
recommendations = soup.find_all("div", class_ = "nrec")
for recommendation in recommendations:
    try:
        recommends.append(int(recommendation.find("span").string))
    except:
        recommends.append(np.nan)

print(author_ids)
print(recommends)
print(post_titles)
print(post_dates)

['ts012108', '-', 'simon0987', 'Raskolnikov', 'Ayanami5566', 'adam7148', 'kosha', 'permoon', 'fukawa947', 'zzyyxx77', 'james008', 'Yui5', 'Yui5', 'kadasaki', 'gap6060', 'laigei', 'laigei', 'abc7360393']
[22, nan, 17, 46, 29, 40, 67, 49, 17, nan, 45, 21, 17, nan, 14, nan, 74, nan]
['[花邊] G.Hayward出現在 NA LCS 夏季冠軍賽上', nan, '[討論] 歷史上有無鬧翻繼續打的紀錄', '[情報] LaVar Ball相信LeBron James會加入湖人', '[討論] 昔日黃蜂巨頭都奪冠了，那CP3還要多久呢?', '[花邊] 總管讚柯神就是挺勇士\u3000終於換來2座總冠', '[情報] BKN Pick + Iman for Cousins?', '[討論] 交易後賽爾提克主力陣容身高', '[新聞] 交易小刺客\u3000塞爾提克總管：這是最艱難', '[專欄] Dwyane Wade，回家還是騎士?lys', '[專欄] 詹姆斯被叫划水老漢的原因', '[新聞] 長得矮錯了嗎？ 湯瑪斯竟被誤認為「孩子', '[花邊] MattBarnes發圖：你拉屎的時候是什麼姿勢', '[公告] 板規6.1', '[情報] 2016-2017 BIG3每周二上午八點', '[情報] 2017-18 自由球員市場異動整理表 (7/26)', '[情報] 2017-18 自由球員市場異動 (逐日文字版)', 'Fw: [情報] 26th 小天使招考（8/28～9/10）']
[' 9/04', ' 9/04', ' 9/04', ' 9/04', ' 9/04', ' 9/04', ' 9/04', ' 9/04', ' 9/04', ' 9/04', ' 9/04', ' 9/04', ' 9/04', '12/02', ' 2/03', ' 6/21', ' 6/28', ' 8/28']


## 接著轉換成 data frame 

檢查結果都沒有問題之後，那我們就可以把這幾個 list 放進 dictionary 接著轉換成 data frame 了。

In [16]:
import numpy as np
import pandas as pd
import requests as rq
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/NBA/index.html'
response = rq.get(url)
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

author_ids = [] # 建立一個空的 list 來放作者 id
recommends = [] # 建立一個空的 list 來放推文數
post_titles = [] # 建立一個空的 list 來放文章標題
post_dates = [] # 建立一個空的 list 來放發文日期

posts = soup.find_all("div", class_ = "r-ent")
for post in posts:
    try:
        author_ids.append(post.find("div", class_ = "author").string)    
    except:
        author_ids.append(np.nan)
    try:
        post_titles.append(post.find("a").string)
    except:
        post_titles.append(np.nan)
    try:
        post_dates.append(post.find("div", class_ = "date").string)
    except:
        post_dates.append(np.nan)

# 推文數藏在 div 裡面的 span 所以分開處理
recommendations = soup.find_all("div", class_ = "nrec")
for recommendation in recommendations:
    try:
        recommends.append(int(recommendation.find("span").string))
    except:
        recommends.append(np.nan)
        
ptt_nba_dict = {"author": author_ids,
                "recommends": recommends,
                "title": post_titles,
                "date": post_dates
}

ptt_nba_df = pd.DataFrame(ptt_nba_dict)
ptt_nba_df

Unnamed: 0,author,date,recommends,title
0,ts012108,9/04,22.0,[花邊] G.Hayward出現在 NA LCS 夏季冠軍賽上
1,-,9/04,,
2,simon0987,9/04,17.0,[討論] 歷史上有無鬧翻繼續打的紀錄
3,Raskolnikov,9/04,46.0,[情報] LaVar Ball相信LeBron James會加入湖人
4,Ayanami5566,9/04,29.0,[討論] 昔日黃蜂巨頭都奪冠了，那CP3還要多久呢?
5,adam7148,9/04,40.0,[花邊] 總管讚柯神就是挺勇士　終於換來2座總冠
6,kosha,9/04,67.0,[情報] BKN Pick + Iman for Cousins?
7,permoon,9/04,49.0,[討論] 交易後賽爾提克主力陣容身高
8,fukawa947,9/04,17.0,[新聞] 交易小刺客　塞爾提克總管：這是最艱難
9,zzyyxx77,9/04,,[專欄] Dwyane Wade，回家還是騎士?lys
