In [32]:
# Beautiful Soup是一個 HTML parser，將 Document轉換成樹狀結構，並以func.搜尋、走訪、修改
# 亦可利用 Regular Expression 進行資料頗析，但這樣很花時間
from bs4 import BeautifulSoup as bs
import requests as req
from pprint import pprint # pretty print 使 list 有排版的樣子

In [31]:
# PTT gossip 版
url = 'https://www.ptt.cc/bbs/Gossiping/index.html'
# Gossip 版需要 cookies
my_cookies = {
    'over18':'1'
}
# 以 requests.get 取得網頁資料
res = req.get(url,cookies = my_cookies)
res.text

'<!DOCTYPE html>\n<html>\n\t<head>\n\t\t<meta charset="utf-8">\n\t\t\n\n<meta name="viewport" content="width=device-width, initial-scale=1">\n\n<title>看板 Gossiping 文章列表 - 批踢踢實業坊</title>\n\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-common.css">\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen">\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-custom.css">\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen">\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print">\n\n\n\n\n\t</head>\n    <body>\n\t\t\n<div id="topbar-container">\n\t<div id="topbar" class="bbs-content">\n\t\t<a id="logo" href="/bbs/">批踢踢實業坊</a>\n\t\t<span>&rsaquo;</span>\n\t\t<a class="board" href="/bbs/Gossiping/index.html"><span class="board-label">看板 </span>Gossiping</a>\n\t\t<a class="right small" href="/about.html

In [25]:
# 使用 bs，並使用 lxml 作為 parser
soup = bs(res.text,'lxml') # PTT Gossip 版首頁的樣子
# 可使用的函數有 .find(), .find_all(), .select＿one(), .select()
print(soup.find('a')) # 取得第一個 anchor 標籤
print(soup.find_all('a')[0]) # find_all 取得的結果為一個 list
# 取得 id 為 logo 的元素（物件）
logo = soup.find(id = 'logo')
print(logo.text) 
# 取得所有 div，類別名稱為 r-ent 的元素，結果為一個 list
# 取得之結果包含 <div class="r-ent"> 及其子子孫孫
posts = soup.find_all('div',class_ = 'r-ent')
print(posts)

<a href="/bbs/" id="logo">批踢踢實業坊</a>
<a href="/bbs/" id="logo">批踢踢實業坊</a>
批踢踢實業坊
[<div class="r-ent">
<div class="nrec"><span class="hl f2">3</span></div>
<div class="title">
<a href="/bbs/Gossiping/M.1717225688.A.64E.html">[問卦] J聯盟B聯盟之父是天才吧 中華民國沒人才?</a>
</div>
<div class="meta">
<div class="author">oftisa</div>
<div class="article-menu">
<div class="trigger">⋯</div>
<div class="dropdown">
<div class="item"><a href="/bbs/Gossiping/search?q=thread%3A%5B%E5%95%8F%E5%8D%A6%5D+J%E8%81%AF%E7%9B%9FB%E8%81%AF%E7%9B%9F%E4%B9%8B%E7%88%B6%E6%98%AF%E5%A4%A9%E6%89%8D%E5%90%A7+%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B%E6%B2%92%E4%BA%BA%E6%89%8D%3F">搜尋同標題文章</a></div>
<div class="item"><a href="/bbs/Gossiping/search?q=author%3Aoftisa">搜尋看板內 oftisa 的文章</a></div>
</div>
</div>
<div class="date"> 6/01</div>
<div class="mark"></div>
</div>
</div>, <div class="r-ent">
<div class="nrec"></div>
<div class="title">
<a href="/bbs/Gossiping/M.1717225797.A.7C5.html">[問卦] 再多久AI會像網路手機一樣大家不得不用</a>
</div>
<div class="me

In [30]:
# 透過 CSS selector 取得元素，回傳為 list
# CSS selector根據 HTML 文件的結構來搜尋元素，使用上比.find()靈活

# 使用 select_one() 輸出 title 標籤
print(soup.select_one('title')) # Element Selector

# 使用 select() 輸出「所有」a 標籤
print(soup.select('a')) # Element Selector

# 使用 select() 並在標籤後加入 .class 
print(soup.select('a.board')) # Class Selector

# 使用 select_one() 並用 id 名稱取得元素
print(soup.select_one('#logo')) # ID Selector

<title>看板 Gossiping 文章列表 - 批踢踢實業坊</title>
[<a href="/bbs/" id="logo">批踢踢實業坊</a>, <a class="board" href="/bbs/Gossiping/index.html"><span class="board-label">看板 </span>Gossiping</a>, <a class="right small" href="/about.html">關於我們</a>, <a class="right small" href="/contact.html">聯絡資訊</a>, <a class="btn selected" href="/bbs/Gossiping/index.html">看板</a>, <a class="btn" href="/man/Gossiping/index.html">精華區</a>, <a class="btn wide" href="/bbs/Gossiping/index1.html">最舊</a>, <a class="btn wide" href="/bbs/Gossiping/index39375.html">‹ 上頁</a>, <a class="btn wide disabled">下頁 ›</a>, <a class="btn wide" href="/bbs/Gossiping/index.html">最新</a>, <a href="/bbs/Gossiping/M.1717225688.A.64E.html">[問卦] J聯盟B聯盟之父是天才吧 中華民國沒人才?</a>, <a href="/bbs/Gossiping/search?q=thread%3A%5B%E5%95%8F%E5%8D%A6%5D+J%E8%81%AF%E7%9B%9FB%E8%81%AF%E7%9B%9F%E4%B9%8B%E7%88%B6%E6%98%AF%E5%A4%A9%E6%89%8D%E5%90%A7+%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B%E6%B2%92%E4%BA%BA%E6%89%8D%3F">搜尋同標題文章</a>, <a href="/bbs/Gossiping/search?q=autho

In [37]:
# 取得單一節點的文字內容
print(soup.select_one('title').get_text()) # select_one 會回傳單一 beautiful element 物件
print(soup.select('a')[0].get_text()) # select 會回傳 list

看板 Gossiping 文章列表 - 批踢踢實業坊
批踢踢實業坊


In [41]:
# 透過迭代取得所有 a 標籤內容
for x in soup.select('a'):
    print(x.get_text()) # 此時 x 是 list 中的一個元素，不需要再使用 [0]

批踢踢實業坊
看板 Gossiping
關於我們
聯絡資訊
看板
精華區
最舊
‹ 上頁
下頁 ›
最新
[問卦] J聯盟B聯盟之父是天才吧 中華民國沒人才?
搜尋同標題文章
搜尋看板內 oftisa 的文章
[問卦] 再多久AI會像網路手機一樣大家不得不用
搜尋同標題文章
搜尋看板內 Zcould 的文章
[問卦] 黃仁勳怎麼訂到鄒記的？
搜尋同標題文章
搜尋看板內 alexf1027 的文章
[問卦] 張學良有打過日本人嗎?
搜尋同標題文章
搜尋看板內 rhu 的文章
Re: [爆卦] 民視新聞網報導：苗博雅直播叫觀眾製作造
搜尋同標題文章
搜尋看板內 zebra101 的文章
Re: [問卦] D卡大學生怒：國中小被支那語統戰
搜尋同標題文章
搜尋看板內 chirex 的文章
[問卦] 有沒有IG一堆低端的廣告八卦？
搜尋同標題文章
搜尋看板內 NENE31 的文章
[新聞] 群創股東會／通過減資12% 每股退還現金
搜尋同標題文章
搜尋看板內 aabbcc520 的文章
[問卦] 64坦克人值得一個讚的勇者
搜尋同標題文章
搜尋看板內 apple03 的文章
[新聞] 沒有陸客還有日韓東南亞客 專家分析市場
搜尋同標題文章
搜尋看板內 sukiya 的文章
[問卦] 你各位在家吃飯時會拿白飯配餃子ㄇ？
搜尋同標題文章
搜尋看板內 SaintSeven 的文章
[問卦] 美國為何不用廢死?
搜尋同標題文章
搜尋看板內 Kimmy 的文章
Re: [問卦] 孫安佐本來就沒救了
搜尋同標題文章
搜尋看板內 bota 的文章
[問卦] 狄鶯年輕時要嫁給你 你ok嗎？
搜尋同標題文章
搜尋看板內 norvasc 的文章
[問卦] 女友說想去中國城吃蟹麵
搜尋同標題文章
搜尋看板內 HNCB2880 的文章
[公告] 八卦板板規(2023.11.11)
搜尋同標題文章
搜尋看板內 lwt501cx 的文章
Fw: [公告] 板務部多重帳號送件辦法修正Ver2.0
搜尋同標題文章
搜尋看板內 ubcs 的文章
[公告] 六月份置底閒聊區 六月十日端午節吃粽子
搜尋同標題文章
搜尋看板內 diefishfish 的文章


In [44]:
# 透過迭代取得所有 a 的屬性 href，href 是標籤的超連結
for x in soup.select('a'):
    if(x.has_attr('href')):
        print(x['href']) # 或 print(x.get('href'))
    else:
        print('='*40)
        print(f'[{x.get_text()}]沒有超連結')
        print('='*40)

/bbs/
/bbs/Gossiping/index.html
/about.html
/contact.html
/bbs/Gossiping/index.html
/man/Gossiping/index.html
/bbs/Gossiping/index1.html
/bbs/Gossiping/index39375.html
[下頁 ›]沒有超連結
/bbs/Gossiping/index.html
/bbs/Gossiping/M.1717225688.A.64E.html
/bbs/Gossiping/search?q=thread%3A%5B%E5%95%8F%E5%8D%A6%5D+J%E8%81%AF%E7%9B%9FB%E8%81%AF%E7%9B%9F%E4%B9%8B%E7%88%B6%E6%98%AF%E5%A4%A9%E6%89%8D%E5%90%A7+%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B%E6%B2%92%E4%BA%BA%E6%89%8D%3F
/bbs/Gossiping/search?q=author%3Aoftisa
/bbs/Gossiping/M.1717225797.A.7C5.html
/bbs/Gossiping/search?q=thread%3A%5B%E5%95%8F%E5%8D%A6%5D+%E5%86%8D%E5%A4%9A%E4%B9%85AI%E6%9C%83%E5%83%8F%E7%B6%B2%E8%B7%AF%E6%89%8B%E6%A9%9F%E4%B8%80%E6%A8%A3%E5%A4%A7%E5%AE%B6%E4%B8%8D%E5%BE%97%E4%B8%8D%E7%94%A8
/bbs/Gossiping/search?q=author%3AZcould
/bbs/Gossiping/M.1717225844.A.F4D.html
/bbs/Gossiping/search?q=thread%3A%5B%E5%95%8F%E5%8D%A6%5D+%E9%BB%83%E4%BB%81%E5%8B%B3%E6%80%8E%E9%BA%BC%E8%A8%82%E5%88%B0%E9%84%92%E8%A8%98%E7%9A%84%EF%BC%9F
/bbs/Go