# requests 及 beautifulsoup 模組的使用教學

## 學習重點：

* 使用 requests 來抓取網頁資料
  - 學習使用不同的 http method 來抓取資料
* 使用 BeautifulSoup 來剖析網頁資料
  - 學習使用 css selector 來剖析特定頁簽的資料

## 載入需要的模組

In [1]:
# 載入需要的套件
import requests
from bs4 import BeautifulSoup

## 讀取網頁原始碼

In [2]:
url = 'http://example.com/'
r = requests.get(url)
r.text

'<!doctype html>\n<html>\n<head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8" />\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1" />\n    <style type="text/css">\n    body {\n        background-color: #f0f0f2;\n        margin: 0;\n        padding: 0;\n        font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;\n        \n    }\n    div {\n        width: 600px;\n        margin: 5em auto;\n        padding: 50px;\n        background-color: #fff;\n        border-radius: 1em;\n    }\n    a:link, a:visited {\n        color: #38488f;\n        text-decoration: none;\n    }\n    @media (max-width: 700px) {\n        body {\n            background-color: #fff;\n        }\n        div {\n            width: auto;\n            margin: 0 auto;\n            border-radius: 0;\n            padding: 1em;\n        }\n    }\n    </style>    \n</head>\n\n<body>\n<div>\n

## 讓輸出更好看一點

In [3]:
import pprint
pp = pprint.PrettyPrinter(indent=4)
pp.pprint(r.text)

('<!doctype html>\n'
 '<html>\n'
 '<head>\n'
 '    <title>Example Domain</title>\n'
 '\n'
 '    <meta charset="utf-8" />\n'
 '    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n'
 '    <meta name="viewport" content="width=device-width, initial-scale=1" />\n'
 '    <style type="text/css">\n'
 '    body {\n'
 '        background-color: #f0f0f2;\n'
 '        margin: 0;\n'
 '        padding: 0;\n'
 '        font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, '
 'sans-serif;\n'
 '        \n'
 '    }\n'
 '    div {\n'
 '        width: 600px;\n'
 '        margin: 5em auto;\n'
 '        padding: 50px;\n'
 '        background-color: #fff;\n'
 '        border-radius: 1em;\n'
 '    }\n'
 '    a:link, a:visited {\n'
 '        color: #38488f;\n'
 '        text-decoration: none;\n'
 '    }\n'
 '    @media (max-width: 700px) {\n'
 '        body {\n'
 '            background-color: #fff;\n'
 '        }\n'
 '        div {\n'
 '            width: auto;\n'
 '            

## 使用 beautifulsoup 剖析 html 原始碼

In [4]:
soup = BeautifulSoup(r.text, 'lxml')
soup.select('body div p')[0].text

'This domain is established to be used for illustrative examples in documents. You may use this\n    domain in examples without prior coordination or asking for permission.'

## 使用 Requests + BeautifulSoup 抓取新聞文章

In [5]:
url = 'https://news.cnyes.com/news/id/3949102'

In [6]:
r = requests.get(url)

In [7]:
soup = BeautifulSoup(r.text, 'lxml')

In [8]:
soup.select('div[itemprop="articleBody"]')[0].text

'美股指數期貨週四（26 日）走勢相對平淡，投資人聚焦另一系列大型企業財報數字。道瓊工業平均指數期貨上漲 43\xa0點，標普 500 指數期貨與那斯達克 100 指數期貨分別上漲 3.00\xa0點與下跌 2.00\xa0點。\n推特（Twitter）、福特（Ford）、西南航空（Southwest Airlines）與有線電視及寬頻網絡等供應商康卡斯特（Comcast）等皆於盤前公佈上季財報。其中，推特財報表現優於市場預期，推升股價盤前大漲超過 10% ，福特上季獲利同樣超出華爾街預期，股價盤前上漲 1.5% 。\n科技界財報重頭戲也即將展開，包括亞馬遜、 Google 母公司\xa0Alphabet 、英特爾與微軟等，預計於週四美股盤後公佈上季財報數字。\n央行同時也是週四國際市場的重點，投資人聚焦歐洲央行（European Central Bank）貨幣政策決議，與美國聯準會（U.S. Federal Reserve）下屆主席人選的消息。\n根據《路透社》近期公佈市場調查，較多的經濟學家預期聯準會理事鮑爾（Jerome Powell）將成為下屆聯準會主席。另外，投資人預期歐洲央行本次會議將宣佈，該央行將開始採取退出極度寬鬆貨幣政策的計畫。\n'

## 【練習】

請抓取底下 url 的新聞文章。

In [9]:
url = 'https://tw.finance.appledaily.com/realtime/20180121/1283033/'

## 【進階】

參考：[[爬蟲實戰] 如何告訴PTT我已滿18並順利抓取八卦版的文章 ?](http://largitdata.com/course/46/)

In [10]:
payload = {
    'from':'/bbs/Gossiping/index.html',
    'yes':'yes'
}
rs = requests.session()
res = rs.post('https://www.ptt.cc/ask/over18', verify=False, data=payload)
res = rs.get('https://www.ptt.cc/bbs/Gossiping/index.html', verify=False)
soup = BeautifulSoup(res.text, 'lxml')
for entry in soup.select('.r-ent'):
    print(entry.select('.date')[0].text, entry.select('.author')[0].text, entry.select('.title')[0].text)



 8/27 tamama000 
Re: [新聞] 21歲男月薪33k 女友:五萬才嫁

 8/27 crashonU 
[新聞] 台韓身價差4億　韓網：沒想到會輸給銀行

 8/27 Mohism 
[問卦] 南部宮廟每年繞境為何還會淹水?

 8/27 norfinway 
[問卦] 佛地魔分靈體為啥不隨便找顆石頭

 8/27 abc115 
[問卦] 筆電一片灰怎麼辦

 8/27 oz5566 
[問卦] 台語算是落後語言嗎

 8/27 BleedWang 
[舊聞]陸小芬夫陳俊源被控以暴利詐財　吸金逾5

 8/27 lio226 
Re: [新聞] 陳沂罵志願役「廢物」 國防部怒告！

 8/27 Niixtion 
[問卦] 以前有一款可以全裸的線上遊戲

 8/27 biach4300736 
Re: [問卦] 跟洋妞%%%%感覺是啥

 8/27 sleepyuan 
[問卦] 為什麼一堆人搶在今天登記結婚???

 8/27 sylvia0915 
[新聞] 女大生撞阿婆遭求償36萬！兒：我媽闖紅燈

 8/27 japanx 
[問卦] 有沒有文青女神Hebe的八卦?

 8/27 klyuch 
Re: [新聞] 新新住民來了！外配歸化後離婚，再與外國人結婚

 8/27 megabio 
Re: [新聞] 台灣首次安樂死公投 衝連署書拚年底大選

 8/27 bill0205 
Re: [新聞] 拒簽東奧正名連署 柯Ｐ:討厭被脅迫表達意

 8/27 myIDis7 
[問卦] 愛家公投好像沒什麼討論聲調

 8/27 yun54272 
Re: [新聞] 陳沂罵志願役「廢物」 國防部怒告！

 8/27 su5zi6 
Fw: [新聞] 小熊買下恐同猛將 同性戀球迷憤怒！

 8/27 iamfenixsc 
[爆卦] 中華台北 贏 巴基斯坦

11/11 Kay731 
[公告] 八卦板板規(2017.11.11)

 7/31 RandyMarsh 
[公告] 八月份置底閒聊文

 8/25 breadbear 
[協尋] 8/24清晨岡山嘉新東路行車記錄器

 8/23 donghey 
[協尋] 8/23朋友姨丈搭公車失蹤尋人

 8/23 jack455161 
[協尋] 8/23新北市新店區中興路一段93號

