# requests 及 beautifulsoup 模組的使用教學

In [10]:
# 載入需要的套件
import requests
from bs4 import BeautifulSoup
import pprint

## 讀取網頁原始碼

In [17]:
url = 'http://example.com/'
r = requests.get(url)
r.text

'<!doctype html>\n<html>\n<head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8" />\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1" />\n    <style type="text/css">\n    body {\n        background-color: #f0f0f2;\n        margin: 0;\n        padding: 0;\n        font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;\n        \n    }\n    div {\n        width: 600px;\n        margin: 5em auto;\n        padding: 50px;\n        background-color: #fff;\n        border-radius: 1em;\n    }\n    a:link, a:visited {\n        color: #38488f;\n        text-decoration: none;\n    }\n    @media (max-width: 700px) {\n        body {\n            background-color: #fff;\n        }\n        div {\n            width: auto;\n            margin: 0 auto;\n            border-radius: 0;\n            padding: 1em;\n        }\n    }\n    </style>    \n</head>\n\n<body>\n<div>\n

## 讓輸出更好看一點

In [18]:
pp = pprint.PrettyPrinter(indent=4)
pp.pprint(r.text)

('<!doctype html>\n'
 '<html>\n'
 '<head>\n'
 '    <title>Example Domain</title>\n'
 '\n'
 '    <meta charset="utf-8" />\n'
 '    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n'
 '    <meta name="viewport" content="width=device-width, initial-scale=1" />\n'
 '    <style type="text/css">\n'
 '    body {\n'
 '        background-color: #f0f0f2;\n'
 '        margin: 0;\n'
 '        padding: 0;\n'
 '        font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, '
 'sans-serif;\n'
 '        \n'
 '    }\n'
 '    div {\n'
 '        width: 600px;\n'
 '        margin: 5em auto;\n'
 '        padding: 50px;\n'
 '        background-color: #fff;\n'
 '        border-radius: 1em;\n'
 '    }\n'
 '    a:link, a:visited {\n'
 '        color: #38488f;\n'
 '        text-decoration: none;\n'
 '    }\n'
 '    @media (max-width: 700px) {\n'
 '        body {\n'
 '            background-color: #fff;\n'
 '        }\n'
 '        div {\n'
 '            width: auto;\n'
 '            

## 使用 beautifulsoup 剖析 html 原始碼

In [22]:
soup = BeautifulSoup(r.text, 'lxml')
soup.select('body div p')[0].text

'This domain is established to be used for illustrative examples in documents. You may use this\n    domain in examples without prior coordination or asking for permission.'

## 使用 Requests + BeautifulSoup 抓取新聞文章

In [23]:
url = 'https://news.cnyes.com/news/id/3949102'

In [24]:
r = requests.get(url)

In [25]:
soup = BeautifulSoup(r.text, 'lxml')

In [26]:
soup.select('div[itemprop="articleBody"]')[0].text

'美股指數期貨週四（26 日）走勢相對平淡，投資人聚焦另一系列大型企業財報數字。道瓊工業平均指數期貨上漲 43\xa0點，標普 500 指數期貨與那斯達克 100 指數期貨分別上漲 3.00\xa0點與下跌 2.00\xa0點。\n推特（Twitter）、福特（Ford）、西南航空（Southwest Airlines）與有線電視及寬頻網絡等供應商康卡斯特（Comcast）等皆於盤前公佈上季財報。其中，推特財報表現優於市場預期，推升股價盤前大漲超過 10% ，福特上季獲利同樣超出華爾街預期，股價盤前上漲 1.5% 。\n科技界財報重頭戲也即將展開，包括亞馬遜、 Google 母公司\xa0Alphabet 、英特爾與微軟等，預計於週四美股盤後公佈上季財報數字。\n央行同時也是週四國際市場的重點，投資人聚焦歐洲央行（European Central Bank）貨幣政策決議，與美國聯準會（U.S. Federal Reserve）下屆主席人選的消息。\n根據《路透社》近期公佈市場調查，較多的經濟學家預期聯準會理事鮑爾（Jerome Powell）將成為下屆聯準會主席。另外，投資人預期歐洲央行本次會議將宣佈，該央行將開始採取退出極度寬鬆貨幣政策的計畫。\n'

## 練習

請抓取底下 url 的新聞文章。

In [None]:
url = 'https://tw.finance.appledaily.com/realtime/20180121/1283033/'

## 進階使用

參考：[[爬蟲實戰] 如何告訴PTT我已滿18並順利抓取八卦版的文章 ?](http://largitdata.com/course/46/)

In [33]:
payload = {
    'from':'/bbs/Gossiping/index.html',
    'yes':'yes'
}
rs = requests.session()
res = rs.post('https://www.ptt.cc/ask/over18', verify=False, data=payload)
res = rs.get('https://www.ptt.cc/bbs/Gossiping/index.html', verify=False)
soup = BeautifulSoup(res.text, 'lxml')
for entry in soup.select('.r-ent'):
    print(entry.select('.date')[0].text, entry.select('.author')[0].text, entry.select('.title')[0].text)



 1/21 gok338338 
[問卦]玩股票的都說中國科技海放台灣

 1/21 feelcool 
Re: [新聞] 驚！台人赴日必買5種藥 日本人竟然幾乎沒

 1/21 ccyaztfe 
Re: [問卦] 安西教練到底靠什麼過活？

 1/21 pchion2013 
[問卦] 悲！慟！剛剛被人借50加油

 1/21 tinhanho 
[問卦] 果醬爺爺到底靠什麼過活

 1/21 Mulsanne 
[問卦] 如何讓黃牛賠到脫褲

 1/21 oppo5566 
[問卦] 仰臥起坐一次能做7下算什麼水準？

 1/21 geordie 
Re: [新聞] 邱垂正：暫緩加班機是正告對岸儘速協商

 1/21 kilig 
Re: [問卦] 「可憐之人必有可恨之處」是真理嗎?

 1/21 dudeboy 
[問卦] 內褲上的黃漬要怎麼去除啊

 1/21 hazel0093 
[ＦＢ] 吳秉叡：校園安全拉緊報

 1/21 huice 
[問卦] 有沒有數位修復的八卦？

 1/21 uini 
[新聞] 拋家棄子找小三 中風後竟求子女扶養

 1/21 blackkeyss 
[問卦] 肥宅時間過的比較慢？

 1/21 nasa3137 
[問卦] 1100含服務費吃什麼最划算

 1/21 shark0326 
[爆卦] 匿名粉專錄事馬西郎真實性存疑(文末雞排)

 1/21 tony900735 
Re: [問卦] 公務員有多爽離職率才會遠低於3%？

 1/21 YU0121 
[問卦] 龜頭都乾扁扁的是不是生病了？

 1/21 CuteGG 
[問卦] PS4最近有其他遊戲能和魔物獵人一拚的嗎

 1/21 giorno78 
Re: [問卦] 當youtuber是不是本來就要家境不錯？

11/11 Kay731 
[公告] 八卦板板規(2017.12.01)

 1/17 only385 
[問卦] 1/15 高雄楠梓區重大車禍 行車記錄器影

 1/18 woohyuk49 
【協尋】父親失蹤，懇請大家幫忙！

 1/17 littleaunt 
[問卦] 1/15高雄小港機場-停車場2號出口車禍

 1/01 Kay731 
[公告] 元月份八卦板置底閒聊文

