### 首先先載入相關的套件 

In [1]:
import requests

### 透過```requests.get()```的方式，可以直接像目標網站發送請求，網站回傳的結果便會儲存在變數```resp```中。

In [2]:
url = 'https://www.dcard.tw/f'
header = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}

resp = requests.get(url, headers=header)

### 透過status_code來查看回傳的狀態種類。

- ### 1xx: 訊息，代表請求已被接受，需要繼續處理。
    - 例如：102，伺服器已經收到請求並正在處理。這類型的訊息並不常出現。
- ### 2xx: 成功，代表請求已成功被伺服器接收、理解、並接受。
    - 例如：200，請求已成功，請求的內容隨此回應返回。
- ### 3xx: 重新導向，代表需要用戶端採取進一步的操作才能完成請求。
    - 例如：305，被請求的資源必須通過指定的代理才能被存取。
- ### 4xx: 用戶端錯誤，代表了用戶端看起來可能發生了錯誤，妨礙了伺服器的處理。
    - 例如：404，請求失敗，請求所希望得到的資源未被在伺服器上發現，但允許用戶的後續請求。
- ### 5xx: 伺服器錯誤，代表服器無法完成明顯有效的請求。
    - 例如：500，伺服器遇到意外狀況，無法完成請求的處理。

In [3]:
resp.status_code

200

### 查看抓下來的內容 

In [4]:
resp.text

'<!DOCTYPE html><html lang="zh-TW"><head prefix="og: http://ogp.me/ns#" itemscope="" itemType="https://schema.org/WebSite"><meta charSet="utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge"/><meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1"/><meta name="apple-mobile-web-app-status-bar-style" content="default"/><link rel="stylesheet" type="text/css" href="https://fonts.googleapis.com/css?family=Roboto:400,300"/><meta name="application-name" content="Dcard"/><meta name="apple-itunes-app" content="app-id=951353454"/><meta name="theme-color" content="#006aa6"/><meta name="mobile-web-app-capable" content="yes"/><meta name="apple-mobile-web-app-capable" content="yes"/><meta name="supported-color-schemes" content="light"/><meta property="fb:app_id" content="211628828926493"/><meta property="fb:pages" content="178875832200695,577748865730563,1333515469994506,619122564952487,804004803032067,178024805867764"/><meta property="al:ios:app_store_id" conten

In [5]:
type(resp.text)

str

### 從上面可以得知，```requests```已經幫我們把整個網頁抓下來，並存成```str```的格式，但是這種格式不利我們選出想要的資料，這時候就換```BeautifulSoup```上場了：

### 一樣先載入模組

In [6]:
from bs4 import BeautifulSoup

### lxml是一種html的解析器(parser)，速度較Python內建的html.parser快，使用前需先下載：
```bash
pip install lxml
```

In [7]:
html = resp.text
soup = BeautifulSoup(html, "lxml")

In [8]:
%timeit BeautifulSoup(html, "lxml")
%timeit BeautifulSoup(html, "html.parser")

29 ms ± 2.04 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
38.6 ms ± 1.12 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


###  透過```prettify()```將結果排版後輸出

In [9]:
soup.prettify()

'<!DOCTYPE html>\n<html lang="zh-TW">\n <head itemscope="" itemtype="https://schema.org/WebSite" prefix="og: http://ogp.me/ns#">\n  <meta charset="utf-8"/>\n  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>\n  <meta content="width=device-width, initial-scale=1, minimum-scale=1" name="viewport"/>\n  <meta content="default" name="apple-mobile-web-app-status-bar-style"/>\n  <link href="https://fonts.googleapis.com/css?family=Roboto:400,300" rel="stylesheet" type="text/css"/>\n  <meta content="Dcard" name="application-name"/>\n  <meta content="app-id=951353454" name="apple-itunes-app"/>\n  <meta content="#006aa6" name="theme-color"/>\n  <meta content="yes" name="mobile-web-app-capable"/>\n  <meta content="yes" name="apple-mobile-web-app-capable"/>\n  <meta content="light" name="supported-color-schemes"/>\n  <meta content="211628828926493" property="fb:app_id"/>\n  <meta content="178875832200695,577748865730563,1333515469994506,619122564952487,804004803032067,178024805867764" propert

In [10]:
type(soup)

bs4.BeautifulSoup

### 經過轉換，原本是str的HTML，已經被轉換成bs4的物件。下面列出一些bs4物件的屬性和方法

In [11]:
soup.title

<title>Dcard</title>

In [12]:
soup.title.name

'title'

In [13]:
soup.title.string

'Dcard'

In [14]:
soup.a

<a class="sc-1h3w01r-0 BYkrm" href="/f" title="Dcard"><img alt="Dcard" class="ezgous-0 ktvxUR" src="/_next/static/images/logo-6c547910a47669647856d4c9cc62f0ba.svg"/></a>

In [15]:
soup.find('a')

<a class="sc-1h3w01r-0 BYkrm" href="/f" title="Dcard"><img alt="Dcard" class="ezgous-0 ktvxUR" src="/_next/static/images/logo-6c547910a47669647856d4c9cc62f0ba.svg"/></a>

### 抓出超連結中的網址

In [16]:
a_list = soup.find_all("a")
for i in range(20):
    print(a_list[i].get('href'))

/f
/signup?redirect=%2Ff
None
/forum/all
/forum/popular
/goods
/f
/f?pessoal=true
/f/mood/p/233377179
/f/funny/p/233378786
/f/funny/p/233377448
/f/funny/p/233377001
/f/makeup/p/233377097
/f/relationship/p/233377014
/f/funny/p/233375983
/f/relationship/p/233377675
/f/youtuber/p/233377693
/f/girl/p/233376121
/f/2019_ncov/p/233378302
/f/trending/p/233377490


### 可以設定參數，來查找特定tag

### 列出Dard十大熱門文章及其網址

In [17]:
soup.find_all('a', class_='sc-1v1d5rx-4 cJzlcl')

[<a class="sc-1v1d5rx-4 cJzlcl" href="/f/mood/p/233377179"><span>「妹妹，要不要一起玩？」</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/funny/p/233378786"><span>驚！馬桶驚見⋯⋯</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/funny/p/233377448"><span>看到我弟如何幹話回覆直銷</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/funny/p/233377001"><span>最後一隻差點往生</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/makeup/p/233377097"><span>我的眉毛之路</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/relationship/p/233377014"><span>女朋友越來越沒引力</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/funny/p/233375983"><span>感覺被nasa冒犯：（</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/relationship/p/233377675"><span>這麼早結婚不會覺得失去什麼嗎？或是少了很多樂趣嗎？</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/youtuber/p/233377693"><span>原來胡椒不只打排球，棒球也打</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/girl/p/233376121"><span>路上神經病瘋子真的很多，好可怕😭 (台北車站-中山站周遭)</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/2019_ncov/p/2333783

In [18]:
title = soup.find_all('a', class_='sc-1v1d5rx-4 cJzlcl')
for i in range(10):
    print(title[i].string)
    print("文章ID:" + title[i].get('href').split('/')[-1])
    print("文章網址： https://www.dcard.tw{}".format(title[i].get('href')))

「妹妹，要不要一起玩？」
文章ID:233377179
文章網址： https://www.dcard.tw/f/mood/p/233377179
驚！馬桶驚見⋯⋯
文章ID:233378786
文章網址： https://www.dcard.tw/f/funny/p/233378786
看到我弟如何幹話回覆直銷
文章ID:233377448
文章網址： https://www.dcard.tw/f/funny/p/233377448
最後一隻差點往生
文章ID:233377001
文章網址： https://www.dcard.tw/f/funny/p/233377001
我的眉毛之路
文章ID:233377097
文章網址： https://www.dcard.tw/f/makeup/p/233377097
女朋友越來越沒引力
文章ID:233377014
文章網址： https://www.dcard.tw/f/relationship/p/233377014
感覺被nasa冒犯：（
文章ID:233375983
文章網址： https://www.dcard.tw/f/funny/p/233375983
這麼早結婚不會覺得失去什麼嗎？或是少了很多樂趣嗎？
文章ID:233377675
文章網址： https://www.dcard.tw/f/relationship/p/233377675
原來胡椒不只打排球，棒球也打
文章ID:233377693
文章網址： https://www.dcard.tw/f/youtuber/p/233377693
路上神經病瘋子真的很多，好可怕😭 (台北車站-中山站周遭)
文章ID:233376121
文章網址： https://www.dcard.tw/f/girl/p/233376121


### API方式示範：Dcard

In [19]:
url = "https://www.dcard.tw/f/mood/p/233377179"
resp = requests.get(url)
resp.status_code

200

In [20]:
html = resp.text
html = BeautifulSoup(html, "lxml")

In [21]:
html.find_all("div", class_="sc-1wrppqn-3 fIdNgN")

[<div class="sc-1wrppqn-3 fIdNgN">國立臺灣大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">中國醫藥大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">國立雲林科技大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">國立雲林科技大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">國立臺灣大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">中國醫藥大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">鯊魚養殖戶</div>,
 <div class="sc-1wrppqn-3 fIdNgN">新北倉鼠系</div>,
 <div class="sc-1wrppqn-3 fIdNgN">中國文化大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">這則回應已被刪除</div>,
 <div class="sc-1wrppqn-3 fIdNgN">高苑科技大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">僑光科技大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">國立交通大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">耕莘健康管理專科學校</div>,
 <div class="sc-1wrppqn-3 fIdNgN">致理科技大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">輔英科技大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">國立中央大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">高雄醫學大學</div>,
 <div class="sc-1wrppqn-3 fIdNgN">國立政治大學 法律研究所</div>,
 <div class="sc-1wrppqn-3 fIdNgN">臺北城市科技大學</div>,
 <div class="sc-1wrppqn-

### 使用api去資料

In [22]:
article_id = "233377179" 
dcard_api = "https://www.dcard.tw/service/api/v2/posts/{}/comments".format(article_id)

header = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
resp = requests.get(dcard_api, headers=header)
print(resp.url)
print()
print(resp.text)

https://www.dcard.tw/service/api/v2/posts/233377179/comments

[{"id":"1f4c8e1f-a48f-4d9a-8b7f-7f88fda4c847","anonymous":true,"postId":233377179,"createdAt":"2020-03-30T19:53:32.993Z","updatedAt":"2020-03-30T19:53:32.993Z","floor":1,"content":"妳和你哥都辛苦了  加油","likeCount":4783,"withNickname":false,"hiddenByAuthor":false,"meta":{},"gender":"M","school":"國立雲林科技大學","host":false,"reportReason":"","mediaMeta":[],"hidden":false,"inReview":false,"reportReasonText":"","isSuspiciousAccount":false,"postAvatar":""},{"id":"7c91dc95-84a6-4679-b04b-cd9d030fd7b6","anonymous":true,"postId":233377179,"createdAt":"2020-03-30T20:15:39.247Z","updatedAt":"2020-03-31T23:37:02.221Z","floor":2,"content":"終於有正常的文章\n\n\n第一次有這麼多愛心@@\nB130","likeCount":7108,"withNickname":false,"hiddenByAuthor":false,"meta":{},"gender":"M","school":"國立臺灣大學","host":false,"reportReason":"","mediaMeta":[],"hidden":false,"inReview":false,"reportReasonText":"","isSuspiciousAccount":false,"postAvatar":""},{"id":"8a172145-4c36-4859-8c4c-9a0

### 用JSON的方式呈現 

In [23]:
resp.json()

[{'id': '1f4c8e1f-a48f-4d9a-8b7f-7f88fda4c847',
  'anonymous': True,
  'postId': 233377179,
  'createdAt': '2020-03-30T19:53:32.993Z',
  'updatedAt': '2020-03-30T19:53:32.993Z',
  'floor': 1,
  'content': '妳和你哥都辛苦了  加油',
  'likeCount': 4783,
  'withNickname': False,
  'hiddenByAuthor': False,
  'meta': {},
  'gender': 'M',
  'school': '國立雲林科技大學',
  'host': False,
  'reportReason': '',
  'mediaMeta': [],
  'hidden': False,
  'inReview': False,
  'reportReasonText': '',
  'isSuspiciousAccount': False,
  'postAvatar': ''},
 {'id': '7c91dc95-84a6-4679-b04b-cd9d030fd7b6',
  'anonymous': True,
  'postId': 233377179,
  'createdAt': '2020-03-30T20:15:39.247Z',
  'updatedAt': '2020-03-31T23:37:02.221Z',
  'floor': 2,
  'content': '終於有正常的文章\n\n\n第一次有這麼多愛心@@\nB130',
  'likeCount': 7108,
  'withNickname': False,
  'hiddenByAuthor': False,
  'meta': {},
  'gender': 'M',
  'school': '國立臺灣大學',
  'host': False,
  'reportReason': '',
  'mediaMeta': [],
  'hidden': False,
  'inReview': False,
  'reportR

In [24]:
len(resp.json())

30

In [25]:
for i in resp.json():
    if "content" in i:
        print(i['content'])

妳和你哥都辛苦了  加油
終於有正常的文章


第一次有這麼多愛心@@
B130
真是一個滿分的妹妹………
都辛苦了
你是個很好的妹妹
別給自己太大的壓力
感覺妳已經很棒了
辛苦了，你很棒
你是一個好妹妹，辛苦你了，要加油唷
辛苦妳了，妳哥哥也是

加油加油努力過好每一天💪💪
你很好！是哥哥的天使！更是哥哥的全部
我姐也是智能不足
辛苦了～
辛苦妳了 妳最棒了QQ
哥哥一定很謝謝有你這個好妹妹❤️
真的你好棒！你也是一個很善良的人喔 跟你哥哥果然是最好的夥伴呢o(≧v≦)o
都辛苦了♡你真的很棒！
你是個好妹妹
文筆好好
妳是一個很棒的妹妹
也謝謝妳的這篇文章
讓人覺得心裡暖洋洋的
妳們都是心地善良的小天使
加油
老闆⋯⋯我的早餐你怎麼加那麼多生洋蔥⋯⋯
只是喝杯奶茶怎麼沒味道...
啊抱歉我眼淚滴太多了
看到標題以為是母湯的
我的課本上都是我的淚😭
（抱
好暖心喔！反而是當媽媽的怎麼都會把情緒發洩小孩身上 很舒壓？媽的！因為我也是被媽媽時常發洩情緒勒索我
你真的好棒
願世人能善待你們的溫柔善良
校園裡面有你這麼溫暖的人真好🧡
哥哥不幸中的大幸就是擁有你這個妹妹
要好好繼續加油哦！
妳也是善良溫暖的人呀☺️
辛苦你了！你要了解哥哥並不是你的責任，所以不要讓自己壓力太大！你的善良與愛，世界不會虧待你的🥰🥰😍😍
辛苦了！加油！妳很棒！
我們無時無刻不在成長中，
成長的每個階段，難免會有不同的想法，
重要的是，後來的我們，成為了什麼樣子。

不必太過在意曾經的想法
因為現在的你，已經是個願意為人著想，溫暖而善良的人。我們喜歡你現在的樣子。未來會變得怎麼樣，我們不知道，但只要能記住現在的感覺，那就可以了。

請愉快地小步躍著前行吧～
妹妹 很可以喔


### 查看30樓以後的留言 

In [26]:
floor = 30
url = "https://www.dcard.tw/service/api/v2/posts/233377179/comments?after={}".format(floor)

resp = requests.get(url)
resp.json()

[{'id': 'fa35f5f2-1198-4b9e-b314-ab3577a9ee7e',
  'anonymous': False,
  'postId': 233377179,
  'createdAt': '2020-03-31T03:46:56.225Z',
  'updatedAt': '2020-03-31T03:46:56.225Z',
  'floor': 31,
  'content': 'B23 媽媽應該也很痛苦吧？\n光是照顧一個正常的孩子都足以讓父母崩潰了，何況是一個智能不足的小孩，我看過很多那樣的家庭，他們真的很辛苦，不論金錢、外人眼光還是什麼，總有一堆麻煩事等著他們😢😢',
  'likeCount': 238,
  'withNickname': False,
  'hiddenByAuthor': False,
  'meta': {},
  'gender': 'F',
  'school': '亞洲大學',
  'department': '財務金融學系',
  'host': False,
  'reportReason': '',
  'mediaMeta': [],
  'hidden': False,
  'inReview': False,
  'reportReasonText': '',
  'isSuspiciousAccount': False,
  'postAvatar': ''},
 {'id': '5b8005ca-848f-493a-89e5-cb850eaaac3d',
  'anonymous': True,
  'postId': 233377179,
  'createdAt': '2020-03-31T03:54:55.281Z',
  'updatedAt': '2020-03-31T03:54:55.281Z',
  'floor': 32,
  'content': '妳很棒',
  'likeCount': 3,
  'withNickname': False,
  'hiddenByAuthor': False,
  'meta': {},
  'gender': 'M',
  'school': '靜宜大學',
  'host': False,
  'reportReason'

### 顯示前n個樓層 

In [27]:
floor = 50
url = "https://www.dcard.tw/service/api/v2/posts/233377179/comments?limit={}".format(floor)

resp = requests.get(url)
resp.json()

[{'id': '1f4c8e1f-a48f-4d9a-8b7f-7f88fda4c847',
  'anonymous': True,
  'postId': 233377179,
  'createdAt': '2020-03-30T19:53:32.993Z',
  'updatedAt': '2020-03-30T19:53:32.993Z',
  'floor': 1,
  'content': '妳和你哥都辛苦了  加油',
  'likeCount': 4817,
  'withNickname': False,
  'hiddenByAuthor': False,
  'meta': {},
  'gender': 'M',
  'school': '國立雲林科技大學',
  'host': False,
  'reportReason': '',
  'mediaMeta': [],
  'hidden': False,
  'inReview': False,
  'reportReasonText': '',
  'isSuspiciousAccount': False,
  'postAvatar': ''},
 {'id': '7c91dc95-84a6-4679-b04b-cd9d030fd7b6',
  'anonymous': True,
  'postId': 233377179,
  'createdAt': '2020-03-30T20:15:39.247Z',
  'updatedAt': '2020-03-31T23:37:02.221Z',
  'floor': 2,
  'content': '終於有正常的文章\n\n\n第一次有這麼多愛心@@\nB130',
  'likeCount': 7165,
  'withNickname': False,
  'hiddenByAuthor': False,
  'meta': {},
  'gender': 'M',
  'school': '國立臺灣大學',
  'host': False,
  'reportReason': '',
  'mediaMeta': [],
  'hidden': False,
  'inReview': False,
  'reportR