### 首先先載入相關的套件 

In [1]:
import requests

### 透過```requests.get()```的方式，可以直接像目標網站發送請求，網站回傳的結果便會儲存在變數```resp```中。

In [10]:
url = 'https://www.dcard.tw/f'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}

resp = requests.get(url, headers=headers)

### 透過status_code來查看回傳的狀態種類。

- ### 1xx: 訊息，代表請求已被接受，需要繼續處理。
    - 例如：102，伺服器已經收到請求並正在處理。這類型的訊息並不常出現。
- ### 2xx: 成功，代表請求已成功被伺服器接收、理解、並接受。
    - 例如：200，請求已成功，請求的內容隨此回應返回。
- ### 3xx: 重新導向，代表需要用戶端採取進一步的操作才能完成請求。
    - 例如：305，被請求的資源必須通過指定的代理才能被存取。
- ### 4xx: 用戶端錯誤，代表了用戶端看起來可能發生了錯誤，妨礙了伺服器的處理。
    - 例如：404，請求失敗，請求所希望得到的資源未被在伺服器上發現，但允許用戶的後續請求。
- ### 5xx: 伺服器錯誤，代表服器無法完成明顯有效的請求。
    - 例如：500，伺服器遇到意外狀況，無法完成請求的處理。

In [11]:
resp.status_code

200

### 查看抓下來的內容 

In [8]:
resp.text

'<!DOCTYPE html><html lang="zh-TW"><head prefix="og: http://ogp.me/ns#" itemscope="" itemType="https://schema.org/WebSite"><meta charSet="utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge"/><meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1"/><meta name="apple-mobile-web-app-status-bar-style" content="default"/><link rel="stylesheet" type="text/css" href="https://fonts.googleapis.com/css?family=Roboto:400,300"/><meta name="application-name" content="Dcard"/><meta name="apple-itunes-app" content="app-id=951353454"/><meta name="theme-color" content="#006aa6"/><meta name="mobile-web-app-capable" content="yes"/><meta name="apple-mobile-web-app-capable" content="yes"/><meta name="supported-color-schemes" content="light"/><meta property="fb:app_id" content="211628828926493"/><meta property="fb:pages" content="178875832200695,577748865730563,1333515469994506,619122564952487,804004803032067,178024805867764"/><meta property="al:ios:app_store_id" conten

In [12]:
type(resp.text)

str

### 從上面可以得知，```requests```已經幫我們把整個網頁抓下來，並存成```str```的格式，但是這種格式不利我們選出想要的資料，這時候就換```BeautifulSoup```上場了：

### 一樣先載入模組

In [13]:
from bs4 import BeautifulSoup

### lxml是一種html的解析器(parser)，速度較Python內建的html.parser快，使用前需先下載：
```bash
pip install lxml
```

In [22]:
html = resp.text
soup = BeautifulSoup(html, "lxml")

In [23]:
%timeit BeautifulSoup(html, "lxml")
%timeit BeautifulSoup(html, "html.parser")

27 ms ± 708 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
35.7 ms ± 321 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


###  透過```prettify()```將結果排版後輸出

In [18]:
soup.prettify()

'<!DOCTYPE html>\n<html lang="zh-TW">\n <head itemscope="" itemtype="https://schema.org/WebSite" prefix="og: http://ogp.me/ns#">\n  <meta charset="utf-8"/>\n  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>\n  <meta content="width=device-width, initial-scale=1, minimum-scale=1" name="viewport"/>\n  <meta content="default" name="apple-mobile-web-app-status-bar-style"/>\n  <link href="https://fonts.googleapis.com/css?family=Roboto:400,300" rel="stylesheet" type="text/css"/>\n  <meta content="Dcard" name="application-name"/>\n  <meta content="app-id=951353454" name="apple-itunes-app"/>\n  <meta content="#006aa6" name="theme-color"/>\n  <meta content="yes" name="mobile-web-app-capable"/>\n  <meta content="yes" name="apple-mobile-web-app-capable"/>\n  <meta content="light" name="supported-color-schemes"/>\n  <meta content="211628828926493" property="fb:app_id"/>\n  <meta content="178875832200695,577748865730563,1333515469994506,619122564952487,804004803032067,178024805867764" propert

### 經過轉換，原本是str的HTML，已經被轉換成bs4的物件。下面列出一些bs4物件的屬性和方法

In [24]:
soup.title

<title>Dcard</title>

In [25]:
soup.title.name

'title'

In [26]:
soup.title.string

'Dcard'

In [33]:
soup.a

<a class="sc-1h3w01r-0 BYkrm" href="/f" title="Dcard"><img alt="Dcard" class="ezgous-0 ktvxUR" src="/_next/static/images/logo-6c547910a47669647856d4c9cc62f0ba.svg"/></a>

In [41]:
a_list = soup.find_all("a")
for i in range(20):
    print(a_list[i].get('href'))

/f
/signup?redirect=%2Ff
None
/forum/all
/forum/popular
/goods
/f
/f?pessoal=true
/f/relationship/p/233371895
/f/funny/p/233372111
/f/mood/p/233377179
/f/relationship/p/233370841
/f/mood/p/233370691
/f/2019_ncov/p/233372390
/f/relationship/p/233372718
/f/girl/p/233371437
/f/2019_ncov/p/233370864
/f/funny/p/233370907
/f/funny/p/233374879
/f/mood/p/233375901


### 可以設定參數，來查找特定tag

### 列出Dard十大熱門文章及其網址

In [49]:
soup.find_all('a', class_='sc-1v1d5rx-4 cJzlcl')

[<a class="sc-1v1d5rx-4 cJzlcl" href="/f/relationship/p/233371895"><span>難怪我們會在一起</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/funny/p/233372111"><span>更)不小心用壞朋友的airpods</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/mood/p/233377179"><span>「妹妹，要不要一起玩？」</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/relationship/p/233370841"><span>消失一個晚上的後續</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/mood/p/233370691"><span>（更）原本該被墮掉的孩子</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/2019_ncov/p/233372390"><span>志村健無法完成他的夢想了</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/relationship/p/233372718"><span>我與閨蜜的前男友在一起了</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/girl/p/233371437"><span>減肥歷程。70kg➡️55kg</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/2019_ncov/p/233370864"><span>喜劇泰斗志村健 確診四天過世</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/funny/p/233370907"><span>怎麼都沒人發現這件事？</span></a>,
 <a class="sc-1v1d5rx-4 cJzlcl" href="/f/funny/p/233374879"><s

In [54]:
title = soup.find_all('a', class_='sc-1v1d5rx-4 cJzlcl')
for i in range(10):
    print(title[i].string)
    print("文章網址： https://www.dcard.tw{}".format(title[i].get('href')))

難怪我們會在一起
文章網址： https://www.dcard.tw/f/relationship/p/233371895
更)不小心用壞朋友的airpods
文章網址： https://www.dcard.tw/f/funny/p/233372111
「妹妹，要不要一起玩？」
文章網址： https://www.dcard.tw/f/mood/p/233377179
消失一個晚上的後續
文章網址： https://www.dcard.tw/f/relationship/p/233370841
（更）原本該被墮掉的孩子
文章網址： https://www.dcard.tw/f/mood/p/233370691
志村健無法完成他的夢想了
文章網址： https://www.dcard.tw/f/2019_ncov/p/233372390
我與閨蜜的前男友在一起了
文章網址： https://www.dcard.tw/f/relationship/p/233372718
減肥歷程。70kg➡️55kg
文章網址： https://www.dcard.tw/f/girl/p/233371437
喜劇泰斗志村健 確診四天過世
文章網址： https://www.dcard.tw/f/2019_ncov/p/233370864
怎麼都沒人發現這件事？
文章網址： https://www.dcard.tw/f/funny/p/233370907
