# 靜態網頁的資料爬蟲策略


* 了解靜態網頁的資料爬蟲策略
* 認識適用於靜態網頁爬蟲的相關套件工具：Request
* 認識適用於靜態網頁爬蟲的相關套件工具：BeatifulSoup

## 作業目標

利用 Request + BeatifulSoup 爬取下列兩個網站內容並解析：

1. Dcared 網址： https://www.dcard.tw/f
2. 知乎： https://www.zhihu.com/explore

並且回答下面問題：

1. Request 取回之後該怎麼取出資料，資料型態是什麼？
2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

### 1. Dcard 網址： https://www.dcard.tw/f

In [1]:
import requests
from bs4 import BeautifulSoup


In [2]:
url = "https://www.dcard.tw/f"
response = requests.get(url=url)


In [3]:
result = response.text
print(result[:100])
print("資料型態：", type(result))
#字串不利於解析內容


<!DOCTYPE html><html lang="zh-TW"><head prefix="og: http://ogp.me/ns#" itemscope="" itemType="https:
資料型態： <class 'str'>


In [4]:
soup  = BeautifulSoup(result)
#print(soup)
print("處理後型態為：",type(soup))
#bs4會將處理的頁面建立樹狀結構，以利提取內容

處理後型態為： <class 'bs4.BeautifulSoup'>


In [5]:
#提取標題例子：
title = soup.find_all("h2")
for txt in title:
    print(txt.a.text)

毛躁長髮一刀剪下去
朋友懷孕明示我要送禮物
發票中獎但女友居然暴怒了...
醫者—紅眼
注意⚠️ 你已被熊熊貓貓拜訪啦
最後一路極短髮到婚禮🤣
#日常穿搭 千萬不要穿棋盤格出門
#日常穿搭 開始變成辦公室社畜的上班穿搭🥲
#分享 防彈個人IG出爐了
別哭了，我心疼 14（姐姐視角
價值觀不同 但我真的很愛她
懷孕半夜餓到翻垃圾桶🙄
為了結婚拚老命瘦！
#情報 BTS 個人Instagram帳號開通、公告年末放長假、Vogue X GQ 雜誌預告
#閒聊 「韓網熱帖」喜歡女偶像的人現在會一直看到的演算法推薦影片
先生…我只是餵藥而已ಥ_ಥ
男友的分手草稿
（微更）3個月，63-53減重史（有露臉）
這是人類顏值天花板嗎？
當箱子和床都好舒服怎麼辦
成功說服房東讓我養貓貓
#分享 Uniqlo感謝祭✨買了些什麼
等年終離職
鬼氏企業2021
最近的OOTD📉🔍
#新聞 IU最近好像很奇怪！？
#情報 BIGBANG太陽當爸爸了！
（更）外食真的好可怕
古娃娃餅乾的公司營收4千萬
如果你是女生2* -不是，我一樣幹你


### 2. 知乎： https://www.zhihu.com/explore

In [6]:
url = "https://www.zhihu.com/explore"
response = requests.get(url)
response.encoding = 'utf-8'

print(response.text[0:600])

<html>
<head><title>403 Forbidden</title></head>
<body bgcolor="white">
<center><h1>403 Forbidden</h1></center>
<hr><center>openresty</center>
</body>
</html>



### 3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

In [7]:
import requests
url = "https://www.zhihu.com/explore"

headers = {
    'user-agent': 'my-app/0.0.1'
}

r = requests.get(url=url, headers=headers)

r.encoding = 'utf-8'
print(r.text[0:600])

<!doctype html>
<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">发现 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好地分享知识、经验和见解
