# 靜態網頁的資料爬蟲策略


* 了解靜態網頁的資料爬蟲策略
* 認識適用於靜態網頁爬蟲的相關套件工具：Request
* 認識適用於靜態網頁爬蟲的相關套件工具：BeatifulSoup

## 作業目標

利用 Request + BeatifulSoup 爬取下列兩個網站內容並解析：

1. Dcared 網址： https://www.dcard.tw/f
2. 知乎： https://www.zhihu.com/explore

並且回答下面問題：

1. Request 取回之後該怎麼取出資料，資料型態是什麼？
2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

### 1. Dcard 網址： https://www.dcard.tw/f

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
url = 'https://www.dcard.tw/f'

r = requests.get(url)
r.encoding = 'utf-8'
print(r.text[0:3000])

<!DOCTYPE html><html lang="zh-Hant-TW"><head prefix="og: http://ogp.me/ns#" itemscope="" itemType="https://schema.org/WebSite"><title data-react-helmet="true">Dcard</title><meta data-react-helmet="true" property="og:image" content="https://www.dcard.tw/build/landing-c9e7b8fb.png"/><meta data-react-helmet="true" property="og:image:secure_url" content="https://www.dcard.tw/build/landing-c9e7b8fb.png"/><meta data-react-helmet="true" charSet="utf-8"/><meta data-react-helmet="true" http-equiv="X-UA-Compatible" content="IE=edge"/><meta data-react-helmet="true" name="application-name" content="Dcard"/><meta data-react-helmet="true" name="apple-itunes-app" content="app-id=951353454"/><meta data-react-helmet="true" name="theme-color" content="#006aa6"/><meta data-react-helmet="true" name="mobile-web-app-capable" content="yes"/><meta data-react-helmet="true" name="apple-mobile-web-app-capable" content="yes"/><meta data-react-helmet="true" property="fb:app_id" content="211628828926493"/><meta dat

In [4]:
print('Request 取回之後該怎麼取出資料，資料型態是什麼？ =>')
print(type(r))
print('要用beautifulsoup解析標籤來取出資料')

Request 取回之後該怎麼取出資料，資料型態是什麼？ =>
<class 'requests.models.Response'>
要用beautifulsoup解析標籤來取出資料


In [5]:
print('為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？ => ')
soup = BeautifulSoup(r.text, 'html5lib')
print(type(soup))
print('因為soup型態可以找出標籤的內容及屬性')
soup.find_all('h3','Title__Text-v196i6-0 gmfDU')

為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？ => 
<class 'bs4.BeautifulSoup'>
因為soup型態可以找出標籤的內容及屬性


[<h3 class="Title__Text-v196i6-0 gmfDU">捷運站的清潔人員哭了</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">真的有把我噁心到！浙江衛視沒有心</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">月經沒來很擔心，男友這種態度</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">不小心跟朋友做愛了怎麼辦？</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">💋卡友勸敗美到心花開！品木宣言🌹心花綻放精油唇膏💄 聖誕節🎄買二送一😍試色就抽「包色」24支全系列唇膏!!!</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">大庭廣眾下被襲胸</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">超商收到小費...</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">誓言抵制全世界！14億中國人狂吼『不屑與民主自由為伍！』，怒斥痛罵女神卡卡支持港獨、台獨，微博最大粉絲團更立馬切割關站。</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">交換禮物怎麼選🤔🤔🤔   🎁十四種秘密聖誕禮物🎁保你滿意 不會再氣pu pu的好選擇😘</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">李宰旭出道一週年快樂❤️</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">男友想幹大事(微微西斯)</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">女友出國都不帶錢</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">男友看過我的真面目後</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">無權干涉另一半是否刪除他的過去</h3>,
 <h3 class="Title__Text-v196i6-0 gmfDU">heme x PopDaily 限量

### 2. 知乎： https://www.zhihu.com/explore

In [8]:
url = 'https://www.zhihu.com/explore'
r = requests.get(url)
r.encoding = 'utf-8'
print(r.text[0:600])

<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>



### 3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

In [9]:
import requests
url = 'https://www.zhihu.com/explore'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}

r = requests.get(url, headers=headers)

r.encoding = 'utf-8'
print(r.text[0:600])

<!doctype html>
<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">发现 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="有问题，上知乎。知乎，可信赖的问答社区，以让每个人高效获得可信赖的解答为使命。知乎凭借认真、专业和友善的社区氛围，结构化、易获得的
