# 靜態網頁的資料爬蟲策略


* 了解靜態網頁的資料爬蟲策略
* 認識適用於靜態網頁爬蟲的相關套件工具：Request
* 認識適用於靜態網頁爬蟲的相關套件工具：BeatifulSoup

## 作業目標

利用 Request + BeatifulSoup 爬取下列兩個網站內容並解析：

1. Dcared 網址： https://www.dcard.tw/f
2. 知乎： https://www.zhihu.com/explore

並且回答下面問題：

1. Request 取回之後該怎麼取出資料，資料型態是什麼？
2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

### 1. Request 取回之後該怎麼取出資料，資料型態是什麼？
<pre>
Request取回之後的資料型態是requests.Reponse物件，其text屬性為以unicode表達的內容
</pre>

In [1]:
import requests
from bs4 import BeautifulSoup

In [6]:
url = 'https://www.dcard.tw/f'
r = requests.get(url)
print(r.text[0:3000])

<!DOCTYPE html><html lang="zh-TW"><head prefix="og: http://ogp.me/ns#" itemscope="" itemType="https://schema.org/WebSite"><meta charSet="utf-8"/><meta name="application-name" content="Dcard"/><meta property="al:ios:app_name" content="Dcard"/><meta property="al:android:app_name" content="Dcard"/><meta name="apple-itunes-app" content="app-id=951353454"/><meta property="al:ios:app_store_id" content="951353454"/><meta property="al:android:package" content="com.sparkslab.dcardreader"/><link rel="manifest" href="/_next/static/manifest-dcard.json"/><link rel="icon" type="image/png" sizes="48x48" href="/_next/static/media/dcard-icon-48-dc9179e39472a02c3fa03235ca445510.png"/><link rel="icon" type="image/png" sizes="96x96" href="/_next/static/media/dcard-icon-96-789f1792ae3fe0d68bd8d422d5837847.png"/><link rel="icon" type="image/png" sizes="144x144" href="/_next/static/media/dcard-icon-144-6e31301669e425f70c180518da0e36b3.png"/><link rel="icon" type="image/png" sizes="192x192" href="/_next/stati

### 2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
<pre>
方便解析資料，處理後的型態為bs4.BeautifulSoup物件
</pre>

In [9]:
soup = BeautifulSoup(r.text, "html5lib")
print(soup)

<!DOCTYPE html>
<html lang="zh-TW"><head itemscope="" itemtype="https://schema.org/WebSite" prefix="og: http://ogp.me/ns#"><meta charset="utf-8"/><meta content="Dcard" name="application-name"/><meta content="Dcard" property="al:ios:app_name"/><meta content="Dcard" property="al:android:app_name"/><meta content="app-id=951353454" name="apple-itunes-app"/><meta content="951353454" property="al:ios:app_store_id"/><meta content="com.sparkslab.dcardreader" property="al:android:package"/><link href="/_next/static/manifest-dcard.json" rel="manifest"/><link href="/_next/static/media/dcard-icon-48-dc9179e39472a02c3fa03235ca445510.png" rel="icon" sizes="48x48" type="image/png"/><link href="/_next/static/media/dcard-icon-96-789f1792ae3fe0d68bd8d422d5837847.png" rel="icon" sizes="96x96" type="image/png"/><link href="/_next/static/media/dcard-icon-144-6e31301669e425f70c180518da0e36b3.png" rel="icon" sizes="144x144" type="image/png"/><link href="/_next/static/media/dcard-icon-192-a6dae86e4f38be85e8de

In [10]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


### 3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？
<pre>
加入User-Agent請求頭欄位
</pre>

In [4]:
url = 'https://www.zhihu.com/explore'
r = requests.get(url)
r.encoding = 'utf-8'
print(r.text[0:600])

<html>
<head><title>403 Forbidden</title></head>
<body bgcolor="white">
<center><h1>403 Forbidden</h1></center>
<hr><center>openresty</center>
</body>
</html>



In [5]:
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)
print(r.text[0:600])

<!doctype html>
<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">发现 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="有问题，上知乎。知乎，可信赖的问答社区，以让每个人高效获得可信赖的解答为使命。知乎凭借认真、专业和友善的社区氛围，结构化、易获得的
