# 靜態網頁的資料爬蟲策略


* 了解靜態網頁的資料爬蟲策略
* 認識適用於靜態網頁爬蟲的相關套件工具：Request
* 認識適用於靜態網頁爬蟲的相關套件工具：BeatifulSoup

## 作業目標

利用 Request + BeatifulSoup 爬取下列兩個網站內容並解析：

1. Dcared 網址： https://www.dcard.tw/f
2. 知乎： https://www.zhihu.com/explore

並且回答下面問題：

1. Request 取回之後該怎麼取出資料，資料型態是什麼？
2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

## Part1: (Dcard)https://www.dcard.tw/f
### Request 取回之後該怎麼取出資料，資料型態是什麼？
### 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？

In [10]:
import requests
from bs4 import BeautifulSoup

url1 = 'https://www.dcard.tw/f'
r1 = requests.get(url1)
response1 = r1.text

In [19]:
print("Request 取回之後該怎麼取出資料，資料型態是什麼？\n", type(response1))

Request 取回之後該怎麼取出資料，資料型態是什麼？
 <class 'str'>


In [20]:
soup1 = BeautifulSoup(response1, "html")
print('為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？\n', type(soup1))

為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
 <class 'bs4.BeautifulSoup'>


## Part2: (知乎)https://www.zhihu.com/explore
### 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

In [23]:
url2 = 'https://www.zhihu.com/explore'
r2 = requests.get(url2)
response2 = r2.text
response2

'<html>\r\n<head><title>400 Bad Request</title></head>\r\n<body bgcolor="white">\r\n<center><h1>400 Bad Request</h1></center>\r\n<hr><center>openresty</center>\r\n</body>\r\n</html>\r\n'

In [25]:
# 解決: 
header = {'user-agent': 'my-app/0.0.1'}
r2 = requests.get(url2, headers = header)
response2 = r2.text
response2[:3000]

'<!doctype html>\n<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">发现 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="有问题，上知乎。知乎，可信赖的问答社区，以让每个人高效获得可信赖的解答为使命。知乎凭借认真、专业和友善的社区氛围，结构化、易获得的优质内容，基于问答的内容生产方式和独特的社区机制，吸引、聚集了各行各业中大量的亲历者、内行人、领域专家、领域爱好者，将高质量的内容透过人的节点来成规模地生产和分享。用户通过问答等交流方式建立信任和连接，打造和提升个人影响力，并发现、获得新机会。"/><link data-react-helmet="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.67c7b278.png"/><link data-react-helmet="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.67c7b278.png" si