# 靜態網頁的資料爬蟲策略


* 了解靜態網頁的資料爬蟲策略
* 認識適用於靜態網頁爬蟲的相關套件工具：Request
* 認識適用於靜態網頁爬蟲的相關套件工具：BeatifulSoup

## 作業目標

利用 Request + BeatifulSoup 爬取下列兩個網站內容並解析：

1. Dcared 網址： https://www.dcard.tw/f
2. 知乎： https://www.zhihu.com/explore

並且回答下面問題：

1. Request 取回之後該怎麼取出資料，資料型態是什麼？
2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

### 1. Dcard 網址： https://www.dcard.tw/f

In [9]:
import requests
from bs4 import BeautifulSoup

req = requests.get('https://www.dcard.tw/f')
print('requests 取回的資料是：%s' % type(req.text))

requests 取回的資料是：<class 'str'>


In [11]:
'''
可以使用String的method做資料處理，但是過程繁複
'''

'\n可以使用String的method做資料處理，但是過程繁複\n'

In [10]:
response = BeautifulSoup(req.text)
print(type(response))

<class 'bs4.BeautifulSoup'>


In [9]:
'''
BeautifulSoup處理後的資料是結構化的字串，方便於取出我們要的部份
'''

為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？ => 


'\nYour Code Here\n'

In [13]:
response.find_all('a', class_='ForumEntry_link_3tNC45')

[<a class="ForumEntry_link_3tNC45 ForumEntry_linkActive_3Zi3ce" href="/f">全部</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/merryxmas">聖誕CiaoCiao</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/youtuber">YouTuber</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/announcement">官方公告</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/smallgoodthings">小事公益</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/freshman">新生季</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/makeup">美妝</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/manicure">美甲</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/facelift">醫美</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/fragrance">香氛</a>,
 <a class="ForumEntry_link_3tNC45 ForumEntry_unRead_1ptlOL" href="/f/hairsalon">美髮</a>,
 <a class="ForumE

### 2. 知乎： https://www.zhihu.com/explore

In [14]:
req = requests.get('https://www.zhihu.com/explore')
print(req.text)

<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>



### 3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

In [16]:
'''
知乎會檢查request中是否有headers欄位，解決方法是加入headers
'''
headers = {'user-agent': 'my-app/0.0.1'}
req = requests.get('https://www.zhihu.com/explore', headers=headers)
response = BeautifulSoup(req.text)
print(response)

<!DOCTYPE html>
<html data-hairline="true" data-theme="light" lang="zh"><head><meta charset="utf-8"/><title data-react-helmet="true">发现 - 知乎</title><meta content="width=device-width,initial-scale=1,maximum-scale=1" name="viewport"/><meta content="webkit" name="renderer"/><meta content="webkit" name="force-rendering"/><meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/><meta content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg" name="google-site-verification"/><meta content="有问题，上知乎。知乎，可信赖的问答社区，以让每个人高效获得可信赖的解答为使命。知乎凭借认真、专业和友善的社区氛围，结构化、易获得的优质内容，基于问答的内容生产方式和独特的社区机制，吸引、聚集了各行各业中大量的亲历者、内行人、领域专家、领域爱好者，将高质量的内容透过人的节点来成规模地生产和分享。用户通过问答等交流方式建立信任和连接，打造和提升个人影响力，并发现、获得新机会。" name="description" property="og:description"/><link data-react-helmet="true" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.67c7b278.png" rel="apple-touch-icon"/><link data-react-helmet="true" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.67c7b278.png" rel="apple-touch-icon" size