# 靜態網頁的資料爬蟲策略


* 了解靜態網頁的資料爬蟲策略
* 認識適用於靜態網頁爬蟲的相關套件工具：Request
* 認識適用於靜態網頁爬蟲的相關套件工具：BeatifulSoup

## 作業目標

利用 Request + BeatifulSoup 爬取下列兩個網站內容並解析：

1. Dcared 網址： https://www.dcard.tw/f
2. 知乎： https://www.zhihu.com/explore

並且回答下面問題：

1. Request 取回之後該怎麼取出資料，資料型態是什麼？
2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

### 1. Dcard 網址： https://www.dcard.tw/f

In [1]:
import requests
from bs4 import BeautifulSoup


In [9]:
url = 'https://www.dcard.tw/f'

r = requests.get(url)

r.encoding = 'utf-8'
print("the type of r is",type(r))


the type of r is <class 'requests.models.Response'>
the type of html_doc is <class 'str'>


In [15]:
html_doc  = r.text
print("the type of html_doc is")
print('Request 取回之後該怎麼取出資料，資料型態是什麼？ =>',type(html_doc))

the type of html_doc is
Request 取回之後該怎麼取出資料，資料型態是什麼？ => <class 'str'>


In [18]:

soup = BeautifulSoup(html_doc,'lxml')
print('為什麼要使用 BeatifulSoup 處理？=> ','parse dom','處理後的型態是什麼=>？' ,type(soup))

為什麼要使用 BeatifulSoup 處理？=>  parse dom 處理後的型態是什麼=>？ <class 'bs4.BeautifulSoup'>


### 2. 知乎： https://www.zhihu.com/explore

In [10]:
url = 'https://www.zhihu.com/explore'
r = requests.get(url)
r.encoding = 'utf-8'

print(r.text[0:600])

<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>



### 3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

In [37]:
#有反爬蟲機制，試著送headers/cookies 進去
import requests
url = 'https://www.zhihu.com/explore'
headers= {'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',
         }
# https://stackoverflow.com/questions/26510633/send-cookie-using-python-requests
cookies = dict(cookies_are='working')
r = requests.get(url, headers= headers,cookies=cookies)
r.encoding = 'utf-8'
print(r.text)

<!DOCTYPE html>
<html lang="zh-CN" dropEffect="none" class="no-js no-auth ">
<head>
<meta charset="utf-8" />

<meta http-equiv="X-ZA-Experiment" content="default:None,ge3:ge3_9,ge2:ge2_1,nwebQAGrowth:experiment,is_office:false,nweb_growth_people:default,app_store_rate_dialog:close,live_store:ls_a2_b2_c1_f2,nweb_search:nweb_search_heifetz,new_live_feed_mediacard:new,hybrid_zhmore_video:yes,ad_r:a,growth_search:s2,qaweb_related_readings_content_control:close,search_hybrid_tabs:pin-3#album-7,nweb_search_suggest:default,android_search_tab_style:search_tab_style_b,android_db_recommend_action:open,android_db_feed_hash_tag_style:button">
<title>发现 - 知乎</title>

<meta name="apple-itunes-app" content="app-id=432274380, app-argument=zhihu://explore">


<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1"/>
<meta http-equiv="mobile-agent" content="format=html5;url=https://www.zhihu.com/explore">
<meta id="znonce" name="znonce" content="f78bfef8046447908ad8550074299