# 靜態網頁的資料爬蟲策略


* 了解靜態網頁的資料爬蟲策略
* 認識適用於靜態網頁爬蟲的相關套件工具：Request
* 認識適用於靜態網頁爬蟲的相關套件工具：BeatifulSoup

## 作業目標

利用 Request + BeatifulSoup 爬取下列兩個網站內容並解析：

1. Dcared 網址： https://www.dcard.tw/f
2. 知乎： https://www.zhihu.com/explore

並且回答下面問題：

1. Request 取回之後該怎麼取出資料，資料型態是什麼？
2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

### 1. Dcard 網址： https://www.dcard.tw/f

In [4]:
import requests
from bs4 import BeautifulSoup


In [12]:
url = 'https://www.dcard.tw/f'

'''
Your Code Here
'''
r = requests.get(url)
# 想要爬資料的目標網址
response = r.text
# 模擬發送請求的動作
r.encoding = 'utf-8'
print(type(response))
print(r.text[0:3000])

<class 'str'>
<!DOCTYPE html><html lang="zh-Hant-TW"><head prefix="og: http://ogp.me/ns#" itemscope="" itemType="https://schema.org/WebSite"><title data-react-helmet="true">Dcard</title><meta data-react-helmet="true" property="og:image" content="https://www.dcard.tw/build/landing-c9e7b8fb.png"/><meta data-react-helmet="true" property="og:image:secure_url" content="https://www.dcard.tw/build/landing-c9e7b8fb.png"/><meta data-react-helmet="true" charSet="utf-8"/><meta data-react-helmet="true" http-equiv="X-UA-Compatible" content="IE=edge"/><meta data-react-helmet="true" name="application-name" content="Dcard"/><meta data-react-helmet="true" name="apple-itunes-app" content="app-id=951353454"/><meta data-react-helmet="true" name="theme-color" content="#006aa6"/><meta data-react-helmet="true" name="mobile-web-app-capable" content="yes"/><meta data-react-helmet="true" name="apple-mobile-web-app-capable" content="yes"/><meta data-react-helmet="true" property="fb:app_id" content="2116288289264

In [18]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(response, "html5lib")
print(soup.prettify())
# print(soup)
# print(type(soup))

<!DOCTYPE html>
<html lang="zh-Hant-TW">
 <head itemscope="" itemtype="https://schema.org/WebSite" prefix="og: http://ogp.me/ns#">
  <title data-react-helmet="true">
   Dcard
  </title>
  <meta content="https://www.dcard.tw/build/landing-c9e7b8fb.png" data-react-helmet="true" property="og:image"/>
  <meta content="https://www.dcard.tw/build/landing-c9e7b8fb.png" data-react-helmet="true" property="og:image:secure_url"/>
  <meta charset="utf-8" data-react-helmet="true"/>
  <meta content="IE=edge" data-react-helmet="true" http-equiv="X-UA-Compatible"/>
  <meta content="Dcard" data-react-helmet="true" name="application-name"/>
  <meta content="app-id=951353454" data-react-helmet="true" name="apple-itunes-app"/>
  <meta content="#006aa6" data-react-helmet="true" name="theme-color"/>
  <meta content="yes" data-react-helmet="true" name="mobile-web-app-capable"/>
  <meta content="yes" data-react-helmet="true" name="apple-mobile-web-app-capable"/>
  <meta content="211628828926493" data-react-he

In [13]:
print('Request 取回之後該怎麼取出資料，資料型態是什麼？ =>')
print("Request 取回的資料為 <class str>, 需使用BeautifulSoup 整理資料 ")

Request 取回之後該怎麼取出資料，資料型態是什麼？ =>
Request 取回的資料為 <class str>, 需使用BeautifulSoup 整理資料 


In [14]:
print('為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？ => ')
print("這個 response 並不是 JSON 格式，他是 HTML 的格式。所以必須用BeautifulSoup才能解析。")

為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？ => 
這個 response 並不是 JSON 格式，他是 HTML 的格式。所以必須用BeautifulSoup才能解析。


### 2. 知乎： https://www.zhihu.com/explore

In [10]:
url = 'https://www.zhihu.com/explore'
r = requests.get(url)
r.encoding = 'utf-8'

print(r.text[0:600])

<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>



### 3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

In [22]:
import requests
url = 'https://www.zhihu.com/explore'
header = {'user-agent': 'test'}
r = requests.get(url,headers=header)
r.encoding = 'utf-8'
# print(type(r.text))
print(r.text[0:600])


<!doctype html>
<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">发现 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="有问题，上知乎。知乎，可信赖的问答社区，以让每个人高效获得可信赖的解答为使命。知乎凭借认真、专业和友善的社区氛围，结构化、易获得的


In [38]:
response=r.text
#soup = BeautifulSoup(response, "html5lib")
soup = BeautifulSoup(response, "lxml")
# 把排版後的 html 印出來
print(soup.prettify())
# 一些屬性或方法
# print("---tag")
# print(soup.title) # 把 tag 抓出來
# print("---title 的 tag  名稱")
# print(soup.title.name) # 把 title 的 tag 名稱抓出來
# print("---title tag 的內容")
# print(soup.title.string) # 把 title tag 的內容欻出來
# print("---title tag 的上一層 tag")
# print(soup.title.parent.name) # title tag 的上一層 tag
# print("---第一個 <a></a>")
# print(soup.a) # 把第一個 <a></a> 抓出來
# print("---所有的 <a></a>")
# print(soup.find_all('a')) # 把所有的 <a></a> 抓出來
titles=soup.find_all('a', class_='ExploreSpecialCard-title')
# print(t)
#print(type(t))
# for t in titles:
#     print(t.text)

<!DOCTYPE html>
<html data-hairline="true" data-theme="light" lang="zh">
 <head>
  <meta charset="utf-8"/>
  <title data-react-helmet="true">
   发现 - 知乎
  </title>
  <meta content="width=device-width,initial-scale=1,maximum-scale=1" name="viewport"/>
  <meta content="webkit" name="renderer"/>
  <meta content="webkit" name="force-rendering"/>
  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg" name="google-site-verification"/>
  <meta content="有问题，上知乎。知乎，可信赖的问答社区，以让每个人高效获得可信赖的解答为使命。知乎凭借认真、专业和友善的社区氛围，结构化、易获得的优质内容，基于问答的内容生产方式和独特的社区机制，吸引、聚集了各行各业中大量的亲历者、内行人、领域专家、领域爱好者，将高质量的内容透过人的节点来成规模地生产和分享。用户通过问答等交流方式建立信任和连接，打造和提升个人影响力，并发现、获得新机会。" name="description" property="og:description"/>
  <link data-react-helmet="true" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.67c7b278.png" rel="apple-touch-icon"/>
  <link data-react-helmet="true" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.67