# 靜態網頁的資料爬蟲策略


* 了解靜態網頁的資料爬蟲策略
* 認識適用於靜態網頁爬蟲的相關套件工具：Request
* 認識適用於靜態網頁爬蟲的相關套件工具：BeatifulSoup

## 作業目標

利用 Request + BeatifulSoup 爬取下列兩個網站內容並解析：

1. Dcared 網址： https://www.dcard.tw/f
2. 知乎： https://www.zhihu.com/explore

並且回答下面問題：

1. Request 取回之後該怎麼取出資料，資料型態是什麼？
>.text 取出資料為string
2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
>會照html格式排版好,為待解析的⾴頁⾯面建立一棵樹,並可根據標籤、屬性、find提取其中的資料。
3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

### 1. Dcard 網址： https://www.dcard.tw/f

In [1]:
import requests
from bs4 import BeautifulSoup


In [2]:
url = 'https://www.dcard.tw/f'

r = requests.get(url)
print(type(r)) # <class 'requests.models.Response'>
r.encoding = 'utf-8'
print(r.text[0:3000])

<class 'requests.models.Response'>
<!DOCTYPE html><html lang="zh-TW"><head prefix="og: http://ogp.me/ns#" itemscope="" itemType="https://schema.org/WebSite"><meta charSet="utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge"/><meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1"/><meta name="apple-mobile-web-app-status-bar-style" content="default"/><link href="https://fonts.googleapis.com/css2?family=Roboto:wght@400;500;700&amp;display=swap" rel="stylesheet"/><meta name="application-name" content="Dcard"/><meta name="apple-itunes-app" content="app-id=951353454"/><meta name="theme-color" content="#006aa6"/><meta name="mobile-web-app-capable" content="yes"/><meta name="apple-mobile-web-app-capable" content="yes"/><meta name="supported-color-schemes" content="light"/><meta property="fb:app_id" content="211628828926493"/><meta property="fb:pages" content="178875832200695,577748865730563,1333515469994506,619122564952487,804004803032067,178024805867764"

In [5]:
print('Request 取回之後該怎麼取出資料，資料型態是什麼？ =>')
response = r.text
print(type(response)) # <class 'str'>

# import json
# response = json.loads(response)

# print(type(response))
# print(response['message'])

Request 取回之後該怎麼取出資料，資料型態是什麼？ =>
<class 'str'>


In [6]:
print('為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？ => ')
soup = BeautifulSoup(response, "html.parser")
print(soup.prettify())
print(type(soup))

為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？ => 
<!DOCTYPE html>
<html lang="zh-TW">
 <head itemscope="" itemtype="https://schema.org/WebSite" prefix="og: http://ogp.me/ns#">
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1, minimum-scale=1" name="viewport"/>
  <meta content="default" name="apple-mobile-web-app-status-bar-style"/>
  <link href="https://fonts.googleapis.com/css2?family=Roboto:wght@400;500;700&amp;display=swap" rel="stylesheet"/>
  <meta content="Dcard" name="application-name"/>
  <meta content="app-id=951353454" name="apple-itunes-app"/>
  <meta content="#006aa6" name="theme-color"/>
  <meta content="yes" name="mobile-web-app-capable"/>
  <meta content="yes" name="apple-mobile-web-app-capable"/>
  <meta content="light" name="supported-color-schemes"/>
  <meta content="211628828926493" property="fb:app_id"/>
  <meta content="178875832200695,577748865730563,1333515469994506,619122564952487,8040048

In [11]:
print(soup.title)
print(soup.title.name)
print(soup.title.text)

<title>Dcard</title>
title
Dcard


In [14]:
#print(soup.p['class'])
print(soup.a['class'])

['sc-1h3w01r-0', 'cOWxiB']
Dcard


In [10]:
soup.find('a', class_='sc-1v1d5rx-3 kPUUNB')
# soup.find(id='titile-id') #=> 取出第⼀一個 id = title-id 的物件
# soup.find('p', class_='content') #=> 取出第⼀一個 class = content 的 p 標籤物件
# soup.find_all('a', class_='link')

<a class="sc-1v1d5rx-3 kPUUNB" href="/f/relationship/p/234082269"><span>前天 我終於把女友趕下車了</span></a>

### 2. 知乎： https://www.zhihu.com/explore

In [15]:
url = 'https://www.zhihu.com/explore'
r = requests.get(url)
r.encoding = 'utf-8'

print(r.text[0:600])

<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>



### 3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

In [16]:
# 400 Bad Request =>要求標頭過長
import requests
url = 'https://www.zhihu.com/explore'

headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url,headers=headers)

r.encoding = 'utf-8'
print(r.text[0:600])

<!doctype html>
<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">发现 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="有问题，上知乎。知乎，可信赖的问答社区，以让每个人高效获得可信赖的解答为使命。知乎凭借认真、专业和友善的社区氛围，结构化、易获得的
