# 靜態網頁的資料爬蟲策略


* 了解靜態網頁的資料爬蟲策略
* 認識適用於靜態網頁爬蟲的相關套件工具：Request
* 認識適用於靜態網頁爬蟲的相關套件工具：BeatifulSoup

## 作業目標

利用 Request + BeatifulSoup 爬取下列兩個網站內容並解析：

1. Dcared 網址： https://www.dcard.tw/f
2. 知乎： https://www.zhihu.com/explore

並且回答下面問題：

1. Request 取回之後該怎麼取出資料，資料型態是什麼？
2. 為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？
3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

### 1. Dcard 網址： https://www.dcard.tw/f

In [41]:
import requests
from bs4 import BeautifulSoup

In [42]:
#r = requests.get("https://www.dcard.tw/f")
#r ##403 Forbidden 是HTTP協定中的一個HTTP狀態碼（Status Code）。可以簡單的理解為沒有權限存取此站

### 我的超怪，會有<Response [403]>
解決方法
* 1.增加Header
* 2.代理IP
* 3.終極方法: 想到把兩種方法結合起來。這樣就會大大提高請求的種類。 如在下面的程式碼中Header有13個，IP有6個，排列組合就有78中請求。從理論上來說， 組合數越多就越不容易被封。同時再加上請求延遲，是較好的解決方案。

In [43]:
#他人: 一樣與其他人結果不同@@
url = 'https://www.dcard.tw/f'

r = requests.get(url)
r.encoding = 'utf-8'
print(r.text[0:3000]) #通常令r.text = response

<!DOCTYPE html>
<!--[if lt IE 7]> <html class="no-js ie6 oldie" lang="en-US"> <![endif]-->
<!--[if IE 7]>    <html class="no-js ie7 oldie" lang="en-US"> <![endif]-->
<!--[if IE 8]>    <html class="no-js ie8 oldie" lang="en-US"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="en-US"> <!--<![endif]-->
<head>
<title>Attention Required! | Cloudflare</title>
<meta name="captcha-bypass" id="captcha-bypass" />
<meta charset="UTF-8" />
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1" />
<meta name="robots" content="noindex, nofollow" />
<meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1" />
<link rel="stylesheet" id="cf_styles-css" href="/cdn-cgi/styles/cf.errors.css" type="text/css" media="screen,projection" />
<!--[if lt IE 9]><link rel="stylesheet" id='cf_styles-ie-css' href="/cdn-cgi/styles/cf.errors.ie.css" type="text/css" media="screen,projection" /><![endif]-->

In [44]:
print('Request 取回之後該怎麼取出資料，資料型態是什麼？ =>')

type(r.text)

Request 取回之後該怎麼取出資料，資料型態是什麼？ =>


str

In [45]:
print('為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？ => bs4.BeautifulSoup')

html_doc = r.text #型態是 str

#使用BeatifulSoup
soup = BeautifulSoup(r.text, "lxml") 
soup
print("-----------------")
print(type(soup))

為什麼要使用 BeatifulSoup 處理？處理後的型態是什麼？ => bs4.BeautifulSoup
-----------------
<class 'bs4.BeautifulSoup'>


### 2. 知乎： https://www.zhihu.com/explore

In [46]:
url = 'https://www.zhihu.com/explore'
r = requests.get(url)
r.encoding = 'utf-8'

print(r.text[0:600])

<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>



### 3. 觀察一下知乎回來的資料好像有點怪怪的，該怎麼解決？

#### text檔即為"html"

In [47]:
import requests
url = 'https://www.zhihu.com/explore'

#加入headers
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}


r = requests.get(url, headers = headers)

r.encoding = 'utf-8'
#text檔即為"html"
response = r.text
print(response[0:600])
type(response)

<!doctype html>
<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">发现 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="有问题，上知乎。知乎，可信赖的问答社区，以让每个人高效获得可信赖的解答为使命。知乎凭借认真、专业和友善的社区氛围，结构化、易获得的


str

### prettify()函數
用prettify()函數將soup這個物件美化，soup就是的html_doc解析的結果，最後print將它印出來：

In [48]:
soup = BeautifulSoup(response, "html5lib")
#print(soup.prettify())

### find_all()
找出所有的標籤
* soup.find_all('p')

In [49]:
#soup.find_all('a')

In [50]:
posts = soup.find_all('a', class_='ExploreSpecialCard-title')
for post in posts:
    print(post.text)

假装「MWC 2020」开幕了
假如关于疫情的这一切，都不是真的
什么？！你还想买这个！
宅家出「新知」：硬核教学指南


In [51]:
#我的
words = soup.find_all('a', class_='ExploreSpecialCard-contentTag')
for word in words:
    print(word.text)

iQOO 3 定义新速度新品发布会
荣耀智慧全场景发布会
华为终端产品与战略发布会
不在此地
不在此时
不敢想象
望眼欲穿啊，就想买个次时代主机玩
他心心念念想要 iPad Pro，但我觉得太贵了
老婆嫌我洗碗不干净，一定要买洗碗机
开学须知
考研全知道
留学划重点
