# HTTP 動態網頁架構說明


* 了解動態網頁的資料爬蟲策略
* 知道非同步網頁載入機制（Ajax）
* 學習兩種對應動態網頁爬蟲的的策略


## 作業目標

回答以下問題：

1. 動態網頁跟靜態網頁的差別是什麼？原本靜態網頁的做法會產生什麼問題或是缺點？
2. 還記得我們在 ETTODAY 靜態爬蟲實作練習中，有請大家完成一個題目「取出今天所有的發文」，但仔細看其實並沒有真的把當天所有的新聞都抓回來， 試著回答看看原因是什麼？及該如何檢查？


### 1. 動態網頁跟靜態網頁的差別是什麼？原本靜態網頁的做法會產生什麼問題或是缺點？

靜態網⾴頁是透過每一次使⽤用者請求，後端會產⽣生一次網⾴頁回傳，所以請求與回傳是一對一的。  
在動態網⾴頁的話，是透過 Ajax 的技術，來來完成非同步的資料傳輸。任何時間點都可以發送請求給後端，後端只回傳資料，⽽而不是回傳整個網⾴頁。

靜態網站請求有可能無法回傳你想要的資料。

### 2. 還記得我們在 ETTODAY 靜態爬蟲實作練習中，有請大家完成一個題目「取出今天所有的發文」，但仔細看其實並沒有真的把當天所有的新聞都抓回來， 試著回答看看原因是什麼？及該如何檢查？

In [1]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.ettoday.net/news/news-list.htm'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html5lib')
soup

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebSite" lang="zh-Hant" prefix="og:http://ogp.me/ns#" xmlns:wb="http://open.weibo.com/wb"><head>
<meta charset="utf-8"/>
<!-- ★★★以下非共用★★★ 開始 -->
<meta content="noarchive" name="robots"/>
<title>新聞總覽 | ETtoday新聞雲</title>
<link href="https://www.ettoday.net/news/news-list-2020-04-01-0.htm" rel="canonical"/>

<!-- 網頁社群分享meta 開始 -->
<meta content="https://www.ettoday.net/news/news-list-2020-04-01-0.htm" itemprop="url" property="og:url"/>
<meta content="新聞總覽 | ETtoday新聞雲" itemprop="name" property="og:title"/>
<meta content="https://cdn2.ettoday.net/style/ettoday2017/images/push.jpg" itemprop="image" property="og:image"/>
<meta content="1200" property="og:image:width"/>
<meta content="628" property="og:image:height"/>
<meta content="article" property="og:type"/>
<meta content="ETtoday.net線上提供即時新聞，包括政治、財經、社會及國際要聞，以及生活、消費、寵物、新奇、娛樂、運動、旅遊資訊和相關新聞報導。" name="description"/>
<meta content="ETtoday.net線上提供即時新聞，包括政治、財經、社會及國際要聞，以及生活、消費、寵物、新奇

In [2]:
all_list = soup.find(class_='part_list_2').find_all('h3')
for x in all_list:
    print(x.find(class_='date').text, x.find_all('a')[-1].text)

2020/04/01 12:23 社交距離室外1公尺、室內1.5公尺做得到？柯文哲順時中回答
2020/04/01 12:22 平價款新iPhone本月報到　推特爆料達人：4/15發表、4/22發貨
2020/04/01 12:22 內政部「擴大彈性上下班」：提升至2小時！避開尖峰時刻搭大眾運輸
2020/04/01 12:22 接官兒染疫！小職員沈默5天發聲　822字打臉高官：沒有「叔姪關係」
2020/04/01 12:22 對賽季重啟保持樂觀　里拉德：若取消也可理解
2020/04/01 12:22 小優錄影「脫到剩內衣」！　趴地濕身「掉出巨胸形狀」主持人正面看傻了
2020/04/01 12:19 「庫藏股」成企業史上最大自救行動！　謝金河點名3檔指標
2020/04/01 12:17 全文／蔡英文宣布提供國際3項目援助：口罩1000萬片、藥物、技術
2020/04/01 12:15 馬偕醫院旁空置髮廊身價鍍金　每坪近270萬元成交！創中山區店面紀錄
2020/04/01 12:14 佛地魔等級嚴厲！最後淨土「土庫曼禁說新冠肺炎」　戴口罩說出關鍵字…直接逮捕
2020/04/01 12:13 妳也能擁有夢幻馬甲線！UAT教練客製化訓練菜單　連女神都是她教出來的
2020/04/01 12:12 1億存款14年後「腰斬」　蔡英文「不好意思」：沒有增加只有減少
2020/04/01 12:12 高雄工程金質獎記者會司儀口誤連續「醜二！」　將韓國瑜改名「韓四瑜」
2020/04/01 12:12 俯瞰絕美山林、茶園！隱身南投山中的景觀咖啡廳　微微茶香超療癒
2020/04/01 12:11 萬華男遭2街友痛扁倒地　「頭顱骨折」搶救5天不治
2020/04/01 12:09 玉米田遭爐渣污染竟「通知復耕」　環團轟南市府：廢棄物應該滾出農地
2020/04/01 12:09 獨／高壓噴槍殺女童強灌肺泡次數曝！口腔3撕裂瘀傷　律師駁：痛卻不反抗？
2020/04/01 12:08 紓困總規模將擴大至一兆　蔣萬安建議「直接發現金補助」
2020/04/01 12:07 清明節忙掃墓！他問「父母若走了會去拜？」　新生代無感：陋俗到我這代就好
2020/04/01 12:06 電視台老闆上門三次請他當總經理　知名主持人：因為我不亂搞！
2020/04/01 12:06 淨賺5

能爬下來的文章列表是有限的，但用瀏覽器檢查就會發現實際文章會隨著頁面下滑而增加。
`part_list_2`下面有一個無限滾輪模組，會負責載入滾輪以下的文章

實際造訪確認網頁形式以決定爬蟲方法。