# Crawler基礎—multiple_page 完整版

## 範例網站
- 公視新聞 https://news.pts.org.tw/list/0

### 載入函式庫

In [1]:
import requests
from bs4 import BeautifulSoup

### 函式

In [2]:
# 輸入為 url (網址)  輸出為 res.text (網頁原始碼)
# 讓函式盡可能簡單、輸入出格式固定
def get_page(url):
    head = {'user-agent':'Safari'}
    res = requests.get(url,headers=head)
    return(res.text)

In [3]:
# 輸入為 html(原始碼) 輸出為 find 特定 class 內容(那頁新聞的內容)
# 如果函式是特定用途 要記下來（註解）或是提高函式的彈性
def get_content(html):
    soup = BeautifulSoup(html,'html.parser')
    content = soup.find(class_='article-content')   
    return(content)

### 先創個放檔案的資料夾

In [4]:
import os
os.makedirs('out',exist_ok=True)

### 先獲得要抓取的所有列表

In [5]:
# 先用 temp 抓取到所有新聞的網頁原始碼
temp = get_page('https://news.pts.org.tw/list/0')

In [6]:
# 分析 取出通往新聞的每一個連結
soup = BeautifulSoup(temp,'html.parser')
title_list = soup.find_all(class_='list-news-title') 
title_list = [each.find('a') for each in title_list]
title_list

[<a href="https://news.pts.org.tw/article/379335">冷氣團發威.水氣偏多 玉山凌晨又降雪</a>,
 <a href="https://news.pts.org.tw/article/379336">獵雷艦解約前夕 慶富聲明:找到百億金主</a>,
 <a href="https://news.pts.org.tw/article/379337">高雄長谷旅行社驚傳停業 影響約5百旅客</a>,
 <a href="https://news.pts.org.tw/article/379338">中駐美公使:美艦抵高雄 即武統台灣之時</a>,
 <a href="https://news.pts.org.tw/article/379339">國民黨一中全會 吳敦義批民進黨執政不佳</a>,
 <a href="https://news.pts.org.tw/article/379340">以巴燃戰火 中東地區傳2死.逾7百人受傷</a>,
 <a href="https://news.pts.org.tw/article/379341">蒲亭赴西伯利亞 主持液化天然氣廠啟用</a>,
 <a href="https://news.pts.org.tw/article/379342">利用燃煤發電.冬季取暖 蒙古空汙極嚴重</a>,
 <a href="https://news.pts.org.tw/article/379343">住院部分負擔將調高上限 單次調高1千</a>,
 <a href="https://news.pts.org.tw/article/379344">去年垃圾回收率58%？ 環團：忽略部分數據</a>,
 <a href="https://news.pts.org.tw/article/379345">贊成投票年齡下修至18歲 柯：世界潮流</a>,
 <a href="https://news.pts.org.tw/article/379346">詹詠然.辛吉絲組合 獲ITF年度女雙冠軍</a>,
 <a href="https://news.pts.org.tw/article/379347">照護運動員 輔大醫院成立運動醫學中心</a>,
 <a href="https://news.pt

In [7]:
# 只取五個做範例
title_list = title_list[0:5]

In [8]:
# 利用 .get(屬性) 來取出 標籤內的attribute
# 在這裡是獲得每一個新聞的網址
for title in title_list:
    print(title.get('href'))

https://news.pts.org.tw/article/379335
https://news.pts.org.tw/article/379336
https://news.pts.org.tw/article/379337
https://news.pts.org.tw/article/379338
https://news.pts.org.tw/article/379339


In [9]:
# 利用寫好的函式 快速獲得要的內容
# 這樣的寫法 乾淨且易懂
for title in title_list:
    # 記得看清楚函式的輸入輸出
    html = get_page(title.get('href'))
    article = get_content(html)
    
    # 輸出摘要 以確認正常抓到資料
    print(article.get_text()[0:40])
    print()
    
    # 也可以存成檔案
    file_name = 'out/' + title.string + '.txt'
    txt = open(file_name,'w')
    txt.write(article.get_text())
    txt.close()

最近的天氣、冷颼颼，而受到「大陸冷氣團」和水氣偏多影響，「玉山觀測站」，今天凌晨

今天是軍方對「慶富」解約的「最後通牒」，但就在昨天晚上、解約前夕，慶富董事長陳慶

高雄老字號的「長谷旅行社」驚傳停業，公司收了訂金，結果「未出團」旅客，大約有50

中國駐美公使李克新，美國時間8號在華府的一場「僑學界講座」上，針對美國國會通過的

國民黨在今天召開第20屆「一中全會」。黨主席吳敦義批評民進黨政府，執政不佳，面對

