# Chapter 8: Extracting Data from the Internet
## 06:  Web Scraping with BeautifulSoup and Requests

## 試聯合報上的社論
2020-12-15, 2019-5-11, 2019-12-05

## *Python Tutorial: Web Scraping with BeautifulSoup and Requests*
https://www.youtube.com/watch?v=ng2o98k983k

這個網頁有一個示例，是將 Corey Schafer 自己錄製的教學內容的：
1. title
2. summary
3. YouTube link

全部給 scrape 下來，並且存到一個 csv 的表格裏。

### 要先學會如何從 browser 的某筆資料由「檢查」或是 (inspect) 找出原 html 的 code

## Scrapy爬蟲與資料處理30天筆記 系列
https://ithelp.ithome.com.tw/users/20107514/ironman/1919

# 我們現在試著從聯合報刮一些文章的標頭來試試

聯合報的社論
https://udn.com/news/cate/2/6643

In [1]:
from bs4 import BeautifulSoup
import requests # 專門用來開 html 的，取代 urllib.request 的功能
#import csv # 之後要建一個 cvs 表格的檔案用

In [2]:
source_und = requests.get('https://udn.com/news/cate/2/6643').text
# source_und

In [3]:
soup_und = BeautifulSoup(source_und, 'lxml')
# soup_und

### 我們想找「社論」底下各篇文章的標題
先去「檢查」

In [5]:
soup_und.find("h2")

<h2 class="breaking-news">
<a href="https://udn.com/news/story/7266/5093144">
<span class="breaking-news__title">北捷車廂驚傳異味 龍山寺站擠爆、1200名乘客被請下車</span>
<time class="breaking-news__time" datetime="09:02">09:02</time>
</a>
</h2>

```HTML
<h2 class="breaking-news">
<a href="https://udn.com/news/story/7266/5093144">
<span class="breaking-news__title">北捷車廂驚傳異味 龍山寺站擠爆、1200名乘客被請下車</span>
<time class="breaking-news__time" datetime="09:02">09:02</time>
</a>
</h2>
```

In [6]:
# 先試一下 "h2"
soup_und.find_all("h2")

[<h2 class="breaking-news">
 <a href="https://udn.com/news/story/7266/5093144">
 <span class="breaking-news__title">北捷車廂驚傳異味 龍山寺站擠爆、1200名乘客被請下車</span>
 <time class="breaking-news__time" datetime="09:02">09:02</time>
 </a>
 </h2>,
 <h2 class="breaking-news">
 <a href="https://udn.com/news/story/7266/5093078">
 <span class="breaking-news__title">還會更冷！北部低溫下探12度 吳德榮：周六氣溫會再降</span>
 <time class="breaking-news__time" datetime="08:47">08:47</time>
 </a>
 </h2>,
 <h2>
 <a :href="item.titleLink">
                       {{item.title}}
                     </a>
 </h2>,
 <h2>
 <a href="/news/story/7338/5092886?from=udn-catelistnews_ch2" title="聯合報社論／看美最高法院裁決，法官不須當權力奴僕">聯合報社論／看美最高法院裁決，法官不須當權力奴僕</a>
 </h2>,
 <h2>
 <a href="/news/story/7338/5092891?from=udn-catelistnews_ch2" title="聯合報黑白集／蘇貞昌若是新北市長">聯合報黑白集／蘇貞昌若是新北市長</a>
 </h2>,
 <h2>
 <a href="/news/story/7338/5092660?from=udn-catelistnews_ch2" title="經濟日報社論／後疫情時代的投資考量">經濟日報社論／後疫情時代的投資考量</a>
 </h2>,
 <h2>
 <a href="/news/story/11091/5090756?from=udn-

In [7]:
all_h2 = soup_und.find_all("h2")
for item in all_h2:
    print(item.a.text)


北捷車廂驚傳異味 龍山寺站擠爆、1200名乘客被請下車
09:02


還會更冷！北部低溫下探12度 吳德榮：周六氣溫會再降
08:47


                      {{item.title}}
                    
聯合報社論／看美最高法院裁決，法官不須當權力奴僕
聯合報黑白集／蘇貞昌若是新北市長
經濟日報社論／後疫情時代的投資考量
【重磅快評】台鐵平溪線限時搶通復駛場景讓人不安
【重磅快評】標示萊劑是歧視？王浩宇開了蘇揆大玩笑
場邊觀察／拜登提名三女力 沈穩、有力、霸氣各擅勝場
【即時短評】騙完神明 蘇貞昌可別再騙鄉親
【重磅快評】蔡英文的憲法時刻 憲法阿普貴人權倒退嚕？
【專家之眼】燦爛笑容藏不住民進黨權鬥的現在進行式
【專家之眼】陸企上市撐住了香港金融中心的地位
【專家之眼】新冠疫情後 誰主世局沉浮甚至獨領風騷？
【專家之眼】修《優生保健法》 要守穩本土需要與價值
【專家之眼】蔡政府以萊豬換BTA 只是畫餅充飢
標示引報復？萊豬謊言別再拗
從數科成就調查 看台灣教改三大盲點
氣候變遷減少環境衝擊 交通建設思維該改了
科技．人文聯合講座／美的衡量（Aesthetic Measure）
貿協高關稅夾殺…台灣品牌與精品 明年起何去何從
沈呂巡／一位卸任民主黨總統的回憶
陳亮恭／領跑姐的管理哲學
王健壯／台灣民主是鍍金民主
葉銀華／家族企業傳承給誰 有差異？
馬凱／痛斬不平的病根
塗翔文／金基德的影像魅力
張正芬／浪漫愛情搭上科技新創潮 追《Start-Up》跟著時代一起進步
李擴／在你說「買」之前
黃子佼／藝術×唱片
葉怡蘭／雪莉桶陳威士忌新風貌


# 我們想要將所有的分類，如：
- 社論
- 重磅快評
- 專家之眼
- 民意論壇
- 聯合報名人堂
- 聯合好評
- 熱門新聞
取出來，發現他們都是「h3」

In [8]:
all_h3 = soup_und.find_all("h3")
for item in all_h3:
    print(item.text)

全產品速覽
我的頻道 


                        {{subItem.title}}
                      

最新文章

【專家之眼】燦爛笑容藏不住民進黨權鬥的現在進行式


科技．人文聯合講座／美的衡量（Aesthetic Measure）


從數科成就調查 看台灣教改三大盲點


貿協高關稅夾殺…台灣品牌與精品 明年起何去何從


標示引報復？萊豬謊言別再拗


陽明山上核食鴻門宴

社論
重磅快評
專家之眼
民意論壇
聯合報名人堂
聯合好評
熱門新聞

聯合報黑白集／蘇貞昌若是新北市長


聯合報社論／看美最高法院裁決，法官不須當權力奴僕


沈呂巡／一位卸任民主黨總統的回憶


標示引報復？萊豬謊言別再拗


從數科成就調查 看台灣教改三大盲點


陽明山上核食鴻門宴


猜你喜歡












In [None]:
# <h3 class="context-box__title context-box__title--big">社論</h3>

### 限定 attribute
所以我們要限定是那一種 h3。
用 copy/copy element：
```HTML
<h3 class="context-box__title context-box__title--big">重磅快評</h3>
```
然後，由這個 copy & paste，

但別忘了 class 後面要加上 "_" 為 class_

In [9]:
all_h3 = soup_und.find_all("h3", class_="context-box__title context-box__title--big")

In [10]:
len(all_h3)

7

In [11]:
# 我們發現這些標頭是藏在 h3 底下
for h3 in all_h3:
    print(h3.text)

最新文章
社論
重磅快評
專家之眼
民意論壇
聯合報名人堂
聯合好評


### 另外一種 parse 的方法是，看到整個 section：
```HTML
<section class="thumb-news more-news thumb-news--big context-box">
```
這可以用 "Edit as HTML'' 來進行 copy & paste

In [None]:
# <section class="thumb-news more-news thumb-news--big context-box">

```HTML
<section class="thumb-news more-news thumb-news--big context-box">
        </section>
```

In [43]:
all_section = soup_und.find_all("section", class_="thumb-news more-news thumb-news--big context-box")

In [44]:
len(all_section)

7

In [45]:
# 我們發現這些標頭是藏在 h3 底下
for section in all_section:
    print(section.h3.text)

最新文章
社論
重磅快評
專家之眼
民意論壇
聯合報名人堂
聯合好評


In [46]:
# 我們發現「社論」是放在 [1] 中
story = all_section[1].find("h2")
story.text

'\n聯合報社論／看美最高法院裁決，法官不須當權力奴僕\n'

In [47]:
# 我們發現「社論」是放在 [1] 中
story = all_section[1].find_all("h2")
story

[<h2>
 <a href="/news/story/7338/5092886?from=udn-catelistnews_ch2" title="聯合報社論／看美最高法院裁決，法官不須當權力奴僕">聯合報社論／看美最高法院裁決，法官不須當權力奴僕</a>
 </h2>,
 <h2>
 <a href="/news/story/7338/5092891?from=udn-catelistnews_ch2" title="聯合報黑白集／蘇貞昌若是新北市長">聯合報黑白集／蘇貞昌若是新北市長</a>
 </h2>,
 <h2>
 <a href="/news/story/7338/5092660?from=udn-catelistnews_ch2" title="經濟日報社論／後疫情時代的投資考量">經濟日報社論／後疫情時代的投資考量</a>
 </h2>]

## 我們想要把「社論」中每一篇報導的「標頭」以及「摘要」取出來，他們分別藏在：
我們發現「社論」是放在 [1] 中：
1. 標題： /html/body/main/div/section[2]/section[2]/div/div[1]/div[2]/h2/a
2. 摘要：/html/body/main/div/section[2]/section[2]/div/div[1]/div[2]/p/a

後面好幾個 "/div/div[1]/div[2]/" 怕容易搞混，那我們就用 attribute 來限定吧。\
```HTML
<div class="story-list__text">
```
**find_all("div", class_="story-list__text")**

In [48]:
# 我們發現「社論」是放在 [1] 中
# 而且：標題還有摘要分別藏在：
# /html/body/main/div/section[2]/section[2]/div/div[1]/div[2]/h2/a
# /html/body/main/div/section[2]/section[2]/div/div[1]/div[2]/p/a
stories = all_section[1].find_all("div", class_="story-list__text")
for story in stories:
    print(story.h2.text)
    print(story.p.a.text)
    print("============")


聯合報社論／看美最高法院裁決，法官不須當權力奴僕

美國聯邦最高法院近日駁回川普陣營試圖推翻四州選舉結果的訴訟，最高法院簡短地以德州「沒有法律資格」提此訴訟為由，擋下川普力...

聯合報黑白集／蘇貞昌若是新北市長

萊豬明年起開放進口，各地方政府要用自治條例自救，卻可能被中央否決。新北市長侯友宜說將聲請釋憲，閣揆蘇貞昌則要求「統一規範...

經濟日報社論／後疫情時代的投資考量

近期全球股市持續大漲，但實體經濟表現大多不佳。以美國為例，標普500指數（S&P 500）從10月30日以來，短短一個半...


In [56]:
# 把所有的故事標頭印出來
for section in all_section:
    print(section.h3.text)
    for story in section.find_all("h2"):
        print(story.text, end="")
    print()
    print("=================")
    print()

最新文章


社論

聯合報社論／看美最高法院裁決，法官不須當權力奴僕

聯合報黑白集／蘇貞昌若是新北市長

經濟日報社論／後疫情時代的投資考量


重磅快評

【重磅快評】台鐵平溪線限時搶通復駛場景讓人不安

【重磅快評】標示萊劑是歧視？王浩宇開了蘇揆大玩笑

場邊觀察／拜登提名三女力 沈穩、有力、霸氣各擅勝場

【即時短評】騙完神明 蘇貞昌可別再騙鄉親

【重磅快評】蔡英文的憲法時刻 憲法阿普貴人權倒退嚕？


專家之眼

【專家之眼】燦爛笑容藏不住民進黨權鬥的現在進行式

【專家之眼】陸企上市撐住了香港金融中心的地位

【專家之眼】新冠疫情後 誰主世局沉浮甚至獨領風騷？

【專家之眼】修《優生保健法》 要守穩本土需要與價值

【專家之眼】蔡政府以萊豬換BTA 只是畫餅充飢


民意論壇

標示引報復？萊豬謊言別再拗

從數科成就調查 看台灣教改三大盲點

氣候變遷減少環境衝擊 交通建設思維該改了

科技．人文聯合講座／美的衡量（Aesthetic Measure）

貿協高關稅夾殺…台灣品牌與精品 明年起何去何從


聯合報名人堂

沈呂巡／一位卸任民主黨總統的回憶

陳亮恭／領跑姐的管理哲學

王健壯／台灣民主是鍍金民主

葉銀華／家族企業傳承給誰 有差異？

馬凱／痛斬不平的病根


聯合好評

塗翔文／金基德的影像魅力

張正芬／浪漫愛情搭上科技新創潮 追《Start-Up》跟著時代一起進步

李擴／在你說「買」之前

黃子佼／藝術×唱片

葉怡蘭／雪莉桶陳威士忌新風貌




In [57]:
for section in all_section:
    for story in section.find_all("div", class_="story-list__text"):
        print(story.h2.text)
        print(story.p.text)
        print("============")

AttributeError: 'NoneType' object has no attribute 'text'

In [69]:
for section in all_section:
    for story in section.find_all("div", class_="story-list__text"):
        try:
            print(story.h2.text)
        except:
            print(story.h3.text.strip("\n"))
        print(story.p.text)
        print("============")

【專家之眼】燦爛笑容藏不住民進黨權鬥的現在進行式

                      蔡英文總統與行政院長蘇貞昌12日才同時出席台灣戰疫全紀錄首映會及第49屆建築師節慶祝大會的活動，且互動良好。但是，蘇貞昌...                    
科技．人文聯合講座／美的衡量（Aesthetic Measure）

                      我在科技部任職政務次長時，曾推動人文藝術的計畫。政府計畫的成敗都要有量化指標，「人文藝術」如何以量化指標衡量，實在傷透腦...                    
從數科成就調查 看台灣教改三大盲點

                      四年一度的「國際數學與科學教育成就趨勢調查（ＴＩＭＳＳ）」結果公布，我國各項指標沒有太大變化，仍是學習成就表現傑出，但學...                    
貿協高關稅夾殺…台灣品牌與精品 明年起何去何從

                      上周台灣精品品牌協會與高雄市產業競爭力研究協會共同舉辦二○二○台灣品牌國際經營策略研究發表會，報名與會的企業人士與關心台...                    
標示引報復？萊豬謊言別再拗

                      美國總統當選人拜登日前接受紐約時報專訪時指出，未來在對美國的勞工與教育進行重大投資之前，將不會與其他國家簽署任何新的貿易...                    
陽明山上核食鴻門宴

                      十一日，國安會秘書長顧立雄率妻經濟部長王美花，奔赴在陽明山仰德大道上的日本駐台代表官邸餐敘，從之前駐日代表謝長廷返台見蔡...                    

聯合報社論／看美最高法院裁決，法官不須當權力奴僕


美國聯邦最高法院近日駁回川普陣營試圖推翻四州選舉結果的訴訟，最高法院簡短地以德州「沒有法律資格」提此訴訟為由，擋下川普力...


聯合報黑白集／蘇貞昌若是新北市長


萊豬明年起開放進口，各地方政府要用自治條例自救，卻可能被中央否決。新北市長侯友宜說將聲請釋憲，閣揆蘇貞昌則要求「統一規範...


經濟日報社論／後疫情時代的投資考量


近期全球股市持續大漲，但實體經濟表現大多不佳。以美國為例，標普500

In [58]:
for section in all_section:
    for story in section.find_all("div", class_="story-list__text"):
        print(story)
        print("============")

<div class="story-list__text">
<h3>
<a href="/news/story/121823/5093153?from=udn-catebreaknews_ch2" title="【專家之眼】燦爛笑容藏不住民進黨權鬥的現在進行式">【專家之眼】燦爛笑容藏不住民進黨權鬥的現在進行式</a>
</h3>
<p>
                      蔡英文總統與行政院長蘇貞昌12日才同時出席台灣戰疫全紀錄首映會及第49屆建築師節慶祝大會的活動，且互動良好。但是，蘇貞昌...                    </p>
<div class="story-list__info">
<time class="story-list__time">2020-12-15 09:09</time>
</div>
</div>
<div class="story-list__text">
<h3>
<a href="/news/story/7339/5092515?from=udn-catebreaknews_ch2" title="科技．人文聯合講座／美的衡量（Aesthetic Measure）">科技．人文聯合講座／美的衡量（Aesthetic Measure）</a>
</h3>
<p>
                      我在科技部任職政務次長時，曾推動人文藝術的計畫。政府計畫的成敗都要有量化指標，「人文藝術」如何以量化指標衡量，實在傷透腦...                    </p>
<div class="story-list__info">
<time class="story-list__time">2020-12-15 04:23</time>
</div>
</div>
<div class="story-list__text">
<h3>
<a href="/news/story/7339/5092516?from=udn-catebreaknews_ch2" title="從數科成就調查 看台灣教改三大盲點">從數科成就調查 看台灣教改三大盲點</a>
</h3>
<p>
                      四年一度的「國際數學與科學教育成就趨勢調查（ＴＩＭＳＳ）」結果公布，我國各項指標沒有

In [59]:
for section in all_section:
    for story in section.find_all("div", class_="story-list__text"):
        try:
            print(story.h2.text)
            print(story.p.text)
            print("============")
        except:
            pass


聯合報社論／看美最高法院裁決，法官不須當權力奴僕


美國聯邦最高法院近日駁回川普陣營試圖推翻四州選舉結果的訴訟，最高法院簡短地以德州「沒有法律資格」提此訴訟為由，擋下川普力...


聯合報黑白集／蘇貞昌若是新北市長


萊豬明年起開放進口，各地方政府要用自治條例自救，卻可能被中央否決。新北市長侯友宜說將聲請釋憲，閣揆蘇貞昌則要求「統一規範...


經濟日報社論／後疫情時代的投資考量


近期全球股市持續大漲，但實體經濟表現大多不佳。以美國為例，標普500指數（S&P 500）從10月30日以來，短短一個半...


【重磅快評】台鐵平溪線限時搶通復駛場景讓人不安


大規模崩坍的台鐵瑞芳—猴硐路段今天凌晨開出載客列車，斷線十天的平溪線終於恢復行駛，雖然只是單線雙向運行，但總是恢復鐵路運...


【重磅快評】標示萊劑是歧視？王浩宇開了蘇揆大玩笑


萊豬是否應標清楚萊劑，行政院長蘇貞昌和前總統馬英九隔空交火，蘇一再堅稱，如果台灣弄一個和國外不一樣的標準，會引來貿易報復...


場邊觀察／拜登提名三女力 沈穩、有力、霸氣各擅勝場


美國總統當選人拜登兌現選舉承諾，挑選有色人種組閣 ，並提高女性參與率，11日這場記者會中，戴琪、萊斯與傅吉三位即將共事的...


【即時短評】騙完神明 蘇貞昌可別再騙鄉親


行政院長蘇貞昌日前公開婉拒民進黨立委周春米，有關屏南快道及恆春觀光鐵道的建議，但屏東縣長潘孟安北上爭取後轉述，蘇揆裁示，...


【重磅快評】蔡英文的憲法時刻 憲法阿普貴人權倒退嚕？


藉由媒體搭台，朝野唱戲，蔡英文總統開始要進入她在7月民進黨全代會上所稱的「憲法時刻」了。


【專家之眼】燦爛笑容藏不住民進黨權鬥的現在進行式


蔡英文總統與行政院長蘇貞昌12日才同時出席台灣戰疫全紀錄首映會及第49屆建築師節慶祝大會的活動，且互動良好。但是，蘇貞昌...


【專家之眼】陸企上市撐住了香港金融中心的地位


今年5月底中國大陸宣佈制訂港版國安法以來，外界對香港未來能否維持金融中心的地位相當存疑，甚至認為港版國安法通過後，將會導...


【專家之眼】新冠疫情後 誰主世局沉浮甚至獨領風騷？


隨著新冠疫苗問世消息陸續傳開，原本擔憂經濟大崩解的神經緊繃，似乎在瞬間得到慰藉；歲末年終之際，乍現的天光彩虹彷彿顯得耀眼...


【專家之眼】修《優生保健法

In [74]:
for section in all_section:
    for story in section.find_all("div", class_="story-list__text"):
        try:
            print(story.h2.text)
        except:
            print(story.h3.text)
        print(story.p.text)
        print("============")


【專家之眼】燦爛笑容藏不住民進黨權鬥的現在進行式


                      蔡英文總統與行政院長蘇貞昌12日才同時出席台灣戰疫全紀錄首映會及第49屆建築師節慶祝大會的活動，且互動良好。但是，蘇貞昌...                    

科技．人文聯合講座／美的衡量（Aesthetic Measure）


                      我在科技部任職政務次長時，曾推動人文藝術的計畫。政府計畫的成敗都要有量化指標，「人文藝術」如何以量化指標衡量，實在傷透腦...                    

從數科成就調查 看台灣教改三大盲點


                      四年一度的「國際數學與科學教育成就趨勢調查（ＴＩＭＳＳ）」結果公布，我國各項指標沒有太大變化，仍是學習成就表現傑出，但學...                    

貿協高關稅夾殺…台灣品牌與精品 明年起何去何從


                      上周台灣精品品牌協會與高雄市產業競爭力研究協會共同舉辦二○二○台灣品牌國際經營策略研究發表會，報名與會的企業人士與關心台...                    

標示引報復？萊豬謊言別再拗


                      美國總統當選人拜登日前接受紐約時報專訪時指出，未來在對美國的勞工與教育進行重大投資之前，將不會與其他國家簽署任何新的貿易...                    

陽明山上核食鴻門宴


                      十一日，國安會秘書長顧立雄率妻經濟部長王美花，奔赴在陽明山仰德大道上的日本駐台代表官邸餐敘，從之前駐日代表謝長廷返台見蔡...                    

聯合報社論／看美最高法院裁決，法官不須當權力奴僕


美國聯邦最高法院近日駁回川普陣營試圖推翻四州選舉結果的訴訟，最高法院簡短地以德州「沒有法律資格」提此訴訟為由，擋下川普力...


聯合報黑白集／蘇貞昌若是新北市長


萊豬明年起開放進口，各地方政府要用自治條例自救，卻可能被中央否決。新北市長侯友宜說將聲請釋憲，閣揆蘇貞昌則要求「統一規範...


經濟日報社論／後疫情時代的投資考量


近期全球股市持續大漲，但實體經濟表現大多不佳

## BeautifulSoup 與 Xpath
https://www.itread01.com/content/1536692545.html

## Python 使用 Beautiful Soup 抓取與解析網頁資料，開發網路爬蟲教學
https://blog.gtwang.org/programming/python-beautiful-soup-module-scrape-web-pages-tutorial/

## Beautiful Soup的用法（五）：select的使用
https://www.itread01.com/content/1548264446.html