# html 語言與 Beautiful Soup 

* 本週開始，我們要介紹網路爬蟲基本方法與技巧。
* 今天討論 request 與 beautiful soup 的用法，下過討論 regular expression, 是字串處理的進階工具，第三週討論幾個綜合的爬蟲案例。
* 由於網頁多半以html 語言撰寫，BeuatifulSoup4 是解析html檔案非常好用的工具。因此，值得好好學學。
* 安裝 python, Anaconda 之後，會自動安裝 BeuatifulSoup4，不須另外安裝。

#  html file
* html 是網頁最常見的編寫工具，它的基本特徵是以__成對的tag(標記)__。
* 這是一個層次井然的語言結構，每個 tag 都有特定的意義，tag 裡面有tag，可以有許多層。
* 我們的任務是從別人寫好的html網頁中，截取我們要的資料，通常是網址，或文字、數字資料。

## 一個很簡單的範例
* 請檢查各__標記__夾的__內容__是什麼？中間是否有夾著__字串__？是否有定義__屬性__？標記共有幾層？
* 重要的_標記_有 < TITLE> </TITLE>, < div> </div>, < a> </a>, < p> </p>都是成對顯示。
* _屬性_ <> 為標記內宣告的變數，例如 < a href="http://somegreatsite1.com">, < P align=justify>, < div class="first"> 
* _字串_ 為啟始標記與結束標記內所夾的文字，例如  < a>.....</a>, < p> ..... < /p>

In [1]:
# html的基本範例，html_doc 是個字串 string, ''' 表長字串
# 注意，成對的 tag，每個tag 都有不同的意義
html_doc='''
<HTML>
    <HEAD><TITLE>標題在這裡</TITLE></HEAD>
    <div class="first">
        <a href="http://somegreatsite1.com" id="link1">Link1</a>關於這個聯結的文字說明
        <a href="http://somegreatsite2.com" id="link2">Link2</a>關於這個聯結的文字說明
        <P align=justify> 這是段落文字，可以很長! </P> 
    </div>
</HTML> 
'''

### 稍微複雜一點，真正的網頁遠比這個複雜得多

In [2]:
# html的基本範例，html_doc 是個字串 string, ''' 表長字串
html_doc='''
<HTML>
<HEAD><TITLE>標題在這裡</TITLE></HEAD>
<BODY BGCOLOR="FFFFFF">
<div class="first">
<a href="http://somegreatsite1.com" id="link1">Link Name1</a>is the first link to another web site
<a href="http://somegreatsite2.com" id="link2">Link Name2</a>is the second link to another web site
<a href="http://somegreatsite3.com" id="link3">Link Name3</a>is the third link to another web site
<P  align=justify> This is a paragraph 1! </P> 
<P  align=justify> This is a paragraph 2! </P> 
</div>    
<div class="second">
Send me mail at <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>
<P  align=justify> This is a paragraph 1! </P> 
<P  align=justify> This is a paragraph 2! </P> 
<P> This is a paragraph 3! </P> 
<P> This is a paragraph 4! </P> 
<P> This is a paragraph 5! </p>
</div>  
</BODY>
</HTML> 
'''

# 借助 BeuautifulSoup 進行資料的剖析與選取

## 呼叫 BeautifulSoup 模組 (要注意大小寫)

In [5]:
from bs4 import BeautifulSoup
import re

In [6]:
# 讀取 string，產生一個 soup object，
# html_doc 是前面我們定義的 string, "html.parser" 告訴 BeautifulSoup 我們要解析 html 文件。
# 煮湯
soup = BeautifulSoup(html_doc,"html.parser")
# 列印 soup object，看起來與前面的string無異，但已被加料了，可以進行許多後續的處理。
print (soup)


<html>
<head><title>標題在這裡</title></head>
<body bgcolor="FFFFFF">
<div class="first">
<a href="http://somegreatsite1.com" id="link1">Link Name1</a>is the first link to another web site
<a href="http://somegreatsite2.com" id="link2">Link Name2</a>is the second link to another web site
<a href="http://somegreatsite3.com" id="link3">Link Name3</a>is the third link to another web site
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
</div>
<div class="second">
Send me mail at <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
<p> This is a paragraph 3! </p>
<p> This is a paragraph 4! </p>
<p> This is a paragraph 5! </p>
</div>
</body>
</html>



## .prettify() 顯示成對的層次結構

In [7]:
# 顯示層次，但還不是看得很清楚。
print(soup.prettify())

<html>
 <head>
  <title>
   標題在這裡
  </title>
 </head>
 <body bgcolor="FFFFFF">
  <div class="first">
   <a href="http://somegreatsite1.com" id="link1">
    Link Name1
   </a>
   is the first link to another web site
   <a href="http://somegreatsite2.com" id="link2">
    Link Name2
   </a>
   is the second link to another web site
   <a href="http://somegreatsite3.com" id="link3">
    Link Name3
   </a>
   is the third link to another web site
   <p align="justify">
    This is a paragraph 1!
   </p>
   <p align="justify">
    This is a paragraph 2!
   </p>
  </div>
  <div class="second">
   Send me mail at
   <a href="mailto:support@yourcompany.com">
    support@yourcompany.com
   </a>
   <p align="justify">
    This is a paragraph 1!
   </p>
   <p align="justify">
    This is a paragraph 2!
   </p>
   <p>
    This is a paragraph 3!
   </p>
   <p>
    This is a paragraph 4!
   </p>
   <p>
    This is a paragraph 5!
   </p>
  </div>
 </body>
</html>



# 重點是要截取資訊

## 尋找標記.tag
* 例如 .a，表示尋找 < a> 標記，並列出其內容。
* 注意：只顯示找到的第一個的內容

In [8]:
# 尋找第一個 <a> tag
soup.a

<a href="http://somegreatsite1.com" id="link1">Link Name1</a>

In [9]:
# 用 find 指今亦可，結果一樣, 顯示找到的第一個 tag 
soup.find('a')

<a href="http://somegreatsite1.com" id="link1">Link Name1</a>

##  標記內的屬性，href=, id=

In [10]:
# <a> 內的屬性 href，亦即網址聯結，注意要用中括弧。
soup.a['href']

'http://somegreatsite1.com'

In [11]:
#  <a> 內的屬性 id
soup.a['id']

'link1'

## 標記內的字串
### 找出 < a>..... < /a>包含的字串，三種方法 .contents,  .string, .text

In [12]:
# <a> 包夾的字串, list 格式
soup.a.contents

['Link Name1']

In [13]:
# <a> 包夾的字串，string 格式
soup.a.string

'Link Name1'

In [14]:
# 效果一樣，string 格式
soup.a.text

'Link Name1'

## < div> 標記的內容

In [74]:
soup.div

<div class="first">
<a href="http://somegreatsite1.com" id="link1">Link Name1</a>is the first link to another web site
<a href="http://somegreatsite2.com" id="link2">Link Name2</a>is the second link to another web site
<a href="http://somegreatsite3.com" id="link3">Link Name3</a>is the third link to another web site
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
</div>

In [15]:
# 第一個 div 內夾的 string。\n 表跳行符號
soup.div.text

'\nLink Name1is the first link to another web site\nLink Name2is the second link to another web site\nLink Name3is the third link to another web site\n This is a paragraph 1! \n This is a paragraph 2! \n'

In [16]:
# 取消跳行符號，直接跳行
print (soup.div.text)


Link Name1is the first link to another web site
Link Name2is the second link to another web site
Link Name3is the third link to another web site
 This is a paragraph 1! 
 This is a paragraph 2! 



## < p> 標記的內容

In [17]:
# <p> 內有一個屬性 align, 其值為 justify
soup.p

<p align="justify"> This is a paragraph 1! </p>

In [18]:
# 只顯示包含的 string
soup.p.text

' This is a paragraph 1! '

# 找出符合條件的所有內容

# .find_all() 指令
* 找出所有合於條件的所有內容，存成 list。

##  列出所有的 < a> 的內容，存成 list

In [19]:
# list
list_a=soup.find_all("a")
print (len(list_a))
print (list_a)

4
[<a href="http://somegreatsite1.com" id="link1">Link Name1</a>, <a href="http://somegreatsite2.com" id="link2">Link Name2</a>, <a href="http://somegreatsite3.com" id="link3">Link Name3</a>, <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>]


In [81]:
# 印出找到的第一個聯結
print (list_a[0]['href'])

http://somegreatsite1.com


In [20]:
# 所有的聯結都印出來
for a in list_a:
    print (a['href'])

http://somegreatsite1.com
http://somegreatsite2.com
http://somegreatsite3.com
mailto:support@yourcompany.com


## < p>  印出所有的段落文字

In [21]:
list_p=soup.find_all("p")
for p in list_p:
    print(p.text)

 This is a paragraph 1! 
 This is a paragraph 2! 
 This is a paragraph 1! 
 This is a paragraph 2! 
 This is a paragraph 3! 
 This is a paragraph 4! 
 This is a paragraph 5! 


## 尋找所有 < div> 下面屬性class為second的東東

In [22]:
# list
list_div=soup.find_all("div", {'class':"second"})
print (list_div)

[<div class="second">
Send me mail at <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
<p> This is a paragraph 3! </p>
<p> This is a paragraph 4! </p>
<p> This is a paragraph 5! </p>
</div>]


In [85]:
#從div層中再抓取p的資料
# 接續上例，印出 < p> 內的文字，存成 list
paragraph=[]
# 找出所有合於條件的 <div>
list_div=soup.find_all("div", {'class':"second"})
# 如果有找到的話
if len(list_div)>0:
    for li in list_div:    
        # 找出所有的 <p>
        list_p=li.find_all("p")
        for p in list_p:
            # 加入 list
            paragraph.append(p.text)
    print (paragraph)

[' This is a paragraph 1! ', ' This is a paragraph 2! ', ' This is a paragraph 3! ', ' This is a paragraph 4! ', ' This is a paragraph 5! ']


In [86]:
# 第一個 div 夾的的 string
list_div[0].text 

'\nSend me mail at support@yourcompany.com\n This is a paragraph 1! \n This is a paragraph 2! \n This is a paragraph 3! \n This is a paragraph 4! \n This is a paragraph 5! \n'

In [87]:
# 比較 .text 與 .contents 的差異 (string 與 list 的差別)
list_div[0].contents #contents 中有個個list

['\nSend me mail at ',
 <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>,
 '\n',
 <p align="justify"> This is a paragraph 1! </p>,
 '\n',
 <p align="justify"> This is a paragraph 2! </p>,
 '\n',
 <p> This is a paragraph 3! </p>,
 '\n',
 <p> This is a paragraph 4! </p>,
 '\n',
 <p> This is a paragraph 5! </p>,
 '\n']

In [88]:
# 0 表示 list 裡面的第一個元素。
list_div[0].contents[0]

'\nSend me mail at '

# 真正的 html檔，手動下載某一篇文章，存成html格式
* 範例檔 "d:/my python/_news/20180302_這裡要移除 蔣介石銅像變木乃伊.html

## step 1 檢查 soup是否成功?

In [25]:
# 完整檔名，隨便找一個檔測試
path = ""
path="C:/Users/HSIU/Desktop/108-1/python_ntu"
file_name=path +'/news/'+'20180302_這裡要移除 蔣介石銅像變木乃伊.html'
# 讀取檔案，注意此檔格式為 'big5'，無須 encoding。*****
content = open(file_name,'r').read() 

# 若為 utf-8 則須 encoding
#content = open(file_name,'r',encoding='utf8').read()  

# 開始煮湯
soup = BeautifulSoup(content,"html.parser")
soup

<!DOCTYPE html>

<!-- saved from url=(0228)https://d1b10bmlvqabco.cloudfront.net/attach/jlrqtgi8cpaej/i91z715dpjc6y0/k2dbnlk3scft/20180302_%E9%80%99%E8%A3%A1%E8%A6%81%E7%A7%BB%E9%99%A4_%E8%94%A3%E4%BB%8B%E7%9F%B3%E9%8A%85%E5%83%8F%E8%AE%8A%E6%9C%A8%E4%B9%83%E4%BC%8A.html -->
<html><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0" name="viewport"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<title>聯合知識庫 - 全球最大的中文新聞資料庫平台</title>
<link href="./聯合知識庫 - 全球最大的中文新聞資料庫平台_files/fontello.css" rel="stylesheet"/>
<link href="./聯合知識庫 - 全球最大的中文新聞資料庫平台_files/font-awesome.min.css" rel="stylesheet"/>
<!-- // masterslidercss 套件 -->
<link href="./聯合知識庫 - 全球最大的中文新聞資料庫平台_files/masterslider.css" rel="stylesheet"/>
<link href="./聯合知識庫 - 全球最大的中文新聞資料庫平台_files/style.css" rel="stylesheet"/>
</head>
<body>
<div id="container">
<!-- // 燈箱遮罩 -->
<div class="overlay close"></div>
<!-- // 手機左右側滑選單收合遮罩 -->
<di

## 先想想要讀取什麼資料？

In [26]:
# 讀取標題，h1,h2,h3,h4
# 在 tag "div", 屬性 class = story-title
list_div=soup.find_all("div", {'class':"story-title"})
if len(list_div)>0:
    for div in list_div:
        try:
            h1=div.h1.text
        except:
            h1=''
        try:
            h2=div.h2.text
        except:    
            h2=''
        try:    
            h3=div.h3.text
        except:
            h3=''
        try:    
            h4=div.h4.text
        except:
            h4=''        
print (h1)
print (h2)
print (h3)
print (h4)

# 讀取作者
# 在 tab "span", 屬性 class = story-title
list_span=soup.find_all("span", {'class':"story-report"})
if len(list_span)>0:
    author=list_span[0].text
print (author)

# 讀取時間及版次    
# 在 tab "span", 屬性 class = story-source
list_span=soup.find_all("span", {'class':"story-source"})
if len(list_span)>0:
    time=list_span[0].text
print (time)

# 讀取內文
# 在 tab "p"
list_p=soup.find_all("p")
for p in list_p:
    print(p.text)

這裡要移除 蔣介石銅像變木乃伊
全國警局唯一留存


【記者吳淑君、游明煌╱基隆報導】
【2018-03-02/聯合報/B2版/新北基隆要聞】
這幾年每到二二八，基隆市就不平靜，市議員游祥耀昨天上午點名市警局，要求移除全國警局唯一留存的蔣介石銅像，以免引來抗爭。市警局昨天下午就用帆布把銅像打包得密不透風；警方表示，這是為了避免被噴漆、破壞，將擇日移置。

市警局員警、員工昨晚下班看到樓梯間的銅像被包起來都很錯愕，有人說，大門有員警廿四小時站崗，還怕被噴漆破壞嗎？有員警忍不住說，「被包成像木乃伊，好可憐」。

游祥耀指出，基隆在二二八發生這麼大的傷害和屠殺，但蔣介石銅像一直沒動，警察局是保護人民的治安單位，擺一個威權塑像很不洽當；他督促市府在兩個月內趕快處理掉，否則抗議者會不會用激烈手段破壞，他不敢保證。

基隆市警局主秘廖誌銘表示，根據調查，各縣市警察局內部，已經沒有類似的銅像，基隆市警局會盡快地移置銅像，正與桃園兩蔣文化園區協調存放和保存地點。

基隆市政府表示，任何政治塑像都不應該存在於公共空間、機關以及教育場所內，警察是人民的保母，警察局更不應留有威權時代的政治塑像，有違民主時代的潮流。


您勾選的資料已成功加入「文章線上授權」！！


## 多個 html 檔
* 這是聯合報有關抗爭的文章，92篇。都放在 d:/My python/_news/ 下面

In [27]:
import os
import re
path='C:/Users/HSIU/Desktop/108-1/python_ntu'
# List 記錄所有的檔名
doc_list = []
# 指定資料夾
os.chdir(path+'/news/')
# 找出所有.html 檔
for f in os.listdir("."):
    # 檔案篩選
     if f.endswith(".html"):
        # 第一個字母會是亂碼，先去除    
        f=re.sub("\ufeff","",f)        
        doc_list.append(f)       
print (len(doc_list))
doc_list

92


['20180101_許悔之、許含光 父子的咖啡對談.html',
 '20180102_港萬人遊行 反高鐵一地兩檢.html',
 '20180103_臨會審總預算 藍擬提200 刪減凍結案.html',
 '20180103_遭點名換將 六部全否認.html',
 '20180104_北檢潑髒水 把證人當犯人.html',
 '20180104_徵農地建滯洪池 農民嘉縣府前抗議.html',
 '20180104_監院糾正政院、勞動部.html',
 '20180105_下周一 夜宿立院 勞團不排除激烈行動.html',
 '20180106_時力鏈鎖議場 民進黨破門反制.html',
 '20180106_盟友反目 朝野還有協商空間？.html',
 '20180107_濕地立法三年 基金沒編半毛.html',
 '20180107_立委上街 警柔性勸導.html',
 '20180108_勞基法再戰府院堅持「往前走」.html',
 '20180108_勞基鬥法 立院臨會延燒.html',
 '20180108_國民黨攜時力 聯合作戰？.html',
 '20180108_封鎖國會大戲：一面權力的照妖鏡.html',
 '20180108_綠委守大門「身心俱疲」.html',
 '20180108_蔡籲協商 時力拒絕.html',
 '20180109_別低估「政治危機」.html',
 '20180109_勞基法今強行表決？藍準備武鬥.html',
 '20180109_勞基鬥法 今拚3讀.html',
 '20180109_勞工抗議史第3度臥軌.html',
 '20180109_時力被帶離 柯Ｐ：SOP會更多.html',
 '20180110_7休1改為14休4 拍板.html',
 '20180110_勞團喊：我們心沉痛.html',
 '20180110_抗爭博版面 手腳被看破！.html',
 '20180110_抗爭為勞工 算計又如何？.html',
 '20180110_綠奇招 擋藍案海戰術.html',
 '20180110_豪氣的悲歌.html',
 '20180111_因為憤怒，所以棄守？.html',
 '20180111_國民黨中常會 馬談最後一次見蔣經國.html',
 '20180111_睡夢中修法，映照民進黨團的無心症.ht

  # 測試成功，讀取多篇文章     

In [28]:
head=[]
author=[]
time=[]
texts=[]
i=0
h1=[]
h2=[]
h3=[]
h4=[]
# 讀取各篇文章，成為一個 list
for f in doc_list: 
    i+=1
    # 完整檔名，隨便找一個檔測試
    file_name=path +'/news/'+ f
    # 讀取檔案，注意格式為 'big5'，無毋 encoding。*****
    content = open(file_name,'r').read()  
    # 煮湯
    soup = BeautifulSoup(content,"html.parser")

    # 讀取標題，h1,h2,h3,h4
    list_div=soup.find_all("div", {'class':"story-title"})
    if len(list_div)>0:
        for div in list_div:
            try:
                h1=div.h1.text
            except:
                h1=''
            try:
                 h2=div.h2.text
            except:    
                h2=''
            try:    
                 h3=div.h3.text
            except:
                h3=''
            try:    
                 h4=div.h4.text
            except:
                h4=''   
                
        head.append(h1+h2+h3+h4)
        # 讀取作者
        list_span=soup.find_all("span", {'class':"story-report"})
        if len(list_span)>0:
            string=list_span[0].text
            # 去掉特殊符號
            string=re.sub("【","",string)
            string=re.sub("】","",string)  
            author.append(string)
        else:
            author.append('')

        # 讀取時間及版次    
        list_span=soup.find_all("span", {'class':"story-source"})
        if len(list_span)>0:
            string=list_span[0].text
            # 去掉特殊符號
            string=re.sub("【","",string)
            string=re.sub("】","",string)  
            time.append(string)
        else:
            time.append('')

        # 讀取內文
        string=''
        list_p=soup.find_all("p")
        for p in list_p:
            string=string+p.text
            
        # 異體字轉換
        string=re.sub("台","臺",string)         
        # 刪除中文的空格符號，這些看起來像是亂碼先刪除
        string=re.sub("\ufeff","",string)
        string=re.sub("\u3000","",string)            
            
        texts.append(string)    
    # 每處理完10篇文章，報告進度。******    
    if i%10==0:
        print (i, 'done')
    elif i==len(doc_list):
        print ('finished')

10 done
20 done
30 done
40 done
50 done
60 done
70 done
80 done
90 done
finished


In [96]:
import pandas as pd   
data=list(zip(head,author,time,texts))
df=pd.DataFrame(data,columns=['title','author','time','text'])
df

Unnamed: 0,title,author,time,text
0,77年十大消費新聞 房價發燒排名第一,台北訊,1989-01-01/聯合報/05版/生活,消費者文教基金會昨天選出七十七年度十大消費新聞，房價發燒，民眾望屋興嘆，政府因而制定政策，期...
1,勞動黨昨天宣布建黨傾向採議會與街頭路線交叉運作 民進黨與工黨表示願與公平競爭,記者林念平╱台北報導,1989-01-01/聯合報/03版/焦點新聞,從工黨分裂出來的一群工運人士，經過半年時間的籌組，昨天宣布將在今年二月成立「勞動黨」。民進黨...
2,向世界天才挑戰!《克博士專案》送戈巴契夫一頂假髮,鄭麗園/輯,1989-01-01/聯合報/22版/繽紛,誰是克博士?在美國，只要提起克博士，人們立刻會聯想到絕大的懸疑。出生於南極的克博士，七歲即展...
3,"微妙關係 休戚與共!?立委吳勇雄抨擊利用慈善捐款出國事,引發.....集思會與民進黨團之間 ...",記者黃清龍/特稿,1989-01-01/聯合報/02版/焦點新聞,「集思會」立委被指利用慈善捐款出國一事，已使此一充滿爭議的執政黨內新興次級團體，更引起爭議；...
4,揮不去的吳鳳神話 寫下句點!?擾攘多年情緒不見排解 北迴歸線標竿如何重建,記者郭勝恩/特稿,1989-01-01/聯合報/03版/焦點新聞,嘉義火車站前的吳鳳銅像，昨天被包括十幾名山胞在內的一群男女拆得支離破碎。這項突然的舉動，其實...
5,水乳交融推薦獎作品短評評西西「致西緒福斯」,鄭樹森,1989-01-01/聯合報/23版/聯合副刊,小說的題材是世界文壇都熟悉的古西方神話。西西的作品是這個神話的新詮釋。重寫這個神話並不特殊，...
6,理想的失落與重建-從「河殤」談起 (上)本文是國策顧問趙耀東先生昨晚在本報與社會大學文教基金...,趙耀東,1989-01-01/聯合報/02版/焦點新聞,什麼是「理想」？這是在我們回顧這一年來國人的理想之前，首先必須交代的。「理想」不是空想，不是...
7,節制發言 夜間加開院會 執政黨立委黨部近日討論,許薔薔╱台北報導,1989-01-01/聯合報/02版/焦點新聞,執政黨立委黨部將於本週三召開臨時常會，討論是否節制黨籍委員的發言，並安排於夜間加開院會，期能...
8,"雇主有關廠的自由如未預告或不發資遣費,勞方才可以抗爭。",記者邱文信╱台北報導,1989-01-01/聯合報/04版/社會觀察.大家談,臺北縣三家塑膠廠的員工擔心老闆關廠轉到大陸投資，擬聯合採取抗爭行動；全國工業總會認為，勞基法...
9,吳鳳仍留下了一些東西話題與觀念以激進手段摧毀神話者，違背揭開神話的客觀思考態度和社會良知;何...,記者王震邦╱特稿,1989-01-02/聯合報/03版/焦點新聞,吳鳳神話已經破滅了，吳鳳銅像連人帶馬也被拉毀了，吳鳳其人其事，褪掉神話包裝，是不是一無所有了...


## pickle

In [97]:
import pickle
with open(path+"_news/news.pkl", "wb") as fp:   #Pickling
     pickle.dump(df, fp)

with open(path+"_news/news.pkl", "rb") as fp:   # Unpickling
     df1=pickle.load(fp)

In [100]:
df1==df

Unnamed: 0,title,author,time,text
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True
4,True,True,True,True
5,True,True,True,True
6,True,True,True,True
7,True,True,True,True
8,True,True,True,True
9,True,True,True,True


# 下載一個真正的網頁 html

## 觀察網頁的程式碼

### 現在的流覽器都有提供網頁原始碼檢查工具。以下，我們就用 Crome 簡單解說。
* 首先，找到目標網頁，開啟網頁。
* 第二，流覽網頁，看看它有什麼內容，每個聯結按一按，確定你定要擷取的資訊位置在哪裡。
* 第三，在你要的資訊上面，滑鼠右鍵，選擇 [檢查網頁原始碼]，或[檢查] (inspection), 兩者都試試看，比較其差異。這個時候你會看到網頁的原始碼，找到目標資訊出現的位置。特別注意你要下載的資料前面的標記(tag)是什麼？其前後的標記是什麼？
* 第四，每行程式左邊的「三角形」鍵頭，可開啟、縮合，便於顯示不同的層級。
* 第五，左側頁面與右側程式相互對應，滑鼠移至左側圖面上的任何元件，滑鼠右鍵[檢查]，可看到相應的程式碼。滑鼠移至左側程式碼，相應的網頁畫面在右側會以色塊標示。
* 第六，選按[network], 再 refresh 網頁，可以看到網頁登載的元件，以及各個子聯結的清單，按 [headers], [preview], [rsponse] 可以檢查各個聯結的內容。這可以幫助我們判斷我們要的資訊是位於哪個子聯結。這些子聯結都可以複製，便於進一步的分析。
* 第七、很多網頁因為資訊太多，都有分頁的設計，點選 [下一頁] 看看網頁的結構是否有變化，變化的規則是什麼。 
* 第八、如果你要一次擷取多個網頁的資料，要注意各網頁的格式是否統一，如果不統一，就要撰寫適用各種情況的程式，否則會讀取錯誤。你會發現，資料格式不統一，通常是網路爬蟲很大的困擾。
* 第九、Beautiful Soup 通常要配合 Regular Expression 一起使用，下一個講次，我們會討論， Regular Expression。

## 先進去網頁，檢查網頁的結構
* 資料在哪一個 tag 下面？
* 是否必須到下一個聯結？
* 聯結命名的規則？
* 下一頁的網址命名規則？
* get or post ? 本週我們只介紹 get
* 動態或靜態 ? 本週只介紹靜態網頁。


* 現在我們要試試真正的網頁，咱們台大的首頁 http://www.nd.ntu.edu.tw/
* 裡面有許許多多的資料，我們要選擇自己要的東西。

## 方法一：使用 urllib.request.urlopen()

In [101]:
# beautiful soup
import urllib
import urllib.request
from bs4 import BeautifulSoup
import io
import os
import json
import re

In [102]:
# 國發所首頁
url='http://www.nd.ntu.edu.tw/'
# request.urlopen()提出進入網頁的要求
thepage=urllib.request.urlopen(url)
# 產生一個 soup object
soup=BeautifulSoup(thepage,"html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html class="orbit" lang="zh_tw">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
  <link href="/uploads/site/favicon/54db068a7470001bc5180000/Facebook-20150416-023619__2_.jpg" rel="shortcut icon" type="image/vnd.microsoft.icon"/>
  <title>
   國立臺灣大學國家發展研究所
  </title>
  <link href="/assets/fontawesome/font-awesome-25cef4302d1b8fc05d28ac847626ecf3.css" media="screen" rel="stylesheet"/>
  <link href="/assets/bootstrap/bootstrap-c07da65a73e80a09cabdf7a174a0635e.css" media="screen" rel="stylesheet"/>
  <link href="/assets/template/template-371b47ba8210ddd35fbd86df9516c51f.css" media="screen" rel="stylesheet"/>
  <script src="/assets/lib/jquery-1.11.0.min-2cf9b70a257975f2833f682170097171.js">
  </script>
  <script src="/assets/bootstra

## 方法二：使用 requests.get()
* 可處理 get, post 兩種模式，前者直接請求，後者要附加引數才能請求。
* 在網頁上按左鍵，inspection, network, reflesh, 選擇網頁，Herders 可查得 request method
* post 要有 form data 才能 request，form data 可從網頁上查得。

In [103]:
import requests
from bs4 import BeautifulSoup
url="http://www.nd.ntu.edu.tw/"
# 有 get 與 post 兩種模式，要從網頁上 inspect，本範例為 get
response = requests.get (url)
# 用 BeatifulSoup 解析 HTML 並把結果回傳 soup
soup = BeautifulSoup (response.text, "lxml")
print(soup.prettify())

<!DOCTYPE html>
<html class="orbit" lang="zh_tw">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
  <link href="/uploads/site/favicon/54db068a7470001bc5180000/Facebook-20150416-023619__2_.jpg" rel="shortcut icon" type="image/vnd.microsoft.icon"/>
  <title>
   國立臺灣大學國家發展研究所
  </title>
  <link href="/assets/fontawesome/font-awesome-25cef4302d1b8fc05d28ac847626ecf3.css" media="screen" rel="stylesheet"/>
  <link href="/assets/bootstrap/bootstrap-c07da65a73e80a09cabdf7a174a0635e.css" media="screen" rel="stylesheet"/>
  <link href="/assets/template/template-371b47ba8210ddd35fbd86df9516c51f.css" media="screen" rel="stylesheet"/>
  <script src="/assets/lib/jquery-1.11.0.min-2cf9b70a257975f2833f682170097171.js">
  </script>
  <script src="/assets/bootstra

## 把所有的公告，時間與內容抓出來。

In [104]:
# 網頁位於 "http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=1&"
url="http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=1&"
# 有 get 與 post 兩種模式，要從網頁上 inspect，本範例為 get
response = requests.get (url)
# 用 BeatifulSoup 解析 HTML 並把結果回傳 soup
soup = BeautifulSoup (response.text, "lxml")
print(soup.prettify())

<!DOCTYPE html>
<html class="orbit" lang="zh_tw">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
  <link href="/uploads/site/favicon/54db068a7470001bc5180000/Facebook-20150416-023619__2_.jpg" rel="shortcut icon" type="image/vnd.microsoft.icon"/>
  <title>
   國立臺灣大學國家發展研究所
  </title>
  <link href="/assets/fontawesome/font-awesome-25cef4302d1b8fc05d28ac847626ecf3.css" media="screen" rel="stylesheet"/>
  <link href="/assets/bootstrap/bootstrap-c07da65a73e80a09cabdf7a174a0635e.css" media="screen" rel="stylesheet"/>
  <link href="/assets/template/template-371b47ba8210ddd35fbd86df9516c51f.css" media="screen" rel="stylesheet"/>
  <script src="/assets/lib/jquery-1.11.0.min-2cf9b70a257975f2833f682170097171.js">
  </script>
  <script src="/assets/bootstra

## 公告的時間

In [105]:
# 公告的時間位於 <span class="i-annc__postdate" date-format="%Y-%m-%d"> ......</span>
list_t=soup.find_all("span", {'class':"i-annc__postdate"})
time=[]
for t in list_t:
    time.append(t.text)
print (time)

[' 2019-10-30', ' 2019-10-28', ' 2019-10-28', ' 2019-10-22', ' 2019-10-18', ' 2019-10-18', ' 2019-10-15', ' 2019-10-01', ' 2019-09-18', ' 2019-09-10']


## 公告的標題

In [106]:
# 經檢查，公告的標題位於 <a class="i-annc__title" href="...">......</a>
list_a=soup.find_all("a", {'class':"i-annc__title"})
title=[]
for a in list_a:
    title.append(a.text)
print (title)    

['108/11/12(二)風險中心舉辦之【鉅變臺灣：啟動臺灣長期能源轉型】論壇活動，歡迎同學報名參加！ (計入學習卡)', '【畢業團拍】107學年度碩士班畢業團拍調查表單填報(至108/10/30日止)', '【公告】109學年度碩士班招生簡章考科異動', '108學年度第1學期生活學習助學金審核結果公告', '108/10/26(六)109學年度碩士班甄試招生筆試試場：國發所206教室', '108/10/25 10:20~12:20專題演講，講者：Dr. Katsuhisa Kojima、講題：Long-Term Care Policy Development in Japan - Prospect and Challenge【計入學習卡】', '108/10/17所長時間暫停乙次，108/10/21~10/25所長將出席國際會議暨洽談本所與香港嶺南大學國際學術交流相關事宜，故該週所長時間暫停。', '本校學務處公告相關訊息', '[所辦公告] 所辦公室不代收同學私人信件或包裹', '107學年度(含)之前必修及必選課程尚未修習完成者，因應新制課程對應方式。']


In [108]:
# 接下來，我們要公告的內容。它是放在聯結裡。先做一個聯結的清單。
list_a=soup.find_all("a", {'class':"i-annc__title"})
# 注意有一個共同的網址頭
h='http://www.nd.ntu.edu.tw'
list_l=[]
for a in list_a:
    list_l.append(h+a['href'])    
print(list_l)

['http://www.nd.ntu.edu.tw/zh_tw/announcement/108-11-12-%E4%BA%8C-%E9%A2%A8%E9%9A%AA%E4%B8%AD%E5%BF%83%E8%88%89%E8%BE%A6%E4%B9%8B-%E9%89%85%E8%AE%8A%E8%87%BA%E7%81%A3-%E5%95%9F%E5%8B%95%E8%87%BA%E7%81%A3%E9%95%B7%E6%9C%9F%E8%83%BD%E6%BA%90%E8%BD%89%E5%9E%8B-%E8%AB%96%E5%A3%87%E6%B4%BB%E5%8B%95-%E6%AD%A1%E8%BF%8E%E5%90%8C%E5%AD%B8%E5%A0%B1%E5%90%8D%E5%8F%83%E5%8A%A0-%E8%A8%88%E5%85%A5%E5%AD%B8%E7%BF%92%E5%8D%A1-96401268', 'http://www.nd.ntu.edu.tw/zh_tw/announcement/-%E7%95%A2%E6%A5%AD%E5%9C%98%E6%8B%8D-107%E5%AD%B8%E5%B9%B4%E5%BA%A6%E7%A2%A9%E5%A3%AB%E7%8F%AD%E7%95%A2%E6%A5%AD%E5%9C%98%E6%8B%8D%E8%AA%BF%E6%9F%A5%E8%A1%A8%E5%96%AE%E5%A1%AB%E5%A0%B1-%E8%87%B3108-10-30%E6%97%A5%E6%AD%A2-44296179', 'http://www.nd.ntu.edu.tw/zh_tw/announcement/-%E5%85%AC%E5%91%8A-109%E5%AD%B8%E5%B9%B4%E5%BA%A6%E7%A2%A9%E5%A3%AB%E7%8F%AD%E6%8B%9B%E7%94%9F%E7%B0%A1%E7%AB%A0%E8%80%83%E7%A7%91%E7%95%B0%E5%8B%95-71061959', 'http://www.nd.ntu.edu.tw/zh_tw/announcement/108%E5%AD%B8%E5%B9%B4%E5%BA%A6%E7%AC%AC1%E5%A

## 公告的文字

In [109]:
# 再讀取各聯結的內容文字
# 內容位於 'section',{'class':"s-annc__post-wrap"}
string=[]
for l in list_l:
    response = requests.get (l)
    soup_tem = BeautifulSoup (response.text, "lxml")
    add_string=soup_tem.find_all('section',{'class':"s-annc__post-wrap"})[0].text    
    string.append(add_string)
string

['\n\n\r\n【鉅變臺灣：啟動臺灣長期能源轉型】論壇\n\r\n時間：11月12日(二)09:20-16:30\n\r\n地點：臺灣大學法律學院霖澤館 國際會議廳\n\r\n主辦單位：臺大風險社會與政策研究中心\n\r\n報名網址：http://rsprc.ntu.edu.tw/m06-3/1288\n\r\n活動簡介：\n\r\n《鉅變臺灣：啟動長期能源轉型》政策報告即將於2019年11月12日舉辦論壇，上午場次預計將由中央研究院環境變遷研究中心王寶貫主任擔任主持人，而風險社會與政策研究中心總計畫主持人周桂田教授，以《鉅變臺灣：啟動長期能源轉型》進行專題演講，發表該份報告書之脈絡與重點，邀請到行政院龔明鑫政務委員以現階段政府單位之角度看待臺灣能源轉型之困境與發展，並由工業研究院綠能與環境研究所李宏台副所長分析如何整合產、官、學界之資源，加速臺灣能源轉型之腳步。\n\r\n下午場次由風險社會與政策研究中心研究團隊分別就「能源治理革新」與「確立工業節能優先」兩主題進行發表，並邀請到產、官、學界先進與團隊進行與談，期望能就《鉅變臺灣：啟動長期能源轉型》之重點項目進行更多的對話與促進公民參與，研擬各利害相關人可採行的具體行動，共同推動臺灣長期能源轉型。\n\r\n\xa0\n\r\n※本活動提供公務人員學習時數上午場次2小時、下午場次3小時。\n',
 '\n國發所畢業團拍（107碩士班）\r\n\xa0\n大家好，我們是107級的畢代皓瑋和玥岑，時光飛速，也到了我們107級拍畢業團拍的時間啦！無論大家是否論文有寫完（或有沒有找到老師?!），都先預祝福大家畢業快樂！\n時間上，我們僅統計到10/30午夜十二點哦 !\r\n\xa0\n調查表單：https://docs.google.com/forms/d/1P3AlVEfAihIXWnm2n0DoxzM5rHobpxDtF9J_1OKxoVE/edit\r\n\xa0\n簡單說明一下幾點注意事項：\n1.\u3000我們畢業團拍時間目前需要和其他系協商，畢代會目前給的時間都在六日，因此要麻煩大家勾選出幾個最方便的時間，我們會據此來和他系所協商時間！\n\n2.\u3000畢代會目前針對團拍給出三種方案（有買方案才能參加團拍喔，對方會算人頭）：\r\n\xa0\r\n\n\n\nonly 團拍入鏡 $220元/人\n

In [42]:
import pandas as pd
data=list(zip(time, title, string))
df=pd.DataFrame(data, columns=['time ','title','content'])
df

Unnamed: 0,time,title,content
0,2019-10-30,108/11/12(二)風險中心舉辦之【鉅變臺灣：啟動臺灣長期能源轉型】論壇活動，歡迎同學報...,\n\n\r\n【鉅變臺灣：啟動臺灣長期能源轉型】論壇\n\r\n時間：11月12日(二)0...
1,2019-10-28,【畢業團拍】107學年度碩士班畢業團拍調查表單填報(至108/10/30日止),\n國發所畢業團拍（107碩士班）\r\n \n大家好，我們是107級的畢代皓瑋和玥岑，時光...
2,2019-10-28,【公告】109學年度碩士班招生簡章考科異動,\n\n公告\n\n109學學年度碩士班招生簡章考科異動：乙組(主修中國大陸與東亞研究)選考...
3,2019-10-22,108學年度第1學期生活學習助學金審核結果公告,\n台灣大學國家發展所108學年度第1學期生活學習助學金審核結果公告\n\n通過名單：蔡振輝...
4,2019-10-18,108/10/26(六)109學年度碩士班甄試招生筆試試場：國發所206教室,\n國立臺灣大學國家發展研究所109學年度碩士班甄試招生\n\n筆試日期：108年10月26...
5,2019-10-18,108/10/25 10:20~12:20專題演講，講者：Dr. Katsuhisa Koj...,\n演講題目：Long-Term Care Policy Development in Ja...
6,2019-10-15,108/10/17所長時間暫停乙次，108/10/21~10/25所長將出席國際會議暨洽談本...,\n1、108年10月17日(四)所長時間暫停乙次。\r\n2、108年10月21日(一)至...
7,2019-10-01,本校學務處公告相關訊息,\n大家好：\r\n \n學務處辦理多項優質活動，歡迎您踴躍參加。\n\n\n\n\n學務處...
8,2019-09-18,[所辦公告] 所辦公室不代收同學私人信件或包裹,\n所辦公室不代收同學私人信件或包裹，請同學留意勿將私人信件或包裹寄至所辦公室。謝謝配合。\n
9,2019-09-10,107學年度(含)之前必修及必選課程尚未修習完成者，因應新制課程對應方式。,\n公 告\n因應本所自108學年度起組別整併為「全球化與科技治理」、「中國大陸與東亞研究...


## 但是我們有好幾頁

In [111]:
# 檢查每頁的網址結構相似，http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=1& 
# 製作每頁的聯結
time=[]
title=[]
string=[]
for n in range(5):
    #  共有五頁
    url='http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=' + str(n+1) + '&'     
    response = requests.get (url)
    soup = BeautifulSoup (response.text, "lxml")
    # 時間
    list_t=soup.find_all("span", {'class':"i-annc__postdate"})    
    for t in list_t:
        time.append(t.text)
    # 標題    
    list_a=soup.find_all("a", {'class':"i-annc__title"})
    for a in list_a:
        title.append(a.text)        
    # 內容聯結
    list_a=soup.find_all("a", {'class':"i-annc__title"})
    h='http://www.nd.ntu.edu.tw'
    list_l=[]
    for a in list_a:
        list_l.append(h+a['href'])    
    # 內容
    for l in list_l:
        response = requests.get (l)
        soup_tem = BeautifulSoup (response.text, "lxml")
        add_string=soup_tem.find_all('section',{'class':"s-annc__post-wrap"})[0].text    
        string.append(add_string)
# 統整
data=list(zip(time, title, string))
df=pd.DataFrame(data, columns=['time ','title','content'])
df

Unnamed: 0,time,title,content
0,2019-10-30,108/11/12(二)風險中心舉辦之【鉅變臺灣：啟動臺灣長期能源轉型】論壇活動，歡迎同學報...,\n\n\r\n【鉅變臺灣：啟動臺灣長期能源轉型】論壇\n\r\n時間：11月12日(二)0...
1,2019-10-28,【畢業團拍】107學年度碩士班畢業團拍調查表單填報(至108/10/30日止),\n國發所畢業團拍（107碩士班）\r\n \n大家好，我們是107級的畢代皓瑋和玥岑，時光...
2,2019-10-28,【公告】109學年度碩士班招生簡章考科異動,\n\n公告\n\n109學學年度碩士班招生簡章考科異動：乙組(主修中國大陸與東亞研究)選考...
3,2019-10-22,108學年度第1學期生活學習助學金審核結果公告,\n台灣大學國家發展所108學年度第1學期生活學習助學金審核結果公告\n\n通過名單：蔡振輝...
4,2019-10-18,108/10/26(六)109學年度碩士班甄試招生筆試試場：國發所206教室,\n國立臺灣大學國家發展研究所109學年度碩士班甄試招生\n\n筆試日期：108年10月26...
5,2019-10-18,108/10/25 10:20~12:20專題演講，講者：Dr. Katsuhisa Koj...,\n演講題目：Long-Term Care Policy Development in Ja...
6,2019-10-15,108/10/17所長時間暫停乙次，108/10/21~10/25所長將出席國際會議暨洽談本...,\n1、108年10月17日(四)所長時間暫停乙次。\r\n2、108年10月21日(一)至...
7,2019-10-01,本校學務處公告相關訊息,\n大家好：\r\n \n學務處辦理多項優質活動，歡迎您踴躍參加。\n\n\n\n\n學務處...
8,2019-09-18,[所辦公告] 所辦公室不代收同學私人信件或包裹,\n所辦公室不代收同學私人信件或包裹，請同學留意勿將私人信件或包裹寄至所辦公室。謝謝配合。\n
9,2019-09-10,107學年度(含)之前必修及必選課程尚未修習完成者，因應新制課程對應方式。,\n公 告\n因應本所自108學年度起組別整併為「全球化與科技治理」、「中國大陸與東亞研究...


# 作業

* 請進入你的標的網頁，檢查網頁的結構，回答以下問題:
* 1 網址是? 簡單介紹這個網頁。
* 2 你想下載網頁中的什麼資訊？
* 3 這些資訊是放在哪個 tag(標籤)，那個attribute(屬性)下面？如果找不到，表示為動態網頁或加密，請換一個簡單的網頁。
* 4 是否要進去聯結，才可以找到你要的東西?
* 5 是否有多個分頁，分頁的網址規則是什麼? 
* 6 依上課教的方法，下載資料，整理成 DataFrame 方便閱讀。有碰到什麼困難嗎?
* 7 記錄你探索過的失敗、無法下載網頁，列出 1,2,3 項。也許其他同學可以幫你解決。 
* 8 交作業時，除了回答上問題，要交 .ipynb 以及下載的資料檔。