# html 語言與 Beautiful Soup 

* 本週開始，我們要介紹網路爬蟲基本方法與技巧。
* 今天討論 request 與 beautiful soup 的用法，下過討論 regular expression, 是字串處理的進階工具，第三週討論幾個綜合的爬蟲案例。
* 由於網頁多半以html 語言撰寫，BeuatifulSoup4 是解析html檔案非常好用的工具。因此，值得好好學學。
* 安裝 python, Anaconda 之後，會自動安裝 BeuatifulSoup4，不須另外安裝。

#  html file
* html 是網頁最常見的編寫工具，它的基本特徵是以__成對的tag(標記)__。
* 這是一個層次井然的語言結構，每個 tag 都有特定的意義，tag 裡面有tag，可以有許多層。
* 我們的任務是從別人寫好的html網頁中，截取我們要的資料，通常是網址，或文字、數字資料。

## 一個很簡單的範例
* 請檢查各__標記__夾的__內容__是什麼？中間是否有夾著__字串__？是否有定義__屬性__？標記共有幾層？
* 重要的_標記_有 < TITLE> </TITLE>, < div> </div>, < a> </a>, < p> </p>都是成對顯示。
* _屬性_ <> 為標記內宣告的變數，例如 < a href="http://somegreatsite1.com">, < P align=justify>, < div class="first"> 
* _字串_ 為啟始標記與結束標記內所夾的文字，例如  < a>.....</a>, < p> ..... < /p>

In [1]:
# html的基本範例，html_doc 是個字串 string, ''' 表長字串
# 注意，成對的 tag，每個tag 都有不同的意義
html_doc='''
<HTML>
    <HEAD><TITLE>標題在這裡</TITLE></HEAD>
    <div class="first">
        <a href="http://somegreatsite1.com" id="link1">Link1</a>關於這個聯結的文字說明
        <a href="http://somegreatsite2.com" id="link2">Link2</a>關於這個聯結的文字說明
        <P align=justify> 這是段落文字，可以很長! </P> 
    </div>
</HTML> 
'''

### 稍微複雜一點，真正的網頁遠比這個複雜得多

In [2]:
# html的基本範例，html_doc 是個字串 string, ''' 表長字串
html_doc='''
<HTML>
<HEAD><TITLE>標題在這裡</TITLE></HEAD>
<BODY BGCOLOR="FFFFFF">
<div class="first">
<a href="http://somegreatsite1.com" id="link1">Link Name1</a>is the first link to another web site
<a href="http://somegreatsite2.com" id="link2">Link Name2</a>is the second link to another web site
<a href="http://somegreatsite3.com" id="link3">Link Name3</a>is the third link to another web site
<P  align=justify> This is a paragraph 1! </P> 
<P  align=justify> This is a paragraph 2! </P> 
</div>    
<div class="second">
Send me mail at <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>
<P  align=justify> This is a paragraph 1! </P> 
<P  align=justify> This is a paragraph 2! </P> 
<P> This is a paragraph 3! </P> 
<P> This is a paragraph 4! </P> 
<P> This is a paragraph 5! </p>
</div>  
</BODY>
</HTML> 
'''

# 借助 BeuautifulSoup 進行資料的剖析與選取

## 呼叫 BeautifulSoup 模組 (要注意大小寫)

In [3]:
from bs4 import BeautifulSoup
import re

In [4]:
from bs4 import BeautifulSoup
import re

In [4]:
soup = BeautifulSoup(html_doc, "html.parser")
print(soup)


<html>
<head><title>標題在這裡</title></head>
<body bgcolor="FFFFFF">
<div class="first">
<a href="http://somegreatsite1.com" id="link1">Link Name1</a>is the first link to another web site
<a href="http://somegreatsite2.com" id="link2">Link Name2</a>is the second link to another web site
<a href="http://somegreatsite3.com" id="link3">Link Name3</a>is the third link to another web site
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
</div>
<div class="second">
Send me mail at <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
<p> This is a paragraph 3! </p>
<p> This is a paragraph 4! </p>
<p> This is a paragraph 5! </p>
</div>
</body>
</html>



In [6]:
# 讀取 string，產生一個 soup object，
# html_doc 是前面我們定義的 string, "html.parser" 告訴 BeautifulSoup 我們要解析 html 文件。
# 煮湯
soup = BeautifulSoup(html_doc,"html.parser")
# 列印 soup object，看起來與前面的string無異，但已被加料了，可以進行許多後續的處理。
print (soup)


<html>
<head><title>標題在這裡</title></head>
<body bgcolor="FFFFFF">
<div class="first">
<a href="http://somegreatsite1.com" id="link1">Link Name1</a>is the first link to another web site
<a href="http://somegreatsite2.com" id="link2">Link Name2</a>is the second link to another web site
<a href="http://somegreatsite3.com" id="link3">Link Name3</a>is the third link to another web site
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
</div>
<div class="second">
Send me mail at <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
<p> This is a paragraph 3! </p>
<p> This is a paragraph 4! </p>
<p> This is a paragraph 5! </p>
</div>
</body>
</html>



## .prettify() 顯示成對的層次結構

In [5]:
# 顯示層次，但還不是看得很清楚。
print(soup.prettify())

<html>
 <head>
  <title>
   標題在這裡
  </title>
 </head>
 <body bgcolor="FFFFFF">
  <div class="first">
   <a href="http://somegreatsite1.com" id="link1">
    Link Name1
   </a>
   is the first link to another web site
   <a href="http://somegreatsite2.com" id="link2">
    Link Name2
   </a>
   is the second link to another web site
   <a href="http://somegreatsite3.com" id="link3">
    Link Name3
   </a>
   is the third link to another web site
   <p align="justify">
    This is a paragraph 1!
   </p>
   <p align="justify">
    This is a paragraph 2!
   </p>
  </div>
  <div class="second">
   Send me mail at
   <a href="mailto:support@yourcompany.com">
    support@yourcompany.com
   </a>
   <p align="justify">
    This is a paragraph 1!
   </p>
   <p align="justify">
    This is a paragraph 2!
   </p>
   <p>
    This is a paragraph 3!
   </p>
   <p>
    This is a paragraph 4!
   </p>
   <p>
    This is a paragraph 5!
   </p>
  </div>
 </body>
</html>



# 重點是要截取資訊

## 尋找標記.tag
* 例如 .a，表示尋找 < a> 標記，並列出其內容。
* 注意：只顯示找到的第一個的內容

In [6]:
# 尋找第一個 <a> tag
soup.a

<a href="http://somegreatsite1.com" id="link1">Link Name1</a>

In [9]:
soup.a

<a href="http://somegreatsite1.com" id="link1">Link Name1</a>

In [7]:
# 用 find 指今亦可，結果一樣, 顯示找到的第一個 tag 
soup.find('a')

<a href="http://somegreatsite1.com" id="link1">Link Name1</a>

In [11]:
soup.find('a')

<a href="http://somegreatsite1.com" id="link1">Link Name1</a>

##  標記內的屬性，href=, id=

In [8]:
# <a> 內的屬性 href，亦即網址聯結，注意要用中括弧。
soup.a['href']

'http://somegreatsite1.com'

In [9]:
#  <a> 內的屬性 id
soup.a['id']

'link1'

## 標記內的字串
### 找出 < a>..... < /a>包含的字串，三種方法 .contents,  .string, .text

In [10]:
# <a> 包夾的字串, list 格式
soup.a.contents

['Link Name1']

In [15]:
soup.a.contents

['Link Name1']

In [11]:
# <a> 包夾的字串，string 格式
soup.a.string

'Link Name1'

In [17]:
soup.a.string

'Link Name1'

In [18]:
# 效果一樣，string 格式
soup.a.text

'Link Name1'

In [19]:
soup.a.text

'Link Name1'

## < div> 標記的內容

In [20]:
soup.div

<div class="first">
<a href="http://somegreatsite1.com" id="link1">Link Name1</a>is the first link to another web site
<a href="http://somegreatsite2.com" id="link2">Link Name2</a>is the second link to another web site
<a href="http://somegreatsite3.com" id="link3">Link Name3</a>is the third link to another web site
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
</div>

In [21]:
# 第一個 div 內夾的 string。\n 表跳行符號
soup.div.text

'\nLink Name1is the first link to another web site\nLink Name2is the second link to another web site\nLink Name3is the third link to another web site\n This is a paragraph 1! \n This is a paragraph 2! \n'

In [22]:
# 取消跳行符號，直接跳行
print (soup.div.text)


Link Name1is the first link to another web site
Link Name2is the second link to another web site
Link Name3is the third link to another web site
 This is a paragraph 1! 
 This is a paragraph 2! 



## < p> 標記的內容

In [12]:
# <p> 內有一個屬性 align, 其值為 justify
soup.p

<p align="justify"> This is a paragraph 1! </p>

In [13]:
# 只顯示包含的 string
soup.p.text

' This is a paragraph 1! '

# 找出符合條件的所有內容

# .find_all() 指令
* 找出所有合於條件的所有內容，存成 list。

##  列出所有的 < a> 的內容，存成 list

In [14]:
# list
list_a=soup.find_all("a")
print (len(list_a))
print (list_a)

4
[<a href="http://somegreatsite1.com" id="link1">Link Name1</a>, <a href="http://somegreatsite2.com" id="link2">Link Name2</a>, <a href="http://somegreatsite3.com" id="link3">Link Name3</a>, <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>]


In [26]:
list_a = soup.find_all("a")
print(len(list_a))
print(list_a)

4
[<a href="http://somegreatsite1.com" id="link1">Link Name1</a>, <a href="http://somegreatsite2.com" id="link2">Link Name2</a>, <a href="http://somegreatsite3.com" id="link3">Link Name3</a>, <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>]


In [37]:
# 印出找到的第一個聯結
print (list_a[0]['href'])

http://somegreatsite1.com


In [15]:
# 所有的聯結都印出來
for a in list_a:
    print (a['href'])

http://somegreatsite1.com
http://somegreatsite2.com
http://somegreatsite3.com
mailto:support@yourcompany.com


## < p>  印出所有的段落文字

In [39]:
list_p=soup.find_all("p")
print(list_p)
for p in list_p:
    print(p.text)

[<p align="justify"> This is a paragraph 1! </p>, <p align="justify"> This is a paragraph 2! </p>, <p align="justify"> This is a paragraph 1! </p>, <p align="justify"> This is a paragraph 2! </p>, <p> This is a paragraph 3! </p>, <p> This is a paragraph 4! </p>, <p> This is a paragraph 5! </p>]
 This is a paragraph 1! 
 This is a paragraph 2! 
 This is a paragraph 1! 
 This is a paragraph 2! 
 This is a paragraph 3! 
 This is a paragraph 4! 
 This is a paragraph 5! 


In [18]:
list_p = soup.find_all('p')
print(list_p)

for p in list_p:
    print(p.text)

[<p align="justify"> This is a paragraph 1! </p>, <p align="justify"> This is a paragraph 2! </p>, <p align="justify"> This is a paragraph 1! </p>, <p align="justify"> This is a paragraph 2! </p>, <p> This is a paragraph 3! </p>, <p> This is a paragraph 4! </p>, <p> This is a paragraph 5! </p>]
 This is a paragraph 1! 
 This is a paragraph 2! 
 This is a paragraph 1! 
 This is a paragraph 2! 
 This is a paragraph 3! 
 This is a paragraph 4! 
 This is a paragraph 5! 


## 尋找所有 < div> 下面屬性class為second的東東

In [20]:
# list
# a= soup.find_all('div')
# print(a)

list_div=soup.find_all("div", {'class':"second"}) #注意{}
print (list_div)

[<div class="second">
Send me mail at <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
<p> This is a paragraph 3! </p>
<p> This is a paragraph 4! </p>
<p> This is a paragraph 5! </p>
</div>]


In [40]:
list_div = soup.find_all('div', {'class':'second'})
print(list_div)

[<div class="second">
Send me mail at <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>
<p align="justify"> This is a paragraph 1! </p>
<p align="justify"> This is a paragraph 2! </p>
<p> This is a paragraph 3! </p>
<p> This is a paragraph 4! </p>
<p> This is a paragraph 5! </p>
</div>]


In [32]:
# 接續上例，印出 < p> 內的文字，存成 list
paragraph=[]
# 找出所有合於條件的 <div>
list_div=soup.find_all("div", {'class':"second"})
# 如果有找到的話
if len(list_div)>0:
    for li in list_div:    
        # 找出所有的 <p>
        list_p=li.find_all("p")
        for p in list_p:
            # 加入 list
            paragraph.append(p.text)
    print (paragraph)

[' This is a paragraph 1! ', ' This is a paragraph 2! ', ' This is a paragraph 3! ', ' This is a paragraph 4! ', ' This is a paragraph 5! ']


In [44]:
paragraph = []
list_div = soup.find_all('div', {'class':'second'})
if len(list_div)>0:
    for ln in list_div:
        list_p = ln.find_all('p')
        for p in list_p:
            paragraph.append(p.text)
            
print(paragraph)

[' This is a paragraph 1! ', ' This is a paragraph 2! ', ' This is a paragraph 3! ', ' This is a paragraph 4! ', ' This is a paragraph 5! ']


In [45]:
# 第一個 div 夾的的 string
list_div[0].text

'\nSend me mail at support@yourcompany.com\n This is a paragraph 1! \n This is a paragraph 2! \n This is a paragraph 3! \n This is a paragraph 4! \n This is a paragraph 5! \n'

In [46]:
# 比較 .text 與 .contents 的差異 (string 與 list 的差別)
list_div[0].contents

['\nSend me mail at ',
 <a href="mailto:support@yourcompany.com">support@yourcompany.com</a>,
 '\n',
 <p align="justify"> This is a paragraph 1! </p>,
 '\n',
 <p align="justify"> This is a paragraph 2! </p>,
 '\n',
 <p> This is a paragraph 3! </p>,
 '\n',
 <p> This is a paragraph 4! </p>,
 '\n',
 <p> This is a paragraph 5! </p>,
 '\n']

In [48]:
# 0 表示 list 裡面的第一個元素。
list_div[0].contents[0]

'\nSend me mail at '

# 真正的 html檔，手動下載某一篇文章，存成html格式
* 範例檔 "d:/my python/_news/20180302_這裡要移除 蔣介石銅像變木乃伊.html

## step 1 檢查 soup是否成功?

In [23]:
# 完整檔名，隨便找一個檔測試
path="C:/Users/HSIU/Desktop/108-1/python_ntu/news"
file_name=path +'/'+'20180302_這裡要移除 蔣介石銅像變木乃伊.html'
# 讀取檔案，注意此檔格式為 'big5'，無須 encoding。*****
content = open(file_name,'r').read() 
# print(content)
# 若為 utf-8 則須 encoding
#content = open(file_name,'r',encoding='utf8').read()  

# 開始煮湯
soup = BeautifulSoup(content,"html.parser")
soup

print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0" name="viewport"/>
  <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
  <title>
   聯合知識庫 - 全球最大的中文新聞資料庫平台
  </title>
  <link href="/images/newdata/css_2017/css/fontello.css" rel="stylesheet"/>
  <link href="/images/newdata/css_2017/font-awesome.min.css" rel="stylesheet"/>
  <!-- // masterslidercss 套件 -->
  <link href="/images/newdata/css_2017/masterslider.css" rel="stylesheet"/>
  <link href="/images/newdata/css_2017/style.css" rel="stylesheet"/>
 </head>
 <body>
  <div id="container">
   <!-- // 燈箱遮罩 -->
   <div class="overlay close">
   </div>
   <!-- // 手機左右側滑選單收合遮罩 -->
   <div class="mob-menu-overlay close">
   </div>
   <!-- // header+menu -->
   <!--#include virtual="inc/header.html" -->
   <header>
    <!-- // toprow menu -->
    <div class="toprow_bar mob-none">
     <div class="wrapper clearfix">
      <ul class="toprow">
       <li>
        

In [24]:
soup.find_all('div')

[<div id="container">
 <!-- // 燈箱遮罩 -->
 <div class="overlay close"></div>
 <!-- // 手機左右側滑選單收合遮罩 -->
 <div class="mob-menu-overlay close"></div>
 <!-- // header+menu -->
 <!--#include virtual="inc/header.html" -->
 <header>
 <!-- // toprow menu -->
 <div class="toprow_bar mob-none">
 <div class="wrapper clearfix">
 <ul class="toprow">
 <li><a href="/udn">全文報紙</a></li>
 <li><a href="/fullpage/">原版報紙</a></li>
 <li><a href="/image/">新聞圖庫</a></li>
 <li><a href="/bsw/">商業周刊</a></li>
 <li><a href="/gvm/">遠見</a></li>
 <li><a href="/brain/">動腦</a></li>
 <li><a href="/video/">影音</a></li>
 <li><a href="/faq/authority.html">授權</a></li>
 </ul>
 </div>
 </div>
 <div class="wrapper top clearfix">
 <!-- // mobile left+right icon -->
 <span class="button menu-button-left">
 <i aria-hidden="true" class="fa fa-reorder"></i>
 </span>
 <span class="button menu-button-right">
 <i aria-hidden="true" class="fa fa-user"></i>
 </span>
 <!-- // logo -->
 <div class="logo-group">
 <div class="logo">
 <div class=

## 先想想要讀取什麼資料？

In [25]:
# 讀取標題，h1,h2,h3,h4
# 在 tag "div", 屬性 class = story-title
list_div=soup.find_all("div", {'class':"story-title"})
if len(list_div)>0:
    for div in list_div:
        try:
            h1=div.h1.text
        except:
            h1=''
        try:
            h2=div.h2.text
        except:    
            h2=''
        try:    
            h3=div.h3.text
        except:
            h3=''
        try:    
            h4=div.h4.text
        except:
            h4=''        
print (h1)
print (h2)
print (h3)
print (h4)

# 讀取作者
# 在 tab "span", 屬性 class = story-title
list_span=soup.find_all("span", {'class':"story-report"})
if len(list_span)>0:
    author=list_span[0].text
print (author)

# 讀取時間及版次    
# 在 tab "span", 屬性 class = story-source
list_span=soup.find_all("span", {'class':"story-source"})
if len(list_span)>0:
    time=list_span[0].text
print (time)

# 讀取內文
# 在 tab "p"
list_p=soup.find_all("p")
for p in list_p:
    print(p.text)

這裡要移除 蔣介石銅像變木乃伊
全國警局唯一留存


【記者吳淑君、游明煌╱基隆報導】
【2018-03-02/聯合報/B2版/新北基隆要聞】
這幾年每到二二八，基隆市就不平靜，市議員游祥耀昨天上午點名市警局，要求移除全國警局唯一留存的蔣介石銅像，以免引來抗爭。市警局昨天下午就用帆布把銅像打包得密不透風；警方表示，這是為了避免被噴漆、破壞，將擇日移置。
市警局員警、員工昨晚下班看到樓梯間的銅像被包起來都很錯愕，有人說，大門有員警廿四小時站崗，還怕被噴漆破壞嗎？有員警忍不住說，「被包成像木乃伊，好可憐」。
游祥耀指出，基隆在二二八發生這麼大的傷害和屠殺，但蔣介石銅像一直沒動，警察局是保護人民的治安單位，擺一個威權塑像很不洽當；他督促市府在兩個月內趕快處理掉，否則抗議者會不會用激烈手段破壞，他不敢保證。
基隆市警局主秘廖誌銘表示，根據調查，各縣市警察局內部，已經沒有類似的銅像，基隆市警局會盡快地移置銅像，正與桃園兩蔣文化園區協調存放和保存地點。
基隆市政府表示，任何政治塑像都不應該存在於公共空間、機關以及教育場所內，警察是人民的保母，警察局更不應留有威權時代的政治塑像，有違民主時代的潮流。



市警局員警、員工昨晚下班看到樓梯間的銅像被包起來都很錯愕，有人說，大門有員警廿四小時站崗，還怕被噴漆破壞嗎？有員警忍不住說，「被包成像木乃伊，好可憐」。
游祥耀指出，基隆在二二八發生這麼大的傷害和屠殺，但蔣介石銅像一直沒動，警察局是保護人民的治安單位，擺一個威權塑像很不洽當；他督促市府在兩個月內趕快處理掉，否則抗議者會不會用激烈手段破壞，他不敢保證。
基隆市警局主秘廖誌銘表示，根據調查，各縣市警察局內部，已經沒有類似的銅像，基隆市警局會盡快地移置銅像，正與桃園兩蔣文化園區協調存放和保存地點。
基隆市政府表示，任何政治塑像都不應該存在於公共空間、機關以及教育場所內，警察是人民的保母，警察局更不應留有威權時代的政治塑像，有違民主時代的潮流。



游祥耀指出，基隆在二二八發生這麼大的傷害和屠殺，但蔣介石銅像一直沒動，警察局是保護人民的治安單位，擺一個威權塑像很不洽當；他督促市府在兩個月內趕快處理掉，否則抗議者會不會用激烈手段破壞，他不敢保證。
基隆市警局主秘廖誌銘表示，根據調查，各縣市警察局內部，已經沒有類似的銅像，基隆市警局會盡快地移置銅像，正與桃園兩蔣文化園區協調存放和保存地點

## 多個 html 檔
* 這是聯合報有關抗爭的文章，92篇。都放在 d:/My python/_news/ 下面

In [28]:
import os
import re
path="C:/Users/HSIU/Desktop/108-1/python_ntu"
# List 記錄所有的檔名
doc_list = []
# 指定資料夾
os.chdir(path+'/news') #改變工作目錄的路徑
# 找出所有.html 檔
for f in os.listdir("."):
    # 檔案篩選
     if f.endswith(".html"):
#             print(f)
#         第一個字母會是亂碼，先去除    
        f=re.sub("\ufeff","",f)        
        doc_list.append(f)       
print (len(doc_list))
doc_list

92


['20180101_許悔之、許含光 父子的咖啡對談.html',
 '20180102_港萬人遊行 反高鐵一地兩檢.html',
 '20180103_臨會審總預算 藍擬提200 刪減凍結案.html',
 '20180103_遭點名換將 六部全否認.html',
 '20180104_北檢潑髒水 把證人當犯人.html',
 '20180104_徵農地建滯洪池 農民嘉縣府前抗議.html',
 '20180104_監院糾正政院、勞動部.html',
 '20180105_下周一 夜宿立院 勞團不排除激烈行動.html',
 '20180106_時力鏈鎖議場 民進黨破門反制.html',
 '20180106_盟友反目 朝野還有協商空間？.html',
 '20180107_濕地立法三年 基金沒編半毛.html',
 '20180107_立委上街 警柔性勸導.html',
 '20180108_勞基法再戰府院堅持「往前走」.html',
 '20180108_勞基鬥法 立院臨會延燒.html',
 '20180108_國民黨攜時力 聯合作戰？.html',
 '20180108_封鎖國會大戲：一面權力的照妖鏡.html',
 '20180108_綠委守大門「身心俱疲」.html',
 '20180108_蔡籲協商 時力拒絕.html',
 '20180109_別低估「政治危機」.html',
 '20180109_勞基法今強行表決？藍準備武鬥.html',
 '20180109_勞基鬥法 今拚3讀.html',
 '20180109_勞工抗議史第3度臥軌.html',
 '20180109_時力被帶離 柯Ｐ：SOP會更多.html',
 '20180110_7休1改為14休4 拍板.html',
 '20180110_勞團喊：我們心沉痛.html',
 '20180110_抗爭博版面 手腳被看破！.html',
 '20180110_抗爭為勞工 算計又如何？.html',
 '20180110_綠奇招 擋藍案海戰術.html',
 '20180110_豪氣的悲歌.html',
 '20180111_因為憤怒，所以棄守？.html',
 '20180111_國民黨中常會 馬談最後一次見蔣經國.html',
 '20180111_睡夢中修法，映照民進黨團的無心症.ht

  # 測試成功，讀取多篇文章     

In [29]:
head=[]
author=[]
time=[]
texts=[]
i=0
h1=[]
h2=[]
h3=[]
h4=[]
# 讀取各篇文章，成為一個 list
for f in doc_list: 
    i+=1
    # 完整檔名，隨便找一個檔測試
    file_name=path +'/news/'+ f
    # 讀取檔案，注意格式為 'big5'，無毋 encoding。*****
    content = open(file_name,'r').read()  
    # 煮湯
    soup = BeautifulSoup(content,"html.parser")

    # 讀取標題，h1,h2,h3,h4
    list_div=soup.find_all("div", {'class':"story-title"})
    if len(list_div)>0:
        for div in list_div:
            try:
                h1=div.h1.text
            except:
                h1=''
            try:
                 h2=div.h2.text
            except:    
                h2=''
            try:    
                 h3=div.h3.text
            except:
                h3=''
            try:    
                 h4=div.h4.text
            except:
                h4=''   
                
        head.append(h1+h2+h3+h4)
        # 讀取作者
        list_span=soup.find_all("span", {'class':"story-report"})
        if len(list_span)>0:
            string=list_span[0].text
            # 去掉特殊符號
            string=re.sub("【","",string)
            string=re.sub("】","",string)  
            author.append(string)
        else:
            author.append('')

        # 讀取時間及版次    
        list_span=soup.find_all("span", {'class':"story-source"})
        if len(list_span)>0:
            string=list_span[0].text
            # 去掉特殊符號
            string=re.sub("【","",string)
            string=re.sub("】","",string)  
            time.append(string)
        else:
            time.append('')

        # 讀取內文
        string=''
        list_p=soup.find_all("p")
        for p in list_p:
            string=string+p.text
            
        # 異體字轉換
        string=re.sub("台","臺",string)         
        # 刪除中文的空格符號，這些看起來像是亂碼先刪除
        string=re.sub("\ufeff","",string)
        string=re.sub("\u3000","",string)            
            
        texts.append(string)    
    # 每處理完10篇文章，報告進度。******    
    if i%10==0:
        print (i, 'done')
    elif i==len(doc_list):
        print ('finished')
        
print(texts)

10 done
20 done
30 done
40 done
50 done
60 done
70 done
80 done
90 done
finished
['對詩人許悔之和歌手許含光來說，這一場難得的咖啡約會，是創作人的對話，也是父子間的「告解」，「這是父子間永遠甜蜜又有張力的地方。」\n詩人玩笑地用了一個大白話：「今天，恩怨做個了結。」\n許氏栽培 超越階級\n父子都有新作，老爸出了新書「我的強迫症」，兒子推出首張創作專輯「曖曖」，呈現方式不同，創作的本質接近。許悔之疼兒子，一再說：「多寫Lumi。」卻總是忍不住長篇大論，許含光則是在爸爸暫離座時，才會突然活潑起來。典型的父子。\n「我跟他母親有點超出階級在養他。但我知道他有才華。」許悔之數著兒子會鋼琴、小提琴，維也納音樂學院想收、10幾分鐘的「流浪者之歌」幾次就記住譜，「我告訴他，我不有錢，如果你願意，我會努力，但人生的抉擇，要你自己走。」\n只要兒子選的，老爸就挺。當年髮禁解除，國一的許含光留長髮被保守的學校關切，大詩人到學校抗爭；有老師寫信來提到性別認同云云，許悔之揚言提告。\n「後來我們父子有一段對話，就是創作者永遠有跟時代交鋒的難題，如果你要，我會繼續為你奮戰，但是有一天，你要為自己奮戰，只是有的時候要付出代價。」他說，如果兒子還想為頭髮抗爭，老爸可以再次出馬，嚇得許含光忙說：「爸，你不要再來了。」\n結果學古典樂的許含光，現在以長髮造型，出了首張流行專輯，有如集合了自己會的所有曲彙，在父親看來，有民謠、有Blues，更偏英式搖滾，有一點Radiohead、一點U2，煙嗓帶點迷幻搖滾，像早期Pink Floyd、The Doors主唱Jim Morrison，「是沒那麼偉大啦，但就像一個年輕人的第一本詩集，就會什麼都想弄進去。」\n「我其實蠻哀怨的，因為有些朋友都先聽過了。」許悔之這「星爸」，很晚才拿到兒子的作品聽。\n許含光誠實說，不想把音樂或任何作品主動給爸爸看，不是因為他是詩人，「而是以父子的角度，就是不想把日記給爸爸看。」反正老爸不小心看到，會自己過來點評，像許悔之就覺得歌詞該押韻。\n尼采、體制、搖滾 父子交心\n許悔之珍惜著與兒子的三個重要時刻。其一是，國一的許含光突然問：「請問你的尼采都放在哪裡？」被這超齡問題嚇到的老爸，出借了尼采專書與「查拉圖斯特拉如是說」。\n幾天後，許含光又問

In [30]:
import pandas as pd   
data=list(zip(head,author,time,texts))
df=pd.DataFrame(data,columns=['title','author','time','text'])
df

Unnamed: 0,title,author,time,text
0,許悔之、許含光 父子的咖啡對談詩人與歌手,袁世珮╱撰稿,2018-01-01/聯合報/C5版/生活美學,對詩人許悔之和歌手許含光來說，這一場難得的咖啡約會，是創作人的對話，也是父子間的「告解」，「...
1,港萬人遊行 反高鐵一地兩檢廣深港高鐵 香港段終點採陸式查驗 民陣搭講台批評 抗議隊伍在政府大...,香港特派員李春╱香港報導,2018-01-02/聯合報/A7版/兩岸,香港民間人權陣線發起「守護香港元旦大遊行」，反對廣深港高鐵「一地兩檢」成焦點。主辦者說，有萬...
2,臨會審總預算 藍擬提200 刪減凍結案民進黨團將勞基法修正案列第一優先 內容「幾乎沒協商空間...,記者許家瑜、周佑政、鄭媁╱台北報導,2018-01-03/聯合報/A4版/要聞,新一年剛開始，立法院臨時會本周五就要登場，朝野攻防硝煙味再起。根據民進黨立法院黨團規劃，勞基...
3,遭點名換將 六部全否認,記者林敬殷、程嘉文╱台北報導,2018-01-03/聯合報/A2版/焦點,屬於總統職權的國防部長馮世寬和外交部長李大維，也被媒體點名異動。府院高層昨天否認內閣異動，知...
4,北檢潑髒水 把證人當犯人周泓旭共諜案,呂謦煒╱國民黨青年團前總團長（台北市）,2018-01-04/聯合報/A15版/民意論壇,雖然對新黨素無好感，但對經常政治性辦案的北檢更無信任。北檢發新聞稿，明明只是追加起訴周泓旭，...
5,徵農地建滯洪池 農民嘉縣府前抗議,記者魯永明╱嘉義縣報導,2018-01-04/聯合報/B2版/雲嘉南要聞,嘉義縣重大治水工程新港鄉中庄村埤子頭滯洪池，計畫徵收36公頃農地，農民反對，批地點錯誤，縣府...
6,監院糾正政院、勞動部「一例一休 輕率修法」勞方、資方、政府三輸,記者程嘉文╱台北報導,2018-01-04/聯合報/A1版/要聞,在立法院即將召開臨時會、且一例一休勞基法再修正案擬列優先法案審查之際，監察院財政經濟委員會昨...
7,下周一 夜宿立院 勞團不排除激烈行動,記者呂思逸╱台北報導,2018-01-05/聯合報/A4版/要聞,立院排定下周優先處理勞基法修法，勞團不滿修法鬆綁七休一、增加單月加班工時上限、縮短輪班間隔，...
8,時力鏈鎖議場 民進黨破門反制反對修勞基法 國民黨團揚言文攻 備七百案修正動議 時力赴總統府前靜坐,記者鄭媁、丘采薇、林河名、蕭雅娟╱,2018-01-06/聯合報/A4版/要聞,記者鄭媁、丘采薇、林河名、蕭雅娟╱臺北報導\n立法院臨時會預計下周處理「勞動基準法」修正草案...
9,盟友反目 朝野還有協商空間？《冷眼集》,本報記者林河名,2018-01-06/聯合報/A4版/要聞,歷史非常反諷。二〇一四年的三一八學運，讓民進黨接連贏得「九合一」、總統及國會選舉。但民進黨「...


## pickle

In [None]:
import pickle
with open(path+"_news/news.pkl", "wb") as fp:   #Pickling
     pickle.dump(df, fp)

with open(path+"_news/news.pkl", "rb") as fp:   # Unpickling
     df1=pickle.load(fp)

In [None]:
df1==df

# 下載一個真正的網頁 html

## 觀察網頁的程式碼

### 現在的流覽器都有提供網頁原始碼檢查工具。以下，我們就用 Crome 簡單解說。
* 首先，找到目標網頁，開啟網頁。
* 第二，流覽網頁，看看它有什麼內容，每個聯結按一按，確定你定要擷取的資訊位置在哪裡。
* 第三，在你要的資訊上面，滑鼠右鍵，選擇 [檢查網頁原始碼]，或[檢查] (inspection), 兩者都試試看，比較其差異。這個時候你會看到網頁的原始碼，找到目標資訊出現的位置。特別注意你要下載的資料前面的標記(tag)是什麼？其前後的標記是什麼？
* 第四，每行程式左邊的「三角形」鍵頭，可開啟、縮合，便於顯示不同的層級。
* 第五，左側頁面與右側程式相互對應，滑鼠移至左側圖面上的任何元件，滑鼠右鍵[檢查]，可看到相應的程式碼。滑鼠移至左側程式碼，相應的網頁畫面在右側會以色塊標示。
* 第六，選按[network], 再 refresh 網頁，可以看到網頁登載的元件，以及各個子聯結的清單，按 [headers], [preview], [rsponse] 可以檢查各個聯結的內容。這可以幫助我們判斷我們要的資訊是位於哪個子聯結。這些子聯結都可以複製，便於進一步的分析。
* 第七、很多網頁因為資訊太多，都有分頁的設計，點選 [下一頁] 看看網頁的結構是否有變化，變化的規則是什麼。 
* 第八、如果你要一次擷取多個網頁的資料，要注意各網頁的格式是否統一，如果不統一，就要撰寫適用各種情況的程式，否則會讀取錯誤。你會發現，資料格式不統一，通常是網路爬蟲很大的困擾。
* 第九、Beautiful Soup 通常要配合 Regular Expression 一起使用，下一個講次，我們會討論， Regular Expression。

## 先進去網頁，檢查網頁的結構
* 資料在哪一個 tag 下面？
* 是否必須到下一個聯結？
* 聯結命名的規則？
* 下一頁的網址命名規則？
* get or post ? 本週我們只介紹 get
* 動態或靜態 ? 本週只介紹靜態網頁。


* 現在我們要試試真正的網頁，咱們台大的首頁 http://www.nd.ntu.edu.tw/
* 裡面有許許多多的資料，我們要選擇自己要的東西。

## 方法一：使用 urllib.request.urlopen()

In [57]:
# beautiful soup
import urllib
import urllib.request
from bs4 import BeautifulSoup
import io
import os
import json
import re

In [58]:
# 國發所首頁
url='http://www.nd.ntu.edu.tw/'
# request.urlopen()提出進入網頁的要求
thepage=urllib.request.urlopen(url)
# 產生一個 soup object
soup=BeautifulSoup(thepage,"html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html class="orbit" lang="zh_tw">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
  <link href="/uploads/site/favicon/54db068a7470001bc5180000/Facebook-20150416-023619__2_.jpg" rel="shortcut icon" type="image/vnd.microsoft.icon"/>
  <title>
   國立臺灣大學國家發展研究所
  </title>
  <link href="/assets/fontawesome/font-awesome-25cef4302d1b8fc05d28ac847626ecf3.css" media="screen" rel="stylesheet"/>
  <link href="/assets/bootstrap/bootstrap-c07da65a73e80a09cabdf7a174a0635e.css" media="screen" rel="stylesheet"/>
  <link href="/assets/template/template-371b47ba8210ddd35fbd86df9516c51f.css" media="screen" rel="stylesheet"/>
  <script src="/assets/lib/jquery-1.11.0.min-2cf9b70a257975f2833f682170097171.js">
  </script>
  <script src="/assets/bootstra

## 方法二：使用 requests.get()
* 可處理 get, post 兩種模式，前者直接請求，後者要附加引數才能請求。
* 在網頁上按左鍵，inspection, network, reflesh, 選擇網頁，Herders 可查得 request method
* post 要有 form data 才能 request，form data 可從網頁上查得。

In [59]:
import requests
from bs4 import BeautifulSoup
url="http://www.nd.ntu.edu.tw/"
# 有 get 與 post 兩種模式，要從網頁上 inspect，本範例為 get
response = requests.get (url)
# 用 BeatifulSoup 解析 HTML 並把結果回傳 soup
soup = BeautifulSoup (response.text, "lxml") #lxml?
#lxml 套件: lxml 套件是用來作為 BeautifulSoup 的解析器（Parser），BeautifulSoup 可以支援的解析器其實不只一種，還有 html.parser（Python 內建）與 html5lib，根據官方文件的推薦，我們使用解析速度最快的 lxml。
print(soup.prettify())

<!DOCTYPE html>
<html class="orbit" lang="zh_tw">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
  <link href="/uploads/site/favicon/54db068a7470001bc5180000/Facebook-20150416-023619__2_.jpg" rel="shortcut icon" type="image/vnd.microsoft.icon"/>
  <title>
   國立臺灣大學國家發展研究所
  </title>
  <link href="/assets/fontawesome/font-awesome-25cef4302d1b8fc05d28ac847626ecf3.css" media="screen" rel="stylesheet"/>
  <link href="/assets/bootstrap/bootstrap-c07da65a73e80a09cabdf7a174a0635e.css" media="screen" rel="stylesheet"/>
  <link href="/assets/template/template-371b47ba8210ddd35fbd86df9516c51f.css" media="screen" rel="stylesheet"/>
  <script src="/assets/lib/jquery-1.11.0.min-2cf9b70a257975f2833f682170097171.js">
  </script>
  <script src="/assets/bootstra

## 把所有的公告，時間與內容抓出來。

In [60]:
# 網頁位於 "http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=1&"
url="http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=1&"
# 有 get 與 post 兩種模式，要從網頁上 inspect，本範例為 get
response = requests.get (url)
# 用 BeatifulSoup 解析 HTML 並把結果回傳 soup
soup = BeautifulSoup (response.text, "lxml")
print(soup.prettify())

<!DOCTYPE html>
<html class="orbit" lang="zh_tw">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
  <link href="/uploads/site/favicon/54db068a7470001bc5180000/Facebook-20150416-023619__2_.jpg" rel="shortcut icon" type="image/vnd.microsoft.icon"/>
  <title>
   國立臺灣大學國家發展研究所
  </title>
  <link href="/assets/fontawesome/font-awesome-25cef4302d1b8fc05d28ac847626ecf3.css" media="screen" rel="stylesheet"/>
  <link href="/assets/bootstrap/bootstrap-c07da65a73e80a09cabdf7a174a0635e.css" media="screen" rel="stylesheet"/>
  <link href="/assets/template/template-371b47ba8210ddd35fbd86df9516c51f.css" media="screen" rel="stylesheet"/>
  <script src="/assets/lib/jquery-1.11.0.min-2cf9b70a257975f2833f682170097171.js">
  </script>
  <script src="/assets/bootstra

## 公告的時間

In [61]:
# 公告的時間位於 <span class="i-annc__postdate" date-format="%Y-%m-%d"> ......</span>
list_t=soup.find_all("span", {'class':"i-annc__postdate"})
time=[]
for t in list_t:
    time.append(t.text)
print (time)

[' 2019-11-06', ' 2019-11-01', ' 2019-10-30', ' 2019-10-28', ' 2019-10-28', ' 2019-10-22', ' 2019-10-18', ' 2019-10-01', ' 2019-09-18', ' 2019-08-21']


## 公告的標題

In [62]:
# 經檢查，公告的標題位於 <a class="i-annc__title" href="...">......</a>
list_a=soup.find_all("a", {'class':"i-annc__title"})
title=[]
for a in list_a:
    title.append(a.text)
print (title)    

['108/11/07 (四)所長時間改於下午2時至3時', '109學年度碩士班甄試符合口試資格名單暨口試場次表', '108/11/12(二)風險中心舉辦之【鉅變臺灣：啟動臺灣長期能源轉型】論壇活動，歡迎同學報名參加！ (計入學習卡)', '【畢業團拍】107學年度碩士班畢業團拍調查表單填報(至108/10/30日止)', '【公告】109學年度碩士班招生簡章考科異動', '108學年度第1學期生活學習助學金審核結果公告', '108/10/26(六)109學年度碩士班甄試招生筆試試場：國發所206教室', '本校學務處公告相關訊息', '[所辦公告] 所辦公室不代收同學私人信件或包裹', '【恭賀】本校特聘講座教授暨本所「中國大陸與東亞研究」學組師資黃俊傑老師獲選為歐洲科學院院士（Member of the Academia Europaea）']


In [63]:
# 接下來，我們要公告的內容。它是放在聯結裡。先做一個聯結的清單。
list_a=soup.find_all("a", {'class':"i-annc__title"})
# 注意有一個共同的網址頭
h='http://www.nd.ntu.edu.tw'
list_l=[]
for a in list_a:
    list_l.append(h+a['href'])    
print(list_l)

['http://www.nd.ntu.edu.tw/zh_tw/announcement/108-11-07-%E5%9B%9B-%E6%89%80%E9%95%B7%E6%99%82%E9%96%93%E6%94%B9%E6%96%BC%E4%B8%8B%E5%8D%882%E6%99%82%E8%87%B33%E6%99%82-21571357', 'http://www.nd.ntu.edu.tw/zh_tw/announcement/109%E5%AD%B8%E5%B9%B4%E5%BA%A6%E7%A2%A9%E5%A3%AB%E7%8F%AD%E7%94%84%E8%A9%A6%E7%AC%A6%E5%90%88%E5%8F%A3%E8%A9%A6%E8%B3%87%E6%A0%BC%E5%90%8D%E5%96%AE%E6%9A%A8%E5%8F%A3%E8%A9%A6%E5%A0%B4%E6%AC%A1%E8%A1%A8-13985054', 'http://www.nd.ntu.edu.tw/zh_tw/announcement/108-11-12-%E4%BA%8C-%E9%A2%A8%E9%9A%AA%E4%B8%AD%E5%BF%83%E8%88%89%E8%BE%A6%E4%B9%8B-%E9%89%85%E8%AE%8A%E8%87%BA%E7%81%A3-%E5%95%9F%E5%8B%95%E8%87%BA%E7%81%A3%E9%95%B7%E6%9C%9F%E8%83%BD%E6%BA%90%E8%BD%89%E5%9E%8B-%E8%AB%96%E5%A3%87%E6%B4%BB%E5%8B%95-%E6%AD%A1%E8%BF%8E%E5%90%8C%E5%AD%B8%E5%A0%B1%E5%90%8D%E5%8F%83%E5%8A%A0-%E8%A8%88%E5%85%A5%E5%AD%B8%E7%BF%92%E5%8D%A1-96401268', 'http://www.nd.ntu.edu.tw/zh_tw/announcement/-%E7%95%A2%E6%A5%AD%E5%9C%98%E6%8B%8D-107%E5%AD%B8%E5%B9%B4%E5%BA%A6%E7%A2%A9%E5%A3%AB%E7%8F%A

## 公告的文字

In [64]:
# 再讀取各聯結的內容文字
# 內容位於 'section',{'class':"s-annc__post-wrap"}
string=[]
for l in list_l:
    response = requests.get (l)
    soup_tem = BeautifulSoup (response.text, "lxml")
    add_string=soup_tem.find_all('section',{'class':"s-annc__post-wrap"})[0].text    
    string.append(add_string)
string

['\n\n',
 '\n國立臺灣大學國家發展研究所109學年度碩士班甄試口試場次表\n口試日期：108.11.06 (三)\xa0 \xa0\xa0\n口試地點/報到處：國發所300會議室\n考生休息室：401室\n\n注意事項：\n一、符合口試資格名單於108年11月1日(五)公佈於國發所網頁，考生請自行查詢，不另通知。\n二、符合口試資格考生請攜帶准考證與身份證，請於個人口試時間前10分鐘到達口試試場並辦理報到手續。逾時未到者以棄權論，不另舉行補試。連絡人：周海蕙助教，電話：33663319。\r\n\xa0\r\n\n\n\n\n甲組(主修全球化與科技治理)\n\n\n序號\n口試時間\n准考證號碼\n姓名\n序號\n口試時間\n准考證號碼\n姓名\n\n\n1\n09:00~09:08\n3070001\n蔡○翰\n10\n10:13~10:20\n3070010\n鐘○如\n\n\n2\n09:09~09:16\n3070002\n鄭○佑\n11\n10:21~10:28\n3070011\n林○伶\n\n\n3\n09:17~09:24\n3070003\n宋○真\n12\n10:29~10:36\n3070012\n虞○語\n\n\n4\n09:25~09:32\n3070004\n林○璇\n13\n10:37~10:44\n3070013\n王○善\n\n\n5\n09:33~09:40\n3070005\n洪○澤\n14\n10:45~10:52\n3070014\n郭○辰\n\n\n6\n09:41~09:48\n3070006\n顧○儒\n15\n10:53~11:00\n3070016\n袁○哲\n\n\n7\n09:49~09:56\n3070007\n黃○翰\n16\n11:01~11:08\n3070017\n宋○芸\n\n\n8\n09:57~10:04\n3070008\n黃○昀\n17\n11:09~11:16\n3070018\n曾○勳\n\n\n9\n10:05~10:12\n3070009\n李○倫\n18\n11:17~11:24\n3070019\n林○瑄\n\n\n\r\n\xa0\r\n\r\n\n國立臺灣大學國家發展研究所109學年度碩士班甄試口試場次表\n口試日期：108.11.06 (三) \n口試地點/報到

In [65]:
import pandas as pd
data=list(zip(time, title, string))
df=pd.DataFrame(data, columns=['time ','title','content'])
df

Unnamed: 0,time,title,content
0,2019-11-06,108/11/07 (四)所長時間改於下午2時至3時,\n\n
1,2019-11-01,109學年度碩士班甄試符合口試資格名單暨口試場次表,\n國立臺灣大學國家發展研究所109學年度碩士班甄試口試場次表\n口試日期：108.11.0...
2,2019-10-30,108/11/12(二)風險中心舉辦之【鉅變臺灣：啟動臺灣長期能源轉型】論壇活動，歡迎同學報...,\n\n\r\n【鉅變臺灣：啟動臺灣長期能源轉型】論壇\n\r\n時間：11月12日(二)0...
3,2019-10-28,【畢業團拍】107學年度碩士班畢業團拍調查表單填報(至108/10/30日止),\n國發所畢業團拍（107碩士班）\r\n \n大家好，我們是107級的畢代皓瑋和玥岑，時光...
4,2019-10-28,【公告】109學年度碩士班招生簡章考科異動,\n\n公告\n\n109學學年度碩士班招生簡章考科異動：乙組(主修中國大陸與東亞研究)選考...
5,2019-10-22,108學年度第1學期生活學習助學金審核結果公告,\n台灣大學國家發展所108學年度第1學期生活學習助學金審核結果公告\n\n通過名單：蔡振輝...
6,2019-10-18,108/10/26(六)109學年度碩士班甄試招生筆試試場：國發所206教室,\n國立臺灣大學國家發展研究所109學年度碩士班甄試招生\n\n筆試日期：108年10月26...
7,2019-10-01,本校學務處公告相關訊息,\n大家好：\r\n \n學務處辦理多項優質活動，歡迎您踴躍參加。\n\n\n\n\n學務處...
8,2019-09-18,[所辦公告] 所辦公室不代收同學私人信件或包裹,\n所辦公室不代收同學私人信件或包裹，請同學留意勿將私人信件或包裹寄至所辦公室。謝謝配合。\n
9,2019-08-21,【恭賀】本校特聘講座教授暨本所「中國大陸與東亞研究」學組師資黃俊傑老師獲選為歐洲科學院院士（...,\n恭賀本校特聘講座教授暨本所「中國大陸與東亞研究」學組師資，黃俊傑老師獲選為歐洲科學院院士...


## 但是我們有好幾頁

In [66]:
# 檢查每頁的網址結構相似，http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=1& 
# 製作每頁的聯結
time=[]
title=[]
string=[]
for n in range(5):
    #  共有五頁
    url='http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=' + str(n+1) + '&'     
    response = requests.get (url)
    soup = BeautifulSoup (response.text, "lxml")
    # 時間
    list_t=soup.find_all("span", {'class':"i-annc__postdate"})    
    for t in list_t:
        time.append(t.text)
    # 標題    
    list_a=soup.find_all("a", {'class':"i-annc__title"})
    for a in list_a:
        title.append(a.text)        
    # 內容聯結
    list_a=soup.find_all("a", {'class':"i-annc__title"})
    h='http://www.nd.ntu.edu.tw'
    list_l=[]
    for a in list_a:
        list_l.append(h+a['href'])    
    # 內容
    for l in list_l:
        response = requests.get (l)
        soup_tem = BeautifulSoup (response.text, "lxml")
        add_string=soup_tem.find_all('section',{'class':"s-annc__post-wrap"})[0].text    
        string.append(add_string)
# 統整
data=list(zip(time, title, string))
df=pd.DataFrame(data, columns=['time ','title','content'])
print(df)

          time                                               title  \
0    2019-11-06                         108/11/07 (四)所長時間改於下午2時至3時   
1    2019-11-01                          109學年度碩士班甄試符合口試資格名單暨口試場次表   
2    2019-10-30  108/11/12(二)風險中心舉辦之【鉅變臺灣：啟動臺灣長期能源轉型】論壇活動，歡迎同學報...   
3    2019-10-28            【畢業團拍】107學年度碩士班畢業團拍調查表單填報(至108/10/30日止)   
4    2019-10-28                              【公告】109學年度碩士班招生簡章考科異動   
5    2019-10-22                            108學年度第1學期生活學習助學金審核結果公告   
6    2019-10-18             108/10/26(六)109學年度碩士班甄試招生筆試試場：國發所206教室   
7    2019-10-01                                        本校學務處公告相關訊息   
8    2019-09-18                            [所辦公告] 所辦公室不代收同學私人信件或包裹   
9    2019-08-21  【恭賀】本校特聘講座教授暨本所「中國大陸與東亞研究」學組師資黃俊傑老師獲選為歐洲科學院院士（...   
10   2019-06-06        【施工通知】玉衡能源-國發所屋頂防水施工今天仍會有工程廢棄物吊運,另會有單側沒水的情形   
11   2019-06-04  【施工通知】玉衡能源-國發所防水施工預計今天(6/4)上午10點起前門上方吊運工程廢棄物,請...   
12   2019-06-02       本所屋頂太陽能發電設備設置暨防水工程預計自108/6/2(日)起至108/8/1進行施工   
13   2019-05-23     

In [67]:
# 檢查每頁的網址結構相似，http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=1& 
# 製作每頁的聯結
time=[]
title=[]
string=[]
for n in range(5):
    #  共有五頁
    url='http://www.nd.ntu.edu.tw/zh_tw/announcement?page_no=' + str(n+1) + '&'     
    response = requests.get (url)
    soup = BeautifulSoup (response.text, "lxml")
    # 時間
    list_t=soup.find_all("span", {'class':"i-annc__postdate"})    
    for t in list_t:
        time.append(t.text)
    # 標題    
    list_a=soup.find_all("a", {'class':"i-annc__title"})
    for a in list_a:
        title.append(a.text)        
    # 內容聯結
    list_a=soup.find_all("a", {'class':"i-annc__title"})
    h='http://www.nd.ntu.edu.tw'
    list_l=[]
    for a in list_a:
        list_l.append(h+a['href'])    
    # 內容
    for l in list_l:
        response = requests.get (l)
        soup_tem = BeautifulSoup (response.text, "lxml")
        add_string=soup_tem.find_all('section',{'class':"s-annc__post-wrap"})[0].text    
        string.append(add_string)
# 統整
data=list(zip(time, title, string))
df=pd.DataFrame(data, columns=['time ','title','content'])
df

Unnamed: 0,time,title,content
0,2019-11-06,108/11/07 (四)所長時間改於下午2時至3時,\n\n
1,2019-11-01,109學年度碩士班甄試符合口試資格名單暨口試場次表,\n國立臺灣大學國家發展研究所109學年度碩士班甄試口試場次表\n口試日期：108.11.0...
2,2019-10-30,108/11/12(二)風險中心舉辦之【鉅變臺灣：啟動臺灣長期能源轉型】論壇活動，歡迎同學報...,\n\n\r\n【鉅變臺灣：啟動臺灣長期能源轉型】論壇\n\r\n時間：11月12日(二)0...
3,2019-10-28,【畢業團拍】107學年度碩士班畢業團拍調查表單填報(至108/10/30日止),\n國發所畢業團拍（107碩士班）\r\n \n大家好，我們是107級的畢代皓瑋和玥岑，時光...
4,2019-10-28,【公告】109學年度碩士班招生簡章考科異動,\n\n公告\n\n109學學年度碩士班招生簡章考科異動：乙組(主修中國大陸與東亞研究)選考...
5,2019-10-22,108學年度第1學期生活學習助學金審核結果公告,\n台灣大學國家發展所108學年度第1學期生活學習助學金審核結果公告\n\n通過名單：蔡振輝...
6,2019-10-18,108/10/26(六)109學年度碩士班甄試招生筆試試場：國發所206教室,\n國立臺灣大學國家發展研究所109學年度碩士班甄試招生\n\n筆試日期：108年10月26...
7,2019-10-01,本校學務處公告相關訊息,\n大家好：\r\n \n學務處辦理多項優質活動，歡迎您踴躍參加。\n\n\n\n\n學務處...
8,2019-09-18,[所辦公告] 所辦公室不代收同學私人信件或包裹,\n所辦公室不代收同學私人信件或包裹，請同學留意勿將私人信件或包裹寄至所辦公室。謝謝配合。\n
9,2019-08-21,【恭賀】本校特聘講座教授暨本所「中國大陸與東亞研究」學組師資黃俊傑老師獲選為歐洲科學院院士（...,\n恭賀本校特聘講座教授暨本所「中國大陸與東亞研究」學組師資，黃俊傑老師獲選為歐洲科學院院士...


# 作業

* 請進入你的標的網頁，檢查網頁的結構，回答以下問題:
* 1 網址是? 簡單介紹這個網頁。
* 2 你想下載網頁中的什麼資訊？
* 3 這些資訊是放在哪個 tag(標籤)，那個attribute(屬性)下面？如果找不到，表示為動態網頁或加密，請換一個簡單的網頁。
* 4 是否要進去聯結，才可以找到你要的東西?
* 5 是否有多個分頁，分頁的網址規則是什麼? 
* 6 依上課教的方法，下載資料，整理成 DataFrame 方便閱讀。有碰到什麼困難嗎?
* 7 記錄你探索過的失敗、無法下載網頁，列出 1,2,3 項。也許其他同學可以幫你解決。 
* 8 交作業時，除了回答上問題，要交 .ipynb 以及下載的資料檔。

In [None]:
# 作業內容: 爬取台積電公司專業技術介紹頁面文字
# 網址: 
#主頁_Index: https://www.tsmc.com/chinese/dedicatedFoundry/technology/index.htm
#分頁_logic: https://www.tsmc.com/chinese/dedicatedFoundry/technology/logic.htm
#分頁_specialty: https://www.tsmc.com/chinese/dedicatedFoundry/technology/specialty.htm
#分頁_WLSI: https://www.tsmc.com/chinese/dedicatedFoundry/technology/WLSI.htm
#分頁_platform: https://www.tsmc.com/chinese/dedicatedFoundry/technology/platform.htm
#分頁_fiture_rd: https://www.tsmc.com/chinese/dedicatedFoundry/technology/future_rd.htm

#目標: 爬取台積電公司的所有技術和產品介紹，並整理成dataframe

In [111]:
#載入相關套件
# beautiful soup
import urllib
import urllib.request
from bs4 import BeautifulSoup
import io
import os
import json
import re
import pandas as pd

title_list = ['index', 'logic', 'specialty', 'WLSI', 'platform', 'future_rd']
title =[]
string = []

for ti in title_list:
    #抓取網址&煮湯
    url='https://www.tsmc.com/chinese/dedicatedFoundry/technology/' + ti + '.htm'     
    response = requests.get (url)
    response.encoding='UTF-8' #遇到網頁編碼不同之問題，透過這行程式碼得以解決
    soup = BeautifulSoup (response.text, "lxml")
    #print(soup.prettify())

    #抓取各分頁title
    list_t = soup.find_all('div', {'class':'d-inline-block'})
    for t in list_t:
#         print(type(t))
#         t = re.sub('\r\n', '', t)
        title.append(t.text)
        
    for t in title:
        t.strip()
        t.replace('\n', '')
        t.replace('\n      ', '')
        
        
    #抓取各分頁內容
    list_s = soup.find_all('section', {'id':'pageIntroSection'})
    for s in list_s:
        string_add = s.find_all('p')
        for s in string_add:
           #s = re.sub('\r\n', '', s)
            string.append(s.text)

#清除字符
title_1= []
for i in range(4):
    t = title[i].strip()
    title_1.append(t)
# print(title_1)


string_1 = []
for i in range(4):
    t = string[i].strip()
    string_1.append(t)
# print(string_1)

#製作表格
data=list(zip(title_1, string_1))
# print(data)
df=pd.DataFrame(data, columns=['title','content'])
print(df)

#存回excel檔
# import chardet
# print(chardet.detect(df))
# import codecs
path='C:/Users/HSIU/Desktop/108-1/python_ntu'
# fname ='/data/tcmc.csv'
# file_name = path + fname
# with open(unicode(file_name'.csv',  encoding='utf8'), 'w') as f:
#     f.write(codecs.BOM_UTF8)
#     f.write(df)
#     f.close() 
    
# import csv
# import codecs
# with open('tcmc.csv', 'wb') as csvfile:
#     csvfile.write(codecs.BOM_UTF8)   
#     dfwriter = csv.writer(csvfile, dialect='excel')


# df.to_csv(path+'/data/tcmc.csv',index=False,header=True, encoding = 'utf-8')
# # data.to_csv('XXXXX.csv',encoding='utf_8_sig')
import csv
import codecs

csvfile = file(path+'tcmc.csv', 'wb')
csvfile.write(codecs.BOM_UTF8)
writer = csv.writer(csvfile)
writer.write(df)
csvfile.close()

# import csv
# import codecs
# list=['a101','b101']
# sumlist=[]
# for str in list:
# templist=[]
# templist.append('a')
# templist.append('b')
# templist.append('c')
# sumlist.append(templist)
# csvfile = file('csv_test.csv', 'wb')
# csvfile.write(codecs.BOM_UTF8)
# writer = csv.writer(csvfile)
# writer.writerow(['姓名', '年龄', '电话'])

#data = [
# ('小河', '25', '1234567'),
# ('小芳', '18', '789456')
# #]
# writer.writerows(sumlist)

# csvfile.close()
# ————————————————
# 版权声明：本文为CSDN博主「hurt--」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
# 原文链接：https://blog.csdn.net/weixin_40907382/article/details/80245541
# # import csv
# import codecs
# with open('test.csv', 'wb') as csvfile:  
#     csvfile.write(codecs.BOM_UTF8)   
# #     spamwriter = csv.writer(csvfile, dialect='excel')

# 作者：知乎用户
# 链接：https://www.zhihu.com/question/34201726/answer/150221584
# 来源：知乎
# 著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

# fname= '/corpus/president/蔡英文第十四任.txt'
# file_name=path+fname
# # content 為前面產生的文字檔
# with open(file_name, 'w', encoding='utf8') as f:
#     f.write(content)
#     f.close() 
    
# import codecs
# f = open(**unicode(df'.csv','utf-8')**,'w') # 檔名不亂碼
# **f.write(codecs.BOM_UTF8) # excel開啟內容不亂碼的核心語句**
# f.write('tcmc')
# f.close()

# fname=path+'/data/tcmc/csv'
# df1 = pd.read_csv(fname, encoding='utf-8')
# df1
# df.to_csv(path+'data/station.csv',index=False,header=True,encoding='utf-8')

     title                                            content
0     專業技術  技術是台積公司的基石之一，我們提供專業積體電路製造服務領域中最完備的技術與服務，為全球半導體...
1     邏輯製程  With the proliferation of AI and 5G from cloud...
2     特殊製程  TSMC Wafer Level System Integration (WLSI) is ...
3  晶圓級系統整合  In light of the rapid growth in four major mar...


NameError: name 'file' is not defined

In [25]:
#     # 時間
#     list_t=soup.find_all("span", {'class':"i-annc__postdate"})    
#     for t in list_t:
#         time.append(t.text)
#     # 標題    
#     list_a=soup.find_all("a", {'class':"i-annc__title"})
#     for a in list_a:
#         title.append(a.text)        
#     # 內容聯結
#     list_a=soup.find_all("a", {'class':"i-annc__title"})
#     h='http://www.nd.ntu.edu.tw'
#     list_l=[]
#     for a in list_a:
#         list_l.append(h+a['href'])    
#     # 內容
#     for l in list_l:
#         response = requests.get (l)
#         soup_tem = BeautifulSoup (response.text, "lxml")
#         add_string=soup_tem.find_all('section',{'class':"s-annc__post-wrap"})[0].text    
#         string.append(add_string)
# # 統整
# data=list(zip(title, string))
# print(data)
# df=pd.DataFrame(data, columns=['title','content'])
# print(df)

[]
Empty DataFrame
Columns: [title, content]
Index: []


In [None]:
# # 接續上例，印出 < p> 內的文字，存成 list
# paragraph=[]
# # 找出所有合於條件的 <div>
# list_div=soup.find_all("div", {'class':"second"})
# # 如果有找到的話
# if len(list_div)>0:
#     for li in list_div:    
#         # 找出所有的 <p>
#         list_p=li.find_all("p")
#         for p in list_p:
#             # 加入 list
#             paragraph.append(p.text)
#     print (paragraph)