### 網頁解析 & 自動化測試套件
* Beautiful Soup
* Selenium

### 1. Beautiful Soup

#### 1.1 安裝套件
* Python 2+ : pip install beautifulsoup4
* Python 3+ : pip3 install beautifulsoup4

#### 1.2 引用 Beautiful Soup 模組

In [1]:
from bs4 import BeautifulSoup

#### 1.3 使用Beautiful Soup 解析網頁

In [2]:
html_doc = """
<html><head><title>Hello World</title>

<style>
    .large {
      color:blue;
      text-align: center;
    }
</style>

</head>
<body><h2>Test Header</h2>
<p>This is a test.</p>
<a id="link1" href="https://www.google.com.tw"> Google網站</a>
<a id="link2" class="large" href="https://www.facebook.com.tw">FaceBook</a>
<p>Hello, <b id="link1" class="boldtext">Bold Text</b></p>
</body></html>
"""

In [3]:
# 以 Beautiful Soup 解析 HTML 程式碼

soup = BeautifulSoup(html_doc, 'html.parser')
#soup = BeautifulSoup(open('data/A.html'), 'html.parser')


In [4]:
#將soup物件美化
print(soup.prettify())

<html>
 <head>
  <title>
   Hello World
  </title>
  <style>
   .large {
      color:blue;
      text-align: center;
    }
  </style>
 </head>
 <body>
  <h2>
   Test Header
  </h2>
  <p>
   This is a test.
  </p>
  <a href="https://www.google.com.tw" id="link1">
   Google網站
  </a>
  <a class="large" href="https://www.facebook.com.tw" id="link2">
   FaceBook
  </a>
  <p>
   Hello,
   <b class="boldtext" id="link1">
    Bold Text
   </b>
  </p>
 </body>
</html>



In [5]:
soup.html

<html><head><title>Hello World</title>
<style>
    .large {
      color:blue;
      text-align: center;
    }
</style>
</head>
<body><h2>Test Header</h2>
<p>This is a test.</p>
<a href="https://www.google.com.tw" id="link1"> Google網站</a>
<a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>
<p>Hello, <b class="boldtext" id="link1">Bold Text</b></p>
</body></html>

#### 1.4 解析網頁結構

In [6]:
# Head tag 

In [7]:
soup.head

<head><title>Hello World</title>
<style>
    .large {
      color:blue;
      text-align: center;
    }
</style>
</head>

In [8]:
soup.head.text

'Hello World\n\n    .large {\n      color:blue;\n      text-align: center;\n    }\n\n'

In [9]:
# Title tag 

In [10]:
soup.title

<title>Hello World</title>

In [11]:
soup.title.text
#soup.title.string

'Hello World'

In [12]:
# body tag 
soup.body

<body><h2>Test Header</h2>
<p>This is a test.</p>
<a href="https://www.google.com.tw" id="link1"> Google網站</a>
<a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>
<p>Hello, <b class="boldtext" id="link1">Bold Text</b></p>
</body>

In [13]:
soup.body.text

'Test Header\nThis is a test.\n Google網站\nFaceBook\nHello, Bold Text\n'

In [14]:
soup.body.a['href']

'https://www.google.com.tw'

In [15]:
# a tag 
soup.a

<a href="https://www.google.com.tw" id="link1"> Google網站</a>

In [16]:
soup.a.text
#soup.a.string

' Google網站'

In [17]:
soup.a['href']

'https://www.google.com.tw'

In [18]:
# p tag 
soup.p

<p>This is a test.</p>

In [19]:
soup.p.text
#soup.p.string

'This is a test.'

In [20]:
#.contents 属性可將tag的子節點以列表方式输出
print(soup.head.contents)

print(len(soup.head.contents))

for item in soup.head.contents:
    print(item)

[<title>Hello World</title>, '\n', <style>
    .large {
      color:blue;
      text-align: center;
    }
</style>, '\n']
4
<title>Hello World</title>


<style>
    .large {
      color:blue;
      text-align: center;
    }
</style>




In [21]:
#.children 訪問子節點
for item in soup.head.children:
    print(item)

<title>Hello World</title>


<style>
    .large {
      color:blue;
      text-align: center;
    }
</style>




In [22]:
#.children 訪問子節點
for item in soup.head.children:
    print(item)

<title>Hello World</title>


<style>
    .large {
      color:blue;
      text-align: center;
    }
</style>




In [23]:
print(soup.title.string)

print(soup.title.string.parent)

Hello World
<title>Hello World</title>


In [24]:
 #.next_sibling 和 .previous_sibling 属性来訪問同一層兄弟節點
print(soup.body)
print("-----")
print(soup.body.p)
print("-----")

body = soup.body
print(body.p)
print(body.p.next_sibling)
print(body.p.next_sibling.next_sibling)
print(body.p.next_sibling.next_sibling.previous_sibling.previous_sibling)

<body><h2>Test Header</h2>
<p>This is a test.</p>
<a href="https://www.google.com.tw" id="link1"> Google網站</a>
<a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>
<p>Hello, <b class="boldtext" id="link1">Bold Text</b></p>
</body>
-----
<p>This is a test.</p>
-----
<p>This is a test.</p>


<a href="https://www.google.com.tw" id="link1"> Google網站</a>
<p>This is a test.</p>


In [25]:
#取得網頁所有文字內容
print(soup.getText())


Hello World

    .large {
      color:blue;
      text-align: center;
    }


Test Header
This is a test.
 Google網站
FaceBook
Hello, Bold Text




In [26]:
for string in soup.strings:
    print(string)
    #print(repr(string))



Hello World



    .large {
      color:blue;
      text-align: center;
    }





Test Header


This is a test.


 Google網站


FaceBook


Hello, 
Bold Text






In [27]:
# .stripped_strings 可以移除多餘的空白内容:
for string in soup.stripped_strings:
    print(string)
    #print(repr(string))

Hello World
.large {
      color:blue;
      text-align: center;
    }
Test Header
This is a test.
Google網站
FaceBook
Hello,
Bold Text


####  1.4.1 搜尋單一節點

In [28]:
#搜尋節點 by tag
a_tag = soup.find('a')
print(a_tag.text)
print(a_tag['href'])
print(a_tag.get('href')) # .get(attribute's name) 取得tag 屬性內容

 Google網站
https://www.google.com.tw
https://www.google.com.tw


In [29]:
#搜尋節點 by tag ,tag id
a_tag = soup.find(name ='a',attrs={"id":"link2"})
#a_tag = soup.find('a',{'id':"link2"})
print(a_tag.text)

FaceBook


In [30]:
#搜尋節點 by tag ,class name
a_tag = soup.find(name ='a',attrs={"class":"large"})
#a_tag = soup.find('a',{'class':"large"})
#a_tag = soup.find('a','large')

print(a_tag.text)
print(a_tag['href'])
print(a_tag['class'])

FaceBook
https://www.facebook.com.tw
['large']


In [31]:
tags = soup.find(["a", "b"]) #只會找到第一個符合的節點 
print(tags)

<a href="https://www.google.com.tw" id="link1"> Google網站</a>


####  1.4.2 搜尋節點

In [32]:
#搜尋節點
a_tags = soup.find_all('a')
for tag in a_tags:
    print(tag.text)
    print(tag['href'])   

 Google網站
https://www.google.com.tw
FaceBook
https://www.facebook.com.tw


In [33]:
#取出節點屬性
for tag in a_tags:
    print(tag.get('href'))
    print(tag.get('class'))

https://www.google.com.tw
None
https://www.facebook.com.tw
['large']


In [34]:
# 搜尋所有超連結與粗體字
tags = soup.find_all(["a", "b"])
print(tags)

for tag in tags:
    print(tag)
    print(tag.text)
    print(tag.get('href'))

[<a href="https://www.google.com.tw" id="link1"> Google網站</a>, <a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>, <b class="boldtext" id="link1">Bold Text</b>]
<a href="https://www.google.com.tw" id="link1"> Google網站</a>
 Google網站
https://www.google.com.tw
<a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>
FaceBook
https://www.facebook.com.tw
<b class="boldtext" id="link1">Bold Text</b>
Bold Text
None


In [35]:
# 限制搜尋結果數量
tags = soup.find_all(["a", "b"], limit=2)
print(tags)

[<a href="https://www.google.com.tw" id="link1"> Google網站</a>, <a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>]


####  1.4.3 Select 選擇器

In [36]:
soup.select("title")

[<title>Hello World</title>]

In [37]:
soup.select("body a")

[<a href="https://www.google.com.tw" id="link1"> Google網站</a>,
 <a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>]

In [38]:
# Select by css name 
soup.select(".large")

[<a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>]

In [39]:
soup.select("a.large")

[<a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>]

In [40]:
# Select by id 
soup.select("#link1")

[<a href="https://www.google.com.tw" id="link1"> Google網站</a>,
 <b class="boldtext" id="link1">Bold Text</b>]

In [41]:
soup.select("a#link1")

[<a href="https://www.google.com.tw" id="link1"> Google網站</a>]

In [42]:
#依據屬性來選擇
soup.select('a[href]')

[<a href="https://www.google.com.tw" id="link1"> Google網站</a>,
 <a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>]

In [43]:
soup.select('a[class]')

[<a class="large" href="https://www.facebook.com.tw" id="link2">FaceBook</a>]

In [44]:
soup.select('a[style]')

[]

####  1.4.5 Example-1 抓取蘋果新聞清單

In [45]:
import requests
from bs4 import BeautifulSoup

domainurl='http://www.appledaily.com.tw/realtimenews/section/new/'

res = requests.get(domainurl)
soup = BeautifulSoup(res.text,'html.parser')

#print (soup)

for news in soup.select('.rtddt'):
        link = news.select('a')[0]['href']
        Type = news.select('h2')[0].text
        Title = news.select('h1')[0].text
        print (Type, Title)
        print (link)

地產 與天爭地　高雄摩天住宅這裡超多
https://tw.finance.appledaily.com/realtime/20181130/1475733/
國際 平價鞋店偽裝成高檔精品店　騙倒一堆時尚迷
https://tw.news.appledaily.com/international/realtime/20181130/1475902/
社會 約網友旅館吸毒遇臨檢　男怕被抓爬窗墜樓亡(14166)
https://tw.news.appledaily.com/local/realtime/20181130/1475813/
特企 
【特企】【你早洩嗎】方法對了 老漢依舊一...  (14166) 
https://tw.news.appledaily.com/life/realtime/20181130/1475352/
社會 艋舺深夜遶境爆衝突開槍　3人重傷送醫急救(97400)
https://tw.news.appledaily.com/local/realtime/20181130/1475820/
財經 徵30名年薪百萬儲備幹部　金融業徵才提前...
https://tw.finance.appledaily.com/realtime/20181130/1475906/
體育 坎農＋救援王狄亞茲　水手和大都會交易快談...
https://tw.sports.appledaily.com/realtime/20181130/1475899/
生活 網購商品用報紙包　破了！賣家嗆「我帶孩子...
https://tw.news.appledaily.com/life/realtime/20181130/1475905/
政治 ​北市議員選舉馬家軍大獲全勝　王炳忠有話...(99)
https://tw.news.appledaily.com/politics/realtime/20181130/1475904/
國際 大學生瘋狂野合　保持四腳獸性姿勢昏睡走廊(1980)
https://tw.news.appledaily.com/international/realtime/20181130/1475901/
政治 藍綠基本盤都減少　中間選民出頭天（動畫）(17654)
https://tw.news.appledaily.com/politi

####  1.4.5 Example-2 抓取蘋果新聞內文

In [46]:
import requests
from bs4 import BeautifulSoup

domainurl='https://tw.news.appledaily.com/international/realtime/20181030/1457243/'

res = requests.get(domainurl)
soup = BeautifulSoup(res.text,'html.parser')

#print (soup)

title = soup.select('article.ndArticle_leftColumn h1')[0].text
content = soup.select('article.ndArticle_content div.ndArticle_margin p')[0].text
print(title)
print(content)

【金庸逝世14】挑哪一段向金庸致敬？網友選「蛛兒淚拒無忌表哥」
一代武俠小說泰斗查良鏞（筆名為金庸）今晚驚傳逝世，享年94歲，網友們紛紛哀悼，有位粉絲就問大家：「如果要挑一個段子跟大師致敬，你會挑哪一段？」 這位網友在《PTT》「八卦板」發文說：「話說，金學，陪伴著大家高中那段青澀歲月，練功，武林絕學，飛雪連天射白鹿，笑書神俠倚碧鴛。沒練完功的自己去補齊。如果要挑個段子跟大師致敬，大家印象最深的是那段啊？」這位網友引了這段：她轉過頭來，柔聲道「阿牛哥哥，你一直待我很好，我好生感激。可是我的心，早就許了給那個狠心的、兇惡的小張無忌了。你不是他，不，不是他……」（摘自《倚天屠龍記》）不識張郎是張郎。永別了。大師。 （即時新聞中心／綜合報導）


####  1.4.5 Example-3 抓取蘋果新聞清單列表,內文並儲存至資料庫

In [47]:
import pymongo
import requests
from bs4 import BeautifulSoup


def getContent(link):
    res = requests.get(link)
    soup = BeautifulSoup(res.text)
    title = soup.select('article.ndArticle_leftColumn h1')[0].text
    content = soup.select('article.ndArticle_content div.ndArticle_margin p')[0].text
    #print(title)
    #print(content)
    return content

def insertDB(tag,title,link,content):
    myclient = pymongo.MongoClient("mongodb://localhost:27017/")
    mydb = myclient["Article"]
    mycol = mydb['AppleNews']
    mydict = { "tag": tag,"title":title,"link": link, "content":content } 
    x = mycol.insert_one(mydict) 
    print(x.inserted_id) 

domainurl='http://www.appledaily.com.tw/realtimenews/section/new/'

res = requests.get(domainurl)
soup = BeautifulSoup(res.text)


for news in soup.select('.rtddt'):
        link = news.select('a')[0]['href']
        tag= news.select('h2')[0].text
        title = news.select('h1')[0].text
        print (tag, title)
        print (link)
        content = getContent(link)
        insertDB(tag,title,link,content)

ModuleNotFoundError: No module named 'pymongo'

####  1.4.5  Example-4 抓取PTT文章內容及回文

In [48]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://www.ptt.cc/bbs/HatePolitics/M.1539669111.A.B2D.html')
soup = BeautifulSoup(res.text)
mainContent = soup.find(name = 'div',attrs={"class":"bbs-screen bbs-content"})
#print(mainContent)
content = mainContent.text
print(content)

作者kero2377 (顆顆)看板HatePolitics標題[討論] 高雄選情分析時間Tue Oct 16 13:51:46 2018
等等要出門了 趁著還有一些空檔 就不富奸了


帶來眾所矚目的高雄選情


高雄是由


正義 溫暖  臉書擁有國際粉絲的巨星  陳其邁



與


黑道 色情狂 北部菜蟲王  獎金發太多的散財童子  跟著月亮走的北農ceo韓國瑜



.... 乾  我不會被吉吧   國瑜  我都是看電視學來的 母湯針對



進入正題吧




陳其邁 45.7
韓國瑜  43.5


不知道/沒意見     10.8



猶如各位所見  真的很膠著 .


但韓國瑜在這三個禮拜追的速度非常的 非常的  驚人


在一個月以前他是穩定輸15%的  而在做了館長直播後  更加的追近了


但韓粉們也不能過於樂觀  畢竟現在是韓國瑜的名望高峰期  但還是壓不倒陳其邁


主要是深綠區太穩固了  市區已經轉韓.  而不知道或沒意見的區塊 研判也是陳其邁居多


所以目前陳其邁還是贏在3-5%之間的  所以以我個人的經驗分析


陳其邁應該會以微小票數勝出  除非外地的年輕人非常的carry 把我們韓總推上市長大位


否則綠地的機率 應還是超過六成  就看這個月韓總能帶給我們甚麼樣的內容了


----


北市選情分析  #1RnMSOiN



--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.232.84.177
※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1539669111.A.B2D.html
推 mark2165: 推 韓加油 10/16 13:52
推 medlife0830: 真的要看高雄年輕朋友了 10/16 13:53
推 liunwaiqoo: 你這預估很合理,但我仍然認為韓能以5萬票左右勝出 10/16 13:53
 韓要更努力 陳要爆得更用力 就有機會
推 zenan321: 你的數字是支持率還是投票結果百分比?
  百分比
推 gerund: 3F到底哪裡來的自信? 10/16 13:54
※ 編輯: kero2377 (118.232.84.177), 10/16/2018 13:55:43
推 npcxx: 1124滅東廠 還是要靠據說不到一萬的



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))


In [49]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://www.ptt.cc/bbs/HatePolitics/M.1539669111.A.B2D.html')
soup = BeautifulSoup(res.text)
mainContent = soup.find(name = 'div',attrs={"class":"bbs-screen bbs-content"})
#print(mainContent)
content = mainContent.text
print(content)


board_meta = mainContent.find(name = 'div',attrs={"class":"article-metaline-right"})
#print(board_meta)
board_tag = board_meta.find(name = 'span',attrs={"class":"article-meta-tag"}).text
board_value = board_meta.find(name = 'span',attrs={"class":"article-meta-value"}).text
print(board_tag,board_value)

article_meta = mainContent.find_all(name = 'div',attrs={"class":"article-metaline"})

#get meta-data
for item in article_meta:
    meta_tag = item.find(name = 'span',attrs={"class":"article-meta-tag"}).text
    meta_value =  item.find(name = 'span',attrs={"class":"article-meta-value"}).text
    print(meta_tag,meta_value)
    
 
    
feebackList = mainContent.find_all(name = 'div',attrs={"class":"push"})
for feeback in feebackList:
     push_userId= feeback.find(name ='span',attrs={"class":"f3 hl push-userid"}).text
     push_content = feeback.find(name='span',attrs={"class":"f3 push-content"}).text
     push_time = feeback.find(name='span',attrs={"class":"push-ipdatetime"}).text
     print(push_userId,push_content,push_time )
    
for remove in mainContent(['span','div']):
     remove.decompose()

print(mainContent)

作者kero2377 (顆顆)看板HatePolitics標題[討論] 高雄選情分析時間Tue Oct 16 13:51:46 2018
等等要出門了 趁著還有一些空檔 就不富奸了


帶來眾所矚目的高雄選情


高雄是由


正義 溫暖  臉書擁有國際粉絲的巨星  陳其邁



與


黑道 色情狂 北部菜蟲王  獎金發太多的散財童子  跟著月亮走的北農ceo韓國瑜



.... 乾  我不會被吉吧   國瑜  我都是看電視學來的 母湯針對



進入正題吧




陳其邁 45.7
韓國瑜  43.5


不知道/沒意見     10.8



猶如各位所見  真的很膠著 .


但韓國瑜在這三個禮拜追的速度非常的 非常的  驚人


在一個月以前他是穩定輸15%的  而在做了館長直播後  更加的追近了


但韓粉們也不能過於樂觀  畢竟現在是韓國瑜的名望高峰期  但還是壓不倒陳其邁


主要是深綠區太穩固了  市區已經轉韓.  而不知道或沒意見的區塊 研判也是陳其邁居多


所以目前陳其邁還是贏在3-5%之間的  所以以我個人的經驗分析


陳其邁應該會以微小票數勝出  除非外地的年輕人非常的carry 把我們韓總推上市長大位


否則綠地的機率 應還是超過六成  就看這個月韓總能帶給我們甚麼樣的內容了


----


北市選情分析  #1RnMSOiN



--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.232.84.177
※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1539669111.A.B2D.html
推 mark2165: 推 韓加油 10/16 13:52
推 medlife0830: 真的要看高雄年輕朋友了 10/16 13:53
推 liunwaiqoo: 你這預估很合理,但我仍然認為韓能以5萬票左右勝出 10/16 13:53
 韓要更努力 陳要爆得更用力 就有機會
推 zenan321: 你的數字是支持率還是投票結果百分比?
  百分比
推 gerund: 3F到底哪裡來的自信? 10/16 13:54
※ 編輯: kero2377 (118.232.84.177), 10/16/2018 13:55:43
推 npcxx: 1124滅東廠 還是要靠據說不到一萬的



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))
