# Beautiful Soup Exercise

In [1]:
from bs4 import BeautifulSoup
import re

In [118]:
page = \
'''<html>
     <head>
      <title>
       網頁標題
      </title>
     </head>
     <body>
      <p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
       <b> one-2 </b>
      </p>
      <p align="right" id="secondpara">
       第2段文字
       <b>two </b>
      </p>
      <div class = 'content'>
      <b class="message1"> 最新消息 </b>
      <b class="message2"> 訊息區  </b>
      </div>
     </body>
</html>'''

In [119]:
soup = BeautifulSoup(page, "lxml")
# soup = BeautifulSoup(page, "html.parser")
print(soup.prettify())

<html>
 <head>
  <title>
   網頁標題
  </title>
 </head>
 <body>
  <p align="center" id="firstpara">
   第1段文字
   <b>
    one-1
   </b>
   <b>
    one-2
   </b>
  </p>
  <p align="right" id="secondpara">
   第2段文字
   <b>
    two
   </b>
  </p>
  <div class="content">
   <b class="message1">
    最新消息
   </b>
   <b class="message2">
    訊息區
   </b>
  </div>
 </body>
</html>


# find() and findAll()

* findAll():  find all 找到全部

* find():    find one 找到一個就停止

In [120]:
soup.find('p') #find or filter with only one tag 'p' 單一個過濾或搜尋條件

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [5]:
soup.findAll('p')

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [6]:
soup.findAll('p')[0]

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [7]:
soup.findAll('b')

[<b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [8]:
soup.find('p', align='center') # find 'p' tag and attribute 'center' 多個過濾或搜尋條件

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [9]:
soup.find('p', align='right')

<p align="right" id="secondpara">
       第2段文字
       <b>two </b>
</p>

In [10]:
soup.findAll(name = 'p', align='right')

[<p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [11]:
# CSS style: It's better.
soup.findAll(name = 'p',  attrs = {'align': 'right'})

[<p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

# Using CSS

soup.find("tagName", { "class" : "cssClass" })

使用CSS查找比較好，因為有些標籤與保留字衝突，用CSS attrs参數寫法不會衝突!

### class屬性值 該如何爬取?

### Using CSS attributes (better)

以下這種寫法較容易理解

In [12]:
soup.findAll("b")

[<b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [13]:
soup.find("b", {'class' : "message2"})

<b class="message2"> 訊息區  </b>

In [14]:
soup.find(name = "b", attrs = {'class' : "message2"})

<b class="message2"> 訊息區  </b>

### Not recommended

以下寫法較不容易理解

In [15]:
# 後面直接寫  "message1" 表示 class= message1的意思
soup.findAll("b", "message1")

[<b class="message1"> 最新消息 </b>]

In [16]:
soup.findAll("b", class_ = "message2") # do not use: class=

[<b class="message2"> 訊息區  </b>]

In [17]:
soup.findAll("b", class_ = "message2")

[<b class="message2"> 訊息區  </b>]

# CSS select() 

In [18]:
soup.select('p')

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [19]:
soup.select('div')

[<div class="content">
 <b class="message1"> 最新消息 </b>
 <b class="message2"> 訊息區  </b>
 </div>]

In [20]:
soup.select('div.content')

[<div class="content">
 <b class="message1"> 最新消息 </b>
 <b class="message2"> 訊息區  </b>
 </div>]

In [21]:
soup.select(".message1")

[<b class="message1"> 最新消息 </b>]

In [22]:
soup.select("div.content > b") # > 表示在這個tag之內的tag

[<b class="message1"> 最新消息 </b>, <b class="message2"> 訊息區  </b>]

In [23]:
soup.select("div.content > b.message1")

[<b class="message1"> 最新消息 </b>]

In [24]:
soup.select("b")

[<b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [25]:
soup.select("b.message1")

[<b class="message1"> 最新消息 </b>]

## getText() or text

找到之後 抓文字的部分

In [26]:
soup.find('p', align='center')

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [27]:
result = soup.find('p', align='center')

In [28]:
result.text

'\n       第1段文字\n       one-1 \n one-2 \n'

In [29]:
result.getText()

'\n       第1段文字\n       one-1 \n one-2 \n'

## How to get attribute value

抓到之後，取得標籤Tag的屬性值

In [30]:
soup.find('p', align='center')

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [31]:
soup.find('p', align='center')['id']

'firstpara'

In [32]:
soup.findAll('p')

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [33]:
soup.findAll('p')[0].get('id')

'firstpara'

In [34]:
soup.findAll('p')[1]['id']

'secondpara'

# Using regular regression

正規表達式

In [35]:
# 尋找所有以r開頭的標籤
soup.findAll('p', align = re.compile('^r.*') )

[<p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [36]:
# 尋找所有以r開頭的標籤
soup.findAll('p', attrs = {'align' : re.compile('^r.*') })

[<p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [37]:
# 找出 id標籤名稱為 para結尾的標籤  只要是標籤都可以這樣找!
soup.findAll(id=re.compile("para$"))

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

# Multiple condition

多個條件

In [38]:
# 尋找所有 title標籤 b標籤
soup.findAll(['title', 'b'])

[<title>
        網頁標題
       </title>,
 <b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [39]:
# 尋找所有 title標籤 b標籤
soup.findAll(name = ['title', 'b'])

[<title>
        網頁標題
       </title>,
 <b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [40]:
soup.findAll({'title' : True, 'p' : True})

[<title>
        網頁標題
       </title>, <p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [41]:
soup.findAll(name = {'title' : True, 'p' : True})

[<title>
        網頁標題
       </title>, <p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [42]:
soup.findAll(id=True)

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [43]:
soup.findAll(align=True)

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [44]:
soup.findAll(attrs={'id' : re.compile("para$")})

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [45]:
# 找出所有的標籤
soup.findAll(True)

[<html>
 <head>
 <title>
        網頁標題
       </title>
 </head>
 <body>
 <p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>
 <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>
 <div class="content">
 <b class="message1"> 最新消息 </b>
 <b class="message2"> 訊息區  </b>
 </div>
 </body>
 </html>, <head>
 <title>
        網頁標題
       </title>
 </head>, <title>
        網頁標題
       </title>, <body>
 <p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>
 <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>
 <div class="content">
 <b class="message1"> 最新消息 </b>
 <b class="message2"> 訊息區  </b>
 </div>
 </body>, <p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>, <b>one-1 </b>, <b> one-2 </b>, <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>, <b>two </b>, <div class="content">
 <b class="message1"> 最新消息 </b>
 <b clas

In [46]:
allTags = soup.findAll(True)
[tag.name for tag in allTags]

['html', 'head', 'title', 'body', 'p', 'b', 'b', 'p', 'b', 'div', 'b', 'b']

# Delete tag (刪除標籤物件)

In [47]:
doc_ = ['<html><head><title>網頁標題</title></head>',
       '<body><p id="firstpara" align="center">第1段文字<b>one-1</b><b>one-2</b>.</p>',
       '<p id="secondpara" align="right">第2段文字<b>two</b>.</p></body>',
       '</html>']
doc = ''.join(doc_)

In [48]:
soup2 = BeautifulSoup(doc, "lxml")
# soup = BeautifulSoup(soup, "html.parser")
print (soup2.prettify())

<html>
 <head>
  <title>
   網頁標題
  </title>
 </head>
 <body>
  <p align="center" id="firstpara">
   第1段文字
   <b>
    one-1
   </b>
   <b>
    one-2
   </b>
   .
  </p>
  <p align="right" id="secondpara">
   第2段文字
   <b>
    two
   </b>
   .
  </p>
 </body>
</html>


In [49]:
soup2.findAll('p')

[<p align="center" id="firstpara">第1段文字<b>one-1</b><b>one-2</b>.</p>,
 <p align="right" id="secondpara">第2段文字<b>two</b>.</p>]

In [50]:
#soup2.findAll('p')[1].extract()
soup2.findAll('p')[1].decompose()

In [51]:
print(soup2.prettify())

<html>
 <head>
  <title>
   網頁標題
  </title>
 </head>
 <body>
  <p align="center" id="firstpara">
   第1段文字
   <b>
    one-1
   </b>
   <b>
    one-2
   </b>
   .
  </p>
 </body>
</html>


# Find a specific string from text

找出文字內容之片段

In [52]:
soup.findAll(text="two")

[]

In [53]:
soup.findAll(text=["one-1 ", "two"])

['one-1 ']

In [54]:
soup.findAll(text=[re.compile("one-\d*"), "two"])

['one-1 ', ' one-2 ']

In [55]:
soup.findAll(text=re.compile("文字"))

['\n       第1段文字\n       ', '\n       第2段文字\n       ']

In [56]:
soup.findAll(text=re.compile("one-\d*"))

['one-1 ', ' one-2 ']

In [57]:
soup.findAll(text=re.compile("1"))

['\n       第1段文字\n       ', 'one-1 ']

In [58]:
soup.findAll(text=True)

['\n',
 '\n',
 '\n       網頁標題\n      ',
 '\n',
 '\n',
 '\n',
 '\n       第1段文字\n       ',
 'one-1 ',
 '\n',
 ' one-2 ',
 '\n',
 '\n',
 '\n       第2段文字\n       ',
 'two ',
 '\n',
 '\n',
 '\n',
 ' 最新消息 ',
 '\n',
 ' 訊息區  ',
 '\n',
 '\n',
 '\n']

In [59]:
soup.findAll(text= lambda x: len(x) > 3 )

['\n       網頁標題\n      ',
 '\n       第1段文字\n       ',
 'one-1 ',
 ' one-2 ',
 '\n       第2段文字\n       ',
 'two ',
 ' 最新消息 ',
 ' 訊息區  ']

# Parse tree

剖析樹

### 基本操作

In [60]:
soup.head

<head>
<title>
       網頁標題
      </title>
</head>

In [61]:
soup.title

<title>
       網頁標題
      </title>

In [62]:
soup.head.title

<title>
       網頁標題
      </title>

In [63]:
soup.html.head.title

<title>
       網頁標題
      </title>

In [64]:
soup.head.title.string

'\n       網頁標題\n      '

In [65]:
soup.head.nextSibling

'\n'

In [66]:
soup.head.nextSibling.name

In [67]:
soup.body.next

'\n'

In [68]:
soup.body.next.next

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [69]:
soup.p

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [70]:
soup.p.next

'\n       第1段文字\n       '

In [71]:
soup.p.parent

<body>
<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>
<p align="right" id="secondpara">
       第2段文字
       <b>two </b>
</p>
<div class="content">
<b class="message1"> 最新消息 </b>
<b class="message2"> 訊息區  </b>
</div>
</body>

In [72]:
soup.p

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [73]:
soup.p.b

<b>one-1 </b>

In [74]:
soup.p.b.nextSibling

'\n'

In [75]:
soup.p.nextSibling

'\n'

In [76]:
soup.p

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [77]:
soup.findAll('p')[1].b.string

'two '

In [78]:
soup.find('p').b.string

'one-1 '

### contents用法

In [79]:
soup.contents

[<html>
 <head>
 <title>
        網頁標題
       </title>
 </head>
 <body>
 <p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>
 <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>
 <div class="content">
 <b class="message1"> 最新消息 </b>
 <b class="message2"> 訊息區  </b>
 </div>
 </body>
 </html>]

In [80]:
soup.contents[0]

<html>
<head>
<title>
       網頁標題
      </title>
</head>
<body>
<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>
<p align="right" id="secondpara">
       第2段文字
       <b>two </b>
</p>
<div class="content">
<b class="message1"> 最新消息 </b>
<b class="message2"> 訊息區  </b>
</div>
</body>
</html>

In [81]:
soup.contents[0].contents

['\n', <head>
 <title>
        網頁標題
       </title>
 </head>, '\n', <body>
 <p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>
 <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>
 <div class="content">
 <b class="message1"> 最新消息 </b>
 <b class="message2"> 訊息區  </b>
 </div>
 </body>, '\n']

In [82]:
soup.contents[0].contents[1].name

'head'

# select(), select_one()

In [83]:
import requests
from bs4 import BeautifulSoup

html_sample = '\
<html>\
<head>\
    <meta charset="UTF-8">\
    <title></title>\
</head>\
<body>\
<h1 id=''title''>This is a test!</h1>\
<a href=''1'' class=''link1''>This is link1!</a>\
<a href=''2'' class=''link2''>This is link2!</a>\
<a href=''3'' class=''link3''>This is link3!</a>\
<a href=''3'' class=''link3''>This is link4!</a>\
hello world!<br>hello python!\
</body>\
</html>'

In [84]:
soup = BeautifulSoup(html_sample, 'html.parser')

In [85]:
#使用select()函数找出所有id为title的元素（id前面需加＃）

alink = soup.select('#title')
print(alink)

[<h1 id="title">This is a test!</h1>]


In [86]:
#使用select()函数找出所有class为link的元素（class前面需加 .）
alink = soup.select('.link3')
print(alink)

[<a class="link3" href="3">This is link3!</a>, <a class="link3" href="3">This is link4!</a>]


In [87]:
soup.select('a.link1')

[<a class="link1" href="1">This is link1!</a>]

In [88]:
soup.select('a.link1')[0]['href']

'1'

In [89]:
soup.select('a.link1')[0].get('href')

'1'

In [90]:
soup.select('a.link1')[0].text

'This is link1!'

In [91]:
soup.select('a.link1')[0].string

'This is link1!'

In [92]:
# 子標籤
soup.select('body > a[class=link1]')

[<a class="link1" href="1">This is link1!</a>]

In [93]:
#另一個實例

In [94]:
xml = '<person name="Bob"><parent rel="mother" name="Alice">'
xmlSoup = BeautifulSoup(xml,"lxml")

In [95]:
# name 錯誤寫法!!
xmlSoup.findAll(name="Alice")

[]

In [96]:
# 這樣寫也不對，因為被誤認為是 name = {"name" : "Alice"}
xmlSoup.findAll({"name" : "Alice"})

[]

In [97]:
xmlSoup.findAll(attrs={"name" : "Alice"})

[<parent name="Alice" rel="mother"></parent>]

In [98]:
xmlSoup.findAll('parent', {"name" : "Alice"})

[<parent name="Alice" rel="mother"></parent>]

In [99]:
xmlSoup.select('parent')

[<parent name="Alice" rel="mother"></parent>]

In [100]:
xmlSoup.select('parent[name=Alice]')

[<parent name="Alice" rel="mother"></parent>]

In [101]:
xmlSoup.select('parent')[0]['name']

'Alice'

In [102]:
#另一個實例

In [103]:
doc = """Bob's <b>Bold</b> Barbeque Sauce now available in 
                        <b class="hickory">Hickory</b> and <b class="lime">Lime</a>"""
soup = BeautifulSoup(doc,"lxml")

In [104]:
print(soup.prettify())

<html>
 <body>
  <p>
   Bob's
   <b>
    Bold
   </b>
   Barbeque Sauce now available in
   <b class="hickory">
    Hickory
   </b>
   and
   <b class="lime">
    Lime
   </b>
  </p>
 </body>
</html>


In [105]:
soup.find("b", { "class" : "lime" })
# <b class="lime">Lime</b>

<b class="lime">Lime</b>

In [106]:
soup.find("b", attrs = { "class" : "lime" })
# <b class="lime">Lime</b>

<b class="lime">Lime</b>

In [107]:
# class是保留字 因此用 class_ 代替
# soup.find("b", class = "lime" )

In [108]:
# class是保留字 因此用 class_ 代替
soup.find("b", class_ = "lime" )

<b class="lime">Lime</b>

In [109]:
soup.find("b", "lime" )

<b class="lime">Lime</b>

In [110]:
soup.find("b", "hickory")

<b class="hickory">Hickory</b>

### How to use join()?

In [111]:
doc_ = ['<html><head><title>網頁標題</title></head>',
       '<body><p id="firstpara" align="center">第1段文字<b>one-1</b><b>one-2</b>.</p>',
       '<p id="secondpara" align="right">第2段文字<b>two</b>.</p>',
       '<b class="hickory"> Hickory </b>',
       '<b class="lime">Lime </b>',
       '</body></html>']
doc = ''.join(doc_)

In [112]:
doc

'<html><head><title>網頁標題</title></head><body><p id="firstpara" align="center">第1段文字<b>one-1</b><b>one-2</b>.</p><p id="secondpara" align="right">第2段文字<b>two</b>.</p><b class="hickory"> Hickory </b><b class="lime">Lime </b></body></html>'

## 以下寫法等同於findAll() 不建議使用

In [113]:
soup('p')

[<p>Bob's <b>Bold</b> Barbeque Sauce now available in 
                         <b class="hickory">Hickory</b> and <b class="lime">Lime</b></p>]

In [114]:
soup('b')

[<b>Bold</b>, <b class="hickory">Hickory</b>, <b class="lime">Lime</b>]

In [115]:
soup('p', {'align':"center"})

[]

In [116]:
soup(name = 'p', attrs = {'align':"right"})

[]