# Beautiful Soup Exercise

Beautiful Soup is a HTML/XML parser with Python
Beautiful Soup是用Python寫的一個HTML/XML的解析器

    find specified tag with the following appraoches:
    尋找特定標籤或有著特定屬性的標籤Tag，有以下兩種方法

    (1)find
    find('article', {'class':"article"})
    findAll('' , {})



    (2)select 
    select_one()
    select()


    findAll():  find all 找到全部
    find():    find one 找到一個就停止

    連續查找:
    find().find()

Reference參考資料
https://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

In [1]:
from bs4 import BeautifulSoup
import re

In [2]:
page = \
'''<html>
     <head>
      <title>
       網頁標題
      </title>
     </head>
     <body>
      <p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
       <b> one-2 </b>
      </p>
      <p align="right" id="secondpara">
       第2段文字
       <b>two </b>
      </p>
      <div class = 'content'>
      <b class="message1"> 最新消息 </b>
      <b class="message2"> 訊息區  </b>
      </div>
     </body>
</html>'''

In [3]:
page

'<html>\n     <head>\n      <title>\n       網頁標題\n      </title>\n     </head>\n     <body>\n      <p align="center" id="firstpara">\n       第1段文字\n       <b>one-1 </b>\n       <b> one-2 </b>\n      </p>\n      <p align="right" id="secondpara">\n       第2段文字\n       <b>two </b>\n      </p>\n      <div class = \'content\'>\n      <b class="message1"> 最新消息 </b>\n      <b class="message2"> 訊息區  </b>\n      </div>\n     </body>\n</html>'

In [4]:
soup = BeautifulSoup(page, "lxml")
# soup = BeautifulSoup(page, "html.parser")
print(soup.prettify())

<html>
 <head>
  <title>
   網頁標題
  </title>
 </head>
 <body>
  <p align="center" id="firstpara">
   第1段文字
   <b>
    one-1
   </b>
   <b>
    one-2
   </b>
  </p>
  <p align="right" id="secondpara">
   第2段文字
   <b>
    two
   </b>
  </p>
  <div class="content">
   <b class="message1">
    最新消息
   </b>
   <b class="message2">
    訊息區
   </b>
  </div>
 </body>
</html>



# find() and findAll()

* findAll():  find all 找到全部

* find():    find one 找到一個就停止

In [5]:
soup.find('p') #find or filter with only one tag 'p' 單一個過濾或搜尋條件

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [6]:
soup.findAll('p')

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>,
 <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [7]:
soup.findAll('p')[0]

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [8]:
soup.findAll('b')

[<b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [9]:
soup.find('p', align='center') # find 'p' tag and attribute 'center' 多個過濾或搜尋條件

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [10]:
soup.find('p', align='right')

<p align="right" id="secondpara">
       第2段文字
       <b>two </b>
</p>

In [11]:
soup.findAll(name = 'p', align='right')

[<p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

# Find using CSS attributes

soup.find("tagName", { "class" : "cssClass" })

使用CSS查找比較好，因為有些標籤與保留字衝突，用CSS attrs参數寫法不會衝突!

In [None]:
# CSS style: It's better.
soup.findAll(name = 'p',  attrs = {'align': 'right'})

[<p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

### class屬性值 該如何爬取?

### Using CSS attributes (better)

In [12]:
soup.findAll("b")

[<b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [13]:
soup.find("b", {'class' : "message2"})

<b class="message2"> 訊息區  </b>

In [14]:
soup.find(name = "b", attrs = {'class' : "message2"})

<b class="message2"> 訊息區  </b>

# CSS select() 

In [15]:
soup.select('p')

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>,
 <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [16]:
soup.select('div')

[<div class="content">
 <b class="message1"> 最新消息 </b>
 <b class="message2"> 訊息區  </b>
 </div>]

In [17]:
soup.select('div.content')

[<div class="content">
 <b class="message1"> 最新消息 </b>
 <b class="message2"> 訊息區  </b>
 </div>]

In [18]:
soup.select(".message1")

[<b class="message1"> 最新消息 </b>]

In [19]:
soup.select("div.content > b") # > 表示在這個tag之內的tag

[<b class="message1"> 最新消息 </b>, <b class="message2"> 訊息區  </b>]

In [20]:
soup.select("div.content > b.message1")

[<b class="message1"> 最新消息 </b>]

In [21]:
soup.select("b")

[<b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [22]:
soup.select("b.message1")

[<b class="message1"> 最新消息 </b>]

## getText() or text

找到之後 抓文字的部分

In [23]:
soup.find('p', align='center')

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [24]:
result = soup.find('p', align='center')

In [25]:
result.text

'\n       第1段文字\n       one-1 \n one-2 \n'

In [26]:
result.getText()

'\n       第1段文字\n       one-1 \n one-2 \n'

## How to get attribute value

抓到之後，取得標籤Tag的屬性值

In [27]:
soup.find('p', align='center')

<p align="center" id="firstpara">
       第1段文字
       <b>one-1 </b>
<b> one-2 </b>
</p>

In [28]:
soup.find('p', align='center')['id']

'firstpara'

In [29]:
soup.findAll('p')

[<p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>,
 <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

In [30]:
soup.findAll('p')[0].get('id')

'firstpara'

In [31]:
soup.findAll('p')[1]['id']

'secondpara'

# Multiple condition

多個條件

In [32]:
# 尋找所有 title標籤 b標籤
soup.findAll(['title', 'b'])

[<title>
        網頁標題
       </title>,
 <b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [33]:
# 尋找所有 title標籤 b標籤
soup.findAll(name = ['title', 'b'])

[<title>
        網頁標題
       </title>,
 <b>one-1 </b>,
 <b> one-2 </b>,
 <b>two </b>,
 <b class="message1"> 最新消息 </b>,
 <b class="message2"> 訊息區  </b>]

In [34]:
soup.findAll({'title' : True, 'p' : True})

[<title>
        網頁標題
       </title>,
 <p align="center" id="firstpara">
        第1段文字
        <b>one-1 </b>
 <b> one-2 </b>
 </p>,
 <p align="right" id="secondpara">
        第2段文字
        <b>two </b>
 </p>]

# Delete tag (刪除標籤物件)

In [35]:
doc_ = ['<html><head><title>網頁標題</title></head>',
       '<body><p id="firstpara" align="center">第1段文字<b>one-1</b><b>one-2</b>.</p>',
       '<p id="secondpara" align="right">第2段文字<b>two</b>.</p></body>',
       '</html>']
doc = ''.join(doc_)

In [36]:
soup2 = BeautifulSoup(doc, "lxml")
# soup = BeautifulSoup(soup, "html.parser")
print (soup2.prettify())

<html>
 <head>
  <title>
   網頁標題
  </title>
 </head>
 <body>
  <p align="center" id="firstpara">
   第1段文字
   <b>
    one-1
   </b>
   <b>
    one-2
   </b>
   .
  </p>
  <p align="right" id="secondpara">
   第2段文字
   <b>
    two
   </b>
   .
  </p>
 </body>
</html>


In [37]:
soup2.findAll('p')

[<p align="center" id="firstpara">第1段文字<b>one-1</b><b>one-2</b>.</p>,
 <p align="right" id="secondpara">第2段文字<b>two</b>.</p>]

In [38]:
#soup2.findAll('p')[1].extract()
soup2.findAll('p')[1].decompose()

In [39]:
print(soup2.prettify())

<html>
 <head>
  <title>
   網頁標題
  </title>
 </head>
 <body>
  <p align="center" id="firstpara">
   第1段文字
   <b>
    one-1
   </b>
   <b>
    one-2
   </b>
   .
  </p>
 </body>
</html>
