# クイックスタート

下記の例文をもとにする。

In [1]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

この”three sisters”ドキュメントを Beautiful Soup にかけると、 Beautiful Soup オブジェクトが得られます。これは入れ子データ構造でドキュメントを表現します。

In [2]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, "html.parser")

print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [3]:
soup.title
# <title>The Dormouse's story</title>

<title>The Dormouse's story</title>

In [4]:
soup.title.name
# 'title'

'title'

In [5]:
soup.title.string
# 'The Dormouse's story'

"The Dormouse's story"

In [6]:
soup.title.parent.name
# 'head'

'head'

In [7]:
soup.p
# <p class="title"><b>The Dormouse's story</b></p>

<p class="title"><b>The Dormouse's story</b></p>

In [8]:
soup.p['class']
# 'title'

['title']

In [9]:
soup.a
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [10]:
soup.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [11]:
soup.find(id="link3")
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

よくある処理として、ページの`<a>`タグ内にあるURLを全て抽出するというものがあります。

In [12]:
for link in soup.find_all('a'):
    print(link.get('href'))
# http://example.com/elsie
# http://example.com/lacie
# http://example.com/tillie

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


また、ページからタグを除去して全テキストを抽出するという処理もあります。

In [13]:
print(soup.get_text())
# The Dormouse's story
#
# The Dormouse's story
#
# Once upon a time there were three little sisters; and their names were
# Elsie,
# Lacie and
# Tillie;
# and they lived at the bottom of a well.
#
# ...


The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



# Beautiful Soupが対応するパーサ

|パーサー|使用例|強み|弱み|
|----|----|----|----|
|Python’s html.parser|BeautifulSoup(markup, "html.parser")|- 標準ライブラリ<br>- まずまずのスピード<br>- Python2.7.3/3.2.2以降に対応|Python2.7.3/3.2.2未満は非対応|
|lxml’s HTML parser|BeautifulSoup(markup, "lxml")|- 爆速<br>- 対応(?)|外部Cライブラリに依存|
|lxml’s XML parser|BeautifulSoup(markup, ["lxml", "xml"])<br>BeautifulSoup(markup, "xml")|- 爆速<br>- 唯一の対応XMLパーサー|外部Cライブラリに依存|
|html5lib|BeautifulSoup(markup, "html5lib")|- 対応度高<br>- WEBブラウザと同じようにパース<br>- 正しいHTML5を生成|- とても遅い<br>- 外部Pythonライブラリに依存|


# スープの作成

ドキュメントをパース(構文解析)するには、 そのドキュメントを Beautiful Soup コンストラクタに渡します。 文字列でも開いたファイルハンドルでも渡せます。

In [14]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"), "html.parser")
soup = BeautifulSoup("<html>data</html>", "html.parser")

最初に、ドキュメントはUnicodeに変換され、HTMLエンティティはUnicode文字列に変換されます。

In [15]:
BeautifulSoup("Sacr&eacute; bleu!", "lxml")

<html><body><p>Sacré bleu!</p></body></html>

# 4種類のオブジェクト

Beautiful Soup は複雑なHTMLドキュメントを、Pythonオブジェクトの複雑なツリー構造に変換します。  
しかし、あなたは下記の4種類のオブジェクト だけを扱えば良いです。
- Tag
- NavigableString
- BeautifulSoup
- Comment 

## (1) Tag obj.

Tag オブジェクトは、元のドキュメント内のXMLやHTMLのタグに対応しています。

In [16]:
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', "html.parser")
tag = soup.b
type(tag)
# <class 'bs4.element.Tag'>

bs4.element.Tag

### 名前

タグはそれぞれ名前を持っていますが、`.name`でアクセスできます。

In [17]:
tag.name
# u'b'

'b'

タグの名前を変えると、その変更はBeautiful Soupが生成する全てのマークアップに反映されます。

In [18]:
tag.name = "blockquote"
tag
# <blockquote class="boldest">Extremely bold</blockquote>

<blockquote class="boldest">Extremely bold</blockquote>

## 属性

タグは多くの属性を持ちます。  
`<b class=”boldest”>`は、”boldest”という値の’class’属性を持ちます。  
Tag オブジェクトを辞書のように扱うことで、そのタグの属性にアクセスできます。

In [19]:
tag['class']
# u'boldest'

['boldest']

.attrs で辞書に直接アクセスできます。

In [20]:
tag.attrs
# {u'class': u'boldest'}

{'class': ['boldest']}

繰り返しになりますが、辞書のように Tag オブジェクトを扱うことにより、タグの属性に対して追加, 削除, 修正も行うことができます。

In [21]:
tag['class'] = 'verybold'
tag['id'] = 1
tag
# <blockquote class="verybold" id="1">Extremely bold</blockquote>

del tag['class']
del tag['id']
print(tag)
# <blockquote>Extremely bold</blockquote>

try:
    tag['class']
    # KeyError: 'class'
except KeyError:
    print("KeyError: 'class'")
    
print(tag.get('class'))
# None

<blockquote>Extremely bold</blockquote>
KeyError: 'class'
None


## 値が複数のとき

HTML4は、値を複数もてる2,3の属性を定義しています。  
HTML5で、それらはなくなりましたが、別の同様の属性が定義されました。  

値を複数もつもっとも一般的な属性は class です。(たとえば、HTMLタグは複数のCSSクラスを持つことができます)   
また他の複数の値を持つ属性としては、 rel, rev, accept-charset, headers, accesskey があります。  
Beautiful Soupは、これらの属性がもつ複数の値を**リスト**として示します。

In [25]:
css_soup = BeautifulSoup('<p class="body strikeout">hoge</p>', "html.parser")
css_soup.p['class']
# ["body", "strikeout"]

['body', 'strikeout']

In [26]:
css_soup = BeautifulSoup('<p class="body">foo</p>', 'html.parser')
css_soup.p['class']
# ["body"]

['body']

ある属性が複数の値をもっているようでも、HTML標準の定義から外れている場合、Beautiful Soupはその属性をひとまとまりの値として扱います。

In [28]:
id_soup = BeautifulSoup('<p id="my id"></p>', 'html.parser')
id_soup.p['id']
# 'my id'

'my id'

タグを文字列に変換したときは、これらの属性の複数の値は一つにまとめられます。

In [29]:
rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>', 'html.parser')
rel_soup.a['rel']
# ['index']

['index']

In [30]:
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)
# <p>Back to the <a rel="index contents">homepage</a></p>

<p>Back to the <a rel="index contents">homepage</a></p>


ドキュメントをXMLとしてパースすると、値を複数もつ属性はなくなります。

In [31]:
xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml')
xml_soup.p['class']
# u'body strikeout'

'body strikeout'

## (2) NavigableString obj.

タグの組に挟まれる短い(ドキュメントの本文のテキスト)文字列があります。  
Beautiful Soupは、これらの文字列を表すのに NavigableString クラスを用います。

In [34]:
tag.string
# u'Extremely bold'

'Extremely bold'

In [33]:
type(tag.string)
# <class 'bs4.element.NavigableString'>

bs4.element.NavigableString

NavigableString オブジェクトは、PythonのUnicode型のように振るまいます。  
また、「パースツリーを探索」と、「パースツリーを検索」に述べられている機能のいくつかもサポートします。  
`unicode()`を用いて、NavigableStringオブジェクトをUnicode型に変換できます。  

**NOTE:**  
Unicode型はPython3からはstr型にreplaceされている。  
`unicode()`の代わりに`str()`を使うこと。

In [38]:
unicode_string = str(tag.string)
unicode_string
# u'Extremely bold'

'Extremely bold'

In [37]:
type(unicode_string)
# <type 'unicode'>

str

NavigableStringの文字列は編集できませんが、`replace_with()`を使って、他の文字列に置換することはできます。

In [39]:
tag

<blockquote>Extremely bold</blockquote>

In [40]:
tag.string.replace_with("No longer bold")
tag
# <blockquote>No longer bold</blockquote>

<blockquote>No longer bold</blockquote>

NavigableString は、「パースツリーを探索」と、「パースツリーを検索」で述べられている機能のほとんどをサポートします。  
しかし、全てをサポートしているわけではありません。  
とくにTagオブジェクトが文字列や別のTagを内に含むのに対して、stringオブジェクトは何も持たず、下記をサポートしません。

- .contents属性
- .string 属性
- `find()`

**NOTE:**  
NavigableString をBeautiful Soupの外で使いたい場合は、`unicode()`(または`str()`)を使ってPythonのUnicode文字列に変換すべきです。  
そうしないと、Beautiful Soupを使い終わった後も、Beautiful Soupのパースツリー全体へのリファレンスを持ち続けることになり、メモリを大量に浪費します。

## (3) BeautifulSoup obj.

Beautiful Soupオブジェクトは、それ自身で元のドキュメント全体を表しています。  
たいていの場合、Tag obj. を扱うことで、用は足りるでしょう。  
これは、Tag obj. が「パースツリーを探索」と、「パースツリーを検索」で述べられているメソッドの多くをサポートしているということです。

BeautifulSoup オブジェクトは、実際のHTMLやXMLタグに対応していないので、名前や属性を持ちません。  
しかし、時々.nameを使うと便利なことがあります。要は、特別な .nameとして“[document]”が与えられています。

In [41]:
soup.name
# u'[document]'

'[document]'

## (4) Comments obj. その他

上記のTag, NavigableString, BeautifulSoup はHTMLやXMLファイルのほぼ全てをカバーします。  
残りのコメントについて説明します。

In [51]:
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup, 'html.parser')
comment = soup.b.string
type(comment)
# <class 'bs4.element.Comment'>

bs4.element.Comment

Comment オブジェクトは、 NavigableString オブジェクトの特別なタイプです。

In [43]:
comment
# u'Hey, buddy. Want to buy a used parser'

'Hey, buddy. Want to buy a used parser?'

コメントはHTMLの中にあらわれますが、 Comment は特別な書式で表示されます。

In [46]:
print(soup.b.prettify())
# <b>
#  <!--Hey, buddy. Want to buy a used parser?-->
# </b>

<b>
 <!--Hey, buddy. Want to buy a used parser?-->
</b>


Beautiful Soupは、XML文書に表示される可能性のある他のクラス（CData、ProcessingInstruction、Declaration、Doctype）を定義します。  
丁度Commentクラスのように、これらは文字に何かを加えた NavigableString のサブクラスです。  
ここでは、CommentをCDATAブロックに置換した例を示します。

**NOTE:**  
[CDATAセクション](http://www.atmarkit.co.jp/aig/01xml/cdata.html)

In [52]:
from bs4 import CData
cdata = CData("A CDATA block")
comment.replace_with(cdata)

print(cdata.string)
# A CDATA block

print(soup.b.prettify())
# <b>
#  <![CDATA[A CDATA block]]>
# </b>

A CDATA block
<b>
 <![CDATA[A CDATA block]]>
</b>
