## 84. 基本的なタグの指定

In [1]:
# BeautifulSoupをインポート
from bs4 import BeautifulSoup

In [2]:
# サンプルのhtmlを読み込む
html = """
<html>
    <head>
        <title>清水義孝の著書</title>
    </head>
    <body>
        <p class="title">
            <b>清水義孝の最新の著書には、次の本があります。</b>
        </p>
        <p class="recent books">
            <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
        </p>
        <p class="end">
            <b>そして、これらの本は好評発売中です。</b>
        </p>
    </body>
</html>
"""

In [3]:
soup = BeautifulSoup(html, 'html.parser')

In [4]:
print(soup)


<html>
<head>
<title>清水義孝の著書</title>
</head>
<body>
<p class="title">
<b>清水義孝の最新の著書には、次の本があります。</b>
</p>
<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>
<p class="end">
<b>そして、これらの本は好評発売中です。</b>
</p>
</body>
</html>



In [5]:
# html階層を移動する
soup.html.head.title

<title>清水義孝の著書</title>

In [6]:
# 省略して移動する
soup.title

<title>清水義孝の著書</title>

In [7]:
# 複数ある場合は最初の要素が表示される
soup.body.p

<p class="title">
<b>清水義孝の最新の著書には、次の本があります。</b>
</p>

In [8]:
# 全ての要素を取得する場合はfind_allをつかう
for p in soup.body.find_all('p'):
    print(p,end='\n\n')

<p class="title">
<b>清水義孝の最新の著書には、次の本があります。</b>
</p>

<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>

<p class="end">
<b>そして、これらの本は好評発売中です。</b>
</p>



In [9]:
# 要素に含まれるtextを取得する場合は.string
soup.title.string

'清水義孝の著書'

In [10]:
# ページに含まれる全てのtextを所得したい場合はget
print(soup.get_text())




清水義孝の著書



清水義孝の最新の著書には、次の本があります。


Python3によるビジネスに役立つデータ分析入門、
            よくわかるPython3入門2.NumPy・Matplotlib編、
            よくわかるPython3入門4.Pandasでデータ分析編


そして、これらの本は好評発売中です。






In [11]:
# 要素に含まれる属性を表示したい場合は要素[]
soup.body.p['class']

['title']

In [12]:
# 属性値はgetでも取得できる
soup.body.p.get('class')

['title']

In [13]:
# 階層化された状態で表示
print(soup.prettify())

<html>
 <head>
  <title>
   清水義孝の著書
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    清水義孝の最新の著書には、次の本があります。
   </b>
  </p>
  <p class="recent books">
   <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">
    Python3によるビジネスに役立つデータ分析入門
   </a>
   、
   <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">
    よくわかるPython3入門2.NumPy・Matplotlib編
   </a>
   、
   <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">
    よくわかるPython3入門4.Pandasでデータ分析編
   </a>
  </p>
  <p class="end">
   <b>
    そして、これらの本は好評発売中です。
   </b>
  </p>
 </body>
</html>



## 85. 子・子孫要素の取得方法

In [15]:
# 子要素の取得
for child in soup.body.contents:
    print(child, end='\n\n')    




<p class="title">
<b>清水義孝の最新の著書には、次の本があります。</b>
</p>




<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>




<p class="end">
<b>そして、これらの本は好評発売中です。</b>
</p>






In [18]:
# contentsはリストで戻るので指定できる
soup.body.contents[3]

<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>

In [19]:
# 子要素はchildrenでも可能でイテレータで戻る
soup.body.children

<list_iterator at 0x21c9b459e08>

In [21]:
for child in soup.body.children:
    print(child, end='\n\n')




<p class="title">
<b>清水義孝の最新の著書には、次の本があります。</b>
</p>




<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>




<p class="end">
<b>そして、これらの本は好評発売中です。</b>
</p>






In [22]:
# 子孫要素を取得するにはdecendants
for child in soup.head.descendants:
    print(child, end='\n\n')




<title>清水義孝の著書</title>

清水義孝の著書






In [23]:
for child in soup.body.descendants:
    print(child, end='\n\n')




<p class="title">
<b>清水義孝の最新の著書には、次の本があります。</b>
</p>




<b>清水義孝の最新の著書には、次の本があります。</b>

清水義孝の最新の著書には、次の本があります。







<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>




<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>

Python3によるビジネスに役立つデータ分析入門

、
            

<a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>

よくわかるPython3入門2.NumPy・Matplotlib編

、
            

<a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>

よくわかるPython3入門4.Pandasでデータ分析編







<p class="end">
<b>そして、これらの本は好評発売中です。</b>
</p>


## 86. 親・先祖・兄弟要素の取得方法

In [24]:
# 親要素を取得するにはparent
soup.title.parent

<head>
<title>清水義孝の著書</title>
</head>

In [26]:
# 先祖要素を取得するにはparents
soup.a.parents

<generator object PageElement.parents at 0x0000021C9A3F75C8>

In [29]:
for parent in soup.a.parents:
    print(parent.name)

p
body
html
[document]


In [30]:
# 次の兄弟要素を取得するにはnext_sibling
soup.body.p.next_sibling

'\n'

In [31]:
soup.body.p.next_sibling.next_sibling

<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>

In [32]:
# 全ての兄弟要素を取得するにはnext_siblings
soup.body.p.next_siblings

<generator object PageElement.next_siblings at 0x0000021C9A3F7748>

In [33]:
for sibling in soup.body.p.next_siblings:
    print(sibling if sibling != '\n' else '', end='\n\n')    



<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>



<p class="end">
<b>そして、これらの本は好評発売中です。</b>
</p>





In [34]:
# 前の兄弟要素を取得するにはprevious_sibling
soup.body.previous_sibling.previous_sibling

<head>
<title>清水義孝の著書</title>
</head>

In [36]:
# 前の全ての兄弟要素を取得するにはprevious_siblings
soup.body.find('p', class_='end')

<p class="end">
<b>そして、これらの本は好評発売中です。</b>
</p>

In [37]:
soup.body.find('p', class_='end').previous_siblings

<generator object PageElement.previous_siblings at 0x0000021C9A3F7848>

In [38]:
for sibling in soup.body.find('p', class_='end').previous_siblings:
    print(sibling['class'] if sibling != '\n' else '', end='\n\n')



['recent', 'books']



['title']





# セクション14. BeautifulSoupのfind,find_allメソッドの使い方

## 89. find,find_allメソッドの概要解説
### メソッド概要
- find() : 引数に検索するHTMLタグ　←引数に一致する最初の１つの要素を取得
- find_all() : 引数に検索するHTMLタグ　←引数に一致する全ての要素を取得

#### find_allメソッドの概要
- 戻り値
1. 取得出来たタグをリストで返す
2. 何も取得できない場合、空のリストを返す

#### find_allメドッド(詳細)
- soup(.Tagオブジェクト).find_all(name,attrs,recursive,text,limit,キーワード引数)
- Tagオブジェクトとはsoup.bodyのbodyにあたるもの

#### find_allの引数
- name :タグを指定する。文字列、正規表現、リスト、関数、True値での指定が可能
- キーワード引数 :タグの属性を指定する。文字列、正規表現、リスト、関数、True値での指定が可能
- attrs :タグの属性を辞書で渡し指定する
- text :タグに挟まれているテキスト(文字列)を指定する。文字列、正規表現、リスト、関数、True値での指定が可能
- limit: 検索条件にマッチしたタグ・文字列の取得する数を制限する
- recursive: Tagオブジェクトの検索対象範囲を指定。
 - True:Tagオブジェクトの全ての子孫要素を検索
 - False:Tagオブジェクトの直下の子要素のみを検索
 

#### findメソッドの概要
- 戻り値
1. 取得出来たタグを返す
2. 何も取得できない場合、Noneを返す


In [39]:
# サンプルのhtmlを読み込む
html = """
<html>
    <head>
        <title>清水義孝の著書</title>
    </head>
    <body>
        <p class="title">
            <b>清水義孝の最新の著書には、次の本があります。</b>
        </p>
        <p class="recent books">
            <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
        </p>
        <p class="end">
            <b>そして、これらの本は好評発売中です。</b>
        </p>
    </body>
</html>
"""

In [40]:
soup = BeautifulSoup(html, 'html.parser')

## 90. find_allメソッドのname引数

In [41]:
# 文字列の場合
soup.find_all('title')

[<title>清水義孝の著書</title>]

In [42]:
# 複数の条件の場合はリストで渡す
soup.find_all(['a','b'])

[<b>清水義孝の最新の著書には、次の本があります。</b>,
 <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>,
 <b>そして、これらの本は好評発売中です。</b>]

In [43]:
# 正規表現で前方一致検索
import re
soup.find_all(re.compile('^b'))

[<body>
 <p class="title">
 <b>清水義孝の最新の著書には、次の本があります。</b>
 </p>
 <p class="recent books">
 <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
 </p>
 <p class="end">
 <b>そして、これらの本は好評発売中です。</b>
 </p>
 </body>, <b>清水義孝の最新の著書には、次の本があります。</b>, <b>そして、これらの本は好評発売中です。</b>]

In [44]:
for tag in soup.find_all(re.compile('^b')):
    print(tag.name)

body
b
b


In [47]:
# Tagオブジェクトの全ての子孫要素を検索
for tag in soup.body.find_all(True):
    print(tag.name)

p
b
p
a
a
a
p
b


In [48]:
# 関数を作成して検索
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

In [49]:
soup.find_all(has_class_but_no_id)

[<p class="title">
 <b>清水義孝の最新の著書には、次の本があります。</b>
 </p>, <p class="recent books">
 <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
 </p>, <p class="end">
 <b>そして、これらの本は好評発売中です。</b>
 </p>]

## 91. find_allメソッドのキーワード、attr引数

In [50]:
#id属性のlink2を指定
soup.find_all(id='link2')

[<a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>]

In [51]:
# 正規表現をつかう
soup.find_all(href=re.compile('http://'))

[<a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [52]:
# Trueで一致したものを指定出来る
soup.find_all(id=True)

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [53]:
# キーワード引数でclassを使う場合はclass_とする
soup.find_all(class_='book')

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [54]:
# 複数のキーワード引数で絞り込み
soup.find_all(class_='book', id='link3')

[<a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [55]:
# attrsの例
soup.find_all(attrs={'id':'link2'})

[<a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>]

In [56]:
soup.find_all(attrs={'class':'book'})

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [57]:
# attrsも複数条件設定可能
soup.find_all(attrs={'class':'book', 'id': 'link3'})

[<a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

## 93. find_allメソッドのtext,limit,recursive引数

In [58]:
# textで検索
soup.find_all(text='清水義孝の著書')

['清水義孝の著書']

In [60]:
# 正規表現を使ったtext検索
soup.find_all(text=re.compile('Python3'))

['Python3によるビジネスに役立つデータ分析入門',
 'よくわかるPython3入門2.NumPy・Matplotlib編',
 'よくわかるPython3入門4.Pandasでデータ分析編']

In [61]:
# 引数limitで取得制限が出来る
soup.find_all('a')

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [62]:
soup.find_all('a',limit=2)

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>]

In [63]:
# recursive: Tagオブジェクトの検索対象範囲を指定
soup.find_all('a')

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [64]:
soup.find_all('a',recursive=False)

[]

## 94. findメソッドの詳細解説

#### findメドッド(詳細)
- soup(.Tagオブジェクト).find_all(name,attrs,recursive,text,キーワード引数)
- Tagオブジェクトとはsoup.bodyのbodyにあたるもの

- 戻り値
1. 取得出来たタグを返す
2. 何も取得できない場合、Noneを返す

In [65]:
# find_allでlimit1にして取得
# 結果はリスト型でかえる
soup.find_all('a',limit=1)

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>]

In [66]:
# findで取得
# 結果はtagでかえる
soup.find('a')

<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>

# セクション15．BeautifulSoupのSlectメソッドついて

## 96. slectメソッドの基本

#### selectメドッド(詳細)
- soup(.Tagオブジェクト).select("CSSセレクタ")
- Tagオブジェクトとはsoup.bodyのbodyにあたるもの
 - soup.body.select()だとbodyの子要素から条件に一致する要素を取得
 - soup.select()だとHTML全体の中から条件に一致する要素を取得

- 戻り値
1. 取得出来たタグをリストで返す
2. 何も取得できない場合、空のリストを返す

In [67]:
# サンプルのhtmlを読み込む
html = """
<html>
    <head>
        <title>清水義孝の著書</title>
    </head>
    <body>
        <p class="title">
            <b>清水義孝の最新の著書には、次の本があります。</b>
        </p>
        <p class="recent books">
            <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
        </p>
        <p class="end">
            <b>そして、これらの本は好評発売中です。</b>
        </p>
    </body>
</html>
"""

In [68]:
soup = BeautifulSoup(html, 'html.parser')

In [73]:
# 要素を指定する場合
soup.select('title')

[<title>清水義孝の著書</title>]

In [74]:
# 複数の要素がある場合は複数
soup.select('b')

[<b>清水義孝の最新の著書には、次の本があります。</b>, <b>そして、これらの本は好評発売中です。</b>]

In [75]:
# 子孫要素まで指定した場合
soup.body.p.select('b')

[<b>清水義孝の最新の著書には、次の本があります。</b>]

In [76]:
# 複数の要素を指定する場合は,で繋ぐ
soup.select('title, b')

[<title>清水義孝の著書</title>,
 <b>清水義孝の最新の著書には、次の本があります。</b>,
 <b>そして、これらの本は好評発売中です。</b>]

In [79]:
# cssセレクタではtextを指定できないので、途中まで要素指定して.stringとする
soup.select('title')[0].string

'清水義孝の著書'

## 97. 属性・属性値を指定しての要素の取得

In [80]:
# class属性の要素を指定
soup.select('.end')

[<p class="end">
 <b>そして、これらの本は好評発売中です。</b>
 </p>]

In [81]:
# 要素と合わせてclass属性を指定する
soup.select('p.end')

[<p class="end">
 <b>そして、これらの本は好評発売中です。</b>
 </p>]

In [84]:
# 複数の属性値を指定する場合
soup.select('.recent.books')

[<p class="recent books">
 <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
 </p>]

In [85]:
# id属性を指定する場合は#の後に属性値を書く
soup.select('#link2')

[<a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>]

#### ■属性の指定方法
- 要素[属性='属性値']
- [属性='属性値']

#### ■正規表現を用いたhref属性の指定
- 前方一致：[href^='属性値（先頭）’] 例：a[href^='http']
- 後方一致：[href＄='属性値（末尾）’]　例:a[href＄='96B']
- あいまい検索：[href*='属性値']

In [89]:
# 前方一致の例
soup.select("a[href^='http://']")

[<a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [90]:
# 後方一致の例
soup.select("a[href$='96B']")

[<a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [91]:
# あいまい検索
soup.select("a[href*='amazon']")

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

## 98. 子孫・子・兄弟要素の取得

In [93]:
# body要素の子孫要素aを取得する
soup.select('body a')

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>,
 <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]

In [94]:
# 子要素を指定する
soup.select('body > p.end')

[<p class="end">
 <b>そして、これらの本は好評発売中です。</b>
 </p>]

In [95]:
# 隣接する直後の兄弟メソッドを取得
soup.select('p.title + p')

[<p class="recent books">
 <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
 </p>]

In [96]:
# 後ろの全ての兄弟要素を取得
soup.select('p.title ~ p')

[<p class="recent books">
 <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
             <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
 </p>, <p class="end">
 <b>そして、これらの本は好評発売中です。</b>
 </p>]

## 99. リストの要素の取得

In [97]:
html = """
<ul class="book">
  <li>Python3によるビジネスに役立つデータ分析入門</li>
  <li>よくわかるPython3入門1.基礎編</li>
  <li>よくわかるPython3入門2.NumPy・Matplotlib編</li>
  <li>よくわかるPython3入門4.Pandasでデータ分析編</li>
</ul>
"""

In [98]:
soup = BeautifulSoup(html, 'html.parser')

In [100]:
# リストの全ての要素を取得
soup.select('ul.book > li')

[<li>Python3によるビジネスに役立つデータ分析入門</li>,
 <li>よくわかるPython3入門1.基礎編</li>,
 <li>よくわかるPython3入門2.NumPy・Matplotlib編</li>,
 <li>よくわかるPython3入門4.Pandasでデータ分析編</li>]

In [101]:
# リストを指定する場合は、ul.book > li:nth-of-type(1)
soup.select('ul.book > li:nth-of-type(2)')

[<li>よくわかるPython3入門1.基礎編</li>]