### サンプルのHTMLファイルの読み込み

In [1]:
from bs4 import BeautifulSoup

In [2]:
with open("SampleHTML.html", encoding="utf-8") as file:
    soup = BeautifulSoup(file, "html.parser")

### find、find_allメソッドにより、要素を指定する方法

In [3]:
soup.find("h1") #findにはタグを渡し検索。ヒットした最初のものが返ってくる。

<h1>技術書売れ筋ランキング</h1>

In [4]:
soup.find("h1").text

'技術書売れ筋ランキング'

In [5]:
soup.find("a") #複数のタグがヒットした場合は、最初のもののみ

<a class="book" href="URL1" id="link1">書籍１</a>

In [6]:
soup.find_all("a") #find_allはヒットした全てのタグを表示。

[<a class="book" href="URL1" id="link1">書籍１</a>,
 <a class="book" href="URL2">書籍２</a>,
 <a class="book" href="URL3">書籍３</a>]

In [7]:
soup.find_all("a", class_="book") #find、find_allともに属性も指定できる

[<a class="book" href="URL1" id="link1">書籍１</a>,
 <a class="book" href="URL2">書籍２</a>,
 <a class="book" href="URL3">書籍３</a>]

In [8]:
for book in soup.find_all("a", class_="book"):
    print(book.string, book["href"])

書籍１ URL1
書籍２ URL2
書籍３ URL3


### HTMLの階層を移動して、要素を指定する方法

In [9]:
soup.body.h1 

<h1>技術書売れ筋ランキング</h1>

In [10]:
soup.h1 #途中の階層を飛ばすこともできる

<h1>技術書売れ筋ランキング</h1>

In [11]:
soup.h1.text

'技術書売れ筋ランキング'

In [12]:
soup.body.div.p

<p>1位　
                <a class="book" href="URL1" id="link1">書籍１</a>
</p>

In [13]:
soup.body.div.p.a.text

'書籍１'

In [14]:
soup.body.div.p.a["href"]

'URL1'

In [15]:
soup.body.div.p.next_sibling.next_sibling

<p>2位　
                <a class="book" href="URL2">書籍２</a>
</p>

In [16]:
soup.body.div.p.next_sibling.next_sibling.a

<a class="book" href="URL2">書籍２</a>

### selectメソッドにより、CSSセレクタで要素を指定する方法

In [17]:
soup.select("body > h1")

[<h1>技術書売れ筋ランキング</h1>]

In [18]:
soup.select("body > h1")[0]

<h1>技術書売れ筋ランキング</h1>

In [19]:
soup.select("body > h1")[0].text

'技術書売れ筋ランキング'

In [20]:
soup.select(".book") #複数該当する場合、全てのものを取得できる　リストに含まれる

[<a class="book" href="URL1" id="link1">書籍１</a>,
 <a class="book" href="URL2">書籍２</a>,
 <a class="book" href="URL3">書籍３</a>]

In [21]:
for book in soup.select(".book"): #for文で順に取り出す
    print(book.string, book["href"]) #属性値は、[]で属性名を指定することで取得できる 

書籍１ URL1
書籍２ URL2
書籍３ URL3


### ３つの方法から複数を組合せて使う

##### findメソッド＋階層を移動する方法

In [22]:
soup.find("div", class_="recent")

<div class="recent books">
<p>1位　
                <a class="book" href="URL1" id="link1">書籍１</a>
</p>
<p>2位　
                <a class="book" href="URL2">書籍２</a>
</p>
<p>3位　
                <a class="book" href="URL3">書籍３</a>
</p>
</div>

In [23]:
soup.find("div", class_="recent").p

<p>1位　
                <a class="book" href="URL1" id="link1">書籍１</a>
</p>

In [24]:
soup.find("div", class_="recent").p.next_sibling.next_sibling

<p>2位　
                <a class="book" href="URL2">書籍２</a>
</p>

##### findメソッド＋find_allメソッド

In [25]:
soup.find("div", class_="recent").find_all("p")[1]

<p>2位　
                <a class="book" href="URL2">書籍２</a>
</p>

##### selectメソッドのみ

In [26]:
soup.select("div.recent p")[1]

<p>2位　
                <a class="book" href="URL2">書籍２</a>
</p>