# 【第4回】BeautifulSoupの使い方②


前回のレクチャーでは、Pythonの公式ページから`<h2>`を1つだけ取得しました。

今回のレクチャーでは、複数の`<h2>`からテキスト情報を取得する方法を学んでいきたいと思います。

<br>

ここまで学習しておけば、JavaScriptが必要ないページであれば、あとは取得したいタグ部分(`<h2>`, `<li>`, `<div>`)を指定するだけで、欲しい情報を自由自在に取得できるようになります。

<br>

というわけで、複数のタグから情報取得する方法を学んでいきましょう！

*※動画の感想を、僕のTwitterにメンションしてツイートしていただけると嬉しいです（ ;  ; ）！*

Twitter : [@hayatasuuu](https://twitter.com/hayatasuuu)

# 複数の同一タグから情報取得する

今回もPythonのホームページを使っていきます。

前回は「Get Started」しか取得しなかったので、今回は他の`<h2>`タグからテキスト情報を取得していきましょう。

## 必要なライブラリのインポート

まずはライブラリのインポートをします。

In [1]:
from bs4 import BeautifulSoup
import requests

それではいつも通り、以下の流れでスクレイピングしていきましょう。

1. RequestsでHTMLを取得する
2. 取得したHTMLを解析する(BeautifulSoup)
3. 自分が欲しい情報を取得する

## STEP1 : RequestsでHTMLを取得する

前回と同じで、Pythonの公式ページからHTML情報を取得していきたいと思います。

https://www.python.org/

上記のURLに対して、Requestsを使ってアクセスしてみましょう。

In [2]:
# 変数urlに、Python公式ページのURLを入れる
url = 'https://www.python.org/'

# URLにアクセスした結果を、変数rに代入する
res = requests.get(url)

これでPython公式ページへのアクセスが完了しました。

`r.text`を使えば、Python公式ページのHTMLを確認できる状態です。

## STEP2 : 取得したHTMLを解析する

取得したHTMLを`BeautifulSoup`で解析しましょう。

In [3]:
# BeautifulSoupでHTMLを解析する
soup = BeautifulSoup(res.text)

あとは、この`soup`を使って複数の`<h2>`を取得するだけです。

## STEP3 : 複数のh2タグから情報を取得する

前回は最初にヒットする`<h2>`だけ取得しました。

今回はPython公式ページに存在する、すべての`<h2>`タグを取得したいと思います。

<br>

前回のレクチャーで少し触れましたが、該当するすべての要素を取得するには`find_all()`を使ってあげます。

In [4]:
# soupからすべてのh2を取得する
soup.find_all('h2')

[<h2 class="widget-title"><span aria-hidden="true" class="icon-get-started"></span>Get Started</h2>,
 <h2 class="widget-title"><span aria-hidden="true" class="icon-download"></span>Download</h2>,
 <h2 class="widget-title"><span aria-hidden="true" class="icon-documentation"></span>Docs</h2>,
 <h2 class="widget-title"><span aria-hidden="true" class="icon-jobs"></span>Jobs</h2>,
 <h2 class="widget-title"><span aria-hidden="true" class="icon-news"></span>Latest News</h2>,
 <h2 class="widget-title"><span aria-hidden="true" class="icon-calendar"></span>Upcoming Events</h2>,
 <h2 class="widget-title"><span aria-hidden="true" class="icon-success-stories"></span>Success Stories</h2>,
 <h2 class="widget-title"><span aria-hidden="true" class="icon-python"></span>Use Python for…</h2>,
 <h2 class="widget-title">
 <span class="prompt">&gt;&gt;&gt;</span> <a href="/dev/peps/">Python Enhancement Proposals<span class="say-no-more"> (PEPs)</span></a>: The future of Python<span class="say-no-more"> is di

<hr>

このように、`find_all()`を使うと、すべての`<h2>`タグを取得できました。

`find_all()`で取得した結果をよく見てみると、四角カッコで囲まれていることが分かります。

<br>

Pythonで四角カッコに囲まれているということは、「リストに入っている」ということになりますね。

リストであるということは、最初の要素を取り出したいと思ったとき、以下のように取得できます。

In [5]:
# find_all()で取得した結果から、最初の1つを取得する
soup.find_all('h2')[0]

<h2 class="widget-title"><span aria-hidden="true" class="icon-get-started"></span>Get Started</h2>

このように、前回取得した`Get Started`を取得できました。

ちなみに`find()`の結果と比較すると、ちゃんと一致することが分かります。

In [6]:
# find()とfind_all()の1つ目を比較
soup.find('h2') == soup.find_all('h2')[0]

True

つまり`find()`でできることは、`find_all()`でもできるってことですね！

## find_all()で取得した要素からテキストだけ取得する

`find()`を使っていたときは、以下のようにしてテキスト情報を取得していました。

In [7]:
# find()でテキスト情報の取得
soup.find('h2').text

'Get Started'

では、`find_all()`でも同じように`find_all().text`と書いてテキスト情報を取得できるのかというと、、、それはできません！

実際にコードを入力して確認してみましょう。

In [8]:
# find_all()に対してテキスト取得してみる
soup.find_all('h2').text

AttributeError: ResultSet object has no attribute 'text'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

このように「`text`は持っていない」というエラーが発生しました。

さらにエラーを読み進めてみると、`find()`を使おうとして`find_all()`を使ってしまったのかい？みたいなニュアンスで、少し小バカにされます。

<br>

なぜ`find_all()`で`.text`を使えないのかというと、それはリストの形になっているからですね。

なので「`find_all()`で取得したリストからテキストだけ取得したい」と思ったら、以下のようにforループを使って取り出してあげる必要があります。

In [11]:
# forループを使って、中身のテキストを確認する
for i, h2_tag in enumerate(soup.find_all('h2')):
    print(i, h2_tag.text)

0 Get Started
1 Download
2 Docs
3 Jobs
4 Latest News
5 Upcoming Events
6 Success Stories
7 Use Python for…
8 
>>> Python Enhancement Proposals (PEPs): The future of Python is discussed here.
 RSS

9 
>>> Python Software Foundation



このようにすれば、中身のテキストを表示できます。

また`find_all()`で取得したように、リストの形でテキストを取得しておきたい場合には、以下のように書いてあげればOKです。

In [12]:
# find_all()で取得したh2からテキストだけ取得してh2_text_listに格納
h2_list = []
# forループを使って、中身のテキストを確認する
for i, h2_tag in enumerate(soup.find_all('h2')):
    h2_list.append(h2_tag.text)


実際に中身を確認してみましょう

In [13]:
# h2_text_listの中身を確認する
h2_list

['Get Started',
 'Download',
 'Docs',
 'Jobs',
 'Latest News',
 'Upcoming Events',
 'Success Stories',
 'Use Python for…',
 '\n>>> Python Enhancement Proposals (PEPs): The future of Python is discussed here.\n RSS\n',
 '\n>>> Python Software Foundation\n']

これでテキスト情報をすべて取得できるようになりました。

*※可能であればリスト内包表記で書いてあげると良いですね!!*

<br>

これまでに習得した知識を整理すると、以下のようになっています。

- 指定したタグから1つだけ要素を取り出す : `soup.find('タグ')`
  - テキストを取り出す : `soup.find('タグ').text`
- 指定したタグから複数の要素を取り出す : `soup.find_all('タグ')`
  - テキストを取り出す : forループを使ってあげる


これで指定したタグに対して、自由に情報を取得できるようになりました。

ただ、今のままだと「複数の中から、特定のタグだけ取り出す」といった、痒い所に手が届かない状況になっています。

<br>

例えば「`<span>`タグの中から、`class=prompt`を取り出す」といった操作ですね。

<br>

というわけで、次回の講義では「複数の同じタグから、特定のクラスが付与されたものだけ取り出す」という処理を学んでいきたいと思います。

少しずつややこしくなってくるかと思いますので、ぜひこちらのNotebookと、できればYouTube動画を観て復習していただければと思います！