# 【第4回】BeautifulSoupの使い方②


前回のレクチャーでは、Pythonの公式ページから`<h2>`を1つだけ取得しました。

今回のレクチャーでは、複数の`<h2>`からテキスト情報を取得する方法を学んでいきたいと思います。

<br>

ここまで学習しておけば、JavaScriptが必要ないページであれば、あとは取得したいタグ部分(`<h2>`, `<li>`, `<div>`)を指定するだけで、欲しい情報を自由自在に取得できるようになります。

<br>

というわけで、複数のタグから情報取得する方法を学んでいきましょう！

*※動画の感想を、僕のTwitterにメンションしてツイートしていただけると嬉しいです（ ;  ; ）！*

Twitter : [@hayatasuuu](https://twitter.com/hayatasuuu)

# 複数の同一タグから情報取得する

今回もPythonのホームページを使っていきます。

前回は「Get Started」しか取得しなかったので、今回は他の`<h2>`タグからテキスト情報を取得していきましょう。

## 必要なライブラリのインポート

まずはライブラリのインポートをします。

それではいつも通り、以下の流れでスクレイピングしていきましょう。

1. RequestsでHTMLを取得する
2. 取得したHTMLを解析する(BeautifulSoup)
3. 自分が欲しい情報を取得する

## STEP1 : RequestsでHTMLを取得する

前回と同じで、Pythonの公式ページからHTML情報を取得していきたいと思います。

https://www.python.org/

上記のURLに対して、Requestsを使ってアクセスしてみましょう。

In [None]:
# 変数urlに、Python公式ページのURLを入れる


# URLにアクセスした結果を、変数rに代入する


これでPython公式ページへのアクセスが完了しました。

`r.text`を使えば、Python公式ページのHTMLを確認できる状態です。

## STEP2 : 取得したHTMLを解析する

取得したHTMLを`BeautifulSoup`で解析しましょう。

In [None]:
# BeautifulSoupでHTMLを解析する


あとは、この`soup`を使って複数の`<h2>`を取得するだけです。

## STEP3 : 複数のh2タグから情報を取得する

前回は最初にヒットする`<h2>`だけ取得しました。

今回はPython公式ページに存在する、すべての`<h2>`タグを取得したいと思います。

<br>

前回のレクチャーで少し触れましたが、該当するすべての要素を取得するには`find_all()`を使ってあげます。

In [None]:
# soupからすべてのh2を取得する


<hr>

このように、`find_all()`を使うと、すべての`<h2>`タグを取得できました。

`find_all()`で取得した結果をよく見てみると、四角カッコで囲まれていることが分かります。

<br>

Pythonで四角カッコに囲まれているということは、「リストに入っている」ということになりますね。

リストであるということは、最初の要素を取り出したいと思ったとき、以下のように取得できます。

In [None]:
# find_all()で取得した結果から、最初の1つを取得する


このように、前回取得した`Get Started`を取得できました。

ちなみに`find()`の結果と比較すると、ちゃんと一致することが分かります。

In [None]:
# find()とfind_all()の1つ目を比較


つまり`find()`でできることは、`find_all()`でもできるってことですね！

## find_all()で取得した要素からテキストだけ取得する

`find()`を使っていたときは、以下のようにしてテキスト情報を取得していました。

In [None]:
# find()でテキスト情報の取得


では、`find_all()`でも同じように`find_all().text`と書いてテキスト情報を取得できるのかというと、、、それはできません！

実際にコードを入力して確認してみましょう。

In [None]:
# find_all()に対してテキスト取得してみる


このように「`text`は持っていない」というエラーが発生しました。

さらにエラーを読み進めてみると、`find()`を使おうとして`find_all()`を使ってしまったのかい？みたいなニュアンスで、少し小バカにされます。

<br>

なぜ`find_all()`で`.text`を使えないのかというと、それはリストの形になっているからですね。

なので「`find_all()`で取得したリストからテキストだけ取得したい」と思ったら、以下のようにforループを使って取り出してあげる必要があります。

In [None]:
# forループを使って、中身のテキストを確認する


このようにすれば、中身のテキストを表示できます。

また`find_all()`で取得したように、リストの形でテキストを取得しておきたい場合には、以下のように書いてあげればOKです。

In [None]:
# find_all()で取得したh2からテキストだけ取得してh2_text_listに格納


実際に中身を確認してみましょう

In [None]:
# h2_text_listの中身を確認する


これでテキスト情報をすべて取得できるようになりました。

*※可能であればリスト内包表記で書いてあげると良いですね!!*

<br>

これまでに習得した知識を整理すると、以下のようになっています。

- 指定したタグから1つだけ要素を取り出す : `soup.find('タグ')`
  - テキストを取り出す : `soup.find('タグ').text`
- 指定したタグから複数の要素を取り出す : `soup.find_all('タグ')`
  - テキストを取り出す : forループを使ってあげる


これで指定したタグに対して、自由に情報を取得できるようになりました。

ただ、今のままだと「複数の中から、特定のタグだけ取り出す」といった、痒い所に手が届かない状況になっています。

<br>

例えば「`<span>`タグの中から、`class=prompt`を取り出す」といった操作ですね。

<br>

というわけで、次回の講義では「複数の同じタグから、特定のクラスが付与されたものだけ取り出す」という処理を学んでいきたいと思います。

少しずつややこしくなってくるかと思いますので、ぜひこちらのNotebookと、できればYouTube動画を観て復習していただければと思います！