# BeautifulSoupを用いたWebスクレイピング

本ノートブックでは、[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)を用いたWebページからのデータのスクレイピング方法を紹介します。インストール方法については、次の公式ドキュメントを参照してください。

- [Installing Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-beautiful-soup)

## パッケージのインポート

In [7]:
from pprint import pprint
from urllib.request import urlopen

from bs4 import BeautifulSoup

## Webページの取得と解析

Beautiful Soupを使って、次のStack Overflowのページからスクレイピングをしてみましょう。

- [https://stackoverflow.com/questions/415511/how-to-get-the-current-time-in-python](https://stackoverflow.com/questions/415511/how-to-get-the-current-time-in-python)

HTMLを取得したら、[BeautifulSoupオブジェクト](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#beautifulsoup)を用いて、HTMLを解析します。

In [14]:
url = "https://stackoverflow.com/questions/415511/how-to-get-the-current-time-in-python"
html = urlopen(url).read() #　HTMLの取得
soupified = BeautifulSoup(html, 'html.parser') # HTMLを解析し、BeautifulSoupオブジェクトに格納

解析を終えたら、`prettify`メソッドを用いて、BeautifulSoupの解析木をきれいに表示してみましょう。

In [15]:
print(soupified.prettify()) #　HTMLの構造を表示

<!DOCTYPE html>
<html class="html__responsive html__fixed-top-bar" itemscope="" itemtype="https://schema.org/QAPage">
 <head>
  <title>
   datetime - How to get the current time in Python - Stack Overflow
  </title>
  <link href="https://cdn.sstatic.net/Sites/stackoverflow/Img/favicon.ico?v=ec617d715196" rel="shortcut icon"/>
  <link href="https://cdn.sstatic.net/Sites/stackoverflow/Img/apple-touch-icon.png?v=c78bd457575a" rel="apple-touch-icon"/>
  <link href="https://cdn.sstatic.net/Sites/stackoverflow/Img/apple-touch-icon.png?v=c78bd457575a" rel="image_src"/>
  <link href="/opensearch.xml" rel="search" title="Stack Overflow" type="application/opensearchdescription+xml"/>
  <link href="https://stackoverflow.com/questions/415511/how-to-get-the-current-time-in-python" rel="canonical">
   <meta content="width=device-width, height=device-height, initial-scale=1.0, minimum-scale=1.0" name="viewport"/>
   <meta content="website" property="og:type">
    <meta content="https://stackoverflow.

試しに`title`タグへアクセスして、Webページのタイトルを取得してみましょう。

In [17]:
soupified.title

<title>datetime - How to get the current time in Python - Stack Overflow</title>

## Webページのスクレイピング

では次に、解析したHTMLから必要な情報を取得してみましょう。ここでは、`find`メソッドを用いて、条件にマッチする最初の要素を取得してみましょう。Stack Overflowの質問文は、次の画像に示すように、`class`属性の値として`question`を持つ`div`要素の中に格納されています。そのため、まずはこの要素を取得します。

![](https://i.gyazo.com/c3b346697a2613e907dcccb9705444b5.png)

質問文についても同様にして取得できます。上の画像を見ると、質問文は`class`属性の値として`s-prose js-post-body`を持つ`div`要素の中に格納されています。要素を取得したら、テキストだけを抽出するため、[get_text](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#get-text)メソッドを呼び出します。

In [18]:
question = soupified.find("div", {"class": "question"})
questiontext = question.find("div", {"class": "s-prose js-post-body"})
print("Question: \n", questiontext.get_text().strip())

Question: 
 What is the module/method used to get the current time?


同様にして、回答も抽出してみましょう。

In [19]:
answer = soupified.find("div", {"class": "answer"})
answertext = answer.find("div", {"class": "s-prose js-post-body"})
print("Best answer: \n", answertext.get_text().strip())

Best answer: 
 Use:
>>> import datetime
>>> datetime.datetime.now()
datetime.datetime(2009, 1, 6, 15, 8, 24, 78915)

>>> print(datetime.datetime.now())
2009-01-06 15:08:24.789150

And just the time:
>>> datetime.datetime.now().time()
datetime.time(15, 8, 24, 78915)

>>> print(datetime.datetime.now().time())
15:08:24.789150

See the documentation for more information.
To save typing, you can import the datetime object from the datetime module:
>>> from datetime import datetime

Then remove the leading datetime. from all of the above.
