# 必要なパッケージの準備

今回は、以下の2つのパッケージを利用します。

- requests
- beautifulsoup4

これらは、すでに `pandas` の導入の時にインストールが完了しているはずです。

インポートを行い、利用可能な状況かを確認しましょう。

In [1]:
import requests

In [2]:
from bs4 import BeautifulSoup

# requests

サードパーティー製ライブラリの一つで、インターネット上のデータにアクセスするために使います。

Pythonには標準ライブラリ `urllib` でも同様のことができますが、このライブラリを使うほうが簡単にアクセスできるので、多くのケースで使われています。

[公式ドキュメント](https://docs.python-requests.org/en/master/)

簡単な使い方

In [3]:
r = requests.get("http://www.hit-u.ac.jp/category/news")

In [4]:
r.status_code

200

In [5]:
r.encoding = "utf-8"

In [6]:
r.text[:200]

'<!doctype html>\n<!--[if lt IE 7 ]> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="jp" lang="jp" id="ie6"> <![endif]-->\n<!--[if IE 7 ]> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="jp" la'

# beautifulsoup4

サードパーティー製ライブラリの一つで、HTMLやXMLの解析を行い、必要な要素へのアクセスや、書き換えなどをサポートしています。

HTMLの解析には、文字列操作や正規表現などを使う方法もありますが、複雑なHTMLを扱うには苦労が多く、このライブラリを使うと、比較的簡単にHTMLの要素へのアクセスができます。

[公式ドキュメント](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

簡単な使い方

In [7]:
html = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [8]:
soup = BeautifulSoup(html, 'html.parser')

In [9]:
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [10]:
soup.p.text

"The Dormouse's story"

In [11]:
soup.find(class_="story")

<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

In [12]:
soup.find(class_="story").find_all("a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [13]:
for a_tag in soup.find(class_="story").find_all("a"):
    print(a_tag.get("href"))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie
