<a href="https://colab.research.google.com/github/satoicu/scraping_bs4/blob/main/scraping_bs4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

htmlからデータを取得するためbeautifulsoupをインストールします。

beautifulsoupのドキュメントは以下のURLから確認できます。

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-beautiful-soup

In [2]:
!pip install beautifulsoup4



あるhtmlのソースコードが取得できたと仮定します。

htmlの取得にはrequestsライブラリやseleniumを用いる方法がありますがこのノートブックでは省略します。

In [21]:
html = """
<!DOCTYPE html>
<html lang="ja">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>HTML Sample</title>
</head>
<body>
    <h1 class="main-heading">Welcome to My Website</h1>

    <p class="intro-text">This is a sample HTML document that demonstrates various elements.</p>

    <a href="https://www.example.com" class="link" id="link1">Visit Example.com</a>
    <a href="https://www.sample.com" class="link" id="link2">Visit Sample.com</a>

    <h2 class="section-heading" id="section-heading">Section 1</h2>

    <p class="section-paragraph" id="paragraph1">This is the first paragraph of the section.</p>

    <h2 class="section-heading" id="section-heading2">Section 2</h2>

    <p class="section-paragraph" id="paragraph2">This is the second paragraph of the section.</p>

    <textarea class="text-area" id="text-area1">This is some text in the first text area.</textarea>
    <textarea class="text-area" id="text-area2">Here's some content in the second text area.</textarea>
    <textarea class="text-area" id="text-area3">And this is the third text area's content.</textarea>

    <table class="data-table">
        <tr>
            <th class="table-header">Header 1</th>
            <th class="table-header">Header 2</th>
        </tr>
        <tr>
            <td class="table-cell">Row 1, Column 1</td>
            <td class="table-cell">Row 1, Column 2</td>
        </tr>
        <tr>
            <td class="table-cell">Row 2, Column 1</td>
            <td class="table-cell">Row 2, Column 2</td>
        </tr>
        <tr>
            <td class="table-cell">Row 3, Column 1</td>
            <td class="table-cell">Row 3, Column 2</td>
        </tr>
    </table>
</body>
</html>
"""

スクレイピングをするためhtmlテキストをbeautiful soupのオブジェクトに変換します

In [22]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")
type(soup)

bs4.BeautifulSoup

特定のタグを検索するにはfind(<tag名>）で該当するhtmlの部分を取得します。

以下のコードではh1タグに相当する箇所を取得します。

In [23]:
h1 = soup.find("h1")
h1

<h1 class="main-heading">Welcome to My Website</h1>

class名で検索するにはfindにclass_を引数に与えます。

In [24]:
class_intro = soup.find(class_="intro-text")
class_intro

<p class="intro-text">This is a sample HTML document that demonstrates various elements.</p>

属性の値を取得するには、findで要素を取得した後、attrsで属性の値を辞書で取得できます。

In [25]:
first_a = soup.find("a")
print(first_a.attrs["href"])
first_a.attrs

https://www.example.com


{'href': 'https://www.example.com', 'class': ['link'], 'id': 'link1'}

複数の条件に合致する箇所を取得するにはfind_allを用います。find_allの結果はリストです。

In [26]:
a_all = soup.find_all("a")
print(a_all[0])
a_all

<a class="link" href="https://www.example.com" id="link1">Visit Example.com</a>


[<a class="link" href="https://www.example.com" id="link1">Visit Example.com</a>,
 <a class="link" href="https://www.sample.com" id="link2">Visit Sample.com</a>]

取得した要素のtextを表示するには、「.text」を用います。

In [27]:
text_area = soup.find("textarea", id="text-area2")
text_area.text

"Here's some content in the second text area."

findを組み合わせて階層構造を辿ることができます。

In [28]:
t_value = soup.find("table").find("tr").find(class_="table-header")
t_value.text

'Header 1'

テーブル要素を表形式で取得するにはpandasのread_htmlで取得することもできます。

In [37]:
import pandas as pd

dfs = pd.read_html(html)
dfs[0] #pd.read_htmlの結果はリスト形式です。

Unnamed: 0,Header 1,Header 2
0,"Row 1, Column 1","Row 1, Column 2"
1,"Row 2, Column 1","Row 2, Column 2"
2,"Row 3, Column 1","Row 3, Column 2"


padasのread_htmlがうまくいかない場合は関連ライブラリをインストールして再度試してください。

In [40]:
!pip install lxml
!pip install html5lib

