# 【第3回】BeautifulSoupの使い方①


前回のレクチャーでは、PythonからURLにアクセスするためのライブラリ`Requests`について学習しました。

`Requests`を使うことで、対象のURLからHTML自体は取得できました。

でも、自分が本当に欲しいテキスト情報については、まだ取得できていない状況です。

<br>

最終的な目標にしている「テキストデータの取得」には、**`Requests`で取得したHTMLを、`BeautifulSoup`で解析する必要があります。**

というわけで、今回は取得したHTMLを解析するために、`BeautifulSoup`の使い方を習得していきましょう。

*※動画の感想を、僕のTwitterにメンションしてツイートしていただけると嬉しいです（ ;  ; ）！*

Twitter : [@hayatasuuu](https://twitter.com/hayatasuuu)

## BeautifulSoupとは？

`BeautifulSoup`とは、HTMLを解析するためのライブラリです。

[»公式ページ :Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

<br>

BeautifulSoupを使ってHTMLを解析することで、自分が欲しい値を取得しやすいします。

例えば、以下のフルーツリストから、フルーツの名前を取得する場合を考えてみましょう。

<ol>
    <li>りんご</li>
    <li>バナナ</li>
    <li>もも</li>
</ol>

こういった場合に、**BeautifulSoupを使えば「`<li>`タグに入っている情報を取得する」**といった使い方ができます。

*※逆に、BeautifulSoupを使わずにフルーツを取得しようとすると「正規表現を使って`<li></li>`の中身を取り出す」といった感じになって、複雑なコードを書く必要があります。*

<br>

いまはリストが1つしかありませんが、通常のWebページであればリストが複数出てきてもおかしくありません。

<ol>
    <li>りんご</li>
    <li>バナナ</li>
    <li>もも</li>
</ol>

<ol>
    <li>なし</li>
    <li>ぶどう</li>
    <li>いちご</li>
</ol>

このような場合に、「ももだけ取り出したい...」と思ったら、正規表現で取得するのは非常に大変です。

なので、原理原則は「**Requestsで取得したデータは、BeautifulSoupでHTMLを解析する**」とことを覚えておきましょう！

# 取得したHTMLを、BeautifulSoupで解析する

スクレイピングの流れをもう一度おさらいしておくと、以下のようになっていました。

1. RequestsでHTMLを取得する
2. 取得したHTMLを解析する(BeautifulSoup)
3. 自分が欲しい情報を取得する

「①RequestsでHTMLを取得する」については前回のレクチャーで学習していますので、今回はそれ以降の②と③をやっていきたいと思います。

## 必要なライブラリのインポート

まずは今回使うライブラリをインポートしていきましょう。

必要になるライブラリは、前回も紹介した`Requests`と`BeautifulSoup`です。

<br>

新しく仮想環境を作成している場合には、以下のコマンドでライブラリのインストールをしましょう。

*※実行するときは、コメントアウト(`#`)を外してください！*

In [None]:
## Anacondaを利用している方
# ! conda install beautifulsoup4 -y

In [2]:
import requests
from bs4 import BeautifulSoup

これで今回使うライブラリの準備が完了しました。

まずは前回同様に、WebページからHTMLを取得していきましょう。

## RequestsでHTMLを取得する

前回と同じで、Pythonの公式ページからHTML情報を取得していきたいと思います。

https://www.python.org/

上記のURLに対して、Requestsを使ってアクセスしてみましょう。

In [3]:
# 変数urlに、Python公式ページのURLを入れる
url='https://www.python.org/'
# URLにアクセスした結果を、変数rに代入する
r= requests.get(url)

これでPython公式ページへのアクセスが完了しました。

レスポンス結果からHTMLを取得するには、以下のように書きましたね。

In [4]:
# Python公式ページのHTMLを表示
print(r.text)

<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <!-- Google tag (gtag.js) -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-TF35YF9CVH"></script>
    <script>
      window.dataLayer = window.dataLayer || [];
      function gtag(){dataLayer.push(arguments);}
      gtag('js', new Date());
      gtag('config', 'G-TF35YF9CVH');
    </script>

    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">
    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jqueryui/1.12.1/jquery-ui.min.js">

    <meta name="application-name" content="Python.org">

ちなみに、取得結果の型を確認してみると、これは単なる文字列になっています。

In [6]:
# 取得したテキストの型を確認する
type(r.text)

str

BeautifulSoupでHTMLを解析するときは、文字列を対象にします。

なので、`Requests`で取得してきたHTMLは、そのままBeautifulSoupに投入して大丈夫です。

<br>

と、あれこれ言われてもよく分からない部分があると思うので、さっさとBeautifulSoupを使ってみましょう！笑

## 取得したHTMLを解析する

結論、取得してきたHTMLを解析するには、以下のように書いてあげます。

In [8]:
# BeautifulSoupでHTMLを解析する
soup = BeautifulSoup(r.text)

この1行だけで、単なる文字列だったリクエスト結果から、あとはタグを指定するだけで欲しいデータを取得できるようになります。

*※変数名の`soup`ですが、慣習的にBeautifulSoupの解析結果を、こう名付けることが多いです。*

<br>

あとは、ここから自分が欲しいデータを取得するだけです！

## 自分が欲しい情報を取得する

今回はPythonの公式ページから、`<h2>`タグに書かれている内容を取得したいと思います。

[Python公式ページ](https://www.python.org/)をデベロッパーツール(検証)で見るとわかりますが、`<h2>`タグは色々なところで使われています。

<br>

これらの`<h2>`タグから、まずは最初の1つである`Get Started`だけ取得していきましょう。

`soup`から`<h2>`の情報を抽出するには、以下のように記述します。

In [9]:
# soupから最初のh2を取得する
soup.h2

<h2 class="widget-title"><span aria-hidden="true" class="icon-get-started"></span>Get Started</h2>

上記のように書いてあげると、最初にヒットする`<h2>`をタグごと取得できます。

また、`soup.h2`以外にも、以下のような書き方が可能です。

In [11]:
# soupから最初のh2を取得する(soup.h2以外で)
soup.find('h2')

<h2 class="widget-title"><span aria-hidden="true" class="icon-get-started"></span>Get Started</h2>

どちらの方法でも、`<h2>`タグの情報を取得できているかと思います。

ここから中身のテキストを取得するのも非常にカンタンで、以下のように書いてあげるだけです。

In [13]:
# soup.h2の方法でテキストを取得する
print(soup.h2.text)
# soup.find('h2')の方法でテキストを取得する
print(soup.find('h2').text)

Get Started
Get Started


どちらの方法でも、同じように「Get Started」を取得できました。

また、テキストを取得する方法も2つあり、以下のように書くこともできます。

In [14]:
# soup.h2の方法でテキストを取得する
print(soup.h2.get_text())
# soup.find('h2')の方法でテキストを取得する
print(soup.find('h2').get_text())

Get Started
Get Started


ここまで聞くと、なんだかややこしくなってきますよね。

なので「自分はこの方法で取得するんだ！」という方法を決めておくのがオススメです。

<br>

参考程度に、僕がいつも使っている方法は、以下のようになっています。

- タグを取得するとき : `soup.find()`
- テキストを取得するとき : `soup.find().text`

タグの取得の関しては、このあと紹介しますが複数の`<h2>`タグを取得するとき`find_all()`を使います。

`find()`と`find_all()`のセットで使ってあげると分かりやすいので、1つのタグを取得するときは`find_all()`がオススメです。

<br>

また、`get_text()`ではなく`text`を使っているのは、1つに「簡潔に書ける」という意味があります。

他には、Pythonの辞書からvalueを取得するとき、該当しないKeyで`get()`を使うとNoneが返ってくるのに対し、`get_text()`ではエラーを返します。

自分の中で`get()`はNoneを返すという頭になっているので、BeautifulSoupでテキストを取得するときは`.text`を使うようにしています。

<br>

とは言っても、人によって好みがあると思うので、お好きな方法で要素から情報を取得してみてください(｀・ω・´)！

この講義シリーズでは、自分がいつも使っている以下の方法で進めさせてくださいm(_ _)m

- タグを取得するとき : `soup.find()`
- テキストを取得するとき : `soup.find().text`

# 演習

[テックダイアリー(僕のブログ)](https://tech-diary.net)の以下の記事で、ブログタイトルを「文字列で」取得してみましょう。

https://tech-diary.net/python-scraping-books/

<br>

*※できれば1回のリクエストで情報取得していただけると嬉しいです（ ;  ; ）*

In [15]:
# 変数urlに、Python公式ページのURLを入れる
url='https://tech-diary.net/python-scraping-books/'
# URLにアクセスした結果を、変数rに代入する
r= requests.get(url)
# BeautifulSoupでHTMLを解析する
soup = BeautifulSoup(r.text)
# soup.find('h1')の方法でテキストを取得する
print(soup.find('h1').text)

【厳選3冊】Webスクレイピング(Python)でおすすめの本【実務OK】


In [3]:
import requests
from bs4 import BeautifulSoup
import openpyxl

# ウェブサイトのURL
url = 'https://www.jara.co.jp/member_list/'

# Requestsを使用してHTMLデータを取得
response = requests.get(url)
html_data = response.text

# BeautifulSoupを使用してHTMLを解析
soup = BeautifulSoup(html_data, 'html.parser')

# 会員一覧のテーブルを取得
member_table = soup.find('table', class_='listMap')

# 会員情報を格納するリスト
member_list = []

# テーブルから各行を取得
for row in member_table.find_all('tr'):
    # 各列を取得
    columns = row.find_all('td')
    
    # 会員情報を辞書に格納
    member_info = {
        'company_name': columns[0].text.strip(),
        'address': columns[1].text.strip(),
        'phone_number': columns[2].text.strip()
    }
    
    # リストに追加
    member_list.append(member_info)

# エクセルファイルを作成
excel_file = openpyxl.Workbook()
excel_sheet = excel_file.active

# ヘッダーを追加
excel_sheet.append(['会社名', '住所', '電話番号'])

# データをエクセルに書き込む
for member_info in member_list:
    excel_sheet.append([member_info['company_name'], member_info['address'], member_info['phone_number']])

# エクセルファイルを保存
excel_file.save('JARA_Member_List.xlsx')

print('エクセルファイルが作成されました。')


エクセルファイルが作成されました。


In [8]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # 各地域ごとにテーブルを取得
    region_tables = soup.find_all('table', class_='listMap')

    # データを格納するためのリスト
    data = {'会社名': [], '住所': [], '電話番号': [], '地域': []}

    # 地域ごとにデータを抽出
    for region_index, region_table in enumerate(region_tables):
        # 地域の情報を取得
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'

        # 会社情報を抽出
        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            data['会社名'].append(company_info[0])
            data['住所'].append(company_info[1])
            data['電話番号'].append(company_info[2])
            data['地域'].append(region_name)

    # データをDataFrameに変換
    df = pd.DataFrame(data)

    # エクセルに保存
    excel_path = 'JARA_Member_List1.xlsx'
    df.to_excel(excel_path, index=False)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


エクセルファイルが作成されました。保存場所: JARA_Member_List1.xlsx


In [12]:
# 自作用
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    soup.find('').find_all(['h2','h3'])
    

    # データをDataFrameに変換
    df = pd.DataFrame(data)

    # エクセルに保存
    excel_path = 'JARA_Member_List1.xlsx'
    df.to_excel(excel_path, index=False)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


In [11]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # 各地域ごとにテーブルを取得
    region_tables = soup.find_all('table', class_='listMap')

    for region_index, region_table in enumerate(region_tables):
        # 地域の情報を取得
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'

        # データを格納するためのリスト
        data = {'会社名': [], '住所': [], '電話番号': []}

        # 会社情報を抽出
        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            data['会社名'].append(company_info[0])
            data['住所'].append(company_info[1])
            data['電話番号'].append(company_info[2])

        # データをDataFrameに変換
        df = pd.DataFrame(data)

        # エクセルに保存
        excel_path = f'JARA_Member_List_{region_name}.xlsx'
        df.to_excel(excel_path, index=False)

        print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_Unknown Region.xlsx
エクセルファイルが作成されました。保存場所: JARA_Member_List_

In [10]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # 各地域ごとにテーブルを取得
    region_tables = soup.find_all('table', class_='listMap')

    # データを格納するためのリスト
    all_data = {'会社名': [], '住所': [], '電話番号': []}

    for region_index, region_table in enumerate(region_tables):
        # 地域の情報を取得
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'

        # 会社情報を抽出
        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            all_data['会社名'].append(company_info[0])
            all_data['住所'].append(company_info[1])
            all_data['電話番号'].append(company_info[2])

    # データをDataFrameに変換
    df = pd.DataFrame(all_data)

    # エクセルに保存
    excel_path = 'JARA_Member_List3.xlsx'
    df.to_excel(excel_path, index=False)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


エクセルファイルが作成されました。保存場所: JARA_Member_List3.xlsx


In [13]:
# 完成コード
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # 各地域ごとにテーブルを取得
    region_tables = soup.find_all('table', class_='listMap')

    # データを格納するためのリスト
    all_data = {'会社名': [], '住所': [], '電話番号': []}

    for region_index, region_table in enumerate(region_tables):
        # 地域の情報を取得
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'

        # 前の地域と現在の地域が異なる場合はデータに一行空欄を挿入
        if region_index > 0 and region_name != all_data['会社名'][-1]:
            all_data['会社名'].append('')
            all_data['住所'].append('')
            all_data['電話番号'].append('')

        # 会社情報を抽出
        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            all_data['会社名'].append(company_info[0])
            all_data['住所'].append(company_info[1])
            all_data['電話番号'].append(company_info[2])

    # データをDataFrameに変換
    df = pd.DataFrame(all_data)

    # エクセルに保存
    excel_path = 'JARA_Member_List4.xlsx'
    df.to_excel(excel_path, index=False)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


エクセルファイルが作成されました。保存場所: JARA_Member_List4.xlsx


In [16]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# サイトのURL
url = 'https://www.i-parts.co.jp/used/index.asp?rs=0&pcm=7'

# HTTPリクエストを送信してHTMLを取得
response = requests.get(url)
html = response.text

# BeautifulSoupを使ってHTMLを解析
soup = BeautifulSoup(html, 'html.parser')

# 商品情報を格納するためのリスト
product_data = []

# 商品一覧の部分を特定
product_list = soup.find_all('tr')[1:]  # ヘッダー行を除く

# 各商品の情報を取得
for product in product_list:
    product_info = product.find_all('td')

    # 商品情報を取得してリストに追加
    product_name = product_info[1].find('a')
    product_code = product_info[1].find('a')['href'].split('?td=')[1] if product_name else None
    product_data.append({
        '商品名': product_name.text.strip() if product_name else None,
        '販売価格': product_info[3].text.strip() if len(product_info) > 3 else None,
        '取り扱い店舗': product_info[4].text.strip() if len(product_info) > 4 else None,
        '商品コード': product_code,
        '適合車種名称': product_info[1].find('p').text.strip() if product_info[1].find('p') else None,
    })

# 取得した商品データをDataFrameに変換
df = pd.DataFrame(product_data)

# DataFrameをエクセルに保存
df.to_excel('output.xlsx', index=False)


IndexError: list index out of range

In [17]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://www.i-parts.co.jp/used/index.asp?rs=0&pcm=7"
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    items = soup.find_all("div", class_="product-list")

    data = []
    for item in items:
        product_name = item.find("p", class_="product-name").text.strip()
        price = item.find("p", class_="product-price").text.strip()
        store = item.find("p", class_="product-store").text.strip()
        product_code = item.find("p", class_="product-code").text.strip()
        car_model = item.find("p", class_="car-model").text.strip()

        data.append([product_name, price, store, product_code, car_model])

    # データをDataFrameに格納
    df = pd.DataFrame(data, columns=["商品名", "販売価格", "取り扱い店舗", "商品コード", "適合車種名称"])

    # DataFrameをエクセルファイルに保存
    df.to_excel("i_parts_used_parts.xlsx", index=False)
else:
    print("Failed to retrieve data. Status code:", response.status_code)


In [19]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://www.i-parts.co.jp/used/index.asp?rs=0&pcm=7"
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # ページ内の商品数とページ数を取得
    result_info = soup.find("p", class_="link-l").text
    total_items = int(result_info.split('中')[1].split('件')[0])
    total_pages = int(result_info.split('中')[1].split('ページ中')[1].split('ページ目')[0])

    # ページごとにデータを取得
    data = []
    for page in range(1, total_pages + 1):
        page_url = f"{url}&vp={page}"
        page_response = requests.get(page_url)
        page_soup = BeautifulSoup(page_response.text, 'html.parser')

        items = page_soup.find_all("tr")[1:]  # ヘッダー行を除外
        for item in items:
            product_name = item.find("a").text.strip()
            price = item.find("td", class_="center").text.strip()
            store = item.find_all("td", class_="center")[1].text.strip()

            product_code = item.find("p").text.split("：")[1].strip()
            car_model = item.find_all("p")[1].text.strip()

            data.append([product_name, price, store, product_code, car_model])

    # データをDataFrameに格納
    df = pd.DataFrame(data, columns=["商品名", "販売価格", "取り扱い店舗", "商品コード", "適合車種名称"])

    # DataFrameをエクセルファイルに保存
    df.to_excel("i_parts_used_parts1.xlsx", index=False)
else:
    print("Failed to retrieve data. Status code:", response.status_code)


IndexError: list index out of range

In [20]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://www.i-parts.co.jp/used/index.asp?rs=0&pcm=7"
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    items = soup.find_all("tr")[1:31]  # ヘッダー行を除外し、最初の30アイテムのみ取得

    data = []
    for item in items:
        product_name = item.find("a").text.strip()
        price = item.find("td", class_="center").text.strip()
        store = item.find_all("td", class_="center")[1].text.strip()

        product_code = item.find("p").text.split("：")[1].strip()
        car_model = item.find_all("p")[1].text.strip()

        data.append([product_name, price, store, product_code, car_model])

    # データをDataFrameに格納
    df = pd.DataFrame(data, columns=["商品名", "販売価格", "取り扱い店舗", "商品コード", "適合車種名称"])

    # DataFrameをエクセルファイルに保存
    df.to_excel("i_parts_used_parts1.xlsx", index=False)
else:
    print("Failed to retrieve data. Status code:", response.status_code)


AttributeError: 'NoneType' object has no attribute 'text'

In [21]:
# 完成コード
import requests
from bs4 import BeautifulSoup
import pandas as pd

# スクレイピング対象のURL
url = "https://www.i-parts.co.jp/used/index.asp?rs=0&pcm=7"

# ページのHTMLを取得
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# データを格納するためのリスト
data = []

# 商品情報の取得
items = soup.select("table[summary='result'] tr")[1:]  # 1ページ目のヘッダー行を除外してアイテムを取得
for item in items:
    columns = item.find_all("td")

    product_name = columns[1].find("a").text.strip()  # ①商品名
    price = columns[2].text.strip()  # ②販売価格
    store = columns[3].text.strip()  # ③取り扱い店舗
    product_code = columns[1].find("a")["href"].split("=")[-1]  # ④商品コード
    car_model = columns[1].find("p").text.strip()  # ⑤適合車種名称

    data.append([product_name, price, store, product_code, car_model])

# データをDataFrameに変換
df = pd.DataFrame(data, columns=["商品名", "販売価格", "取り扱い店舗", "商品コード", "適合車種名称"])

# エクセルに書き込み
df.to_excel("検索結果一覧.xlsx", index=False)


In [4]:
pip install xlsxwriter


Collecting xlsxwriter
  Obtaining dependency information for xlsxwriter from https://files.pythonhosted.org/packages/a7/ea/53d1fe468e63e092cf16e2c18d16f50c29851242f9dd12d6a66e0d7f0d02/XlsxWriter-3.2.0-py3-none-any.whl.metadata
  Downloading XlsxWriter-3.2.0-py3-none-any.whl.metadata (2.6 kB)
Downloading XlsxWriter-3.2.0-py3-none-any.whl (159 kB)
   ---------------------------------------- 0.0/159.9 kB ? eta -:--:--
   -- ------------------------------------- 10.2/159.9 kB ? eta -:--:--
   ------- ------------------------------- 30.7/159.9 kB 435.7 kB/s eta 0:00:01
   ---------------------------------------- 159.9/159.9 kB 1.6 MB/s eta 0:00:00
Installing collected packages: xlsxwriter
Successfully installed xlsxwriter-3.2.0
Note: you may need to restart the kernel to use updated packages.


In [5]:

import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://www.jara.co.jp/member_list/'
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    region_tables = soup.find_all('table', class_='listMap')

    all_data = {'会社名': [], '住所': [], '電話番号': []}

    for region_index, region_table in enumerate(region_tables):
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'

        if region_index > 0 and region_name != all_data['会社名'][-1]:
            # 地域ごとの見出しを挿入
            all_data['会社名'].append(region_name)
            all_data['住所'].append('')
            all_data['電話番号'].append('')

        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            all_data['会社名'].append(company_info[0])
            all_data['住所'].append(company_info[1])
            all_data['電話番号'].append(company_info[2])

    df = pd.DataFrame(all_data)
    excel_path = 'JARA_Member_List_with_Region_Headers.xlsx'

    with pd.ExcelWriter(excel_path, engine='xlsxwriter') as writer:
        # DataFrameをエクセルに書き込む
        df.to_excel(writer, index=False, sheet_name='Sheet1')

        # シートオブジェクトを取得
        worksheet = writer.sheets['Sheet1']

        # 地域ごとの見出しを挿入
        for idx, region_name in enumerate(all_data['会社名']):
            if region_name != '':
                worksheet.write(idx, 0, region_name)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


エクセルファイルが作成されました。保存場所: JARA_Member_List_with_Region_Headers.xlsx


In [6]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # データを格納するためのリスト
    all_data = {'会社名': [], '住所': [], '電話番号': []}

    # 地域の情報を取得
    region_name_tags = soup.find_all('h3', class_='')

    # 各地域ごとにテーブルを取得
    for region_name_tag in region_name_tags:
        region_name = region_name_tag.text.strip() if region_name_tag else 'Unknown Region'

        # テーブルを取得
        region_table = region_name_tag.find_next('table', class_='listMap')

        # 会社情報を抽出
        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            all_data['会社名'].append(company_info[0])
            all_data['住所'].append(company_info[1])
            all_data['電話番号'].append(company_info[2])

    # データをDataFrameに変換
    df = pd.DataFrame(all_data)

    # エクセルに保存
    excel_path = 'JARA_Member_List_with_Region_Headers1.xlsx'
    df.to_excel(excel_path, index=False)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


エクセルファイルが作成されました。保存場所: JARA_Member_List_with_Region_Headers1.xlsx


In [None]:
# 完成コード
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # 各地域ごとにテーブルを取得
    region_tables = soup.find_all('table', class_='listMap')

    # データを格納するためのリスト
    all_data = {'会社名': [], '住所': [], '電話番号': []}

    for region_index, region_table in enumerate(region_tables):
        # 地域の情報を取得
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'
        # ここに地域名を表示させるコードを追記してください
        # 前の地域と現在の地域が異なる場合はデータに一行空欄を挿入
        if region_index > 0 and region_name != all_data['会社名'][-1]:
            all_data['会社名'].append('')
            all_data['住所'].append('')
            all_data['電話番号'].append('')

        # 会社情報を抽出
        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            all_data['会社名'].append(company_info[0])
            all_data['住所'].append(company_info[1])
            all_data['電話番号'].append(company_info[2])

    # データをDataFrameに変換
    df = pd.DataFrame(all_data)

    # エクセルに保存
    excel_path = 'JARA_Member_List4.xlsx'
    df.to_excel(excel_path, index=False)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


In [8]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # 各地域ごとにテーブルを取得
    region_tables = soup.find_all('table', class_='listMap')

    # データを格納するためのリスト
    all_data = {'地域名': [], '会社名': [], '住所': [], '電話番号': []}

    for region_index, region_table in enumerate(region_tables):
        # 地域の情報を取得
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'
        
        # 地域名をリストに追加
        all_data['地域名'].extend([region_name] * len(region_table.find_all('tr')))
        
        # 前の地域と現在の地域が異なる場合はデータに一行空欄を挿入
        if region_index > 0 and region_name != all_data['会社名'][-1]:
            all_data['会社名'].append('')
            all_data['住所'].append('')
            all_data['電話番号'].append('')

        # 会社情報を抽出
        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            all_data['会社名'].append(company_info[0])
            all_data['住所'].append(company_info[1])
            all_data['電話番号'].append(company_info[2])

    # データをDataFrameに変換
    df = pd.DataFrame(all_data)

    # エクセルに保存
    excel_path = 'JARA_Member_List_with_Region_Names2.xlsx'
    df.to_excel(excel_path, index=False)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


ValueError: All arrays must be of the same length

In [9]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # 各地域ごとにテーブルを取得
    region_tables = soup.find_all('table', class_='listMap')

    # データを格納するためのリスト
    all_data = {'地域名': [], '会社名': [], '住所': [], '電話番号': []}

    for region_index, region_table in enumerate(region_tables):
        # 地域の情報を取得
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'

        # 地域名のリストを適切な長さに初期化
        region_name_list = [region_name] * len(region_table.find_all('tr'))

        # 地域名をリストに追加
        all_data['地域名'].extend(region_name_list)

        # 前の地域と現在の地域が異なる場合はデータに一行空欄を挿入
        if region_index > 0 and region_name != all_data['会社名'][-1]:
            all_data['会社名'].append('')
           


IndexError: list index out of range

In [11]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # 各地域ごとにテーブルを取得
    region_tables = soup.find_all('table', class_='listMap')

    # データを格納するためのリスト
    all_data = {'地域名': [], '会社名': [], '住所': [], '電話番号': []}

    for region_index, region_table in enumerate(region_tables):
        # 地域の情報を取得
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'

        # 地域名のリストを適切な長さに初期化
        region_name_list = [region_name] * len(region_table.find_all('tr'))

        # 地域名をリストに追加
        all_data['地域名'].extend(region_name_list)

        # 前の地域と現在の地域が異なる場合はデータに一行空欄を挿入
        if region_index > 0 and region_name != all_data['会社名'][-1]:
            all_data['会社名'].append('')
            all_data['住所'].append('')
            all_data['電話番号'].append('')

        # 会社情報を抽出
        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            all_data['会社名'].append(company_info[0])
            all_data['住所'].append(company_info[1])
            all_data['電話番号'].append(company_info[2])

    # データをDataFrameに変換
    df = pd.DataFrame(all_data)

    # エクセルに保存
    excel_path = 'JARA_Member_List_with_Region_Names3.xlsx'
    df.to_excel(excel_path, index=False)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


ValueError: All arrays must be of the same length

In [12]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 対象のURL
url = 'https://www.jara.co.jp/member_list/'

# ページの取得
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # 各地域ごとにテーブルを取得
    region_tables = soup.find_all('table', class_='listMap')

    # データを格納するためのリスト
    all_data = {'地域名': [], '会社名': [], '住所': [], '電話番号': []}

    for region_index, region_table in enumerate(region_tables):
        # 地域の情報を取得
        region_name_tag = soup.find_all('h3', class_='')
        region_name = region_name_tag[region_index].text.strip() if region_name_tag else 'Unknown Region'

        # 地域名のリストを適切な長さに初期化
        region_name_list = [region_name] * len(region_table.find_all('tr'))

        # 地域名をリストに追加
        all_data['地域名'].extend(region_name_list)

        # 前の地域と現在の地域が異なる場合はデータに一行空欄を挿入
        if region_index > 0 and region_name != all_data['地域名'][-1]:
            all_data['会社名'].append('')
            all_data['住所'].append('')
            all_data['電話番号'].append('')

        # 会社情報を抽出
        companies = region_table.find_all('tr')
        for company in companies:
            company_info = [info.text.strip() for info in company.find_all('td')]
            all_data['会社名'].append(company_info[0])
            all_data['住所'].append(company_info[1])
            all_data['電話番号'].append(company_info[2])

    # データをDataFrameに変換
    df = pd.DataFrame(all_data)

    # エクセルに保存
    excel_path = 'JARA_Member_List_with_Region_Names4.xlsx'
    df.to_excel(excel_path, index=False)

    print(f'エクセルファイルが作成されました。保存場所: {excel_path}')

else:
    print('ページの取得に失敗しました。')


エクセルファイルが作成されました。保存場所: JARA_Member_List_with_Region_Names4.xlsx
