Suumoからデータ抽出

In [None]:
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd

# SuumoのURLのベース部分
base_url = "https://suumo.jp/jj/chintai/ichiran/FR301FC001/?ar=030&bs=040&ta=13&sc=13101&sc=13102&sc=13103&sc=13104&sc=13105&sc=13113&sc=13106&sc=13107&sc=13108&sc=13118&sc=13121&sc=13122&sc=13123&sc=13109&sc=13110&sc=13111&sc=13112&sc=13114&sc=13115&sc=13120&sc=13116&sc=13117&sc=13119&cb=0.0&ct=20.0&et=9999999&md=05&cn=9999999&mb=0&mt=9999999&shkr1=03&shkr2=03&shkr3=03&shkr4=03&fw2=&srch_navi=1"


# 物件情報を格納するリスト
properties = []

# セッションを開始
session = requests.Session()

# 最初のページからスタート
page = 1

while True:
    # パラメータにページ数を追加
    params = {'page': page}

    # リクエストを送信
    response = session.get(base_url, params=params)
    response.encoding = response.apparent_encoding

    # HTMLコンテンツを解析
    soup = BeautifulSoup(response.text, 'html.parser')

    # 物件情報の抽出
    listings = soup.find_all('div', class_='cassetteitem')
    if not listings:
        break  # リストが空なら終了

    for listing in listings:
        property_name = listing.find('div', class_='cassetteitem_content-title').text.strip()
        address = listing.find('li', class_='cassetteitem_detail-col1').text.strip()
        layout = listing.find('span', class_='cassetteitem_madori').text.strip()
        rent = listing.find('span', class_='cassetteitem_other-emphasis').text.strip()
        floor = listing.find('li', class_='cassetteitem_detail-col3').text.strip()
        access = listing.find('div', class_='cassetteitem_detail-text').text.strip()

        properties.append({
            '物件名': property_name,
            '住所': address,
            '間取り': layout,
            '家賃': rent,
            '階数': floor,
            '最寄りまでの時間': access
        })

    # 次のページへ
    page += 1

        # サーバーへの負荷を考慮して少し待機
    time.sleep(1)


# 最終的な物件情報のリストを表示
for property in properties:
    print(property)

# 'properties'リストをデータフレームに変換
properties_df = pd.DataFrame(properties)

# データフレームの表示
print(properties_df)


In [64]:
properties# スクレイピングしたデータの件数を表示
data_count = len(properties)
print(f"抽出された物件の件数: {data_count}")


抽出された物件の件数: 5346


スプレッドシートで出力。

In [None]:
pip install gspread oauth2client

In [None]:
import gspread
from oauth2client.service_account import ServiceAccountCredentials
import pandas as pd

# APIキーのパスとスプレッドシートのキー
api_key_path = ''
spreadsheet_key = ''

# スコープの設定
scope = ['https://www.googleapis.com/auth/spreadsheets',
         'https://www.googleapis.com/auth/drive']

# 認証
credentials = ServiceAccountCredentials.from_json_keyfile_name(api_key_path, scope)
client = gspread.authorize(credentials)

# スプレッドシートを開く
spreadsheet = client.open_by_key(spreadsheet_key)
worksheet = spreadsheet.get_worksheet(0)  # 最初のシートを選択

# データフレームをスプレッドシートに書き込む
worksheet.update([properties_df.columns.values.tolist()] + properties_df.values.tolist())
