### 単一のページから不動産情報（港区）をスクレイピング

In [34]:
import requests
import re
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

In [35]:
# DOOR不動産の「東京都港区」を対象にスクレイピング
REQUEST_URL = 'https://door.ac/tokyo/city-13103/list'
res = requests.get(REQUEST_URL)
res.encoding = 'utf-8'

In [36]:
# BeautifulSoup(解析したいデータ,解析する方法)を指定し、解析したデータをsoupに代入します。
soup = BeautifulSoup(res.text,'html.parser')

In [37]:
# スクレイピングしたHTML情報出力
f = open("test.txt", "w")
f.write(str(soup))
f.close()

In [38]:
# 建物名を一括抽出
property_name = [name.get_text() for name in soup.find_all(class_="heading")] if soup.find_all(class_="heading") else None

In [39]:
property_name

['パショリ白金の賃貸物件情報',
 'ヨシノハウスの賃貸物件情報',
 'PARK AXIS 西麻布 STAGEの賃貸物件情報',
 'BRILLIA IST 白金高輪の賃貸物件情報',
 'メドーノ白金台の賃貸物件情報',
 '六本木グランドタワーレジデンスの賃貸物件情報',
 '六本木ファーストプラザの賃貸物件情報',
 'ベイコート芝浦の賃貸物件情報',
 '芝浦ハイツの賃貸物件情報',
 'APOLLO白金台の賃貸物件情報',
 'ザ・パークハビオSOHO南青山の賃貸物件情報',
 'オーパスレジデンス南青山の賃貸物件情報',
 'ザ・パークハビオ麻布十番の賃貸物件情報',
 'フォーリア西麻布CASAの賃貸物件情報',
 'パークアクシス芝浦キャナルの賃貸物件情報',
 'パークナードフィット南青山GARDENの賃貸物件情報',
 'ザ・レジデンス六本木の賃貸物件情報',
 'レビスタ白金高輪の賃貸物件情報',
 'ハーモニーレジデンス西麻布の賃貸物件情報',
 'パークハビオ赤坂タワーの賃貸物件情報']

In [40]:
# 「の賃貸物件情報」を削除
for i in range(len(property_name)):
    property_name[i] = property_name[i].replace('の賃貸物件情報', '')

In [41]:
print(property_name)

['パショリ白金', 'ヨシノハウス', 'PARK AXIS 西麻布 STAGE', 'BRILLIA IST 白金高輪', 'メドーノ白金台', '六本木グランドタワーレジデンス', '六本木ファーストプラザ', 'ベイコート芝浦', '芝浦ハイツ', 'APOLLO白金台', 'ザ・パークハビオSOHO南青山', 'オーパスレジデンス南青山', 'ザ・パークハビオ麻布十番', 'フォーリア西麻布CASA', 'パークアクシス芝浦キャナル', 'パークナードフィット南青山GARDEN', 'ザ・レジデンス六本木', 'レビスタ白金高輪', 'ハーモニーレジデンス西麻布', 'パークハビオ赤坂タワー']


In [42]:
# 賃貸かを抽出
property_category = [category.get_text() for category in soup.find_all(class_="label")] if soup.find(class_="label") else None

In [43]:
property_category

['賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸アパート',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション',
 '賃貸マンション']

In [44]:
# 住所を一括抽出
property_address = [address.get_text() for address in soup.find_all(class_="description-item")] if soup.find(class_="description-item") else None

In [45]:
# 抽出したデータに築年数も含まれているため、住所のみを再度抽出
property_addresses = [s for s in property_address if s.startswith('所在地')]

In [46]:
# 先頭文字の「所在地」をreplaceで削除
for i in range(len(property_addresses)):
    property_addresses[i] = property_addresses[i].replace('所在地', '')

In [47]:
print(property_addresses)

['東京都港区白金', '東京都港区西麻布', '東京都港区西麻布', '東京都港区白金', '東京都港区白金台2丁目', '東京都港区六本木', '東京都港区六本木', '東京都港区芝浦', '東京都港区芝浦', '東京都港区白金台', '東京都港区南青山', '東京都港区南青山４丁目 1-10', '東京都港区六本木5丁目', '東京都港区西麻布', '東京都港区海岸', '東京都港区南青山', '東京都港区六本木', '東京都港区高輪', '東京都港区西麻布', '東京都港区赤坂']


In [48]:
# 同様に築年数に絞って抽出
property_builtyears = [s for s in property_address if s.startswith('築年数')]

In [49]:
print(property_builtyears)

['築年数築40年', '築年数築61年', '築年数築25年', '築年数築20年', '築年数築31年', '築年数築9年', '築年数築31年', '築年数築34年', '築年数築37年', '築年数築28年', '築年数築1年', '築年数築1年', '築年数築3年', '築年数築3年', '築年数築3年', '築年数築5年', '築年数築5年', '築年数築8年', '築年数築8年', '築年数築10年']


In [50]:
# 最寄り駅を抽出
nearest_stations  = [station.get_text() for station in soup.find_all(class_="description-item description-item--station")] if soup.find_all(class_="description-item description-item--station") else None

In [51]:
nearest_stations

['最寄駅東京メトロ南北線 白金高輪駅 徒歩11分東京メトロ日比谷線 広尾駅 徒歩13分東京メトロ南北線 白金台駅 徒歩15分',
 '最寄駅東京メトロ日比谷線 広尾駅 徒歩12分東京メトロ千代田線 乃木坂駅 徒歩15分東京メトロ日比谷線 六本木駅 徒歩15分',
 '最寄駅都営大江戸線 六本木駅 徒歩9分東京メトロ千代田線 乃木坂駅 徒歩9分東京メトロ日比谷線 広尾駅 徒歩12分',
 '最寄駅東京メトロ南北線 白金高輪駅 徒歩3分都営三田線 白金高輪駅 徒歩3分',
 '最寄駅東京都浅草線 高輪台駅 徒歩3分',
 '最寄駅東京メトロ南北線 六本木一丁目駅 徒歩3分東京メトロ日比谷線 六本木駅 徒歩8分都営大江戸線 六本木駅 徒歩8分',
 '最寄駅東京メトロ南北線 六本木一丁目駅 徒歩5分東京メトロ日比谷線 神谷町駅 徒歩7分',
 '最寄駅ＪＲ山手線 田町駅(東京) 徒歩5分都営浅草線 三田駅(東京) 徒歩7分ＪＲ山手線 品川駅 徒歩24分',
 '最寄駅ＪＲ山手線 田町駅(東京) 徒歩13分',
 '最寄駅東京メトロ南北線 白金台駅 徒歩3分ＪＲ山手線 目黒駅 徒歩10分都営浅草線 高輪台駅 徒歩13分',
 '最寄駅東京メトロ銀座線 表参道駅 徒歩10分東京メトロ日比谷線 広尾駅 徒歩14分ＪＲ山手線 渋谷駅 徒歩18分',
 '最寄駅東京地下鉄銀座線 外苑前駅 徒歩7分東京地下鉄千代田線 乃木坂駅 徒歩13分',
 '最寄駅東京地下鉄南北線 麻布十番駅 徒歩4分',
 '最寄駅東京メトロ日比谷線 広尾駅 徒歩7分都営大江戸線 六本木駅 徒歩18分東京メトロ日比谷線 六本木駅 徒歩18分',
 '最寄駅新交通ゆりかもめ 芝浦ふ頭駅 徒歩7分ＪＲ山手線 田町駅(東京) 徒歩11分都営浅草線 三田駅(東京) 徒歩13分',
 '最寄駅東京メトロ銀座線 表参道駅 徒歩12分ＪＲ山手線 渋谷駅 徒歩15分東京メトロ日比谷線 広尾駅 徒歩19分',
 '最寄駅東京メトロ南北線 六本木一丁目駅 徒歩4分東京メトロ日比谷線 神谷町駅 徒歩7分東京メトロ日比谷線 六本木駅 徒歩12分',
 '最寄駅都営三田線 白金高輪駅 徒歩7分都営浅草線 泉岳寺駅 徒歩13分東京メトロ南北線 白金台駅 徒歩14分',
 '最寄駅都営大江戸線 六本木駅 徒歩9分東京メトロ千代田線 乃木

In [74]:
# 家賃を一括抽出
property_fee = [fee.get_text() for fee in soup.find_all(class_="emphasis-primary") if not fee.get_text().replace(",", "").replace("万円", "").isdigit()]
property_fee

['8.5',
 '27.3',
 '13.4',
 '13.4',
 '13.9',
 '8.8',
 '79.8',
 '45.8',
 '47.5',
 '57.9',
 '23.5',
 '79.9',
 '44.9',
 '48.9',
 '40.8',
 '19.4',
 '37.2',
 '34.5',
 '39.2',
 '27.5',
 '17.9',
 '27.5',
 '15.8',
 '22.9',
 '26.4',
 '28.2',
 '27.5',
 '27.1',
 '27.1',
 '27.4',
 '27.7',
 '12.7',
 '12.8',
 '12.7',
 '12.7',
 '12.6',
 '12.5',
 '12.3',
 '23.1',
 '22.4',
 '22.3',
 '23.9',
 '22.4',
 '22.3',
 '22.2',
 '27.6',
 '12.9',
 '12.3',
 '12.2',
 '12.2',
 '12.5',
 '14.1',
 '16.4',
 '14.8',
 '14.6',
 '13.9',
 '13.5',
 '13.6',
 '13.6',
 '13.7',
 '15.32万円',
 '15.10万円',
 '14.12万円',
 '13.34万円',
 '13.63万円',
 '12.86万円',
 '12.22万円',
 '13.69万円',
 '32.51万円',
 '28.77万円',
 '23.09万円',
 '26.31万円',
 '27.31万円',
 '26.29万円',
 '29.48万円',
 '20.61万円',
 '64.56万円',
 '40.11万円',
 '53.26万円',
 '49.44万円',
 '50.29万円',
 '41.17万円',
 '63.59万円',
 '32.18万円',
 '144.32万円',
 '77.73万円',
 '89.56万円',
 '69.19万円',
 '77.55万円',
 '53.04万円',
 '89.82万円',
 '36.97万円']

In [80]:
property_detail = [fee.get_text() for fee in soup.find_all(class_="table-secondary table--clickable js-table-clickable")] if soup.find_all(class_="table-secondary table--clickable js-table-clickable") else None

cleaned_details = []
for detail in property_detail:
    cleaned_detail = re.sub(r'階家賃管理費敷金 / 礼金間取り専有面積キープ詳細|詳細を見る', '', detail)
    cleaned_details.append(cleaned_detail)

print(cleaned_details)

['3階8.5万円なしなし\xa0/\xa08.5万円1K24m2', '2階18万円5,000円18万円\xa0/\xa018万円1LDK50.31m2', '7階27.3万円1.2万円27.3万円\xa0/\xa027.3万円2LDK55.18m2', '7階13.4万円9,000円13.4万円\xa0/\xa013.4万円1K27.33m27階13.4万円9,000円13.4万円\xa0/\xa013.4万円ワンルーム26.72m24階13.9万円9,000円13.9万円\xa0/\xa013.9万円1K30.41m2', '1階8.8万円3,000円4.4万円\xa0/\xa013.2万円1K26.4m2', '26階260万円なし520万円\xa0/\xa0なし4LDK231.01m222階112万円なし224万円\xa0/\xa0なし2LDK109.49m216階79.8万円なし159.6万円\xa0/\xa0なし2LDK79.91m212階45.8万円なし91.6万円\xa0/\xa0なし1LDK50.47m210階47万円なし94万円\xa0/\xa0なし1LDK50.47m210階47.5万円なし95万円\xa0/\xa0なし1LDK50.35m29階57.9万円なし115.8万円\xa0/\xa0なし1LDK63.74m28階44万円なし88万円\xa0/\xa0なし1LDK50.09m25階25万円なし25万円\xa0/\xa025万円ワンルーム25.41m24階23.5万円なし47万円\xa0/\xa0なしワンルーム25.43m2', '14階55万円なし110万円\xa0/\xa0なし2LDK75.93m2', '23階79.9万円なし159.8万円\xa0/\xa0なし4LDK135.76m26階44.9万円なし89.8万円\xa0/\xa0なし2LDK85.98m23階48.9万円なし97.8万円\xa0/\xa0なし3LDK96.99m2', '13階40.8万円なし81.6万円\xa0/\xa0なし3LDK95.65m2', '3階12万円5,000円12万円\xa0/\xa012万円ワンルーム27.91m2', '12階45万円3万円45万円\xa0/\xa0なし1LDK52.05m23階19.4万円2万円19.4万円\xa0/\

In [52]:
# 物件画像・URLの抽出
property_image_element = soup.find(class_="building-box__summary-image")
property_image_url = property_image_element.img["src"] if property_image_element and property_image_element.img else None

In [53]:
property_image_url

'//img.door.ac/door-chintai/realestate/suumo/503/100378167503/100378167503_go.jpg/160x118-f1-q70-wp1'