# 三菱地所のウェブサイトから物件情報を取得する

## BeautifulSoupを使う

Referrence: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [1]:
from bs4 import BeautifulSoup
import requests

In [2]:
# とりあえず新丸ビルのURLを指定する
url = 'https://office.mec.co.jp/search/detail/928/'

In [3]:
# HTTPリクエスト(GET)を発行する
# 参考： https://qiita.com/r_fukuma/items/a9e8d18467fe3e04068e
r = requests.get(url)

In [4]:
# BeautifulSoupでパースする
soup = BeautifulSoup(r.text, 'html.parser')

In [5]:
# データを見てみる。これが新丸ビルのページ
soup

<!DOCTYPE html>

<!--[if lt IE 7]><html lang="ja" dir="ltr" class="no-js ie6 oldie"><![endif]-->
<!--[if IE 7]><html lang="ja" dir="ltr" class="no-js ie7 oldie"><![endif]-->
<!--[if IE 8]><html lang="ja" dir="ltr" class="no-js ie8 oldie"><![endif]-->
<!--[if IE 9]><html lang="ja" dir="ltr" class="no-js ie9"><![endif]-->
<!--[if (gt IE 9)|!(IE)]><!--><html class="no-js" dir="ltr" lang="ja"><!--<![endif]--><head>
<meta charset="utf-8"/>
<meta content="width=device-width,minimum-scale=1.0,maximum-scale=10.0,user-scalable=yes,initial-scale=1.0" name="viewport"/>
<meta content="三菱地所,オフィス,オフィス情報,オフィスビル,賃貸オフィス,賃貸事務所,小規模オフィス,丸の内,大手町,有楽町" name="keywords"/>
<meta content="【三菱地所公式】「新丸の内ビルディング（新丸ビル、新丸の内ビル）」のオフィスビル概要・アクセス・物件詳細、空室・事務所賃貸情報などをご覧いただけます。" name="description"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible">
<link href="/assets/css/common/cmn_layout.css" media="all" rel="stylesheet" type="text/css"/>
<link href="/assets/css/common/cmn_style.css" media="all" rel="stylesheet" type="te

In [6]:
# 物件名称を取得するために<title>タグを取ってくる
soup.select('title')

[<title>新丸の内ビルディング（新丸ビル、新丸の内ビル） | 三菱地所オフィス情報</title>,
 <title>飲食施設充実</title>,
 <title>小規模面積あり</title>,
 <title>雨に濡れない</title>,
 <title>VIP対応（車寄せ、単独EV）</title>,
 <title>BCP充実</title>,
 <title>セキュリティーゲート有/設置可</title>,
 <title>土日開館</title>]

In [7]:
# どうやら配列の一番最初の項目が物件名称っぽいので取ってくる
soup.select('title')[0]

<title>新丸の内ビルディング（新丸ビル、新丸の内ビル） | 三菱地所オフィス情報</title>

In [8]:
# 中の文字列だけ取ってくる
soup.select('title')[0].string

'新丸の内ビルディング（新丸ビル、新丸の内ビル） | 三菱地所オフィス情報'

In [9]:
# | 以降が邪魔なので、' | 'で分割してみる
soup.select('title')[0].string.split(' | ')

['新丸の内ビルディング（新丸ビル、新丸の内ビル）', '三菱地所オフィス情報']

In [10]:
# 最初のやつが物件名称なので取ってきて name という変数に入れる
name = soup.select('title')[0].string.split(' | ')[0]
name

'新丸の内ビルディング（新丸ビル、新丸の内ビル）'

In [11]:
# 次に、延床面積と有効面積はどうやら<dt><dd>タグに入ってるっぽいから取ってくる
dts = soup.select('dt')
dds = soup.select('dd')

In [12]:
# dtsの中身を見てみる
dts

[<dt>所在地</dt>,
 <dt>竣工年月</dt>,
 <dt>規模</dt>,
 <dt>アクセス</dt>,
 <dt>ショップサイト</dt>,
 <dt>床面積</dt>,
 <dt>床荷重</dt>,
 <dt>天井高</dt>,
 <dt>コンセント容量</dt>,
 <dt>OAフロア</dt>,
 <dt>トイレ</dt>,
 <dt>給湯室</dt>,
 <dt>所在地</dt>,
 <dt>アクセス</dt>,
 <dt>ビル名称</dt>,
 <dt>所在地</dt>,
 <dt>アクセス</dt>,
 <dt>竣工年月</dt>,
 <dt>規模</dt>,
 <dt>構造</dt>,
 <dt>延床面積</dt>,
 <dt>有効面積</dt>,
 <dt>敷地面積</dt>,
 <dt>建物高さ</dt>,
 <dt>設計監理</dt>,
 <dt>エレベーター</dt>,
 <dt>空調設備</dt>,
 <dt>基準冷暖房供給<br/>時間（事務所）</dt>,
 <dt>リフレッシュコーナー</dt>,
 <dt>通信インフラ</dt>,
 <dt>開閉館時間</dt>,
 <dt>管理形態</dt>,
 <dt>夜間入退館方法</dt>,
 <dt>ガレージ収容台数</dt>,
 <dt>ガレージ営業時間</dt>,
 <dt>公式ホームページ</dt>,
 <dt>おすすめ物件情報</dt>]

In [13]:
# ddsも見てみる
dds

[<dd>東京都千代田区丸の内１－５－１</dd>,
 <dd>2007年4月 (平成19年4月)</dd>,
 <dd>地上 38階・地下 4階・塔屋 1階</dd>,
 <dd>JR、東京メトロ丸ノ内線「東京駅」直結</dd>,
 <dd class="txt_linkMap01"><a href="
 http://www.marunouchi.com/top/shinmaru" target="_blank">
 http://www.marunouchi.com/top/shinmaru</a></dd>,
 <dd>2,900.00㎡ (877.25坪)～3,200.00㎡ (968.00坪)</dd>,
 <dd>標準 500kg/㎡　特別　800kg/㎡</dd>,
 <dd>2,850mm（ＯＡフロア設置後）</dd>,
 <dd>75VA/㎡</dd>,
 <dd>有　高さ150mm<br>特殊階　天井高：3,000mm＋OAフロア300mm<br/>コア区画は別</br></dd>,
 <dd>男女各1カ所</dd>,
 <dd>各2カ所</dd>,
 <dd><p>東京都千代田区丸の内１－５－１</p></dd>,
 <dd><p>JR、東京メトロ丸ノ内線「東京駅」直結</p></dd>,
 <dd>新丸の内ビルディング</dd>,
 <dd>東京都千代田区丸の内１－５－１</dd>,
 <dd>JR、東京メトロ丸ノ内線「東京駅」直結</dd>,
 <dd>2007年4月 (平成19年4月)</dd>,
 <dd>地上 38階・地下 4階・塔屋 1階</dd>,
 <dd>鉄骨造・一部鉄骨鉄筋コンクリート造</dd>,
 <dd>193,685.62㎡ (58,589.90坪)</dd>,
 <dd>97,750.53㎡ (29,569.54坪)</dd>,
 <dd>9,983.09㎡ (3,019.88坪)</dd>,
 <dd>最高軒高 176.7ｍ 最高部 197.6ｍ</dd>,
 <dd>三菱地所設計</dd>,
 <dd>乗用 32台　貨物用 2台</dd>,
 <dd>フロア毎に複数ゾーニング可<br/>２４時間供給可能</dd>,
 <dd>平日 8:30~19:00<br>土曜 設定無し<br/>日祝 設定無し</br><

In [14]:
# dtsとddsを対応させて、{'key': 'value'}という辞書を作ってresultsという変数に入れる
results = {
    k.text: v.text for k, v in zip(dts, dds)
}
results

{'所在地': '東京都千代田区丸の内１－５－１',
 '竣工年月': '2007年4月 (平成19年4月)',
 '規模': '地上 38階・地下 4階・塔屋 1階',
 'アクセス': 'JR、東京メトロ丸ノ内線「東京駅」直結',
 'ショップサイト': '\r\nhttp://www.marunouchi.com/top/shinmaru',
 '床面積': '2,900.00㎡ (877.25坪)～3,200.00㎡ (968.00坪)',
 '床荷重': '標準 500kg/㎡\u3000特別\u3000800kg/㎡',
 '天井高': '2,850mm（ＯＡフロア設置後）',
 'コンセント容量': '75VA/㎡',
 'OAフロア': '有\u3000高さ150mm特殊階\u3000天井高：3,000mm＋OAフロア300mmコア区画は別',
 'トイレ': '男女各1カ所',
 '給湯室': '各2カ所',
 'ビル名称': '新丸の内ビルディング',
 '構造': '鉄骨造・一部鉄骨鉄筋コンクリート造',
 '延床面積': '193,685.62㎡ (58,589.90坪)',
 '有効面積': '97,750.53㎡ (29,569.54坪)',
 '敷地面積': '9,983.09㎡ (3,019.88坪)',
 '建物高さ': '最高軒高 176.7ｍ 最高部 197.6ｍ',
 '設計監理': '三菱地所設計',
 'エレベーター': '乗用 32台\u3000貨物用 2台',
 '空調設備': 'フロア毎に複数ゾーニング可２４時間供給可能',
 '基準冷暖房供給時間（事務所）': '平日 8:30~19:00土曜 設定無し日祝 設定無し',
 'リフレッシュコーナー': '有',
 '通信インフラ': '光ファイバ敷設済高速インターネットサービス利用可',
 '開閉館時間': '平日 6:00-24:30土曜 Closed日祝 Closed',
 '管理形態': '２４時間有人管理',
 '夜間入退館方法': 'カードによる入退館',
 'ガレージ収容台数': '368台 (高さ 3,000mm)',
 'ガレージ営業時間': '全日 24hours定期契約車は24時間入出庫可',
 '公式ホームページ': '\r\nhttp://w

In [15]:
# results['key']で value を取得できるので、所在地、延床面積、有効面積を取得する
address = results['所在地']
gfa = results['延床面積']
nla = results['有効面積']

In [16]:
address

'東京都千代田区丸の内１－５－１'

In [17]:
gfa

'193,685.62㎡ (58,589.90坪)'

In [18]:
nla

'97,750.53㎡ (29,569.54坪)'

In [19]:
# GFAとNLAは㎡以降が邪魔なので、㎡でsplitとして最初の要素を取得する
gfa = results['延床面積'].split('㎡')[0]
nla = results['有効面積'].split('㎡')[0]

print(gfa)
print(nla)

193,685.62
97,750.53


In [20]:
# 小数(float)にするために','を''(空文字)に変換する
gfa = results['延床面積'].split('㎡')[0].replace(',', '')
nla = results['有効面積'].split('㎡')[0].replace(',', '')

print(gfa)
print(nla)

193685.62
97750.53


In [21]:
# 小数に変更する
gfa = float(results['延床面積'].split('㎡')[0].replace(',', ''))
nla = float(results['有効面積'].split('㎡')[0].replace(',', ''))

print(gfa)
print(nla)

193685.62
97750.53


In [22]:
import pandas as pd
pd.set_option("display.max_rows", None)

In [23]:
# 一つデータフレームを作ってみる
data = pd.DataFrame({
      '物件名称': [name],
      '所在地': [address],
      '延床面積': [gfa],
      '有効面積': [nla]
  })
data

Unnamed: 0,物件名称,所在地,延床面積,有効面積
0,新丸の内ビルディング（新丸ビル、新丸の内ビル）,東京都千代田区丸の内１－５－１,193685.62,97750.53


## 全ての物件情報を取得してDataFrameに入れる

In [None]:
import re

In [35]:
# トップページ
url = 'https://office.mec.co.jp/search/lineup/'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')

# 'detail'という文字列を含むhrefを全て取得する
links = soup.find_all(href=re.compile("detail"))

detail_urls = []
# detailのリンク部分をデータフレームで渡す
for link in links:
    if 'href' in link.attrs:
        name = link.text.replace('\n', '')
        url = link.attrs['href']
        data = pd.DataFrame({
            'name': [name],
            'detail': [url]
        })
        detail_urls.append(data)
detail_urls = pd.concat(detail_urls)
detail_urls = detail_urls.drop_duplicates(subset=['detail'])

# urlのリストを作成する
urls = []
for url in detail_urls['detail']:
    url = 'https://office.mec.co.jp' + url
    data = pd.DataFrame({
        'url': [url]
    })
    urls.append(data)
urls = pd.concat(urls)

urls.head()

Unnamed: 0,url
0,https://office.mec.co.jp/search/detail/Z02/
0,https://office.mec.co.jp/search/detail/5C6/
0,https://office.mec.co.jp/search/detail/5D1/
0,https://office.mec.co.jp/search/detail/5J1/
0,https://office.mec.co.jp/search/detail/848/


In [36]:
# 空の配列を作ってこれにデータを入れていく
df = []

# for文で順番に処理する
for url in urls['url']:
    # 今何の処理をしているか表示する
    
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'html.parser')
    
    name = soup.select('title')[0].string.split(' | ')[0]
    
    dts = soup.select('dt')
    dds = soup.select('dd')
    results = {
        k.text: v.text for k, v in zip(dts, dds)
    }
    
    address = results['所在地']
    gfa = float(results.get('延床面積', "0").split('㎡')[0].replace(",", ""))
    nla = float(results.get('有効面積', "0").split('㎡')[0].replace(",", ""))
    
    data = pd.DataFrame({
        '物件名称': [name],
        '所在地': [address],
        '延床面積': [gfa],
        '有効面積': [nla]
    })
    
    # さっき作った空の配列にデータを入れていく
    df.append(data)
    
    print("物件名: %s" % name)

df = pd.concat(df)

物件名: 丸の内二重橋ビル
物件名: 大手町パークビルディング（大手町パーク）
物件名: 大手町フィナンシャルシティグランキューブ（グランキューブ）
物件名: 東京駅前常盤橋プロジェクトＡ棟
物件名: 大名古屋ビルヂング
物件名: 丸の内二丁目ビル（丸二）
物件名: 丸の内仲通りビル（丸仲）
物件名: 三菱ビル
物件名: 岸本ビル
物件名: 新東京ビル（新東京、新東）
物件名: 新国際ビル（新国際）
物件名: 国際ビル（国際）
物件名: 新日石ビル（新日石）
物件名: パレスビル
物件名: 丸の内永楽ビルディング（永楽）
物件名: 丸の内北口ビルディング（丸北、北口ビル）
物件名: 丸の内ビルディング（丸ビル）
物件名: 日本工業倶楽部会館・三菱ＵＦＪ信託銀行本店ビル
物件名: 明治安田生命ビル
物件名: 東京ビルディング（東ビル）
物件名: 新丸の内ビルディング（新丸ビル、新丸の内ビル）
物件名: 丸の内パークビルディング（丸の内パーク）
物件名: ＪＰタワー（JP）
物件名: 新有楽町ビル（新有楽）
物件名: 有楽町ビル（有楽）
物件名: 有楽町電気ビル（有電）
物件名: 西新橋スクエア
物件名: 大手町ビル
物件名: 新大手町ビル（新大手）
物件名: ＪＦＥ商事ビル
物件名: 大手門タワー
物件名: 経団連会館
物件名: 朝日生命大手町ビル
物件名: 大手町フィナンシャルシティノースタワー（フィナンシャルノース）
物件名: 大手町フィナンシャルシティサウスタワー（フィナンシャルサウス）
物件名: ＪＡビル（ＪＡ）
物件名: 大和呉服橋ビル（呉服橋）
物件名: 日比谷国際ビル（日比国）
物件名: 英全ビルディング（英全ビル）
物件名: 二番町ガーデン
物件名: 山王パークタワー（山王パーク）
物件名: 山王グランドビル（山王グランド）
物件名: 千代田一番町ビル
物件名: 半蔵門ビル
物件名: 神田橋パークビル（神田橋パーク）
物件名: 二番町センタービル（二番町センター）
物件名: 青山ビル
物件名: 三田国際ビル（三田国）
物件名: 新青山ビル（新青）
物件名: 赤坂パークビル（赤パ）
物件名: 新川三幸ビル
物件名: 国際新赤坂ビル（国際新赤坂）
物件名: 茅場町グリーンビル
物件名: 菱進御成門ビル（フロントプレイス御成門）
物件名: 三菱ケミカル日本橋

In [37]:
# DataFrameを確認する
df

Unnamed: 0,物件名称,所在地,延床面積,有効面積
0,丸の内二重橋ビル,東京都千代田区丸の内３－２－３,0.00,0.00
0,大手町パークビルディング（大手町パーク）,東京都千代田区大手町１－１－１,151708.02,69027.23
0,大手町フィナンシャルシティグランキューブ（グランキューブ）,東京都千代田区大手町一丁目９番２号,193800.00,129700.73
0,東京駅前常盤橋プロジェクトＡ棟,東京都千代田区大手町二丁目、中央区八重洲一丁目,146000.00,0.00
0,大名古屋ビルヂング,愛知県名古屋市中村区名駅三丁目２８番１２号,148073.19,81176.10
0,丸の内二丁目ビル（丸二）,東京都千代田区丸の内２－５－１,45985.39,31086.43
0,丸の内仲通りビル（丸仲）,東京都千代田区丸の内２－２－３,46102.20,29226.05
0,三菱ビル,東京都千代田区丸の内２－５－２,60434.55,37242.25
0,岸本ビル,東京都千代田区丸の内２－２－１,33972.00,8741.77
0,新東京ビル（新東京、新東）,東京都千代田区丸の内３－３－１,102768.18,71710.17


## データを整形する

In [38]:
# 二重橋ビルの面積がゼロなの気になる。。。
df[df.物件名称 == '丸の内二重橋ビル']

Unnamed: 0,物件名称,所在地,延床面積,有効面積
0,丸の内二重橋ビル,東京都千代田区丸の内３－２－３,0.0,0.0


In [39]:
# https://office.mec.co.jp/news_file/25/mec181121_nijjubashi.pdf
# 延床面積はどうやら 174054.18 ㎡っぽいので代入する
df.loc[df.物件名称 == '丸の内二重橋ビル', '延床面積'] = 174054.18

In [40]:
# 同様に、常盤橋PJが地番っぽいので、とりあえず旧JXビルの住所を入れておく
df.loc[df.物件名称 == '東京駅前常盤橋プロジェクトＡ棟', '所在地'] = '東京都千代田区大手町2-6-3'

In [48]:
df
df.to_csv('address.csv', sep=',')

In [42]:
# df にインデックスをつける
df = df.reset_index(drop=True)
df

Unnamed: 0,物件名称,所在地,延床面積,有効面積
0,丸の内二重橋ビル,東京都千代田区丸の内３－２－３,174054.18,0.00
1,大手町パークビルディング（大手町パーク）,東京都千代田区大手町１－１－１,151708.02,69027.23
2,大手町フィナンシャルシティグランキューブ（グランキューブ）,東京都千代田区大手町一丁目９番２号,193800.00,129700.73
3,東京駅前常盤橋プロジェクトＡ棟,東京都千代田区大手町2-6-3,146000.00,0.00
4,大名古屋ビルヂング,愛知県名古屋市中村区名駅三丁目２８番１２号,148073.19,81176.10
5,丸の内二丁目ビル（丸二）,東京都千代田区丸の内２－５－１,45985.39,31086.43
6,丸の内仲通りビル（丸仲）,東京都千代田区丸の内２－２－３,46102.20,29226.05
7,三菱ビル,東京都千代田区丸の内２－５－２,60434.55,37242.25
8,岸本ビル,東京都千代田区丸の内２－２－１,33972.00,8741.77
9,新東京ビル（新東京、新東）,東京都千代田区丸の内３－３－１,102768.18,71710.17


## 事前に緯度経度を準備しておきました

In [54]:
df = pd.read_csv('latlon.csv')
df

Unnamed: 0,物件名称,所在地,延床面積,有効面積,latitude,longitude
0,丸の内二重橋ビル,東京都千代田区丸の内３－２－３,174054.18,0.0,35.677327,139.761409
1,大手町パークビルディング（大手町パーク）,東京都千代田区大手町１－１－１,151708.02,69027.23,35.686742,139.762594
2,大手町フィナンシャルシティグランキューブ（グランキューブ）,東京都千代田区大手町一丁目９番２号,193800.0,129700.73,35.688412,139.764639
3,東京駅前常盤橋プロジェクトＡ棟,東京都千代田区大手町2-6-3,146000.0,0.0,35.684012,139.769952
4,大名古屋ビルヂング,愛知県名古屋市中村区名駅三丁目２８番１２号,148073.19,81176.1,35.172129,136.884556
5,丸の内二丁目ビル（丸二）,東京都千代田区丸の内２－５－１,45985.39,31086.43,35.679951,139.763231
6,丸の内仲通りビル（丸仲）,東京都千代田区丸の内２－２－３,46102.2,29226.05,35.680115,139.762672
7,三菱ビル,東京都千代田区丸の内２－５－２,60434.55,37242.25,35.679826,139.763647
8,岸本ビル,東京都千代田区丸の内２－２－１,33972.0,8741.77,35.680087,139.761997
9,新東京ビル（新東京、新東）,東京都千代田区丸の内３－３－１,102768.18,71710.17,35.677379,139.762911


In [55]:
# CSVに保存する
df.to_csv('mec_property.csv', sep=',')