# 東京のラーメン屋データの取得
* 食べログの東京の各エリアのランキングページのURLを取得
* ランキングページから店舗ページのURLを取得
* 店舗ページから店舗名、スコア、住所、最寄り駅、電話番号、営業時間、定休日、アイコン画像URL、緯度経度を取得

## 食べログの東京の各エリアのランキングページのURLを取得
`https://tabelog.com/tokyo/A13[01..31]/rstLst/ramen/[1..2]/?Srt=D&SrtT=rt&sort_mode=1`で生成できる  
確認方法：　食べログ→東京→エリア：銀座・新橋・有楽町、ジャンル：ラーメンを選択→ランキング順に並び替え

* A1301 銀座・新橋・有楽町
* A1302 東京・日本橋
* A1303 渋谷・恵比寿・代官山
* A1304 新宿・代々木・大久保
* A1305 池袋～高田馬場・早稲田
* A1306 原宿・表参道・青山
* A1307 六本木・麻布・広尾
* A1308 赤坂・永田町・溜池
* A1309 四ツ谷・市ヶ谷・飯田橋
* A1310 秋葉原・神田・水道橋
* A1311 上野・浅草・日暮里
* A1314 浜松町・田町・品川
* A1316 目黒・白金・五反田
* A1323 大塚・巣鴨・駒込・赤羽
* A1312 両国・錦糸町・小岩
* A1313 築地・湾岸・お台場
* A1315 大井・蒲田
* A1317 東急沿線
* A1318 京王・小田急沿線
* A1319 中野～西荻窪
* A1321 西武沿線
* A1322 板橋・東武沿線
* A1324 千住・綾瀬・葛飾
* A1320 吉祥寺・三鷹・武蔵境
* A1325 小金井・国分寺・国立
* A1326 調布・府中・狛江
* A1327 町田・稲城・多摩
* A1328 西東京市周辺
* A1329 立川市・八王子市周辺
* A1330 福生・青梅周辺
* A1331 伊豆諸島・小笠原

必要パッケージ
- pandas
- geopandas
- lxml
- requests

In [4]:
import os
import random
import time
from datetime import datetime

import lxml.html
import pandas as pd
import requests
from urllib.parse import urlparse, parse_qs


def print_element(e):
    print(lxml.html.tostring(e, encoding='utf-8').decode('utf-8'))

##　データ取得処理の実装 

### ランキングページから店舗ページのURLを取得
以下の要素から取得できる

```
<div class="list-rst js-bookmark js-rst-cassette-wrap list-rst--ranking js-is-need-redirect js-done" data-detail-url="https://tabelog.com/tokyo/A1301/A130101/13228602/" data-rst-id="13228602">
```

In [5]:
target_url = "https://tabelog.com/tokyo/A1301/rstLst/ramen/1/?Srt=D&SrtT=rt&sort_mode=1"
target_html = requests.get(target_url).text

# domを取得
dom = lxml.html.fromstring(target_html)
dom

<Element html at 0x10fb42180>

In [9]:
# div要素のdata-detail-url属性を取得
list_rst_url = dom.xpath('//div[contains(@class, "list-rst--ranking")]/@data-detail-url')
list_rst_url

['https://tabelog.com/tokyo/A1301/A130101/13228602/',
 'https://tabelog.com/tokyo/A1301/A130102/13046637/',
 'https://tabelog.com/tokyo/A1301/A130101/13164932/',
 'https://tabelog.com/tokyo/A1301/A130101/13118141/',
 'https://tabelog.com/tokyo/A1301/A130103/13156937/',
 'https://tabelog.com/tokyo/A1301/A130103/13119563/',
 'https://tabelog.com/tokyo/A1301/A130101/13164387/',
 'https://tabelog.com/tokyo/A1301/A130101/13197387/',
 'https://tabelog.com/tokyo/A1301/A130101/13092185/',
 'https://tabelog.com/tokyo/A1301/A130101/13031470/',
 'https://tabelog.com/tokyo/A1301/A130103/13143712/',
 'https://tabelog.com/tokyo/A1301/A130101/13054334/',
 'https://tabelog.com/tokyo/A1301/A130101/13171787/',
 'https://tabelog.com/tokyo/A1301/A130101/13230021/',
 'https://tabelog.com/tokyo/A1301/A130103/13139811/',
 'https://tabelog.com/tokyo/A1301/A130103/13156562/',
 'https://tabelog.com/tokyo/A1301/A130101/13002327/',
 'https://tabelog.com/tokyo/A1301/A130101/13004982/',
 'https://tabelog.com/tokyo/

In [13]:
def get_list_url(area_cd, num_pages=2):
    """
    area_cd: 1〜31
    """
    list_url = []
    for i in range(num_pages):
        page = i + 1
        target_url = f'https://tabelog.com/tokyo/A13{area_cd:02d}/rstLst/ramen/{page}/?Srt=D&SrtT=rt&sort_mode=1'
        target_html = requests.get(target_url).text
        dom = lxml.html.fromstring(target_html)
        list_url += dom.xpath('//div[contains(@class, "list-rst--ranking")]/@data-detail-url')
    return list_url

### 店舗情報取得
スコア
```
<span class="rdheader-rating__score-val-dtl">3.90</span>
```
  
最寄り駅
```
<dl class="rdheader-subinfo__item rdheader-subinfo__item--station">
...
              <span class="linktree__parent-target-text">東銀座駅</span>
...</dl>
```

アイコン画像
```
<meta property="og:image" content="https://tblg.k-img.com/resize/640x640c/restaurant/images/Rvw/145359/145359722.jpg?token=643eeb5&amp;api=v2">
```

店舗基本情報
* 店名
* 電話番号
* 住所
* 緯度経度
* 営業時間
* 定休日
* 席数

以下のテーブルから取得
```
<div id="rst-data-head" class="rstinfo-table">
```


In [14]:
print(url)

https://tabelog.com/tokyo/A1301/A130101/13228602/


In [16]:
list_url = get_list_url(1)
url = list_url[0]
print(url)
rst_html = requests.get(url).text

# domを取得
dom = lxml.html.fromstring(rst_html)
dom

https://tabelog.com/tokyo/A1301/A130101/13228602/


<Element html at 0x147198950>

In [18]:
score = dom.xpath('//span[contains(@class, "rdheader-rating__score-val-dtl")]')[0].text
print(score)

3.90


In [20]:
station = dom.xpath('//dl[contains(@class, "rdheader-subinfo__item--station")]//span')[0].text
print(station)

東銀座駅


In [22]:
icon_url = dom.xpath('//meta[@property="og:image"]/@content')[0]
print(icon_url)

https://tblg.k-img.com/resize/640x640c/restaurant/images/Rvw/145359/145359722.jpg?token=643eeb5&api=v2


In [23]:
rstinfo = dict([(r.xpath('normalize-space(th)'), r)
                for r in dom.xpath('//div[@class="rstinfo-table"]/table/tbody/tr')])
rstinfo

{'店名': <Element tr at 0x147c93180>,
 '受賞・選出歴': <Element tr at 0x147c939f0>,
 'ジャンル': <Element tr at 0x147aa4b30>,
 'お問い合わせ': <Element tr at 0x147aa45e0>,
 '予約可否': <Element tr at 0x147aa4db0>,
 '住所': <Element tr at 0x147aa4d10>,
 '交通手段': <Element tr at 0x147aa48b0>,
 '営業時間': <Element tr at 0x147aa4720>,
 '予算': <Element tr at 0x147aa49a0>,
 '予算（口コミ集計）': <Element tr at 0x147aa4ae0>,
 '支払い方法': <Element tr at 0x147aa4a90>,
 '席数': <Element tr at 0x147aa4860>,
 '個室': <Element tr at 0x147aa4ef0>,
 '貸切': <Element tr at 0x147aa4590>,
 '禁煙・喫煙': <Element tr at 0x147aa4ea0>,
 '駐車場': <Element tr at 0x147aa4e50>,
 '空間・設備': <Element tr at 0x147aa4bd0>,
 '携帯電話': <Element tr at 0x147aa4c70>,
 '利用シーン': <Element tr at 0x147aa44a0>,
 '公式アカウント': <Element tr at 0x147aa4f40>,
 'オープン日': <Element tr at 0x147aa43b0>,
 '電話番号': <Element tr at 0x147aa4b80>,
 '備考': <Element tr at 0x147aa49f0>,
 '初投稿者': <Element tr at 0x147aa4e00>}

In [25]:
header = '店名'
name = rstinfo[header].xpath('normalize-space(td)')
print(name)

銀座 八五（はちごう）


In [26]:
header = 'お問い合わせ'
tel = rstinfo[header].xpath('normalize-space(td)')
print(tel)

050-5596-6139


In [28]:
header = '住所'
address = rstinfo[header].xpath('normalize-space(td/p)')
print(address)

東京都中央区銀座3-14-2 第一はなぶさビル 1F


In [29]:
map_url = rstinfo[header].xpath('td//img/@data-original')[0]
print(map_url)

https://maps.googleapis.com/maps/api/staticmap?channel=201000002&key=AIzaSyCFZGUaDWgiusOQeFpnVLT2uPM2R6Mq7J8&hl=ja&center=35.67053669419104,139.77013782398055&style=feature:landscape%7Celement:geometry%7Clightness:25&style=feature:poi%7Celement:geometry%7Clightness:25&style=feature:poi%7Celement:labels.icon%7Ccolor:0xd2d2d2&style=feature:poi%7Celement:labels.text.fill%7Ccolor:0x949499&style=feature:road%7Clightness:25&style=feature:road%7Celement:labels%7Csaturation:-100%7Clightness:40&style=feature:transit.station.airport%7Celement:geometry%7Clightness:25&style=feature:water%7Celement:geometry%7Clightness:25&markers=color:red%7C35.67053669419104,139.77013782398055&zoom=15&size=490x145&signature=bSu2Zt0yBOO_A0mfN78C9AW6TbA=


In [30]:
map_center = parse_qs(urlparse(map_url).query)['center'][0]
lat, lng = map_center.split(',')
print(lat, lng)

35.67053669419104 139.77013782398055


In [32]:
header = '営業時間'
open_time_list = [x.xpath('normalize-space(.)') for x in rstinfo[header].xpath('td/p')]
open_time_list

['営業時間',
 '11：00~15：0017：00~21：00※スープがなくなり次第、営業終了とさせていただいております。',
 '日曜営業',
 '定休日',
 '［毎週水曜日］［第2第4木曜日］',
 '新型コロナウイルス感染拡大等により、営業時間・定休日が記載と異なる場合がございます。ご来店時は事前に店舗にご確認ください。']

In [34]:
open_time = ''
closed_days = ''
for i, x in enumerate(open_time_list):
    if len(open_time_list) > i + 1:
        if x == '営業時間':
            open_time = open_time_list[i + 1]
        elif x == '定休日':
            closed_days = open_time_list[i + 1]
print(open_time)
print(closed_days)

11：00~15：0017：00~21：00※スープがなくなり次第、営業終了とさせていただいております。
［毎週水曜日］［第2第4木曜日］


In [35]:
header = '席数'
sheets = rstinfo[header].xpath('normalize-space(td)')
print(sheets)

6席 （カウンターのみ）


In [38]:
# メソッドにまとめる
def get_rst_data(url, sleep_base=1):
    time.sleep(random.random() * sleep_base)
    dom = lxml.html.fromstring(requests.get(url).text)

    name = ''
    score = ''
    station = ''
    tel = ''
    address = ''
    latitude = ''
    longitude = ''
    open_time = ''
    closed_days = ''
    sheets = ''
    icon_url = ''

    # 店舗基本情報以外
    # スコア
    data = dom.xpath('//span[contains(@class, "rdheader-rating__score-val-dtl")]')
    if len(data) > 0:
        score = data[0].text

    # 最寄り駅
    data = dom.xpath('//dl[contains(@class, "rdheader-subinfo__item--station")]//span')
    if len(data) > 0:
        station = data[0].text

    # アイコン画像
    data = dom.xpath('//meta[@property="og:image"]/@content')
    if len(data) > 0:
        icon_url = data[0]

    # 店舗基本情報
    rstinfo = dict([(tr.xpath('normalize-space(th)'), tr)
                    for tr in dom.xpath('//div[@class="rstinfo-table"]/table/tbody/tr')])

    for header in rstinfo.keys():
        if header == '店名':
            name = rstinfo[header].xpath('normalize-space(td)')

        if header in ('お問い合わせ', '予約・ お問い合わせ'):
            tel = rstinfo[header].xpath('normalize-space(td)')

        if header == '住所':
            address = rstinfo[header].xpath('normalize-space(td/p)')

            map_url = rstinfo[header].xpath('td//img/@data-original')
            if len(map_url) > 0:
                map_center = parse_qs(urlparse(map_url[0]).query)['center'][0].split(',')
                latitude = map_center[0]
                longitude = map_center[1]

        if header in ('営業時間', '営業時間・定休日'):
            open_time_list = [x.xpath('normalize-space(.)') for x in rstinfo[header].xpath('td/p')]
            for i, x in enumerate(open_time_list):
                if len(open_time_list) > i + 1:
                    if x == '営業時間':
                        open_time = open_time_list[i + 1]
                    elif x == '定休日':
                        closed_days = open_time_list[i + 1]

        if header == '席数':
            sheets = rstinfo[header].xpath('normalize-space(td)')
    
    df = pd.DataFrame([[name, score, station, tel, address, latitude, longitude,
                        open_time, closed_days, sheets, url, icon_url]],
                      columns=['name', 'score', 'station', 'tel', 'address', 'latitude', 'longitude',
                               'open_time', 'closed_days', 'sheets', 'url', 'icon_url']).fillna('')
    return df

In [39]:
get_rst_data(url)

Unnamed: 0,name,score,station,tel,address,latitude,longitude,open_time,closed_days,sheets,url,icon_url
0,銀座 八五（はちごう）,3.9,東銀座駅,050-5596-6139,東京都中央区銀座3-14-2 第一はなぶさビル 1F,35.67053669419104,139.77013782398055,11：00~15：0017：00~21：00※スープがなくなり次第、営業終了とさせていただい...,［毎週水曜日］［第2第4木曜日］,6席 （カウンターのみ）,https://tabelog.com/tokyo/A1301/A130101/13228602/,https://tblg.k-img.com/resize/640x640c/restaur...


## 一斉取得

In [40]:
list_url = []
for area_cd in range(1, 32):
    print('{}: {}'.format(datetime.now(), area_cd))
    list_url += get_list_url(area_cd, 2)

2021-10-30 20:24:36.845774: 1
2021-10-30 20:24:40.190173: 2
2021-10-30 20:24:42.951527: 3
2021-10-30 20:24:45.801750: 4
2021-10-30 20:24:48.253831: 5
2021-10-30 20:24:51.243657: 6
2021-10-30 20:24:54.136493: 7
2021-10-30 20:24:57.483573: 8
2021-10-30 20:24:59.728683: 9
2021-10-30 20:25:02.393065: 10
2021-10-30 20:25:05.777287: 11
2021-10-30 20:25:09.365596: 12
2021-10-30 20:25:12.114941: 13
2021-10-30 20:25:14.765790: 14
2021-10-30 20:25:17.656316: 15
2021-10-30 20:25:21.038836: 16
2021-10-30 20:25:24.110391: 17
2021-10-30 20:25:26.664844: 18
2021-10-30 20:25:29.639933: 19
2021-10-30 20:25:32.063638: 20
2021-10-30 20:25:34.650016: 21
2021-10-30 20:25:37.423565: 22
2021-10-30 20:25:40.547859: 23
2021-10-30 20:25:43.876119: 24
2021-10-30 20:25:46.953332: 25
2021-10-30 20:25:50.206292: 26
2021-10-30 20:25:53.054852: 27
2021-10-30 20:25:55.816298: 28
2021-10-30 20:25:59.854263: 29
2021-10-30 20:26:02.199369: 30
2021-10-30 20:26:04.354526: 31


In [42]:
list_df = []
os.makedirs('rst_data', exist_ok=True)
for i, url in enumerate(list_url):
    output_path = os.path.join('rst_data', f'{i:04d}.csv')
    if os.path.exists(output_path):
        df = pd.read_csv(output_path)
    else:
        print(f'{datetime.now()}: {url} ({i+1}/{len(list_url)})')
        df = get_rst_data(url)
        df.to_csv(output_path, index=False)
    list_df.append(df)
df = pd.concat(list_df, ignore_index=True)
df.head()

2021-10-30 21:23:40.330421: https://tabelog.com/tokyo/A1318/A131814/13251905/ (703/1221)
2021-10-30 21:23:42.040451: https://tabelog.com/tokyo/A1318/A131802/13211061/ (704/1221)
2021-10-30 21:23:43.520094: https://tabelog.com/tokyo/A1318/A131813/13168809/ (705/1221)
2021-10-30 21:23:45.409085: https://tabelog.com/tokyo/A1318/A131813/13230833/ (706/1221)
2021-10-30 21:23:46.974556: https://tabelog.com/tokyo/A1318/A131809/13006577/ (707/1221)
2021-10-30 21:23:48.500452: https://tabelog.com/tokyo/A1318/A131802/13153756/ (708/1221)
2021-10-30 21:23:50.658373: https://tabelog.com/tokyo/A1318/A131812/13244253/ (709/1221)
2021-10-30 21:23:52.332441: https://tabelog.com/tokyo/A1318/A131813/13213425/ (710/1221)
2021-10-30 21:23:55.842231: https://tabelog.com/tokyo/A1318/A131813/13004773/ (711/1221)
2021-10-30 21:23:57.873932: https://tabelog.com/tokyo/A1318/A131809/13006620/ (712/1221)
2021-10-30 21:23:59.188343: https://tabelog.com/tokyo/A1318/A131805/13058306/ (713/1221)
2021-10-30 21:24:00.5

Unnamed: 0,name,score,station,tel,address,latitude,longitude,open_time,closed_days,sheets,url,icon_url
0,銀座 八五（はちごう）,3.9,東銀座駅,050-5596-6139,東京都中央区銀座3-14-2 第一はなぶさビル 1F,35.670537,139.770138,11：00~15：0017：00~21：00※スープがなくなり次第、営業終了とさせていただい...,［毎週水曜日］［第2第4木曜日］,6席 （カウンターのみ）,https://tabelog.com/tokyo/A1301/A130101/13228602/,https://tblg.k-img.com/resize/640x640c/restaur...
1,麺屋ひょっとこ 交通会館店,3.78,有楽町駅,03-3211-6002,東京都千代田区有楽町2-10-1 東京交通会館 B1F,35.67516,139.764343,[平日]11:00～20:00[土]11:00～19:00※売り切れ次第終了,日・祝,7席 （カウンターのみ）,https://tabelog.com/tokyo/A1301/A130102/13046637/,https://tblg.k-img.com/resize/640x640c/restaur...
2,むぎとオリーブ 銀座店,3.78,東銀座駅,03-3571-2123,東京都中央区銀座6-12-12 銀座ステラビル 1F,35.668956,139.764284,【平日】11:30～22:30 (LO22:00)【土・日・祝】11:00～22:30 (L...,,15席 （カウンター15席）,https://tabelog.com/tokyo/A1301/A130101/13164932/,https://tblg.k-img.com/resize/640x640c/restaur...
3,銀座 朧月（おぼろづき）,3.78,銀座駅,03-6280-6166,東京都中央区銀座6-3-5 第一高橋ビル 1F,35.671581,139.761402,【月〜日】昼の部：11:30～15:30夜の部：17:30～22:00※スープがなくなり次第終了,不定休,7席 （カウンターのみ）,https://tabelog.com/tokyo/A1301/A130101/13118141/,https://tblg.k-img.com/resize/640x640c/restaur...
4,新橋 纏（まとい）,3.77,新橋駅,03-3436-6003,東京都港区新橋3-13-2 IKENO-5 1F,35.665866,139.756298,【平日】11:00～15:0017:30～22:00【土】11:00～15:0017:30～...,無休,9席 （カウンター席のみ）,https://tabelog.com/tokyo/A1301/A130103/13156937/,https://tblg.k-img.com/resize/640x640c/restaur...


In [43]:
df.to_csv('./store.csv', index=False)