# 東京のラーメン屋データの取得
* 食べログの東京の各エリアのランキングページのURLを取得
* ランキングページから店舗ページのURLを取得
* 店舗ページから店舗名、スコア、住所、最寄り駅、電話番号、営業時間、定休日、アイコン画像URL、緯度経度を取得

## 食べログの東京の各エリアのランキングページのURLを取得
`https://tabelog.com/tokyo/A13[01..31]/rstLst/ramen/[1..2]/?Srt=D&SrtT=rt&sort_mode=1`で生成できる  
確認方法：　食べログ→東京→エリア：銀座・新橋・有楽町、ジャンル：ラーメンを選択→ランキング順に並び替え

* A1301 銀座・新橋・有楽町
* A1302 東京・日本橋
* A1303 渋谷・恵比寿・代官山
* A1304 新宿・代々木・大久保
* A1305 池袋～高田馬場・早稲田
* A1306 原宿・表参道・青山
* A1307 六本木・麻布・広尾
* A1308 赤坂・永田町・溜池
* A1309 四ツ谷・市ヶ谷・飯田橋
* A1310 秋葉原・神田・水道橋
* A1311 上野・浅草・日暮里
* A1314 浜松町・田町・品川
* A1316 目黒・白金・五反田
* A1323 大塚・巣鴨・駒込・赤羽
* A1312 両国・錦糸町・小岩
* A1313 築地・湾岸・お台場
* A1315 大井・蒲田
* A1317 東急沿線
* A1318 京王・小田急沿線
* A1319 中野～西荻窪
* A1321 西武沿線
* A1322 板橋・東武沿線
* A1324 千住・綾瀬・葛飾
* A1320 吉祥寺・三鷹・武蔵境
* A1325 小金井・国分寺・国立
* A1326 調布・府中・狛江
* A1327 町田・稲城・多摩
* A1328 西東京市周辺
* A1329 立川市・八王子市周辺
* A1330 福生・青梅周辺
* A1331 伊豆諸島・小笠原

必要パッケージ
- pandas
- geopandas
- lxml
- requests

In [1]:
import os
import random
import time
from datetime import datetime

import lxml.html
import pandas as pd
import requests
from urllib.parse import urlparse, parse_qs


def print_element(e):
    print(lxml.html.tostring(e, encoding='utf-8').decode('utf-8'))

## データ取得処理の実装 

### ランキングページから店舗ページのURLを取得
以下の要素から取得できる

```
<div class="list-rst js-bookmark js-rst-cassette-wrap list-rst--ranking js-is-need-redirect js-done" data-detail-url="https://tabelog.com/tokyo/A1301/A130101/13228602/" data-rst-id="13228602">
```

In [2]:
target_url = "https://tabelog.com/tokyo/A1301/rstLst/ramen/1/?Srt=D&SrtT=rt&sort_mode=1"
target_html = requests.get(target_url).text

# domを取得
dom = lxml.html.fromstring(target_html)
dom

<Element html at 0x10c4c1080>

In [3]:
# div要素のdata-detail-url属性を取得
list_rst_url = dom.xpath('//div[contains(@class, "list-rst--ranking")]/@data-detail-url')
list_rst_url

['https://tabelog.com/tokyo/A1301/A130101/13228602/',
 'https://tabelog.com/tokyo/A1301/A130101/13164932/',
 'https://tabelog.com/tokyo/A1301/A130102/13046637/',
 'https://tabelog.com/tokyo/A1301/A130101/13118141/',
 'https://tabelog.com/tokyo/A1301/A130103/13119563/',
 'https://tabelog.com/tokyo/A1301/A130103/13156937/',
 'https://tabelog.com/tokyo/A1301/A130101/13164387/',
 'https://tabelog.com/tokyo/A1301/A130101/13214085/',
 'https://tabelog.com/tokyo/A1301/A130103/13260478/',
 'https://tabelog.com/tokyo/A1301/A130101/13092185/',
 'https://tabelog.com/tokyo/A1301/A130101/13002327/',
 'https://tabelog.com/tokyo/A1301/A130103/13156562/',
 'https://tabelog.com/tokyo/A1301/A130101/13230021/',
 'https://tabelog.com/tokyo/A1301/A130103/13262391/',
 'https://tabelog.com/tokyo/A1301/A130101/13171787/',
 'https://tabelog.com/tokyo/A1301/A130103/13194993/',
 'https://tabelog.com/tokyo/A1301/A130101/13004982/',
 'https://tabelog.com/tokyo/A1301/A130101/13193770/',
 'https://tabelog.com/tokyo/

In [4]:
def get_list_url(area_cd, num_pages=2):
    """
    area_cd: 1〜31
    """
    list_url = []
    for i in range(num_pages):
        page = i + 1
        target_url = f'https://tabelog.com/tokyo/A13{area_cd:02d}/rstLst/ramen/{page}/?Srt=D&SrtT=rt&sort_mode=1'
        target_html = requests.get(target_url).text
        dom = lxml.html.fromstring(target_html)
        list_url += dom.xpath('//div[contains(@class, "list-rst--ranking")]/@data-detail-url')
    return list_url

### 店舗情報取得
スコア
```
<span class="rdheader-rating__score-val-dtl">3.90</span>
```
  
最寄り駅
```
<dl class="rdheader-subinfo__item rdheader-subinfo__item--station">
...
              <span class="linktree__parent-target-text">東銀座駅</span>
...</dl>
```

アイコン画像
```
<meta property="og:image" content="https://tblg.k-img.com/resize/640x640c/restaurant/images/Rvw/145359/145359722.jpg?token=643eeb5&amp;api=v2">
```

店舗基本情報
* 店名
* 電話番号
* 住所
* 緯度経度
* 営業時間
* 定休日
* 席数

以下のテーブルから取得
```
<div id="rst-data-head" class="rstinfo-table">
```


In [5]:
list_url = get_list_url(1)
url = list_url[0]
print(url)
rst_html = requests.get(url).text

# domを取得
dom = lxml.html.fromstring(rst_html)
dom

https://tabelog.com/tokyo/A1301/A130101/13228602/


<Element html at 0x10c4c1120>

In [6]:
score = dom.xpath('//span[contains(@class, "rdheader-rating__score-val-dtl")]')[0].text
print(score)

3.90


In [7]:
station = dom.xpath('//dl[contains(@class, "rdheader-subinfo__item--station")]//span')[0].text
print(station)

東銀座駅


In [8]:
icon_url = dom.xpath('//meta[@property="og:image"]/@content')[0]
print(icon_url)

https://tblg.k-img.com/resize/640x640c/restaurant/images/Rvw/204768/5a7f394067d71f8ad488b3ad0733dcfd.jpg?token=49281d3&api=v2


In [9]:
rstinfo = dict([(r.xpath('normalize-space(th)'), r)
                for r in dom.xpath('//div[@class="rstinfo-table"]/table/tbody/tr')])
rstinfo

{'店名': <Element tr at 0x1147aea20>,
 '受賞・選出歴': <Element tr at 0x1147aea70>,
 'ジャンル': <Element tr at 0x1147aeac0>,
 '予約・ お問い合わせ': <Element tr at 0x1147aeb10>,
 '予約可否': <Element tr at 0x1147aeb60>,
 '住所': <Element tr at 0x1147aebb0>,
 '交通手段': <Element tr at 0x1147aec00>,
 '営業時間': <Element tr at 0x1147aec50>,
 '予算': <Element tr at 0x1147aeca0>,
 '予算（口コミ集計）': <Element tr at 0x1147aecf0>,
 '支払い方法': <Element tr at 0x1147aed40>,
 '席数': <Element tr at 0x1147aed90>,
 '個室': <Element tr at 0x1147aede0>,
 '貸切': <Element tr at 0x1147aee30>,
 '禁煙・喫煙': <Element tr at 0x1147aee80>,
 '駐車場': <Element tr at 0x1147aeed0>,
 '空間・設備': <Element tr at 0x1147aef20>,
 '利用シーン': <Element tr at 0x1147aef70>,
 'ホームページ': <Element tr at 0x1147aefc0>,
 '公式アカウント': <Element tr at 0x1147af010>,
 'オープン日': <Element tr at 0x1147af060>,
 'お店のPR': <Element tr at 0x1147af0b0>,
 '初投稿者': <Element tr at 0x1147af100>}

In [10]:
header = '店名'
name = rstinfo[header].xpath('normalize-space(td)')
print(name)

銀座 八五


In [12]:
header = '予約・ お問い合わせ'
tel = rstinfo[header].xpath('normalize-space(td)')
print(tel)

不明の為情報お待ちしております


In [13]:
header = '住所'
address = rstinfo[header].xpath('normalize-space(td/p)')
print(address)

東京都中央区銀座3-14-2 第一はなぶさビル 1F


In [14]:
map_url = rstinfo[header].xpath('td//img/@data-original')[0]
print(map_url)

https://maps.googleapis.com/maps/api/staticmap?channel=201000002&key=AIzaSyCFZGUaDWgiusOQeFpnVLT2uPM2R6Mq7J8&hl=ja&center=35.67054733872399,139.7701498842739&style=feature:landscape%7Celement:geometry%7Clightness:25&style=feature:poi%7Celement:geometry%7Clightness:25&style=feature:poi%7Celement:labels.icon%7Ccolor:0xd2d2d2&style=feature:poi%7Celement:labels.text.fill%7Ccolor:0x949499&style=feature:road%7Clightness:25&style=feature:road%7Celement:labels%7Csaturation:-100%7Clightness:40&style=feature:transit.station.airport%7Celement:geometry%7Clightness:25&style=feature:water%7Celement:geometry%7Clightness:25&markers=color:red%7C35.67054733872399,139.7701498842739&zoom=15&size=490x145&signature=Q4uy2Dw_yjvaS3ij8tDLEhT19To=


In [15]:
map_center = parse_qs(urlparse(map_url).query)['center'][0]
lat, lng = map_center.split(',')
print(lat, lng)

35.67054733872399 139.7701498842739


In [16]:
header = '営業時間'
open_time_list = [x.xpath('normalize-space(.)') for x in rstinfo[header].xpath('td/p')]
open_time_list

['営業時間',
 '11:00～ 当日の並び順でのご案内※当日分のスープがなくなり次第受付を終了いたします。12:30～ ご予約者様のご案内',
 '日曜営業',
 '定休日',
 '月曜日、火曜日（不定休）※定休日の最新情報は、twitterをご覧ください。']

In [17]:
open_time = ''
closed_days = ''
for i, x in enumerate(open_time_list):
    if len(open_time_list) > i + 1:
        if x == '営業時間':
            open_time = open_time_list[i + 1]
        elif x == '定休日':
            closed_days = open_time_list[i + 1]
print(open_time)
print(closed_days)

11:00～ 当日の並び順でのご案内※当日分のスープがなくなり次第受付を終了いたします。12:30～ ご予約者様のご案内
月曜日、火曜日（不定休）※定休日の最新情報は、twitterをご覧ください。


In [18]:
header = '席数'
sheets = rstinfo[header].xpath('normalize-space(td)')
print(sheets)

6席 （カウンターのみ）


In [19]:
# メソッドにまとめる
def get_rst_data(url, sleep_base=1):
    time.sleep(random.random() * sleep_base)
    dom = lxml.html.fromstring(requests.get(url).text)

    name = ''
    score = ''
    station = ''
    tel = ''
    address = ''
    latitude = ''
    longitude = ''
    open_time = ''
    closed_days = ''
    sheets = ''
    icon_url = ''

    # 店舗基本情報以外
    # スコア
    data = dom.xpath('//span[contains(@class, "rdheader-rating__score-val-dtl")]')
    if len(data) > 0:
        score = data[0].text

    # 最寄り駅
    data = dom.xpath('//dl[contains(@class, "rdheader-subinfo__item--station")]//span')
    if len(data) > 0:
        station = data[0].text

    # アイコン画像
    data = dom.xpath('//meta[@property="og:image"]/@content')
    if len(data) > 0:
        icon_url = data[0]

    # 店舗基本情報
    rstinfo = dict([(tr.xpath('normalize-space(th)'), tr)
                    for tr in dom.xpath('//div[@class="rstinfo-table"]/table/tbody/tr')])

    for header in rstinfo.keys():
        if header == '店名':
            name = rstinfo[header].xpath('normalize-space(td)')

        if header in ('お問い合わせ', '予約・ お問い合わせ'):
            tel = rstinfo[header].xpath('normalize-space(td)')

        if header == '住所':
            address = rstinfo[header].xpath('normalize-space(td/p)')

            map_url = rstinfo[header].xpath('td//img/@data-original')
            if len(map_url) > 0:
                map_center = parse_qs(urlparse(map_url[0]).query)['center'][0].split(',')
                latitude = map_center[0]
                longitude = map_center[1]

        if header in ('営業時間', '営業時間・定休日'):
            open_time_list = [x.xpath('normalize-space(.)') for x in rstinfo[header].xpath('td/p')]
            for i, x in enumerate(open_time_list):
                if len(open_time_list) > i + 1:
                    if x == '営業時間':
                        open_time = open_time_list[i + 1]
                    elif x == '定休日':
                        closed_days = open_time_list[i + 1]

        if header == '席数':
            sheets = rstinfo[header].xpath('normalize-space(td)')
    
    df = pd.DataFrame([[name, score, station, tel, address, latitude, longitude,
                        open_time, closed_days, sheets, url, icon_url]],
                      columns=['name', 'score', 'station', 'tel', 'address', 'latitude', 'longitude',
                               'open_time', 'closed_days', 'sheets', 'url', 'icon_url']).fillna('')
    return df

In [20]:
get_rst_data(url)

Unnamed: 0,name,score,station,tel,address,latitude,longitude,open_time,closed_days,sheets,url,icon_url
0,銀座 八五,3.9,東銀座駅,不明の為情報お待ちしております,東京都中央区銀座3-14-2 第一はなぶさビル 1F,35.67054733872399,139.7701498842739,11:00～ 当日の並び順でのご案内※当日分のスープがなくなり次第受付を終了いたします。12...,月曜日、火曜日（不定休）※定休日の最新情報は、twitterをご覧ください。,6席 （カウンターのみ）,https://tabelog.com/tokyo/A1301/A130101/13228602/,https://tblg.k-img.com/resize/640x640c/restaur...


## 一斉取得

In [21]:
list_url = []
for area_cd in range(1, 32):
    print('{}: {}'.format(datetime.now(), area_cd))
    list_url += get_list_url(area_cd, 2)

2023-11-20 01:54:35.461662: 1
2023-11-20 01:54:38.517551: 2
2023-11-20 01:54:40.610515: 3
2023-11-20 01:54:42.669831: 4
2023-11-20 01:54:44.920157: 5
2023-11-20 01:54:46.960929: 6
2023-11-20 01:54:49.236005: 7
2023-11-20 01:54:51.337425: 8
2023-11-20 01:54:54.004768: 9
2023-11-20 01:54:56.354276: 10
2023-11-20 01:54:58.566852: 11
2023-11-20 01:55:00.740388: 12
2023-11-20 01:55:02.979219: 13
2023-11-20 01:55:05.284234: 14
2023-11-20 01:55:07.619085: 15
2023-11-20 01:55:09.922194: 16
2023-11-20 01:55:12.427898: 17
2023-11-20 01:55:14.340571: 18
2023-11-20 01:55:17.560014: 19
2023-11-20 01:55:19.457168: 20
2023-11-20 01:55:21.873551: 21
2023-11-20 01:55:24.757236: 22
2023-11-20 01:55:27.800608: 23
2023-11-20 01:55:29.913692: 24
2023-11-20 01:55:32.145621: 25
2023-11-20 01:55:33.944875: 26
2023-11-20 01:55:35.930438: 27
2023-11-20 01:55:39.159673: 28
2023-11-20 01:55:41.718225: 29
2023-11-20 01:55:44.393550: 30
2023-11-20 01:55:47.160564: 31


In [22]:
data_dir = os.path.join(os.pardir, 'data')
os.makedirs(os.path.join(data_dir, 'rst_data'), exist_ok=True)
list_df = []
for i, url in enumerate(list_url):
    output_path = os.path.join(data_dir, 'rst_data', f'{i:04d}.csv')
    if os.path.exists(output_path):
        df = pd.read_csv(output_path)
    else:
        print(f'{datetime.now()}: {url} ({i+1}/{len(list_url)})')
        df = get_rst_data(url)
        df.to_csv(output_path, index=False)
    list_df.append(df)
df = pd.concat(list_df, ignore_index=True)
df.head()

2023-11-20 01:56:41.202979: https://tabelog.com/tokyo/A1301/A130101/13228602/ (1/1222)
2023-11-20 01:56:43.011944: https://tabelog.com/tokyo/A1301/A130101/13164932/ (2/1222)
2023-11-20 01:56:44.679560: https://tabelog.com/tokyo/A1301/A130102/13046637/ (3/1222)
2023-11-20 01:56:46.785477: https://tabelog.com/tokyo/A1301/A130101/13118141/ (4/1222)
2023-11-20 01:56:48.944073: https://tabelog.com/tokyo/A1301/A130103/13119563/ (5/1222)
2023-11-20 01:56:50.905602: https://tabelog.com/tokyo/A1301/A130103/13156937/ (6/1222)
2023-11-20 01:56:54.130699: https://tabelog.com/tokyo/A1301/A130101/13164387/ (7/1222)
2023-11-20 01:56:55.188296: https://tabelog.com/tokyo/A1301/A130101/13214085/ (8/1222)
2023-11-20 01:56:56.607819: https://tabelog.com/tokyo/A1301/A130103/13260478/ (9/1222)
2023-11-20 01:56:57.380356: https://tabelog.com/tokyo/A1301/A130101/13092185/ (10/1222)
2023-11-20 01:56:59.176354: https://tabelog.com/tokyo/A1301/A130101/13002327/ (11/1222)
2023-11-20 01:57:00.519762: https://tabel

Unnamed: 0,name,score,station,tel,address,latitude,longitude,open_time,closed_days,sheets,url,icon_url
0,銀座 八五,3.9,東銀座駅,不明の為情報お待ちしております,東京都中央区銀座3-14-2 第一はなぶさビル 1F,35.67054733872399,139.7701498842739,11:00～ 当日の並び順でのご案内※当日分のスープがなくなり次第受付を終了いたします。12...,月曜日、火曜日（不定休）※定休日の最新情報は、twitterをご覧ください。,6席 （カウンターのみ）,https://tabelog.com/tokyo/A1301/A130101/13228602/,https://tblg.k-img.com/resize/640x640c/restaur...
1,むぎとオリーブ 銀座本店,3.78,東銀座駅,03-3571-2123,東京都中央区銀座6-12-12 銀座ステラビル 1F,35.669003438723124,139.76436028426238,[月・火・木・金・土・日]11:00～15:30(L.O.)17:30～21:30(L.O.),水曜日,15席 （カウンター15席）,https://tabelog.com/tokyo/A1301/A130101/13164932/,https://tblg.k-img.com/resize/640x640c/restaur...
2,麺屋ひょっとこ 交通会館店,3.78,有楽町駅,03-3211-6002,東京都千代田区有楽町2-10-1 東京交通会館 B1F,35.67515998734628,139.76434281461283,[月～金]11:00～20:00[土・祝]11:00～19:00,日曜日,7席 （カウンター7席）,https://tabelog.com/tokyo/A1301/A130102/13046637/,https://tblg.k-img.com/resize/640x640c/restaur...
3,銀座 朧月（おぼろづき）,3.78,銀座駅,03-6280-6166,東京都中央区銀座6-3-5 第一高橋ビル 1F,35.67157833872055,139.7613825842905,【月・火・水・日祝】11:00～16:00 17:00～22:00【木・金・土】11:00〜...,無休,7席 （カウンターのみ）,https://tabelog.com/tokyo/A1301/A130101/13118141/,https://tblg.k-img.com/resize/640x640c/restaur...
4,麺処 銀笹（ぎんざさ）,3.78,築地市場駅,03-3543-0280,東京都中央区銀座8-15-2 藤ビル 1F,35.666224738724594,139.76342108423498,[月～金]11:30～15:0017:30～22:00(スープがなくなり次第営業終了)[土]...,日曜日、祝日,18席 （４人掛けテーブル４卓、２人掛けテーブル１卓）,https://tabelog.com/tokyo/A1301/A130103/13119563/,https://tblg.k-img.com/resize/640x640c/restaur...


In [23]:
df.to_csv(os.path.join(data_dir, 'store.csv'), index=False)