In [9]:
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select
import time


# 例外処理用のlibraryをimport
from selenium.common.exceptions import NoSuchElementException, WebDriverException
import sys

import pandas as pd
import numpy as np

## 都道府県ごとのランキングを取得する場合の関数

In [10]:
# 都道府県ごとのランキングデータフレームを作成する
def Pref_cycle(df_pref):
    for i in range(1, 48):
        # 都道府県ごとのデータ取得
        pref_element = driver.find_element(By.XPATH, '//div[@class="wrap"]/nav/div[@class="left"]/select[@name="state"]')
        # 都道府県のselect要素をselectオブジェクトへ変換
        pref_select = Select(pref_element)
        # オブジェクトからvalue属性のリストを作成する
        prefvalue_list = [pref.get_attribute('value') for pref in pref_select.options]
        # 都道府県の要素をドロップダウンから選択して
        pref_select.select_by_value(prefvalue_list[i])
        # 表示ボタンの要素を取得する
        viewer = driver.find_element(By.XPATH, '//div[@class="wrap"]/nav/div[@class="left"]/input[@class="formbtn"]')
        # 表示ボタンを押下してページ遷移を行う
        viewer.click()
        time.sleep(8)
        # top3の店のみ店名とポイントを取得
        store_name_top3 = driver.find_elements(By.XPATH, '//div[@class="ranks"]/ul[@id="honor"]/li/div[@class="name"]/span/a')
        store_point_top3 = driver.find_elements(By.XPATH, '//div[@class="ranks"]/ul[@id="honor"]/li/div[@class="point"]')
        
        # 取得したtop3の店名とポイント、詳細ページのurlをリスト形式で保存
        store_name_top3_list = [store_top3.text for store_top3 in store_name_top3]
        store_point_top3_list = [store_top3.text for store_top3 in store_point_top3]
        href_list_top3 = [ hrefs.get_attribute('href') for hrefs in store_name_top3]
        
        # top4~50の店名とポイントを取得
        store_name = driver.find_elements(By.XPATH, '//table[@class="rank"]/tbody/tr/td/span[@class="name"]/a')
        store_point = driver.find_elements(By.XPATH, '//table[@class="rank"]/tbody/tr/td[@class="point"]')

        # 取得したtop4~50の店名とポイント、詳細ページのurlをリスト形式で保存
        store_name_list = [store.text for store in store_name]
        store_point_list = [store.text for store in store_point]
        href_list = [hrefs.get_attribute('href') for hrefs in store_name]
        Top3_detail(store_name_top3_list, store_point_top3_list, href_list_top3, df_pref)
        Top4to50_detail(store_name_list, store_point_list, href_list, df_pref)

#絞込に従う、ランキングtop3店の詳細情報を取得する
def Top3_detail(name_list, points_list, href_list, df_pref):
    # top3の店から店舗詳細情報を取得
    for i in range(len(href_list)):
        # リストに保存したurlに遷移する
        # driver.get(href_list[i])
        safe_navigation(href_list[i])
        time.sleep(5)
        # 住所が登録されている要素を取得
        address = get_address()
        # 緯度経度の要素を取得する
        latitude,  longitude = get_map()
        # 駐車場の要素を取得。（classの登録がなかったため、テキスト部分で条件指定
        parking = get_parking()
        # 定休日の要素を取得。（classの登録がなかったため、テキスト部分で条件指定）
        holiday = get_holiday()
        mk_detail_list(name_list[i], points_list[i], address, latitude, longitude, parking, holiday, df_pref)
        
        
#絞込に従う、ランキングtop4~5店の詳細情報を取得する
def Top4to50_detail(name_list, points_list, href_list, df_pref):
    # top4~50の店から店舗詳細情報を取得
    for i in range(len(href_list)):
        # driver.get(href_list[i])
        safe_navigation(href_list[i])
        time.sleep(8)
        # 住所が登録されている要素を取得
        address = get_address()
        # 緯度経度の要素を取得する
        latitude,  longitude = get_map()
        # 駐車場の要素を取得。（classの登録がなかったため、テキスト部分で条件指定
        parking = get_parking()
        # 定休日の要素を取得。（classの登録がなかったため、テキスト部分で条件指定）
        holiday = get_holiday()
        mk_detail_list(name_list[i], points_list[i], address, latitude, longitude, parking, holiday, df_pref)
    # ランキングのページに戻り、都道府県のプルダウンを取得できるようにする
    driver.get('https://ramendb.supleks.jp/rank')
    time.sleep(8)
    
def get_address():
    try:
        address = driver.find_element(By.XPATH, '//tbody/tr/td/span[@itemprop="address"]').text
    # 住所が取得できなければ、Noneを取得
    except NoSuchElementException as e:
        address = None
    return address
        
def get_map():
    try:
        map_data = driver.find_element(By.ID, 'gpetitembedmap')
        map_data = map_data.get_attribute('src')
        # srcの要素値を緯度経度だけ切り離す
        # q= という文字が入るので、スライスで取り除く
        map_data = map_data.split('&')[1][2:]
        # 緯度経度に分割する
        map_data = map_data.split(',')
        latitude = map_data[0]
        longitude = map_data[1]
    # 緯度経度が取得できなければ、Noneを取得
    except NoSuchElementException as e:
        latitude = None
        longitude = None
    return latitude, longitude
        
def get_parking():
    try:
        th_element = driver.find_element(By.XPATH, '//tbody/tr/th[contains(text(), "駐車場")]')
        parking = th_element.find_element(By.XPATH, "./following-sibling::td").text
    except NoSuchElementException as e:
        parking = None
    return parking
        
def get_holiday():
    try:
        th_element = driver.find_element(By.XPATH, '//tbody/tr/th[contains(text(), "定休日")]')
        holiday = th_element.find_element(By.XPATH, "./following-sibling::td").text
    except NoSuchElementException as e:
        holiday = None
    return holiday

# 店舗名とポイント、店舗詳細を店舗ごとにリスト化する
def mk_detail_list(name, points, address, latitude, longitude, parking, holiday, df_pref):
    detail_list = [name]
    detail_list.append(points)
    detail_list.append(address)
    detail_list.append(latitude)
    detail_list.append(longitude)
    detail_list.append(parking)
    detail_list.append(holiday)
    
    df_pref.loc[len(df_pref)] = detail_list

### 詳細ページに遷移するための関数
* WebdriverExceptionが発生した場合に待機して、リロードを行う<br>
* webdriverExcdeptionに対する対応（仮）
5回リロードしても同じエラーが発生する場合には強制終了を行う

In [None]:
def safe_navigation(href, i = 0):
    try:
        driver.get(href)
        time.sleep(5)
    except WebDriverException as e:
        if i >=5:
            # 強制的に終了する
            try:
                sys.exit()
            except SystemExit:
                print('ページ遷移負荷のため、強制終了')
                raise
        print(f"Navigation error: {e}")
        i += 1
        safe_navigation(href,i)

## 分類ごとのランキングを取得する関数

In [4]:
# 分類ごとのランキング表を作成する
def Kind_cycle(kinds_another_list, pager):
    for i in pager:
        # 分類別ごとのデータ取得
        # 分類別、スープ別のselect要素を取得する
        kinds_sel_ele = driver.find_element(By.XPATH, '//select[@name="style"]')
        # 分類別の要素をオブジェクトへ変換する
        kinds_sel_obj = Select(kinds_sel_ele)
        # オブジェクトの、value属性のリストを作成する
        kinds_val_list = [kind.get_attribute('value') for kind in kinds_sel_obj.options]
        kinds_tex_list = [kind.text for kind in kinds_sel_obj.options]
        # 都道府県の要素をドロップダウンから選択して
        kinds_sel_obj.select_by_value(kinds_val_list[i])
        # 表示ボタンの要素を取得する
        viewer = driver.find_element(By.XPATH, '//div[@class="wrap"]/nav/div[@class="left"]/input[@class="formbtn"]')
        # 表示ボタンを押下してページ遷移を行う
        viewer.click()
        time.sleep(5)
        
        # top3の店のみ店名を取得
        store_name_top3 = driver.find_elements(By.XPATH, '//div[@class="ranks"]/ul[@id="honor"]/li/div[@class="name"]/span/a')

        # 取得したtop3の店名をリスト形式で保存
        store_name_top3_list = [store_top3.text for store_top3 in store_name_top3]
        
        # top4~50の店名を取得
        store_name = driver.find_elements(By.XPATH, '//table[@class="rank"]/tbody/tr/td/span[@class="name"]/a')

        # 取得したtop4~50の店名をリスト形式で保存
        store_name_list = [store.text for store in store_name]
        
        kinds_another_list.append(store_name_top3_list + store_name_list)
    
    # 種別ごとのランキングをカラムにするため、numpy形式に変換して転置する
    kinds_another_nplist = np.array(kinds_another_list).T
    return kinds_another_nplist, kinds_tex_list

## 都道府県ごとのランキングを取得したい場合に実行する

In [5]:
# Edgeドライバのインストール
pa = Service('../driver/msedgedriver.exe')
driver = webdriver.Edge(service=pa)

# 暗黙的な待機
driver.implicitly_wait(5)

driver.get('https://ramendb.supleks.jp/rank')

# # 都道府県ごとの人気店TOP50が知りたい場合は以下の団塊を用いる
# # データフレームの枠組みを作成する
columns_list_detail = ['name', 'point', 'address', 'latitude', 'longitude', 'parking', 'holiday']
df_pref = pd.DataFrame(columns = columns_list_detail)
Pref_cycle(df_pref)
pd.DataFrame('../data/pref_rank.csv')


    name   point                         address         latitude  \
0  麺屋 彩未  96.631  〒062-0010 北海道札幌市豊平区美園十条5丁目3-12  43.035250593806   

         longitude     parking            holiday  
0  141.38190865517  駐車場あり\n25台  月曜、火曜水曜の夜、月2回不定休有  
         name   point                         address         latitude  \
0       麺屋 彩未  96.631  〒062-0010 北海道札幌市豊平区美園十条5丁目3-12  43.035250593806   
1  ラーメン二郎 札幌店  95.179    〒060-0806 北海道札幌市北区北六条西8-8-11       43.0673949   

         longitude     parking            holiday  
0  141.38190865517  駐車場あり\n25台  月曜、火曜水曜の夜、月2回不定休有  
1      141.3438214       駐車場なし           日曜、祝日不定休  
          name   point                         address         latitude  \
0        麺屋 彩未  96.631  〒062-0010 北海道札幌市豊平区美園十条5丁目3-12  43.035250593806   
1   ラーメン二郎 札幌店  95.179    〒060-0806 北海道札幌市北区北六条西8-8-11       43.0673949   
2  すみれ 札幌中の島本店  94.225  〒062-0922 北海道札幌市豊平区中の島二条4-7-28  43.032554808437   

         longitude     parking            holiday  
0  141.38190865517  駐車場あり

KeyboardInterrupt: 

## 種類ごとのランキングが取得したい場合に実行する

In [46]:
# Edgeドライバのインストール
pa = Service('../driver/msedgedriver.exe')
driver = webdriver.Edge(service=pa)

# 暗黙的な待機
driver.implicitly_wait(5)

driver.get('https://ramendb.supleks.jp/rank')

# 種別ごとのTOP50の店名のリストを格納するリストを作成
kinds_another_list = []
# 実行するプルダウンのリスト
pager = [1,2,3,4,6,7,8,9,10,11,12,13,14,15,16]

kinds_another_nplist, kinds_tex_list = Kind_cycle(kinds_another_list, pager)

kinds_tex_list.remove('全て')
while "その他" in kinds_tex_list:
    kinds_tex_list.remove("その他")

# 取得した種類別のランキングをカラム別にcsv形式に変換
df_kindsrank = pd.DataFrame(kinds_another_nplist, columns = kinds_tex_list)
df_kindsrank.to_csv("../data/kinds_of_rank.csv",index=False)