In [4]:
!pip install webdriver_manager



In [1]:
import time
import os
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException, TimeoutException
import pandas as pd
import datetime

def main(urls):

    # ドライバ準備
    chrome_options = webdriver.ChromeOptions()
    #Program Files (x86)配下のバージョンの低いChromeを参照しに行ってバージョン非対応と怒られたので、新しいバージョンのChromeアプリにPathを通す
    chrome_options.binary_location = r"C:\Program Files\Google\Chrome\Application\chrome.exe" 
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=chrome_options)
    
    all_reviews = []
    try:
        for url in urls:
            
            # アクセス
            print("スクレイピング開始: ", url)
            driver.get("https://review.kakaku.com/review/" + url + "#tab")
            
            # レビュー抽出
            all_reviews.extend(get_review(driver))

            # ページング処理
            while True:
                try:
                    # ボタンが存在するかチェック
                    load_more_button = driver.find_element(By.CLASS_NAME, 'arrowNext01')
                    load_more_button.click()
                    
                    # 読み込み待機
                    time.sleep(2)
                    
                    # 取得
                    all_reviews.extend(get_review(driver))

                except NoSuchElementException:
                    print("スクレイピング完了")
                    break
                except TimeoutException:
                    print("タイムアウト発生")
                    break

    finally:
        driver.quit()

    # 保存先ディレクトリの指定と作成
    output_dir = os.path.join(os.path.dirname(os.path.abspath(__file__)), '..', 'Output') #1個上の階層にあるOutputフォルダに格納
    os.makedirs(output_dir, exist_ok=True)
    
    # ファイル名生成
    now = datetime.datetime.now()
    file_name = os.path.join(output_dir, 'kakakucom_reviews_{}.xlsx'.format(now.strftime('%Y%m%d_%H%M%S')))

    # 保存
    df = pd.DataFrame(all_reviews)
    df.to_excel(file_name, index=False)
    print("Saved to", file_name)   
    

def get_review(driver):
    reviews = []
    
    review_elements = driver.find_elements(By.CLASS_NAME, 'reviewBox')
    for elem in review_elements:
        
        # パンくずリスト
        try:
            breadcrumbs = elem.find_element(By.CLASS_NAME, 'breadcrumbs').text
        except NoSuchElementException:
            breadcrumbs = ""
        
        # 名前
        try:
            user_name = elem.find_element(By.CLASS_NAME, 'userName').text
        except NoSuchElementException:
            user_name = ""
        
        # 投稿日
        try:
            entry_date = elem.find_element(By.CLASS_NAME, 'entryDate').text
        except NoSuchElementException:
            entry_date = ""
        
        # レビュー本文
        try:
            review_content = elem.find_element(By.CLASS_NAME, 'revEntryCont').text
        except NoSuchElementException:
            review_content = ""
            
        # レーティング
        ratings = {}
        try:
            rating_elements = elem.find_elements(By.XPATH, './/div[@class="revRateBox type2"]//table//tr')
            for rating in rating_elements:
                rating_category = rating.find_element(By.TAG_NAME, 'th').text
                rating_value = rating.find_element(By.TAG_NAME, 'td').text
                ratings[rating_category] = rating_value                
        except NoSuchElementException:
            print("error")
            
        print(ratings)
        reviews.append({
            "url": driver.current_url,
            "breadcrumbs": breadcrumbs,
            "user_name": user_name,
            "entry_date": entry_date,
            "review_content": review_content,
            **ratings
        })
    
    return reviews


# url_list = pd.read_csv('./metadata_for_import_all.csv')
# urls = url_list['url'].values.tolist()
# url_chunks = chunk_list(urls, 30)
# for i, url_chunk in enumerate(url_chunks):
#     print(f'{i}回目のファイル出力処理開始')
#     main(url_chunk)
    
urls = [
    "M0000001024"
]
main(urls)


スクレイピング開始:  M0000001024
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 256GB docomo
 > 
iPhone 15 256GB docomo [ブルー]
{'満足度': '3', 'デザイン': '5', '携帯性': '3', 'レスポンス': '5', '画面表示': '5', 'バッテリー': '5', 'カメラ': '5'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 128GB SIMフリー
 > 
iPhone 15 128GB SIMフリー [ピンク]
{'満足度': '4', 'デザイン': '4', '携帯性': '3', 'レスポンス': '4', '画面表示': '4', 'バッテリー': '4', 'カメラ': '4'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 128GB SIMフリー
 > 
iPhone 15 128GB SIMフリー [ブラック]
{'満足度': '5', 'デザイン': '5', '携帯性': '4', 'レスポンス': '4', '画面表示': '5', 'バッテリー': '4', 'カメラ': '4'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 128GB SIMフリー
 > 
iPhone 15 128GB SIMフリー [ブラック]
{'満足度': '5', 'デザイン': '4', '携帯性': '4', 'レスポンス': '5', '画面表示': '5', 'バッテリー': '4', 'カメラ': '4'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 128GB SIMフリー
 > 
iPhone 15 128GB SIMフリー [ブラック]
{'満足度': '5', 'デザイン': '5', '携帯性': '5', 'レスポンス': '5', '画面表示': '5', 'バッテリー': '4', 'カメラ': '5'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 128GB SIMフリー
 > 
iPhone 15 128GB SIMフリー [ブルー]
{'満足度': '5', 'デザイン':

{'満足度': '1', 'デザイン': '5', '携帯性': '3', 'レスポンス': '4', '画面表示': '2', 'バッテリー': '5', 'カメラ': '3'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 128GB SIMフリー
 > 
iPhone 15 128GB SIMフリー [ブラック]
{'満足度': '4', 'デザイン': '5', '携帯性': '4', 'レスポンス': '5', '画面表示': '4', 'バッテリー': '5', 'カメラ': '5'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 256GB SIMフリー
 > 
iPhone 15 256GB SIMフリー [グリーン]
{'満足度': '5', 'デザイン': '5', '携帯性': '4', 'レスポンス': '4', '画面表示': '5', 'バッテリー': '4', 'カメラ': '5'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 128GB SIMフリー
 > 
iPhone 15 128GB SIMフリー [ブルー]
{'満足度': '4', 'デザイン': '4', '携帯性': '4', 'レスポンス': '5', '画面表示': '5', 'バッテリー': '3', 'カメラ': '4'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 128GB SIMフリー
 > 
iPhone 15 128GB SIMフリー [ブラック]
{'満足度': '2', 'デザイン': '4', '携帯性': '2', 'レスポンス': '2', '画面表示': '1', 'バッテリー': '2', 'カメラ': '3'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15 256GB SIMフリー
 > 
iPhone 15 256GB SIMフリー [ブルー]
{'満足度': '3', 'デザイン': '5', '携帯性': '5', 'レスポンス': '5', '画面表示': '5', 'バッテリー': '5', 'カメラ': '5'}
スマートフォン・携帯電話
 > 
Apple
 > 
iPhone 15

NameError: name '__file__' is not defined