<a href="https://colab.research.google.com/github/sei00f/python-scraping-kadai/blob/main/kadai4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
!pip install selenium

import time
from datetime import datetime
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains

# ヘッドレスモードで起動するためのオプションを設定
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# スクレイピングの開始時間を記録
start_time = time.time()

# Chromeを立ち上げる
chrome_driver = webdriver.Chrome(options=chrome_options)
# 日経新聞へアクセス
chrome_driver.get('https://www.nikkei.com/markets/worldidx/chart/nk225/?type=6month')

# 株価が表示されるまで待つ
wait = WebDriverWait(chrome_driver, 30)
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, 'tbody')))

# リスト作成
stock_data_list = []

def extract_stock_data():
    global stock_data_list
    html = chrome_driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    td_elements = soup.select('td', class_='highcharts-tooltip')

    data = []
    for i in range(5):
        text = td_elements[i].get_text()
        if i == 0:  # 日付のフォーマット
            date = datetime.strptime(td_elements[i].get_text(), "%Y/%m/%d")
            formatted_date = date.strftime("%Y-%m-%d")
            data.append(formatted_date)
        else:
            data.append(text)

    return data

# ===step3=====
graph_element = chrome_driver.find_element(By.CSS_SELECTOR, "g.highcharts-series-group")
# ActionChainsオブジェクトを作成
action = ActionChains(chrome_driver)
graph_width = graph_element.size['width']

# グラフの中央にマウスを移動させ、
action.move_to_element(graph_element).perform()
# そこからグラフ幅の半分の値だけ右にマウスをずらすことで、グラフの右端にマウスを移動させる
action.move_by_offset(graph_width / 2, 0).perform()

# 関数名はget_stock_valuesとする
def get_stock_values():
# Selenium WebDriverオブジェクトとURLを引数に取る
# Seleniumライブラリを使用する

# 1pxずつ左にマウスをずらすことで、データを取得する
    for j in range(graph_width, 0, -1):     # i = 599から始まる
        action = ActionChains(chrome_driver)
        action.move_by_offset(-1, 0).perform()
        time.sleep(0.1)
        # データの抽出には、作成したextract_stock_data()関数を使用する
        stock_data = extract_stock_data()
        if stock_data not in stock_data_list:
            stock_data_list.append(stock_data)      # 重複チェックをしてから追加
            print(stock_data)

get_values = get_stock_values()

# スクレイピングの終了時間を記録
end_time = time.time()
scraping_time = end_time -start_time
# 結果を表示
minutes, seconds = divmod(scraping_time, 60)
print(f"スクレイピング時間: {minutes}分{seconds:.2f}秒")

# ブラウザを閉じる
chrome_driver.quit()

['2024-06-20', '始値: 38,410.32', '高値: 38,637.62', '安値: 38,263.08', '終値: 38,633.02']
['2024-06-19', '始値: 38,653.91', '高値: 38,797.97', '安値: 38,453.41', '終値: 38,570.76']
['2024-06-18', '始値: 38,433.48', '高値: 38,519.02', '安値: 38,332.89', '終値: 38,482.11']
['2024-06-17', '始値: 38,440.98', '高値: 38,442.7', '安値: 37,950.2', '終値: 38,102.44']
['2024-06-14', '始値: 38,587.57', '高値: 39,025.7', '安値: 38,554.75', '終値: 38,814.56']
['2024-06-13', '始値: 39,182.06', '高値: 39,252.44', '安値: 38,689.79', '終値: 38,720.47']
['2024-06-12', '始値: 38,865.15', '高値: 38,945.99', '安値: 38,809.36', '終値: 38,876.71']
['2024-06-11', '始値: 39,175.59', '高値: 39,336.66', '安値: 39,074.88', '終値: 39,134.79']
['2024-06-10', '始値: 38,689.78', '高値: 39,081.54', '安値: 38,689.78', '終値: 39,038.16']
['2024-06-07', '始値: 38,597.55', '高値: 38,747.27', '安値: 38,560.85', '終値: 38,683.93']
['2024-06-06', '始値: 38,841.66', '高値: 39,011.93', '安値: 38,693.5', '終値: 38,703.51']
['2024-06-05', '始値: 38,654.09', '高値: 38,656.41', '安値: 38,343.98', '終値: 38,490.17']
['2024-0