# PythonによるWebスクレイピング（動的Webページ）

以下では，サンプルページ

https://hirotakeyamazoe.jp/lecture/advexp/f1/

に対して，スクレイピングを行う例を示す．

このページでは，表示データを動的に生成しているため，ソースファイルには表示データが含まれない．そのため，実際に表示されるページのレンダリングを行ってから，その情報に対しスクレイピングを行う必要がある．

ここでは，Playwrightライブラリを利用してレンダリング後のHTMLページを取得し，Beautiful soupライブラリを用いてスクレイピングを行う例を示す．

### ライブラリのインストール

In [1]:
!pip install playwright beautifulsoup4 lxml_html_clean
!playwright install
!playwright install-deps

Collecting playwright
  Downloading playwright-1.56.0-py3-none-manylinux1_x86_64.whl.metadata (3.5 kB)
Collecting lxml_html_clean
  Downloading lxml_html_clean-0.4.3-py3-none-any.whl.metadata (2.3 kB)
Collecting pyee<14,>=13 (from playwright)
  Downloading pyee-13.0.0-py3-none-any.whl.metadata (2.9 kB)
Downloading playwright-1.56.0-py3-none-manylinux1_x86_64.whl (46.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.3/46.3 MB[0m [31m15.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading lxml_html_clean-0.4.3-py3-none-any.whl (14 kB)
Downloading pyee-13.0.0-py3-none-any.whl (15 kB)
Installing collected packages: pyee, lxml_html_clean, playwright
Successfully installed lxml_html_clean-0.4.3 playwright-1.56.0 pyee-13.0.0
Downloading Chromium 141.0.7390.37 (playwright build v1194)[2m from https://cdn.playwright.dev/dbazure/download/playwright/builds/chromium/1194/chromium-linux.zip[22m
[1G173.9 MiB [] 0% 0.0s[0K[1G173.9 MiB [] 0% 45.4s[0K[1G173.9 MiB [] 0% 45.2s

### レンダリング結果の取得と表示

In [2]:
from playwright.async_api import async_playwright
from IPython.core.display import display, HTML

url = "https://hirotakeyamazoe.jp/lecture/advexp/f1/"


# Playwright を用いてページを取得してレンダリング
async def get_page_html(url):
    async with async_playwright() as p:
        # Chromiumブラウザを起動
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()

        # ページにアクセスし，ネットワークが落ち着くまで待つ
        await page.goto(url, wait_until="networkidle")

        # レンダリング後のHTMLを取得
        html = await page.content()

        # ブラウザを閉じる
        await browser.close()

        return html

# レンダリング結果の取得
html = await get_page_html(url)

# レンダリングされたHTMLを可視化
display(HTML(html))


Position,Name,Code,Nationality,Car,Points
1,Max Verstappen,VER,NED,Red Bull Racing Honda RBPT,393
2,Lando Norris,NOR,GBR,McLaren Mercedes,331
3,Charles Leclerc,LEC,MON,Ferrari,307
4,Oscar Piastri,PIA,AUS,McLaren Mercedes,262
5,Carlos Sainz,SAI,ESP,Ferrari,244
6,George Russell,RUS,GBR,Mercedes,192
7,Lewis Hamilton,HAM,GBR,Mercedes,190
8,Sergio Perez,PER,MEX,Red Bull Racing Honda RBPT,151
9,Fernando Alonso,ALO,ESP,Aston Martin Aramco Mercedes,62
10,Nico Hulkenberg,HUL,GER,Haas Ferrari,31


### レンダリング結果の表示とファイル保存

保存したファイルを用いると，ブラウザの"デベロッパーツール"などを用いて，抽出したい場所を探索することができるため，これ以降は，「PythonによるWebスクレイピング」と同様の手順となる．

In [3]:
print(html)

# レンダリング結果をHTMLファイルとして保存
with open("rendered_page.html", "w", encoding="utf-8") as f:
    f.write(html)

<!DOCTYPE html><html lang="ja"><head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Driver Standings</title>
    <link rel="stylesheet" href="https://hirotakeyamazoe.jp/lecture/advexp/f1/styles.css">
</head>
<body>
    <div class="container">
        <h1>2024 Driver Standings</h1>
        <table id="driver-standings">
            <thead>
                <tr>
                    <th>Position</th>
                    <th>Name</th>
                    <th>Code</th>
                    <th>Nationality</th>
                    <th>Car</th>
                    <th>Points</th>
                </tr>
            </thead>
            <tbody><tr><td>1</td><td>Max&nbsp;Verstappen</td><td>VER</td><td>NED</td><td>Red Bull Racing Honda RBPT</td><td>393</td></tr><tr><td>2</td><td>Lando&nbsp;Norris</td><td>NOR</td><td>GBR</td><td>McLaren Mercedes</td><td>331</td></tr><tr><td>3</td><td>Charles&nbsp;Leclerc</td><td>LEC</td><td>MON</td><td

### Beautiful soupによる解析（表のデータの抽出と表示）
ここでは，tableの情報を取得し，各行，列のデータを抽出して，DataFrameとして保存している．

In [4]:
from bs4 import BeautifulSoup
import pandas as pd

pd.set_option('display.width', 100)       # 出力横幅を100に設定


# レンダリング結果をBeautifulSoupで解析
soup = BeautifulSoup(html, 'html.parser')

standings_table = soup.find(id ='driver-standings')  # Adjust the class if necessary

# tableのヘッダ部の抽出
headers = [th.text.strip() for th in standings_table.find_all('th')]

# 行ごとのデータを配列として取得し，ヘッダ行をスキップ
rows = standings_table.find_all('tr')[1:]
data = [] # 保存用リストを初期化
for row in rows: # 各行に関する処理
    cols = [td.text.strip() for td in row.find_all('td')] # 各列の抽出
    data.append(cols) # 保存用リストに追加

# リストからDataFrameへの変換
df = pd.DataFrame(data, columns=headers)

# DataFrameの表示
print(df)

   Position              Name Code Nationality                           Car Points
0         1    Max Verstappen  VER         NED    Red Bull Racing Honda RBPT    393
1         2      Lando Norris  NOR         GBR              McLaren Mercedes    331
2         3   Charles Leclerc  LEC         MON                       Ferrari    307
3         4     Oscar Piastri  PIA         AUS              McLaren Mercedes    262
4         5      Carlos Sainz  SAI         ESP                       Ferrari    244
5         6    George Russell  RUS         GBR                      Mercedes    192
6         7    Lewis Hamilton  HAM         GBR                      Mercedes    190
7         8      Sergio Perez  PER         MEX    Red Bull Racing Honda RBPT    151
8         9   Fernando Alonso  ALO         ESP  Aston Martin Aramco Mercedes     62
9        10   Nico Hulkenberg  HUL         GER                  Haas Ferrari     31
10       11      Yuki Tsunoda  TSU         JPN                 RB Honda RBPT