# 準備

In [None]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

In [None]:
# Seleniumを起動するChromeオプション
options = Options()
options.add_argument('--disable-gpu');
options.add_argument('--disable-extensions');
options.add_argument('--proxy-server="direct://"');
options.add_argument('--proxy-bypass-list=*');
options.add_argument('--start-maximized');
options.add_argument('--headless'); # ヘッドレスモード

# ChromeDriverは事前にインストールしておく
DRIVER_PATH = "{{PATH}}"
driver = webdriver.Chrome(executable_path=DRIVER_PATH, options=options)

# Seleniumの指示が速すぎてChromeの読み込みが追いつけないので最大待機時間をセットしておく
# 経験的に20秒以上を推奨
# どれだけ頑張っても読み込めないエラーは出るので繰り返してみること
driver.implicitly_wait(25)

In [None]:
# ball-plotのスクレイピングはほとんど同じ処理を繰り返す

def ball_plots_scraping(winner_loser="w", first_second="1st", deuce_ad="deuce"):
    '''
    ATPのセカンドスクリーンからball-plotsのデータを抽出する関数。
    This function scrapes "ball-plots" data from ATP 2nd Screen.

    parameters
    ----------
        winner_loser: "w" or "l"
        first_second: "1st" or "2nd"
        deuce_ad    : "deuce" or "ad"
    '''

    # Playerのボタンから選手名を抽出
    left_player_button = driver.find_element_by_css_selector('button.btn-default.player-name')
    left_player_name = left_player_button.text
    right_player_button = driver.find_element_by_css_selector('button.player-name:not(.btn-default)')
    right_player_name = right_player_button.text
    
    # Playerの指定
    if winner_loser == "w":
        if winner_name == left_player_name:
            driver.execute_script("arguments[0].click();", left_player_button)
        else:
            driver.execute_script("arguments[0].click();", right_player_button)

        # データフレーム用の処理も同時に行っておく
        server_name = winner_name
        returner_name = loser_name
        server_height = winner_height
        server_FH = winner_FH
        server_BH = winner_BH
        returner_height = loser_height
        returner_FH = loser_FH
        returner_BH = loser_BH
        
    elif winner_loser == "l":
        if loser_name == left_player_name:
            driver.execute_script("arguments[0].click();", left_player_button)            
        else:
            driver.execute_script("arguments[0].click();", right_player_button)            
        
        # データフレーム用の処理も同時に行っておく
        server_name = loser_name
        returner_name = winner_name
        server_height = loser_height
        server_FH = loser_FH
        server_BH = loser_BH
        returner_height = winner_height
        returner_FH = winner_FH
        returner_BH = winner_BH

    # Serveの指定
    if first_second == "1st":
        button_1st = driver.find_element_by_xpath('//button[text()="1st"]')
        button_1st.click()
    elif first_second == "2nd":
        button_2nd = driver.find_element_by_xpath('//button[text()="2nd"]')
        button_2nd.click()
    
    # Courtの指定
    if deuce_ad == "deuce":
        button_deuce = driver.find_element_by_xpath('//button[text()="Deuce"]')
        button_deuce.click()
    elif deuce_ad == "ad":
        button_ad = driver.find_element_by_xpath('//button[text()="Ad"]')
        button_ad.click()
    
    # データフレーム用にServeが1stか2ndかの情報を取得
    serve_element = driver.find_element_by_css_selector('div:nth-child(2) > div:nth-child(4) > .highlight_button')
    serve = serve_element.text

    # データフレーム用にCourtがDeuceかAdかの情報を取得
    court_element = driver.find_element_by_css_selector('div:nth-child(2) > div:nth-child(2) > .highlight_button')
    court = court_element.text

    # ショットデータをまとめて取得
    all_ball_plots = driver.find_elements_by_xpath("//*[name()='svg']/*[name()='g']/*[name()='g']/*[name()='circle']")

    # 座標や結果などにバラす
    # バラしたデータを入れる空リストを用意
    x = []
    y = []
    W_L = []
    section = []

    # .get_attribute()は文字列として取得するので、座標は浮動小数に変換
    for ball_plot in all_ball_plots:
        x.append(float(ball_plot.get_attribute('cx')))
        y.append(float(ball_plot.get_attribute('cy')))
        W_L.append(ball_plot.get_attribute('shot'))
        section.append(ball_plot.get_attribute('side'))     

    # 各リストを列としたデータフレームを返す
    return pd.DataFrame({'Server':server_name, 'Returner':returner_name, 'x':x, 'y':y,
                         'Service Points W/L':W_L, 'Section':section, 'Serve':serve, 'Court':court,
                         'Server Height':server_height, 'Server FH':server_FH, 'Server BH':server_BH,
                         'Returner Height':returner_height, 'Returner FH':returner_FH, 'Returner BH':returner_BH,
                         'Match Winner':winner_name, 'Round':tournament_round})

# 繰り返す

## 収集対象の試合URLをリスト化する

In [None]:
# 試合ごとに振られる可能性のある全ナンバーをリストに入れる
# シードによって例えば28しかドローがなくても試合ナンバーは32まである（シード分は番号を飛ばされる）

# 28または32ドローの場合
num_list = []
for url_num in range(1, 33):
    num_list.append(str(url_num).zfill(3))

# 48ドロー以上の場合、数回に分けてスクレイピングしたほうがエラーが出にくい
# あとでCSVを統合すればOK

# # 56または48ドローの場合
# num_list = []
# for url_num in range(1, 65):
#     num_list.append(str(url_num).zfill(3))

# # 96ドローの場合
# num_list = []
# for url_num in range(1, 129):
#     num_list.append(str(url_num).zfill(3))

# URLの共通部分を省略するために短い名前をつけておく
url_a = "https://www.atptour.com/en/scores/2019/339/MS"  #大会ごとに変わるので手動入力
url_b = "/second-screen?isLive=False"

# 生成したURLを格納する空リストを用意
url_list = []

# ページが存在する可能性のある全URLをリストに入れる
for match_num in num_list:
    url_list.append(url_a + match_num + url_b)

## 試合ごとにデータを取得して大会データフレームに加えるループ

In [None]:
# データ格納用の空のデータフレームを用意
df = pd.DataFrame(columns=['Server','Returner','x','y','Service Points W/L','Section','Serve','Court','Server Height',
                           'Server FH','Server BH','Returner Height','Returner FH','Returner BH','Match Winner'])

# ループ開始。url_listのページへ順にアクセスする
for url in url_list:
    driver.get(url)
    
    # セカンドスクリーンが用意されたページでなければ次のURLへ
    # .find_element"s"なら見つからないとき空リストが返されif判定がfalseになるので例外処理不要
    if driver.find_elements_by_id('secondScreenIframe'):

        # 欲しい要素はすべてiframe内部にあるので移動
        iframe = driver.find_element_by_id('secondScreenIframe')
        driver.switch_to.frame(iframe)

        # ball-plotsのデータがある場合のみスクレイピング。なければ次のURLへ
        # .find_element"s"なら見つからないとき空リストが返されif判定がfalseになるので例外処理不要
        if driver.find_elements_by_xpath("//*[name()='svg']/*[name()='g']/*[name()='g']/*[name()='circle']"):

            # 先に選手のデータを取得する
            # スコア上段の選手の選手名を取得
            winner_info_button = driver.find_element_by_css_selector('tr:nth-child(1) a.scoring-player-name-mob')
            winner_name = winner_info_button.text

            # スコア上段の選手のプロフィールにアクセス
            winner_info_button.click()
            
            if driver.find_elements_by_css_selector('span.table-height-cm-wrapper'):

                # スコア上段の選手の身長の情報を取得
                height_element = driver.find_element_by_css_selector('span.table-height-cm-wrapper')
                winner_height = int(height_element.text.strip("( cm)"))

                # スコア上段の選手のFH/BHの情報を取得
                plays_element = driver.find_element_by_css_selector('td:nth-child(3) > div > div.table-value')
                winner_FH = plays_element.text.split()[0].split("-")[0]
                winner_BH = plays_element.text.split()[1].split("-")[0]

            # たまにプロフィールがない選手もいる（予選WCのフューチャーズレベルの選手とか）
            else:
                # スコア上段の選手の身長の情報を穴埋め
                height_element = ""
                winner_height = ""

                # スコア上段の選手のFH/BHの情報を穴埋め
                plays_element = ""
                winner_FH = ""
                winner_BH = ""


            # スコア下段の選手プロフィールにアクセスするために戻る
            driver.back()

            # iframeに入り直す
            iframe = driver.find_element_by_id('secondScreenIframe')
            driver.switch_to.frame(iframe)


            # スコア下段の選手の選手名を取得
            loser_info_button = driver.find_element_by_css_selector('tr:nth-child(2) a.scoring-player-name-mob')
            loser_name = loser_info_button.text

            # スコア下段の選手のプロフィールにアクセス
            loser_info_button.click()

            if driver.find_elements_by_css_selector('span.table-height-cm-wrapper'):

                # スコア下段の選手の身長の情報を取得
                height_element = driver.find_element_by_css_selector('span.table-height-cm-wrapper')
                loser_height = int(height_element.text.strip("( cm)"))

                # スコア下段の選手のFH/BHの情報を取得
                plays_element = driver.find_element_by_css_selector('td:nth-child(3) > div > div.table-value')
                loser_FH = plays_element.text.split()[0].split("-")[0]
                loser_BH = plays_element.text.split()[1].split("-")[0]

            else:
                # スコア下段の選手の身長の情報を穴埋め
                height_element = ""
                loser_height = ""

                # スコア下段の選手のFH/BHの情報を穴埋め
                plays_element = ""
                loser_FH = ""
                loser_BH = ""

            # ショットデータを取得するために戻る
            driver.back()

            # iframeに入り直す
            iframe = driver.find_element_by_id('secondScreenIframe')
            driver.switch_to.frame(iframe)

            # 何回戦かの情報を取得
            round_element = driver.find_element_by_css_selector('span.title-area.text-left.title-area-mob')
            tournament_round = round_element.text[2:-1]
            
            # 条件ごとにデータを集めデータフレームに継ぎ足していく
            df = pd.concat([df,
                            ball_plots_scraping(winner_loser="w", first_second="1st", deuce_ad="deuce"),
                            ball_plots_scraping(winner_loser="w", first_second="1st", deuce_ad="ad"),
                            ball_plots_scraping(winner_loser="w", first_second="2nd", deuce_ad="deuce"),
                            ball_plots_scraping(winner_loser="w", first_second="2nd", deuce_ad="ad"),
                            ball_plots_scraping(winner_loser="l", first_second="1st", deuce_ad="deuce"),
                            ball_plots_scraping(winner_loser="l", first_second="1st", deuce_ad="ad"),
                            ball_plots_scraping(winner_loser="l", first_second="2nd", deuce_ad="deuce"),
                            ball_plots_scraping(winner_loser="l", first_second="2nd", deuce_ad="ad")])

## ループ後の処理

In [None]:
# 元データの不具合による重複を削除
df = df.drop_duplicates()

# 共通データ取得のためMS001に再アクセス（ループ終了時のページはセカンドスクリーンがないことが多い）
# 1大会を分割して収集する場合は2回目以降、url_list[0]にセカンドスクリーンがない可能性があるので注意
driver.get(url_list[0])
iframe = driver.find_element_by_id('secondScreenIframe')
driver.switch_to.frame(iframe)

# x,y座標が特殊なサイズに換算されているので、コート中央を(0,0)としてcm単位に変換する
court_size_element = driver.find_element_by_xpath('//*[@id="court-ground"]')
court_width = float(court_size_element.get_attribute("width"))
court_height = float(court_size_element.get_attribute("height"))  
df.loc[(df['x'] != 0)|(df['x'] == 0), 'x'] = df['x'] / court_width * 1097.28 - 548.64
df.loc[(df['y'] != 0)|(df['y'] == 0), 'y'] = df['y'] / court_height * 2377.44 - 1188.72

# 大会名と開催シーズンのデータを取得
tournament_element = driver.find_element_by_css_selector('span.title-area.text-left.tournament-name')
season = int(tournament_element.text[-4:])
tournament_name = tournament_element.text[:-5]

# 列の追加と整理
df['Tournament'] = tournament_name
df['Surface'] = "Hard" #手動で設定 "Hard" | "Clay" | "Grass"
df['Venue'] = "Outdoor" #手動で設定 "Outdoor" | "Indoor"
df['Season'] = season
df.loc[df['Service Points W/L'] == 'Aces', 'Ace'] = "Ace"
df.loc[df['Service Points W/L'] == 'Aces', 'Service Points W/L'] = "Won"
df.loc[df['Service Points W/L'] == 'ServicePointsWon', 'Service Points W/L'] = "Won"
df.loc[df['Service Points W/L'] == 'ServicePointsLost', 'Service Points W/L'] = "Lost"
df = df[['Server','Returner','x','y','Section','Service Points W/L','Ace','Serve','Court',
         'Server Height','Server FH','Server BH','Returner Height','Returner FH','Returner BH',
         'Match Winner','Tournament','Round','Surface','Venue','Season']]

# CSVに変換して保存
tournament = tournament_name.replace(' ', '_')
season_num = str(season)
csv_name = "serve_placement_" + season_num + "_" + tournament # 分割してる場合は + "_1" とか付け足す
df.to_csv("{{PATH}}/" + csv_name + ".csv", index=False)

# 繰り返さない

## 各大会のCSVを結合して1ファイルとして保存し直す

In [None]:
import glob

In [None]:
csv_search_path = "{{PATH}}/*.csv"
csv_path_ary = glob.glob(csv_search_path)
all_files = glob.glob("{{PATH}}/*.csv")

df = pd.DataFrame(columns=['Server','Returner','x','y','Section','Service Points W/L','Ace','Serve','Court',
                           'Server Height','Server FH','Server BH','Returner Height','Returner FH','Returner BH',
                           'Match Winner','Tournament','Round','Surface','Venue','Season'])

for filename in all_files:
    df = df.append(pd.read_csv(filename))

In [None]:
df.to_csv("{{PATH}}/serve_placement_" + season_num + "_all_tournaments.csv", index=False)