In [1]:
import time
import os
import warnings

import pandas as pd 

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

warnings.filterwarnings(action='ignore')

options = webdriver.ChromeOptions()
options.add_argument("--start-maximized")
options.add_argument("user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36")

In [2]:
TEAMS = ['두산', '롯데', '삼성', '키움', '한화', 'KIA', 'KT', 'LG', 'NC', 'SSG']
YEAR = 2021

In [3]:
t1 = time.time()

for TEAM in TEAMS:
    
    # 타자와 투수 데이터 병합
    hitter = pd.read_csv(f'선수데이터/타자/{TEAM}/타자정보_{TEAM}({YEAR}).csv')[['ID', '선수명']]
    pitcher = pd.read_csv(f'선수데이터/투수/{TEAM}/투수정보_{TEAM}({YEAR}).csv')[['ID', '선수명']]
    df = pd.concat([hitter, pitcher]).drop_duplicates().reset_index(drop=True)
    print(f'{TEAM} === 선수: {df.shape[0]}명 ===')

    # 데이터프레임 초기화
    result = pd.DataFrame()
    cnt = 1

    # ID와 PLAYER_NAME에 따라 수집
    for ID, PLAYER_NAME in zip(list(df['ID']), list(df['선수명'])):

        # url 접근
        driver = webdriver.Chrome('chromedriver_96.exe', chrome_options=options) # 크롬 드라이버 다운로드후 본인 경로로 줍니다.
        url = f'https://www.koreabaseball.com/Record/Player/HitterDetail/SeasonReg.aspx?playerId={ID}'
        driver.get(url)
        time.sleep(2)

        # 정보수집
        element_nums = len(driver.find_elements_by_xpath('/html/body/form/div[3]/section/div/div/div[2]/div[2]/div/table/tbody/tr/td[2]'))
        years = [driver.find_elements_by_xpath(f'/html/body/form/div[3]/section/div/div/div[2]/div[2]/div/table/tbody/tr[{element_num}]/td[2]')[0].text for element_num in range(1, element_nums+1)]
        days = [driver.find_elements_by_xpath(f'/html/body/form/div[3]/section/div/div/div[2]/div[2]/div/table/tbody/tr[{element_num}]/td[3]')[0].text for element_num in range(1, element_nums+1)]

        # 데이터프레임 합치기
        tmp = pd.DataFrame({'ID':[ID] * element_nums,
                            '선수명':[PLAYER_NAME] * element_nums,
                            '팀명':[TEAM] * element_nums,
                            '연도':years,
                            '등록일수':days})

        result = pd.concat([result, tmp]).reset_index(drop=True)
        
        if (cnt) % 10 == 0:
            print(f'{cnt}/{df.shape[0]}명 완료 === TIME: {round(time.time()-t1)}초')
            
        cnt += 1
        
        driver.quit()
        time.sleep(2)
        
    # 2021년만 필터링
    result = result[result['연도'].isin([2021, '2021'])].reset_index(drop=True)
        
    # 저장
    result.to_csv(f'등록일수데이터/{TEAM}_등록일수(YEAR).csv', index=False, encoding='utf-8-sig')
    print(f'=== {TEAM}(YEAR) 저장완료 === TIME: {round(time.time()-t1)}초\n')
    time.sleep(60)

두산 === 선수: 58명 ===
10/58명 완료 === TIME: 86초
20/58명 완료 === TIME: 178초
30/58명 완료 === TIME: 269초
40/58명 완료 === TIME: 359초
50/58명 완료 === TIME: 449초
=== 두산(YEAR) 저장완료 === TIME: 525초

롯데 === 선수: 61명 ===
10/61명 완료 === TIME: 673초
20/61명 완료 === TIME: 766초
30/61명 완료 === TIME: 857초
40/61명 완료 === TIME: 947초
50/61명 완료 === TIME: 1039초
60/61명 완료 === TIME: 1130초
=== 롯데(YEAR) 저장완료 === TIME: 1143초

삼성 === 선수: 54명 ===
10/54명 완료 === TIME: 1291초
20/54명 완료 === TIME: 1387초
30/54명 완료 === TIME: 1485초
40/54명 완료 === TIME: 1581초
50/54명 완료 === TIME: 1677초
=== 삼성(YEAR) 저장완료 === TIME: 1720초

키움 === 선수: 59명 ===
10/59명 완료 === TIME: 1869초
20/59명 완료 === TIME: 1961초
30/59명 완료 === TIME: 2057초
40/59명 완료 === TIME: 2157초
50/59명 완료 === TIME: 2256초
=== 키움(YEAR) 저장완료 === TIME: 2352초

한화 === 선수: 66명 ===
10/66명 완료 === TIME: 2505초
20/66명 완료 === TIME: 2600초
30/66명 완료 === TIME: 2698초
40/66명 완료 === TIME: 2797초
50/66명 완료 === TIME: 2893초
60/66명 완료 === TIME: 2992초
=== 한화(YEAR) 저장완료 === TIME: 3055초

KIA === 선수: 58명 ===
10/58명 완료 === TIME: