# Load Package

In [8]:
from lxml.html import fromstring

import pandas as pd
import numpy as np

import requests
import time
import os

# Crawling
 - YEAR: [1982, 2020] --> 2002년부터 2020년까지 데이터 사용예정 (KBO 데이터의 동일 포맷은 2002년부터이기 때문)
 - TEAM: [1,2,3,4,5,6,7,8,9,10,101,102] --> 년도별로 생성된 팀이 달라서 주의할필요가 있다.

In [10]:
# 기타 변수 초기화
t1 = time.time()

# 데이터 수집
for YEAR in list(np.arange(2002, 2021)): # 년도정의 (2002~20202)
    
    # log
    print(f'\n== {YEAR}년도 시작 ==')
    
    for TEAM in [1,2,3,4,5,6,7,8,9,10,101,102]:
        
        # 초기화
        cnt = 2

        # url 불러오기
        url = 'http://www.statiz.co.kr/salary.php?opt=0&sopt={}&cnv=&pos=&te={}'.format(YEAR, TEAM)
        res = requests.get(url)
        parser = fromstring(res.text)

        # td[1,2,3,4,5] / tr[2] 부터 변경
        names, years, teams, moneys, wars, detail_urls = [], [], [], [], [], []

        while True:

            try: # 선수데이터를 수집함에 있어, 표 마지막에 도달했다면 except로
                player_name = parser.xpath(f'/html/body/div[1]/div[1]/div/section[2]/div/div[2]/div[2]/div/div/div[2]/table/tr[{cnt}]/td[1]')[0].text_content() # 선수명
                player_year = parser.xpath(f'/html/body/div[1]/div[1]/div/section[2]/div/div[2]/div[2]/div/div/div[2]/table/tr[{cnt}]/td[2]')[0].text_content() # 연도
                player_team = parser.xpath(f'/html/body/div[1]/div[1]/div/section[2]/div/div[2]/div[2]/div/div/div[2]/table/tr[{cnt}]/td[3]')[0].text_content() # 소속팀명
                player_money = parser.xpath(f'/html/body/div[1]/div[1]/div/section[2]/div/div[2]/div[2]/div/div/div[2]/table/tr[{cnt}]/td[4]')[0].text_content() # 연봉
                player_war = parser.xpath(f'/html/body/div[1]/div[1]/div/section[2]/div/div[2]/div[2]/div/div/div[2]/table/tr[{cnt}]/td[5]')[0].text_content() # WAR
                player_detail_url = f'http://www.statiz.co.kr/player.php?name={player_name}' # 선수상세정보 url
                
                names.append(player_name)
                years.append(player_year)
                teams.append(player_team)
                moneys.append(player_money)
                wars.append(player_war)
                detail_urls.append(player_detail_url)

                cnt += 1

            except: 
                if len(names) == 0: # 해당 년도에 Team이 없는 경우 필터링
                    print(f'== TEAM{TEAM}의 {YEAR}년도 데이터는 존재하지 않습니다. ==')
                    break
                
                else:
                    
                    ### 데이터프레임 생성
                    df = pd.DataFrame({'선수명':names,
                                       '연도':years,
                                       '소속팀명':teams,
                                       '연봉':moneys,
                                       'WAR':wars,
                                       '상세url':detail_urls})
                    df = df.drop_duplicates().reset_index(drop=True)
                    
                    ### 파일이 없다면 생성
                    if teams[0] not in os.listdir('연봉데이터/'):
                        os.mkdir(f'연봉데이터/{teams[0].replace("/",",")}')
                    
                    ### 데이터 저장
                    df.to_csv(f'연봉데이터/{teams[0].replace("/",",")}/연봉_{teams[0].replace("/",",")}({YEAR}).csv', index=False, encoding='utf-8-sig')
                    print(f'== {teams[0].replace("/",",")}의 {YEAR}년 완료 == 소요시간: {round(time.time()-t1)}초')
                    break


== 2002년도 시작 ==
== KIA의 2002년 완료 == 소요시간: 0초
== 삼성의 2002년 완료 == 소요시간: 0초
== 두산의 2002년 완료 == 소요시간: 1초
== SK의 2002년 완료 == 소요시간: 1초
== LG의 2002년 완료 == 소요시간: 1초
== 롯데의 2002년 완료 == 소요시간: 1초
== 한화의 2002년 완료 == 소요시간: 1초
== TEAM8의 2002년도 데이터는 존재하지 않습니다. ==
== TEAM9의 2002년도 데이터는 존재하지 않습니다. ==
== TEAM10의 2002년도 데이터는 존재하지 않습니다. ==
== 현대의 2002년 완료 == 소요시간: 2초
== TEAM102의 2002년도 데이터는 존재하지 않습니다. ==

== 2003년도 시작 ==
== KIA의 2003년 완료 == 소요시간: 2초
== 삼성의 2003년 완료 == 소요시간: 2초
== 두산의 2003년 완료 == 소요시간: 2초
== SK의 2003년 완료 == 소요시간: 2초
== LG의 2003년 완료 == 소요시간: 3초
== 롯데의 2003년 완료 == 소요시간: 3초
== 한화의 2003년 완료 == 소요시간: 3초
== TEAM8의 2003년도 데이터는 존재하지 않습니다. ==
== TEAM9의 2003년도 데이터는 존재하지 않습니다. ==
== TEAM10의 2003년도 데이터는 존재하지 않습니다. ==
== 현대의 2003년 완료 == 소요시간: 3초
== TEAM102의 2003년도 데이터는 존재하지 않습니다. ==

== 2004년도 시작 ==
== KIA의 2004년 완료 == 소요시간: 3초
== 삼성의 2004년 완료 == 소요시간: 3초
== 두산의 2004년 완료 == 소요시간: 4초
== SK의 2004년 완료 == 소요시간: 4초
== LG의 2004년 완료 == 소요시간: 4초
== 롯데의 2004년 완료 == 소요시간: 4초
== 한화의 2004년 완료 == 소요시간: 4초
== TEAM8