04. scraping

데이터 수집 방법

트랙의 기본 정보를 데이터로 사용하기 위해 웹 스크래핑을 진행하였습니다.

Untitled 1

구분	처리 방법
표기 오류	난이도, 랩 등이 아예 잘못 입력되어있는 트랙 → 삭제 처리 (전체 305개 트랙 중 1개)
결측치 대치	전체 결측치 ‘missing’ 문자열로 대치 후 변수마다 개별 처리
데이터 타입 변경	문자로 입력되어있는 난이도, 랩, 트랙 길이 데이터 → 숫자 형태로 변경
날짜 데이터 처리	1. 결측치와 오 기입 데이터 수정 후 년/월/일 데이터로 분할 2. ‘출시일’ 파생변수 생성
중복 데이터 처리	모든 열에 대해 동일한 값을 가지는 행 30건 삭제

넥슨 개발자 센터에서 제공하는 카트라이더 meta 데이터 중 트랙 세부 정보 데이터와 scraping 데이터를 ‘트랙 이름’을 기반으로 merge하였습니다.
대부분의 트랙은 띄어쓰기를 포함하여 동일한 트랙 이름을 가졌으나, 리버스 트랙 (기존 맵을 거꾸로 달리도록 설계된 특수 트랙)의 경우 [R], [reverse] 등 meta데이터 내에서도 통일되지 않은 모습을 하고 있어, 리버스 트랙 표기를 동일하게 전처리 후 merge 작업을 거쳤습니다.