Skip to content

04. scraping

HoeJeongJang edited this page Nov 29, 2022 · 2 revisions

데이터 수집 방법

트랙의 기본 정보를 데이터로 사용하기 위해 웹 스크래핑을 진행하였습니다.

  • 데이터 출처 Untitled

  • 사용 패키지 : BeautifulSoup , Request

데이터 설명

Untitled 1

트랙 정보 설명
난이도 넥슨에서 트랙을 출시할 때 설정한 난이도 (1~6)
출시 일자 트랙이 출시된 년, 월, 일 정보
랩 수 트랙을 완주할 때까지 도는 바퀴수 (1~3)
트랙 길이 트랙의 총 길이
진행 방향 트랙의 주행 방향 (시계방향, 반시계방향, 워프형 등)
테마 트랙의 분위기를 결정하는 디자인적 요소
현재까지 약 30여개의 테마가 존재

데이터 전처리

(1) scraping 데이터 전처리

구분 처리 방법
표기 오류 난이도, 랩 등이 아예 잘못 입력되어있는 트랙 → 삭제 처리 (전체 305개 트랙 중 1개)
결측치 대치 전체 결측치 ‘missing’ 문자열로 대치 후 변수마다 개별 처리
데이터 타입 변경 문자로 입력되어있는 난이도, 랩, 트랙 길이 데이터 → 숫자 형태로 변경
날짜 데이터 처리 1. 결측치와 오 기입 데이터 수정 후 년/월/일 데이터로 분할 2. ‘출시일’ 파생변수 생성
중복 데이터 처리 모든 열에 대해 동일한 값을 가지는 행 30건 삭제

(2) 넥슨 제공 meta 데이터와 merge

  • 넥슨 개발자 센터에서 제공하는 카트라이더 meta 데이터 중 트랙 세부 정보 데이터와 scraping 데이터를 ‘트랙 이름’을 기반으로 merge하였습니다.
  • 대부분의 트랙은 띄어쓰기를 포함하여 동일한 트랙 이름을 가졌으나, 리버스 트랙 (기존 맵을 거꾸로 달리도록 설계된 특수 트랙)의 경우 [R], [reverse] 등 meta데이터 내에서도 통일되지 않은 모습을 하고 있어, 리버스 트랙 표기를 동일하게 전처리 후 merge 작업을 거쳤습니다.