create a car database dictionary from 다나와 자동차(auto.danawa.com) with this tool
다나와 자동차(auto.danawa.com)에서 자동차 제원 정보를 크롤링해올 수 있습니다.
<사용법>
-
Selenium을 설치해주시고(pip install selenium), 컴퓨터에 설치된 크롬 버전에 맞는 chromedriver(다나와 페이지를 열 때 필요-실행 환경에서 크롬 브라우저가 설치되어 있어야 합니다)를 danawa-car-crawler.py와 같은 위치에 다운받아주세요.
-
danawa-car-crawler.py를 코드 에디터로 열어주세요.
-
codeDB에 {자동차 이름:자동차 id} 순으로 입력하세요. (자동차 id는 차량별 정보 url의 'Model='뒤에 있는 숫자입니다) => id를 자동으로 구해서 데이터를 수집하는 것은 추후 구현예정입니다 http://auto.danawa.com/auto/?Work=model&Model=2841&Tab=spec
-
코드를 실행해주세요. 결과는 carDB에 {자동차 이름:{제원표의 각 사양:설명}}과 같은 2중 딕셔너리 구조로 저장되어, 활용할 수 있습니다. *** 웹에 누락된 정보는 '-'으로 처리하였습니다.
<주의사항>
- 다나와 자동차의 robots.txt에는 12초에 한 번씩 크롤링이 가능하도록 명시되어 있습니다. 이것을 지켜주세요!
- 크롤링을 통해 얻은 모든 컨텐츠는 다나와의 지적 재산권으로, 다나와 고객센터의 콘텐츠 이용안내에 따르면 CCL 2.0에 따라 비상업적 용도로만 이용해야하며 출처를 반드시 표시해야 합니다.
- 구형 자동차와 신형 자동차의 제원표 형식이 약간 달라 최대한 통일시키려고 하였으나 예상하지 못한 오류가 발생할 수 있습니다. 발견하는 대로 바로 수정하겠습니다.
- 이 크롤러를 이용하여 수집 가능한 정보는 다음과 같습니다(총 56가지, 차종에 따라 상이할 수 있음)
세부모델, CO₂배출(g/km), 가격, 고속연비(km/ℓ), 고속연비(전기)(km/kWh),
공차중량(kg), 공회전제한장치, 굴림방식, 도심연비(km/ℓ), 도심연비(전기) (km/kWh),
모터최고출력(ps), 모터최대토크(kg.m), 배기량(cc), 배터리용량(Ah), 배터리전압(V),
배터리종류, 변속기, 복합연비(km/ℓ), 복합연비(전기)(km/kWh), 브레이크(전),
브레이크(후), 서스펜션(전), 서스펜션(후), 승차정원, 에너지소비효율(등급),
엔진형식, 연료, 연료탱크(ℓ), 오버행(전)(mm), 오버행(후)(mm),
윤거(전)(mm), 윤거(후)(mm), 적재량(kg), 적재함길이(mm), 적재함넓이(mm),
적재함높이(mm), 전고(mm), 전장(mm), 전폭(mm), 제로백(초),
최고속도(km/h), 최고출력(ps/rpm), 최대토크(kg.m/rpm), 축거(mm), 충전방식(급속),
충전방식(완속), 충전시간(급속)(분), 충전시간(완속)(시간), 충전용량(kWh), 친환경,
타이어(전), 타이어(후), 파워스티어링, 항속거리(km), 휠(전)(인치), 휠(후)(인치)
- 기타 오류, 개선 건의는 issue tracker와 pull request를 이용해 주세요. 감사합니다.