Skip to content

Latest commit

 

History

History
63 lines (39 loc) · 3.44 KB

NaverMap_Crawling.md

File metadata and controls

63 lines (39 loc) · 3.44 KB

NaverMap Crawling

  • 데이터 구하는 방법
    • 공공 데이터, 사기업 데이터를 얻어 밀리언 데이터에 붙인다.
    • 크롤링 방법(네이버, 구글, 카카오 지도)으로 데이터(식당 리뷰, 평점, 키워드)을 얻는다.

[과업 목적]

(1) 오늘 무엇을 먹을 지 고민을 오래 하고, 결정이 어려운 사람들이 많이 존재함
오늘 뭐먹지 기능을 신설하여, 간단한 예-아니오-상관없음 선택식의 문제 풀이로, 최종 메뉴를 추천하는 형식
(2) 향후 메뉴가 속하는 큰 범주의 카테고리가 명확화되어, 신규 식당 정보 추가등록 시 작업이 용이해짐

→ 밀리언 음식점 데이터에 카테고리가 필요하다.   

큰 카테고리 (한식, 중식, 양식, 일식, 카페..) 이미 가지고 있다.

작은 카테고리 (주요 메뉴: 김치찌개, 짬뽕, 닭발 ...) (주차가능 , 예약 가능,포장 가능,쉬는날..) 필요하다.

필요한 데이터 - 추천 알고리즘

- 협업 추천 알고리즘: 유저id-식당id-평점 데이터

 다만, 평점 데이터를 합법적으로 얻기 어렵다. → 자연스럽게  밀리언 고객을 통해 얻도록 하다. 

- 컨텐츠 추천 알고리즘: 식당id-평점 데이터-키워드(주요 메뉴, 그 이외의 키워드) - 식당 소개 글

  * 식당 소개 글로 TF-IFT 추천 알고리즘을 돌린다. 키워드로는 추천하거나, 카테고리용 추천으로 사용하다.

→ 따라서 구해야 하는 데이터: 유저 id-식당  id - 평점 - 키워드 - 식당 소개글

사기업 데이터 수집 가능 현황

  • 네이버 지도: 유저id-식당 title-식당 주소-리뷰-키워드 제공 → 유저에 따른 식당 history 제공
  • 카카오 맵: 유저id-식당 title-식당 주소-리뷰-키워드 제공
  • 다이닝 코드: 유저 활동 history 제공 X

네이버 맵 크롤링 reference site

  1. 지번, 도로명 → 위경도 변환 사이트 (정부 사이트)
  2. 도로명 주소와 지번 주소 상호 변환 사이트 (정부 사이트)
  3. 접속 차단 → User-Agent지정
  4. 크롤링 iframe 처리
  5. 크롤링 차단 방지

네이버 등록 식당 개수 파악

  우리나라에 읍면동이 대략 200개가 있다. 

  임의로 몇개의 읍면동 A개를 가져온다.

  A개 읍면동에 대해서 전체 식당 개수를 파악한다. (모집단 개수)

  A개 읍면동에 대해서 네이버 식당 개수를 파악한다. → 전체 식당에서 네이버에 등록된 식당이 몇 %인지 알 수 있다. 

  A개 읍면동에 대해서 스크래핑한 식당 개수를 파악한다. (표본 집단 개수) → 네이버에서 몊% 식당 개수를 가져왔는지 알 수 있다.

  전체 식당 개수에서 몇 %가져왔는지 파악한다.

  알고 싶은 자료:

  - 네이버 등록된 전체 식당 개수
  - 네이버 등록된 식당에서 몇 % 스크래핑을 했는지

  모집단 개수를 안다.

  표본 집단 개수를 구하고 싶다.