# 서울시 미용실 데이터 - NAVER Map(v4) 데이터 수집
## 작성자(최종수정일) : 서동원(2020.04.20)
- 서울 열린데이터 광장 API를 이용해 수집한 데이터(이하 공공데이터) 활용
- 공공데이터를 네이버 지역검색 API에 적용시켜 네이버에 등록된 미용실 데이터 수집

In [104]:
# !pip install selenium

In [105]:
# !pip install bs4

In [106]:
# !pip install pyperclip

In [107]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import re
import requests
import time
import datetime
import math
import glob
pd.set_option('display.max_columns',50) # DataFrame truncation 없이 보기
pd.set_option('display.max_rows',100)

from selenium import webdriver
from bs4 import BeautifulSoup
import tqdm
import datetime

from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys
import pyperclip

from selenium.common import exceptions

from getpass import getpass

In [108]:
import logging
logging.basicConfig(filename='02_Naver_Map_v4_data_crawling.log', level=logging.INFO)
#logging.debug('this is a debug')
#logging.info('this is an info')
#logging.warning('this is a warning')

## (1) 공공데이터 가져와 전처리 하기

- 이하 전처리 작업에서 매번 공공 API를 호출할 필요 없다.
- 공공 API로 호출한 데이터를 저장한 csv파일을 읽어와 진핼할 것
- 일단 2020년 4월 9일자 기준 데이터로 전처리를 진행하겠다.

In [109]:
file_list = glob.glob('./public*')
file_list

['.\\public_api_column_info.csv',
 '.\\public_api_error_info.csv',
 '.\\public_api_key_info.csv',
 '.\\public_api_key_info_seoul_bar.csv',
 '.\\public_api_key_info_seoul_biz_restaurant.csv',
 '.\\public_api_seoul_salon_data_2020-04-09.csv']

In [110]:
file_path = file_list[-1]
file_path

'.\\public_api_seoul_salon_data_2020-04-09.csv'

In [111]:
# csv 파일 읽어서 DF에 대입
public_salon_raw = pd.read_csv(file_path, index_col=0)

In [112]:
# 데이터 확인
public_salon_raw.head(2)

Unnamed: 0,지역,CGG_CODE,SNT_COB_CODE,YY,UPSO_SNO,SNT_COB_NM,UPSO_GSL_YMD,UPSO_NM,TRDP_AREA,UPSO_SITE_TELNO,BMAN_STDT,BUP_NM,SITE_STDT,ADMDNG_NM,DCB_YMD,DCB_WHY,SNT_UPTAE_NM,ED_FIN_YMD,GAEKSIL,HANSHIL,YANGSIL,CHAIR_NUM,YOKSIL,BALHANSIL_YN,WASHMC_NUM,PERM_NT_NO,KOR_FRGNR_GBN,NTN,SITE_ADDR_RD,SITE_ADDR
0,강남구,3220000,211,1983,1,미용업(일반),19830627,백민재헤어샵,19.8,02 5451290,20110502,,20180515,청담동,,,일반미용업,20110622.0,0.0,0.0,0.0,3.0,0.0,N,0.0,3220000-211-1983-00001,내국인,,"서울특별시 강남구 영동대로 702, 화천회관빌딩 지상2층 222-1호 (청담동)",서울특별시 강남구 청담동 133번지 3호 화천회관빌딩
1,강남구,3220000,211,1983,1,미용업(일반),19830627,백민재헤어샵,65.67,02 5451290,20110502,,20180515,청담동,,,일반미용업,20110622.0,0.0,0.0,0.0,3.0,0.0,N,0.0,3220000-211-1983-00001,내국인,,"서울특별시 강남구 영동대로 702, 화천회관빌딩 지상2층 222-1호 (청담동)",서울특별시 강남구 청담동 133번지 3호 화천회관빌딩


In [113]:
# 컬럼을 보기 쉽게 변환하기
# 컬럼명 정보가 담긴 csv 파일 읽어오기 
col_convert = pd.read_csv('./public_api_column_info.csv')
col_convert

Unnamed: 0,출력명,출력설명
0,CGG_CODE,시군구코드
1,SNT_COB_CODE,업종코드
2,YY,년도
3,UPSO_SNO,업소일련번호
4,SNT_COB_NM,업종명
5,UPSO_GSL_YMD,신고일자
6,UPSO_NM,업소명
7,TRDP_AREA,면적
8,UPSO_SITE_TELNO,소재지전화번호
9,BMAN_STDT,영업자시작일


In [114]:
# 두 컬럼의 값을 dict 객체로 변환
col_dict = dict(zip(col_convert.출력명, col_convert.출력설명))
col_dict

{'CGG_CODE': '시군구코드',
 'SNT_COB_CODE': '업종코드',
 'YY': '년도',
 'UPSO_SNO': '업소일련번호',
 'SNT_COB_NM': '업종명',
 'UPSO_GSL_YMD': '신고일자',
 'UPSO_NM': '업소명',
 'TRDP_AREA': '면적',
 'UPSO_SITE_TELNO': '소재지전화번호',
 'BMAN_STDT': '영업자시작일',
 'BUP_NM': '법인명',
 'SITE_STDT': '소재지시작일',
 'ADMDNG_NM': '행정동명',
 'DCB_YMD': '폐업일자',
 'DCB_WHY': '폐업사유',
 'SNT_UPTAE_NM': '업태명',
 'ED_FIN_YMD': '위생교육수료일자',
 'GAEKSIL': '객실수',
 'HANSHIL': '한실수',
 'YANGSIL': '양실수',
 'CHAIR_NUM': '의자수',
 'YOKSIL': '욕실수',
 'BALHANSIL_YN': '발한실',
 'WASHMC_NUM': '세탁기수',
 'PERM_NT_NO': '허가(신고)번호',
 'KOR_FRGNR_GBN': '내외국인구분',
 'NTN': '국적',
 'SITE_ADDR_RD': '소재지도로명',
 'SITE_ADDR': '소재지지번'}

In [115]:
# 컬럼명 변경하기
public_salon_raw.rename(columns=col_dict, inplace=True)
public_salon_raw.head(1)

Unnamed: 0,지역,시군구코드,업종코드,년도,업소일련번호,업종명,신고일자,업소명,면적,소재지전화번호,영업자시작일,법인명,소재지시작일,행정동명,폐업일자,폐업사유,업태명,위생교육수료일자,객실수,한실수,양실수,의자수,욕실수,발한실,세탁기수,허가(신고)번호,내외국인구분,국적,소재지도로명,소재지지번
0,강남구,3220000,211,1983,1,미용업(일반),19830627,백민재헤어샵,19.8,02 5451290,20110502,,20180515,청담동,,,일반미용업,20110622.0,0.0,0.0,0.0,3.0,0.0,N,0.0,3220000-211-1983-00001,내국인,,"서울특별시 강남구 영동대로 702, 화천회관빌딩 지상2층 222-1호 (청담동)",서울특별시 강남구 청담동 133번지 3호 화천회관빌딩


In [116]:
public_salon_raw.tail(1)

Unnamed: 0,지역,시군구코드,업종코드,년도,업소일련번호,업종명,신고일자,업소명,면적,소재지전화번호,영업자시작일,법인명,소재지시작일,행정동명,폐업일자,폐업사유,업태명,위생교육수료일자,객실수,한실수,양실수,의자수,욕실수,발한실,세탁기수,허가(신고)번호,내외국인구분,국적,소재지도로명,소재지지번
28286,중랑구,3060000,211,2020,10,미용업(일반),20200310,우주헤어,19.65,,20200310,,20200310,상봉제1동,,,일반미용업,,0.0,0.0,0.0,4.0,0.0,N,0.0,3060000-211-2020-00010,내국인,,"서울특별시 중랑구 망우로43길 3, 1층 좌측호 (상봉동)",서울특별시 중랑구 상봉동 116번지 45호


In [117]:
public_salon_raw.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 28287 entries, 0 to 28286
Data columns (total 30 columns):
지역          28287 non-null object
시군구코드       28287 non-null int64
업종코드        28287 non-null int64
년도          28287 non-null int64
업소일련번호      28287 non-null int64
업종명         28287 non-null object
신고일자        28287 non-null int64
업소명         28287 non-null object
면적          28287 non-null float64
소재지전화번호     17853 non-null object
영업자시작일      28287 non-null int64
법인명         1 non-null object
소재지시작일      28287 non-null int64
행정동명        28208 non-null object
폐업일자        8619 non-null float64
폐업사유        8611 non-null object
업태명         28287 non-null object
위생교육수료일자    11101 non-null float64
객실수         28287 non-null float64
한실수         28287 non-null float64
양실수         28287 non-null float64
의자수         28287 non-null float64
욕실수         28287 non-null float64
발한실         27961 non-null object
세탁기수        28287 non-null float64
허가(신고)번호    28287 non-null object
내외국인구분     

In [118]:
# 총 데이터 개수 확인
pre_data_count = len(public_salon_raw)
print('총 데이터 수 :', len(public_salon_raw))

총 데이터 수 : 28287


---
- 업소명에 '?'문자가 있는 부분을 조사해보니 '샾'을 인식하지 못해 물음표로 처리된 것으로 판단.
- '?' 문자를 '샵'으로 변환

In [119]:
# 업소명에 '?' 문자를 '샵' 문자로 치환하기
public_salon_raw['업소명'] = public_salon_raw['업소명'].apply(lambda x: re.sub('[？]|[?]', '샵', x))


# '?'문자가 '샵'으로 전부 변환되지 않는 문제를 발견. 조치 필요 !!!!
# 일반 문자'?' 가 아닌 특수문자'？' 이어서 대체가 안된 것

---
- 중복값 처리

In [120]:
# 모든 컬럼값이 중복인 row 제거
public_salon_raw.drop_duplicates(inplace=True)

# 중복 제거 후 데이터 개수 확인
print('중복여부로 제거 전 데이터 수 :', pre_data_count)
print('중복여부로 제거 후 데이터 수 :', len(public_salon_raw))
print('중복여부로 제거된 데이터 수 :', pre_data_count - len(public_salon_raw))
pre_data_count = len(public_salon_raw)

중복여부로 제거 전 데이터 수 : 28287
중복여부로 제거 후 데이터 수 : 28231
중복여부로 제거된 데이터 수 : 56


---
- 폐업점 데이터 처리

In [121]:
# '폐업일자'의 값이 NaN이면 영업중
# '폐업일자'의 값이 NaN이 아니면 폐업된 것으로 판단

# '폐업일자'에 값이 존재하는 폐업된 업장이 얼마나 있는지 확인 
public_salon_raw[public_salon_raw['폐업일자'].notnull()]['폐업일자']

5        20200113.0
7        20130829.0
8        20150821.0
21       20180222.0
25       20190415.0
            ...    
28206    20190827.0
28227    20191119.0
28258    20190802.0
28265    20200213.0
28268    20200206.0
Name: 폐업일자, Length: 8616, dtype: float64

In [122]:
# 폐업한 미용실 정보가 8591개나 된다.

In [123]:
# '폐업일자' 컬럼이 NaN인, 영업중인 행만 불리언 색인 -> public_salon_raw에 대입
public_salon_raw = public_salon_raw[public_salon_raw['폐업일자'].isnull()]

# 데이터 개수 확인

# 폐업여부로 삭제 후 데이터 개수 확인
print('폐업여부로 제거 전 데이터 수 :', pre_data_count)
print('폐업여부로 제거된 데이터 수 :', pre_data_count - len(public_salon_raw))
print('폐업여부로 제거 후 데이터 수 :', len(public_salon_raw))
pre_data_count = len(public_salon_raw)

폐업여부로 제거 전 데이터 수 : 28231
폐업여부로 제거된 데이터 수 : 8616
폐업여부로 제거 후 데이터 수 : 19615


In [124]:
# 업태명에 어떤 값들이 있는지 확인
public_salon_raw['업태명'].unique()

array(['일반미용업', '네일아트업', '기타', '메이크업업', '일반이용업', '숙박업 기타'], dtype=object)

In [125]:
# '업태명'이 '일반미용업', '일반이용업' 인 데이터만 남기기
public_salon_raw = public_salon_raw[public_salon_raw['업태명'].isin(['일반미용업', '일반이용업'])]

# 업태명으로 삭제 후 데이터 개수 확인
print('업태명으로 제거 전 데이터 수 :', pre_data_count)
print('업태명으로 제거 후 데이터 수 :', len(public_salon_raw))
print('업태명으로 제거된 데이터 수 :', pre_data_count - len(public_salon_raw))
pre_data_count = len(public_salon_raw)

업태명으로 제거 전 데이터 수 : 19615
업태명으로 제거 후 데이터 수 : 19355
업태명으로 제거된 데이터 수 : 260


In [126]:
# 컬럼명 확인하기
public_salon_raw.columns

Index(['지역', '시군구코드', '업종코드', '년도', '업소일련번호', '업종명', '신고일자', '업소명', '면적',
       '소재지전화번호', '영업자시작일', '법인명', '소재지시작일', '행정동명', '폐업일자', '폐업사유', '업태명',
       '위생교육수료일자', '객실수', '한실수', '양실수', '의자수', '욕실수', '발한실', '세탁기수',
       '허가(신고)번호', '내외국인구분', '국적', '소재지도로명', '소재지지번'],
      dtype='object')

In [127]:
public_salon_raw[public_salon_raw['업태명'] == '일반이용업']

Unnamed: 0,지역,시군구코드,업종코드,년도,업소일련번호,업종명,신고일자,업소명,면적,소재지전화번호,영업자시작일,법인명,소재지시작일,행정동명,폐업일자,폐업사유,업태명,위생교육수료일자,객실수,한실수,양실수,의자수,욕실수,발한실,세탁기수,허가(신고)번호,내외국인구분,국적,소재지도로명,소재지지번
5474,강서구,3150000,211,2017,26,미용업(일반),20170515,승민헤어,97.85,0262057133,20170515,,20180903,화곡제2동,,,일반이용업,,0.0,0.0,0.0,4.0,0.0,N,0.0,3150000-211-2017-00026,내국인,,"서울특별시 강서구 강서로8길 68, 1층 (화곡동)",서울특별시 강서구 화곡동 882번지 26호 (지상 1층)
5475,강서구,3150000,211,2017,26,미용업(일반),20170515,승민헤어,24.0,0262057133,20170515,,20180903,화곡제2동,,,일반이용업,,0.0,0.0,0.0,4.0,0.0,N,0.0,3150000-211-2017-00026,내국인,,"서울특별시 강서구 강서로8길 68, 1층 (화곡동)",서울특별시 강서구 화곡동 882번지 26호 (지상 1층)
5476,강서구,3150000,211,2017,26,미용업(일반),20170515,규림헤어겔러리,97.85,0262057133,20170515,,20180903,화곡제2동,,,일반이용업,,0.0,0.0,0.0,4.0,0.0,N,0.0,3150000-211-2017-00026,내국인,,"서울특별시 강서구 강서로8길 68, 1층 (화곡동)",서울특별시 강서구 화곡동 882번지 26호 (지상 1층)
5477,강서구,3150000,211,2017,26,미용업(일반),20170515,규림헤어겔러리,24.0,0262057133,20170515,,20180903,화곡제2동,,,일반이용업,,0.0,0.0,0.0,4.0,0.0,N,0.0,3150000-211-2017-00026,내국인,,"서울특별시 강서구 강서로8길 68, 1층 (화곡동)",서울특별시 강서구 화곡동 882번지 26호 (지상 1층)
5478,강서구,3150000,211,2017,26,미용업(일반),20170515,승민헤어,97.85,0262057133,20170515,,20170515,화곡제8동,,,일반이용업,,0.0,0.0,0.0,4.0,0.0,N,0.0,3150000-211-2017-00026,내국인,,"서울특별시 강서구 곰달래로25길 77, 2층 (화곡동)",서울특별시 강서구 화곡동 340번지 59호 2층
5479,강서구,3150000,211,2017,26,미용업(일반),20170515,승민헤어,24.0,0262057133,20170515,,20170515,화곡제8동,,,일반이용업,,0.0,0.0,0.0,4.0,0.0,N,0.0,3150000-211-2017-00026,내국인,,"서울특별시 강서구 곰달래로25길 77, 2층 (화곡동)",서울특별시 강서구 화곡동 340번지 59호 2층
5480,강서구,3150000,211,2017,26,미용업(일반),20170515,규림헤어겔러리,97.85,0262057133,20170515,,20170515,화곡제8동,,,일반이용업,,0.0,0.0,0.0,4.0,0.0,N,0.0,3150000-211-2017-00026,내국인,,"서울특별시 강서구 곰달래로25길 77, 2층 (화곡동)",서울특별시 강서구 화곡동 340번지 59호 2층
5481,강서구,3150000,211,2017,26,미용업(일반),20170515,규림헤어겔러리,24.0,0262057133,20170515,,20170515,화곡제8동,,,일반이용업,,0.0,0.0,0.0,4.0,0.0,N,0.0,3150000-211-2017-00026,내국인,,"서울특별시 강서구 곰달래로25길 77, 2층 (화곡동)",서울특별시 강서구 화곡동 340번지 59호 2층
6204,관악구,3200000,211,2008,1,미용업(일반),20080708,신보배 헤어,28.05,02 883 9489,20171026,,20080708,은천동,,,일반이용업,,0.0,0.0,0.0,5.0,0.0,,0.0,3200000-211-2008-00001,내국인,,"서울특별시 관악구 은천로 95, 벽산블루밍상가 501동 308호 (봉천동)",서울특별시 관악구 봉천동 1718번지 벽산블루밍상가
6205,관악구,3200000,211,2008,1,미용업(일반),20080708,머리못하는집,28.05,02 883 9489,20171026,,20080708,은천동,,,일반이용업,,0.0,0.0,0.0,5.0,0.0,,0.0,3200000-211-2008-00001,내국인,,"서울특별시 관악구 은천로 95, 벽산블루밍상가 501동 308호 (봉천동)",서울특별시 관악구 봉천동 1718번지 벽산블루밍상가


In [128]:
# 필요한 컬럼들로만 재색인
public_salon = public_salon_raw.reindex(columns=['지역'
                                                 ,'업소명'
                                                 ,'소재지전화번호'
                                                 ,'행정동명'
                                                 ,'소재지도로명'
                                                 ,'소재지지번'
                                                ])
public_salon.head(3)

Unnamed: 0,지역,업소명,소재지전화번호,행정동명,소재지도로명,소재지지번
0,강남구,백민재헤어샵,02 5451290,청담동,"서울특별시 강남구 영동대로 702, 화천회관빌딩 지상2층 222-1호 (청담동)",서울특별시 강남구 청담동 133번지 3호 화천회관빌딩
1,강남구,백민재헤어샵,02 5451290,청담동,"서울특별시 강남구 영동대로 702, 화천회관빌딩 지상2층 222-1호 (청담동)",서울특별시 강남구 청담동 133번지 3호 화천회관빌딩
2,강남구,백민재헤어샵,02 5451290,삼성1동,"서울특별시 강남구 삼성로 649, (삼성동,(상아APT 상가 107호))",서울특별시 강남구 삼성동 19번지 4호 (상아APT 상가 107호)


In [129]:
# DF의 head()로 보기에는 문제가 없지만
# 직접 찍어보니 공백이 여러개 중복되어 있는 경우가 있다.
public_salon['소재지지번'][0]

'서울특별시 강남구 청담동  133번지 3호  화천회관빌딩'

## 공백 제거
- 각 컬럼에 들어있는 값(문자열)의 
    - (1) 중복 공백을 1개로 줄인 뒤
    - (2) 앞뒤 공백 제거

In [130]:
# '업소명' 
public_salon['업소명'] = public_salon['업소명'].apply(lambda x: re.sub('\s+', ' ', x).strip() if type(x)=='str' else x)

# '소재지전화번호' 
public_salon['소재지전화번호'] = public_salon['소재지전화번호'].apply(lambda x: re.sub('\s+', ' ', x).strip() if type(x)=='str' else x)
# public_salon['소재지전화번호'] = public_salon['소재지전화번호'].apply(lambda x: remove_double_whitespace(x) if x else x)

# '행정동명' 
public_salon['행정동명'] = public_salon['행정동명'].apply(lambda x: re.sub('\s+', ' ', x).strip() if type(x)=='str' else x)
# public_salon['행정동명'] = public_salon['행정동명'].apply(lambda x: remove_double_whitespace(x) if x else x)

# '소재지도로명' 
public_salon['소재지도로명'] = public_salon['소재지도로명'].apply(lambda x: re.sub('\s+', ' ', x).strip() if type(x)=='str' else x)

# '소재지지번' 
public_salon['소재지지번'] = public_salon['소재지지번'].apply(lambda x: re.sub('\s+', ' ', x).strip() if type(x)=='str' else x)
# public_salon['소재지지번'] = public_salon['소재지지번'].apply(lambda x: remove_double_whitespace(x) if x else x)

In [131]:
# 작업 확인
public_salon['소재지지번'][0]

'서울특별시 강남구 청담동  133번지 3호  화천회관빌딩'

In [132]:
pre_data = len(public_salon)

## 중복 제거
- raw 데이터에서 필요한 컬럼만 재색인 했는데 다시 한번 중복 제거를 하겠다.

In [133]:
# 중복 제거
public_salon.drop_duplicates(inplace=True)

print('중복 제거 전 데이터 수 :', pre_data)
print('중복 제거된 데이터 수 :', pre_data - len(public_salon))
print('중복 제거 후 데이터 수 :', len(public_salon))

중복 제거 전 데이터 수 : 19355
중복 제거된 데이터 수 : 3441
중복 제거 후 데이터 수 : 15914


In [134]:
public_salon.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15914 entries, 0 to 28286
Data columns (total 6 columns):
지역         15914 non-null object
업소명        15914 non-null object
소재지전화번호    10287 non-null object
행정동명       15873 non-null object
소재지도로명     15860 non-null object
소재지지번      15873 non-null object
dtypes: object(6)
memory usage: 870.3+ KB


In [135]:
# index 빠진 이빨 채우기
# index를 0부터 데이터 길이만큼 재설정
public_salon.index=range(len(public_salon))

In [136]:
# 데이터 개수 확인
len(public_salon)

15914

In [137]:
# 데이터(인덱스가 잘 변경 됐는지) 확인
# 데이터길이와 마지막 인덱스 비교 
public_salon.tail(3)

Unnamed: 0,지역,업소명,소재지전화번호,행정동명,소재지도로명,소재지지번
15911,중랑구,에이데이즈 헤어살롱,,신내1동,"서울특별시 중랑구 봉화산로 232, 2층 (신내동)",서울특별시 중랑구 신내동 405번지 5호
15912,중랑구,지노헤어 상봉점,,상봉제2동,"서울특별시 중랑구 망우로 282-1, (상봉동)",서울특별시 중랑구 상봉동 115번지 14호
15913,중랑구,우주헤어,,상봉제1동,"서울특별시 중랑구 망우로43길 3, 1층 좌측호 (상봉동)",서울특별시 중랑구 상봉동 116번지 45호


In [138]:
# '소재지도로명'에 누락값 있는지 확인
no_addrRoad = public_salon[public_salon['소재지도로명'].isnull()]
print("'소재지도로명'이 누락된 데이터 수 :", len(no_addrRoad))

'소재지도로명'이 누락된 데이터 수 : 54


In [139]:
# '소재지지번'에 누락값 있는지 확인
no_addrOrigin = public_salon[public_salon['소재지지번'].isnull()]
print("'소재지지번'이 누락된 데이터 수 :", len(no_addrOrigin))

'소재지지번'이 누락된 데이터 수 : 41


In [140]:
# '소재지도로명' 없는 데이터 중 '소재지지번'이 없는 데이터
print("'소재지도로명'이 누락된 데이터 중 '소재지지번'도 동시 누락된 수 :", len(no_addrRoad[no_addrRoad['소재지지번'].isnull()]))

'소재지도로명'이 누락된 데이터 중 '소재지지번'도 동시 누락된 수 : 0


- 특이사항
- 소재지도로명'과 '소재지지번'의 누락값이 일부 발견되었으나
- 두 컬럼의 값이 모두 누락된 경우는 없음
- 특이사항으로 '소재지지번'이 누락된 경우 '행정동명' 컬럼 또한 같이 누락됨

In [141]:
# 결측치 존재하는지 확인
(public_salon.isnull()).sum()

지역            0
업소명           0
소재지전화번호    5627
행정동명         41
소재지도로명       54
소재지지번        41
dtype: int64

In [142]:
# 데이터 정보 확인
public_salon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15914 entries, 0 to 15913
Data columns (total 6 columns):
지역         15914 non-null object
업소명        15914 non-null object
소재지전화번호    10287 non-null object
행정동명       15873 non-null object
소재지도로명     15860 non-null object
소재지지번      15873 non-null object
dtypes: object(6)
memory usage: 746.1+ KB


In [143]:
# 크롤링에 사용할 DF
# 저장할 파일 이름 생성
base_name = './naver_map_seoul_salon_input_data'
collect_day = file_path.split('_')[-1].split('.')[0]
work_day = datetime.datetime.now().strftime('%Y-%m-%d')

file_name = '_'.join([base_name, collect_day, work_day]) + '.csv'
file_name

'./naver_map_seoul_salon_input_data_2020-04-09_2020-04-23.csv'

In [144]:
public_salon['수집일'] = collect_day

In [145]:
public_salon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15914 entries, 0 to 15913
Data columns (total 7 columns):
지역         15914 non-null object
업소명        15914 non-null object
소재지전화번호    10287 non-null object
행정동명       15873 non-null object
소재지도로명     15860 non-null object
소재지지번      15873 non-null object
수집일        15914 non-null object
dtypes: object(7)
memory usage: 870.4+ KB


In [146]:
# 크롤링에 사용할 DF 별도 저장
public_salon.to_csv(
      file_name
    , sep=','
    , encoding='utf-8'
)

In [147]:
# 네이버 검색 결과를 별도 저장할 DF 생성
# (첫번째 실행때만 DF 생성 코드 실행할 것)
tmp_naver_search_all = DataFrame(columns=['업소ID'
                                    , '업소명'
                                    , '소재지전화번호'
                                    , '소재지도로명' 
                                    , '카테고리'
                                    , '검색주소타입'
                                    , '검색인덱스'
                                    , '검색어'
                                    , '검색건수'
                                    , '수집일'
                                    ])

tmp_naver_search_all

# # 두번째 실행부터는 저장된 csv파일 불러오기
# # 저장된 네이버 검색 결과 csv 파일 불러와 DF 생성
# naver_search_all = pd.read_csv('./tmp_naver_map_seoul_salon_data_2020-04-18.csv', encoding='utf-8').drop(columns='Unnamed: 0')
# naver_search_all

Unnamed: 0,업소ID,업소명,소재지전화번호,소재지도로명,카테고리,검색주소타입,검색인덱스,검색어,검색건수,수집일


In [148]:
# 첫번째 실행때만 DF 생성 코드 실행할 것
# 검색결과가 300건이 넘는 경우 api 사용 중 에러 발생.
# 이를 검색하지않고 따로 저장하는 DF 생성
tmp_naver_search_rejected = DataFrame(columns=['지역'
                                        , '업소명'
                                        , '검색주소'
                                        , '검색주소타입'
                                        , '검색어'
                                        , '검색건수' 
                                        , '원인'
                                        , '수집일'
                                         ])
tmp_naver_search_rejected

# # 두번째 실행부터는 저장된 csv 파일 불러오기
# # 검색결과 300건이 넘어 크롤링을 보류한 데이터 csv 파일 불러와 DF 생성
# naver_search_rejected = pd.read_csv('./tmp_naver_map_seoul_salon_rejected_data_2020-04-18.csv', encoding='utf-8').drop(columns='Unnamed: 0')
# naver_search_rejected

Unnamed: 0,지역,업소명,검색주소,검색주소타입,검색어,검색건수,원인,수집일


---
# (2) 네이버 지도(v4)에서 Selenium, BeautifulSoup 이용 
- 데이터 크롤링

In [149]:
def send_to_input_box(keyword, input_box, fix_display_search, driver, search_button_xpath):
    # 입력박스에 검색어 입력
    print('검색어 :', keyword)
    input_box.clear()
    input_box.send_keys(keyword)
    
    
    # '현 지도에서 장소검색' 체크가 되어있지 않다면 체크
    if not fix_display_search.is_selected():
        fix_display_search.click()
    
    time.sleep(np.random.rand())
    
    # 검색 버튼 클릭
    driver.find_element_by_xpath(search_button_xpath).click()
    driver.implicitly_wait(5)
    
    # 현재 페이지 소스 가져와 parsing하기
    time.sleep(1)
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    return soup

In [150]:
def crawl_naver_map_v4(series, driver):

    print('try row-num :', series.name)
    
    global tmp_naver_search_all  # 검색결과 저장 DF 전역변수 사용
    global tmp_naver_search_rejected  # 검색거부 저장 DF 전역변수 사용
    
    global count_success
    global count_over_fifty
    global count_search_zero
    global count_avoid_capcha
    
    # 입력박스 찾아서 주소 입력
    input_box = driver.find_element_by_id('search-input')
    input_box.clear()
    search_addr=''
    search_addr_type=0
    if type(series['소재지도로명']) == str:
        search_addr = series['소재지도로명']
        search_addr_type = 1
    else:
        search_addr = series['소재지지번']
        search_addr_type = 2
    
    input_box.send_keys(search_addr)
    
    # '현 지도에서 장소검색' 체크되어있다면 체크 해제
    # '(현 지도에서 장소검색' 체크박스 id : searchCurr)
    fix_display_search = driver.find_element_by_id('searchCurr')
    if fix_display_search.is_selected():
        fix_display_search.click()
    
    time.sleep(np.random.rand())
    
    # 검색 버튼 클릭
    search_button_xpath = """//*[@id="header"]/div[1]/fieldset/button"""
    driver.find_element_by_xpath(search_button_xpath).click()
    driver.implicitly_wait(5)
    
    # 입력박스에 검색어 입력
    keyword = '%s' % series['업소명'] + ' 미용실'
    soup = send_to_input_box(keyword, input_box, fix_display_search, driver, search_button_xpath)
    
    # 검색결과 건수 가져오기
    # 총 페이지수 계산하기
    if soup.find('span', 'n'):
        # 검색결과 건수
        total_result = int(soup.find('span', 'n').find('em').text.replace(',',''))
        if total_result <= 50:
            print('검색결과 %s건' % total_result)
            # 페이지 수
            total_page = math.ceil(total_result / 10)
        else:
            print('검색결과 %s건' % total_result)
            print('[%s] 검색결과 50건 초과 !!' % datetime.datetime.now())
            
            keyword = '"%s"' % series['업소명'] + ' 미용실'
            
            print('재시도 -', end=' ')
            soup = send_to_input_box(keyword, input_box, fix_display_search, driver, search_button_xpath)
           
            if soup.find('span', 'n'):
                # 검색결과 건수
                total_result = int(soup.find('span', 'n').find('em').text.replace(',',''))
                if total_result <= 50:
                    print('검색결과 %s건' % total_result)
                    # 페이지 수
                    total_page = math.ceil(total_result / 10)
                else:
                    print('검색결과 %s건' % total_result)
                    print('[%s] 검색결과 50건 초과 !!' % datetime.datetime.now())
            
                    tmp_naver_search_rejected = tmp_naver_search_rejected.append(DataFrame({
                          '지역' : series['지역']
                        , '업소명' : series['업소명']
                        , '검색주소' : search_addr
                        , '검색주소타입' : search_addr_type
                        , '검색어' : keyword
                        , '검색건수' : total_result
                        , '원인' : '검색건수 50건 초과'
                        , '수집일' : series['수집일']
                        }
                        , index=[series.name]
                        
                    ), sort=False
                    )     
                    # 오늘 날짜 출력
                    today = datetime.datetime.now().strftime('%Y-%m-%d')

                    # 검색결과가 없어 검색 실패한 데이터 csv 파일로 저장
                    tmp_naver_search_rejected.to_csv(
                          './tmp_naver_map_seoul_salon_outout_rejected_data_%s.csv' % today
                        , sep=','
                        , encoding='utf-8'
                    )
                    
                    count_over_fifty+=1
                    print(f'성공 : {count_success} | 0건 검색 : {count_search_zero} | 50건이상 검색 : {count_over_fifty} | 캡챠 우회 : {count_avoid_capcha} | 서비스 오류 : {count_service_error}\n')
                    
                    return
      
    else:
        print('검색결과 0건')
        print('[%s] 검색결과 없음 !!' % datetime.datetime.now())    

        tmp_naver_search_rejected = tmp_naver_search_rejected.append(DataFrame({
              '지역' : series['지역']
            , '업소명' : series['업소명']
            , '검색주소' : search_addr
            , '검색주소타입' : search_addr_type
            , '검색어' : keyword
            , '검색건수' : 0
            , '원인' : '검색결과 없음'
            , '수집일' : series['수집일']
            }
            , index=[series.name]

        ), sort=False
        )     

        # 오늘 날짜 출력
        today = datetime.datetime.now().strftime('%Y-%m-%d')

        # 검색결과가 없어 검색 실패한 데이터 csv 파일로 저장
        tmp_naver_search_rejected.to_csv(
              './tmp_naver_map_seoul_salon_output_rejected_data_%s.csv' % today
            , sep=','
            , encoding='utf-8'
        )

        count_search_zero+=1
        print(f'성공 : {count_success} | 0건 검색 : {count_search_zero} | 50건이상 검색 : {count_over_fifty} | 캡챠 우회 : {count_avoid_capcha} | 서비스 오류 : {count_service_error}\n')

        return
    
    # 결과 정보 담겨있는 html 찾기
    shop_list = soup.find_all('dl', 'lsnx_det')
    
    title_list=[]
    addrRoad_list=[]
    tel_list=[]
    category_list=[]
    
    # 다음버튼 xpath : //*[@id="panel"]/div[2]/div[1]/div[2]/div[2]/div/div/a[1]
    next_page_xpath = '//*[@id="panel"]/div[2]/div[1]/div[2]/div[2]/div/div/a'
    
    fail_count=0
    id_list=[]
    for count_page in range(1, total_page+1):
        
        while 1:
            try:
                time.sleep(np.random.rand()+1)
                html = driver.page_source
                time.sleep(0.3)
                soup = BeautifulSoup(html, 'html.parser')

                info_block = soup.find('ul', 'lst_site')
                info_list = info_block.find_all('li')
                info_list = list(filter(lambda x: x.get_attribute_list('data-id')[0], info_list))
                id_list = id_list + list(map(lambda x: x.get_attribute_list('data-id')[0], info_list))
                shop_list = soup.find_all('dl', 'lsnx_det')
                break

            except AttributeError:
                fail_count+=1
                if fail_count == 3:
                    print('연결 3회 실패')
                    raise EOFError
                print('page_source 불러오기 실패. 재시도')
                continue
        
        for shop in shop_list:
            
            # 업소명 추가
            title_list.append(shop.find('a').text.strip())
            
            # 주소(도로명) 추가
            tmp_addr = shop.find('dd', 'addr').text.strip()
            addrRoad_list.append(re.sub('\s{3,}.+', '', tmp_addr))
            
            # 전화번호 추가
            try:
                tel_list.append(shop.find('dd', 'tel').text.strip())
            except:
                tel_list.append(np.nan)
            
            # 카테고리 추가
            category_list.append(shop.find('dd', 'cate').text)

        if count_page == total_page:
            break
        else:
            xpath_num = count_page%5 if count_page%5 != 0 else 5
            driver.find_element_by_xpath(next_page_xpath + '[%s]' % (xpath_num)).click()
            time.sleep(0.5)

    # 오늘 날짜 출력
    today = datetime.datetime.now().strftime('%Y-%m-%d')
    
    # 네이버 검색결과 DataFrame에 추가(저장)
    tmp_naver_search_all = tmp_naver_search_all.append(pd.DataFrame({
              '업소ID' : id_list
            , '업소명' : title_list
            , '소재지전화번호' : tel_list
            , '소재지도로명' : addrRoad_list
            , '카테고리' : category_list
            , '검색주소타입' : search_addr_type
            , '검색인덱스' : series.name
            , '검색어' : keyword
            , '검색건수' : total_result
            , '수집일' : today
            }
        )
        , ignore_index=True
        , sort=False
    )

    # 현재까지의 네이버 검색 결과를 csv 파일로 저장
    tmp_naver_search_all.to_csv(
          './tmp_naver_map_seoul_salon_output_data_%s.csv' % today
        , sep=','
        , encoding='utf-8'
    )
    
    count_success+=1
    print('[%s] 검색 및 저장 성공 !!' % datetime.datetime.now())
    print(f'성공 : {count_success} | 0건 검색 : {count_search_zero} | 50건이상 검색 : {count_over_fifty} | 캡챠 우회 : {count_avoid_capcha} | 서비스 오류 : {count_service_error}\n')

    return

In [151]:
def clipboard_input(user_xpath, user_input):

        pyperclip.copy(user_input)
        driver.find_element_by_xpath(user_xpath).click()
        ActionChains(driver).key_down(Keys.CONTROL).send_keys('v').key_up(Keys.CONTROL).perform()
        
        time.sleep(np.random.rand()+1)

In [152]:
def run_naver_map_search(dataframe, start, end, restart=0):

    naver_id = input('Naver ID : ')
    naver_pw = getpass('Naver PW : ')
    
    login = {
          "id" : naver_id
        , "pw" : naver_pw
    }
    
    if restart !=0:
        start = restart
    
    options = webdriver.ChromeOptions()

    # options.add_arguement('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    options.add_argument('User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36')
    options.add_argument("Accept=text/html,application/xhtml+xml,application/xml;q=0.9,imgwebp,*/*;q=0.8")
    driver = webdriver.Chrome('c:/chromedriver', options=options)
    driver.get('https://v4.map.naver.com/')   
    driver.add_cookie(driver.get_cookies()[0])

    # '오늘 하루 그만 보기' 체크박스 xpath : //*[@id="dday_popup"]/div[2]/div[2]/label/span
    elem_checkbox = driver.find_element_by_xpath('//*[@id="dday_popup"]/div[2]/div[2]/label/span')

    # 체크박스가 체크되어있지 않으면 클릭
    if not elem_checkbox.is_selected():
        elem_checkbox.click()

    # x버튼 xpath : //*[@id="dday_popup"]/div[2]/button/span[1]
    # 창닫기 x버튼 클릭
    driver.find_element_by_xpath('//*[@id="dday_popup"]/div[2]/button/span[1]').click()
    
    global count_success
    global count_over_fifty
    global count_search_zero
    global count_avoid_capcha
    global count_service_error
    
    count_success = 0
    count_over_fifty = 0
    count_search_zero = 0
    count_avoid_capcha = 0
    count_service_error = 0

    for i in tqdm.tnrange(len(dataframe[start:end])):
        try:
            tmp = crawl_naver_map_v4(dataframe[start:end].iloc[i], driver)

        except (exceptions.StaleElementReferenceException, exceptions.NoSuchElementException):
            clipboard_input('//*[@id="id"]', login.get("id"))
            clipboard_input('//*[@id="pw"]', login.get("pw"))
            driver.find_element_by_xpath('//*[@id="log.login"]').click()
            driver.implicitly_wait(3)
            time.sleep(0.5)
            
            count_avoid_capcha+=1
            print('캡차 우회 !!')
            print(f'성공 : {count_success} | 0건 검색 : {count_search_zero} | 50건이상 검색 : {count_over_fifty} | 캡챠 우회 : {count_avoid_capcha} | 서비스 오류 : {count_service_error}\n')
            
            tmp = crawl_naver_map_v4(dataframe[start:end].iloc[i], driver)
            
        
        except exceptions.ElementClickInterceptedException:
            error_button_xpath = """//*[@id="simplemodal-data"]/div[2]/a"""
            driver.find_element_by_xpath(error_button_xpath).click()
            driver.implicitly_wait(3)
            time.sleep(0.5)
            
            count_service_error+=1
            print('서비스 오류 발생 !!')
            print(f'성공 : {count_success} | 0건 검색 : {count_search_zero} | 50건이상 검색 : {count_over_fifty} | 캡챠 우회 : {count_avoid_capcha} | 서비스 오류 : {count_service_error}\n')
            tmp = crawl_naver_map_v4(dataframe[start:end].iloc[i], driver)

    driver.close()
    print('\n검색 종료!')

    global tmp_naver_search_all  # 검색결과 저장 DF 전역변수 사용
    global tmp_naver_search_rejected  # 검색거부 저장 DF 전역변수 사용

    tmp = tmp_naver_search_all, tmp_naver_search_rejected
    return tmp    

In [153]:
start = 0
end = 20
restart = 0

tmp = run_naver_map_search(public_salon, start, end, restart)

Naver ID : qlrthdthd
Naver PW : ········


HBox(children=(IntProgress(value=0, max=20), HTML(value='')))

try row-num : 0
검색어 : 백민재헤어샵 미용실
검색결과 0건
[2020-04-23 15:17:16.188158] 검색결과 없음 !!
성공 : 0 | 0건 검색 : 1 | 50건이상 검색 : 0 | 캡챠 우회 : 0 | 서비스 오류 : 0

try row-num : 1
검색어 : 백민재헤어샵 미용실
검색결과 0건
[2020-04-23 15:17:18.728782] 검색결과 없음 !!
성공 : 0 | 0건 검색 : 2 | 50건이상 검색 : 0 | 캡챠 우회 : 0 | 서비스 오류 : 0

try row-num : 2
검색어 : 들어가도싱글나가도벙글 미용실 미용실
검색결과 0건
[2020-04-23 15:17:21.068631] 검색결과 없음 !!
성공 : 0 | 0건 검색 : 3 | 50건이상 검색 : 0 | 캡챠 우회 : 0 | 서비스 오류 : 0

try row-num : 3
검색어 : 조희미용실 미용실
검색결과 1건
[2020-04-23 15:17:26.346215] 검색 및 저장 성공 !!
성공 : 1 | 0건 검색 : 3 | 50건이상 검색 : 0 | 캡챠 우회 : 0 | 서비스 오류 : 0

try row-num : 4
검색어 : 정정원헤어룩 미용실
검색결과 1건
[2020-04-23 15:17:30.829721] 검색 및 저장 성공 !!
성공 : 2 | 0건 검색 : 3 | 50건이상 검색 : 0 | 캡챠 우회 : 0 | 서비스 오류 : 0

try row-num : 5
검색어 : 박승철헤어스투디오 청담점 미용실
검색결과 1건
[2020-04-23 15:17:35.602854] 검색 및 저장 성공 !!
성공 : 3 | 0건 검색 : 3 | 50건이상 검색 : 0 | 캡챠 우회 : 0 | 서비스 오류 : 0

try row-num : 6
검색어 : 박승철헤어스튜디오 미용실
검색결과 1건
page_source 불러오기 실패. 재시도
[2020-04-23 15:17:41.370000] 검색 및 저장 성공 !!
성공 : 4 | 0건 검색 : 3

In [184]:
# driver.close()

In [185]:
tmp[0].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 10 columns):
업소ID       12 non-null object
업소명        12 non-null object
소재지전화번호    12 non-null object
소재지도로명     12 non-null object
카테고리       12 non-null object
검색주소타입     12 non-null object
검색인덱스      12 non-null object
검색어        12 non-null object
검색건수       12 non-null object
수집일        12 non-null object
dtypes: object(10)
memory usage: 1.1+ KB


In [186]:
tmp[1].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9 entries, 0 to 19
Data columns (total 8 columns):
지역        9 non-null object
업소명       9 non-null object
검색주소      9 non-null object
검색주소타입    9 non-null object
검색어       9 non-null object
검색건수      9 non-null object
원인        9 non-null object
수집일       9 non-null object
dtypes: object(8)
memory usage: 648.0+ bytes


In [187]:
tmp[0].to_csv(
      './naver_map_seoul_salon_output_rejected_data_%s.csv' % datetime.datetime.now().strftime('%Y-%m-%d')
    , encoding='utf-8'
)

In [188]:
# 현재까지의 네이버 검색 결과를 csv 파일로 저장
tmp[1].to_csv(
      './naver_map_seoul_salon_output_rejected_data_%s.csv' % datetime.datetime.now().strftime('%Y-%m-%d')
    , encoding='utf-8'
)