In [None]:
# 2021.08.12
# kakaoMap_crawling_2.ipynb 수정버전
# 수정사항 : 지역구 맛집 검색 및 CSV 저장 자동화 수정, 데이터 변수 종류 및 오류 수정(리뷰 코드, 가게 코드 추가, 비어있는 값은 None값으로 통일)
# 추가사항 : 데이터 저장 방식 변경(클래스 추가)

# 문제점 : DB 연결

In [1]:
import os

from time import sleep
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import ElementNotInteractableException
from selenium.common.exceptions import StaleElementReferenceException
from bs4 import BeautifulSoup

import pandas as pd
import warnings
warnings.filterwarnings(action='ignore')

##########################################################################
##################### variable related selenium ##########################
##########################################################################
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('lang=ko_KR')


driver = webdriver.Chrome('./chromedriver')

rating_df = pd.DataFrame()
restaurant_df = pd.DataFrame()


##### 가게 정보를 담는 클레스
class STORE_Info:
    place_code = ''
    place_name = ''
    place_address = ''
    place_local  = ''
    place_category  = ''
    
    # 생성자
    def __init__(self, place_code = None, place_name = None, place_address = None, place_local = None, place_category = None):
        self.place_code = place_code
        self.place_name =  place_name
        self.place_address = place_address
        self.place_local  = place_local
        self.place_category  = place_category
        
    # 데이터 확인
    def data_check(self):
        print('가게코드 : %s, 가계명 : %s, 주소 : %s, 지역 : %s, 종류 : %s' %(self.place_code, self.place_name, self.place_address, 
                                                                 self.place_local, self.place_category))
        
        
##### 리뷰 정보를 담는 클레스
class REVIEW_Info:
    review_code = ''
    place_code = ''
    comment = ''
    rating = ''
    user_id  = ''
    timestamp  = ''

    
    # 생성자
    def __init__(self, review_code=None, place_code =None ,comment = None, rating = None, user_id = None, timestamp = None):
        self.review_code = review_code
        self.place_code = place_code
        self.comment =  comment
        self.rating = rating
        self.user_id  = user_id
        self.timestamp  = timestamp 

    # 데이터 확인
    def data_check(self):
        print('리뷰코드 : %s, 가게코드 : %s, ID : %s, 리뷰 : %s, 평점 : %s, 날짜 : %s' %(self.review_code, self.place_code, 
                                                                           self.user_id,self.comment, self.rating, self.timestamp))

        
##### 메인 코드 #####
def main():
    global driver, load_wb, review_num, local, number_local, number_store

    driver.implicitly_wait(4)  # 렌더링 될때까지 기다린다 4초
    driver.get('https://map.kakao.com/')  # 주소 가져오기

     #### 검색할 목록
    place_infos = ['성북구 맛집', '강북구 맛집']
#     place_infos = ['도봉구 맛집', '노원구 맛집', '은평구 맛집', '서대문구 맛집', '마포구 맛집', '양천구 맛집', '강서구 맛집','구로구 맛집']
#     place_infos = ['금천구 맛집', '영등포구 맛집', '동작구 맛집', '관악구 맛집', '서초구 맛집', '강남구 맛집', '송파구 맛집','강동구 맛집']
    
    for i, place in enumerate(place_infos):
        print("##### {0} : {1}".format(i,place))
        number_local = 0
        number_store = 0
        
        local = read_local_code(place)
        search(place, local)
        create_csv_file(place)

    driver.quit()
    print("finish")


#### 가게 정보 찾기
def search(place, local):
    """
    검색한 페이지 음식점 정보 크롤링 하는 함수
    :param place: 리뷰 정보 찾을 장소이름
    :param local : 지역구 코드
    """
    global driver

    search_area = driver.find_element_by_xpath('//*[@id="search.keyword.query"]')  # 검색 창
    search_area.send_keys(place)  # 검색어 입력
    driver.find_element_by_xpath('//*[@id="search.keyword.submit"]').send_keys(Keys.ENTER)  # Enter로 검색
    driver.find_element_by_xpath('//*[@id="info.search.place.more"]').send_keys(Keys.ENTER) # 더보기
    
    xPath = '//*[@id="info.search.page.no1"]'
    driver.find_element_by_xpath(xPath).send_keys(Keys.ENTER) # 첫번째 페이지로 이동
    sleep(1)

    # 검색된 정보가 있는 경우에만 탐색
    # 1번 페이지 place list 읽기
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    place_lists = soup.select('.placelist > .PlaceItem') # 검색된 장소 목록

    # 검색된 첫 페이지 장소 목록 크롤링하기
    crawling(place, local, place_lists)

    # 전체 페이지
    while True:
        try:
#            2~ 5페이지 읽기
            for i in range(2, 6):
                # 페이지 넘기기
                xPath = '//*[@id="info.search.page.no' + str(i) + '"]'
                driver.find_element_by_xpath(xPath).send_keys(Keys.ENTER)
                sleep(1)

                html = driver.page_source
                soup = BeautifulSoup(html, 'html.parser')
                place_lists = soup.select('.placelist > .PlaceItem') # 장소 목록 list
                
                crawling(place, local, place_lists)
                
                # 다음 페이지 넘기기
                if i==5:
                    driver.find_element_by_xpath('//*[@id="info.search.page.next"]').send_keys(Keys.ENTER)

        except ElementNotInteractableException:
            print('end page')
            break
            
        finally:
            search_area = driver.find_element_by_xpath('//*[@id="search.keyword.query"]')
            search_area.clear()


#### 가게 정보 크롤링 하기
def crawling(place, local, place_lists):
    """
    페이지 목록을 받아서 크롤링 하는 함수
    :param place: 리뷰 정보 찾을 장소이름
    :param local : 지역구 코드
    :param place_lists : 페이지 내에 있는 음식점 목록
    """
    
    global restaurant_df, number_store

    while_flag = False
    for i, place in enumerate(place_lists):
        place_name = place.select('.head_item > .tit_name > .link_name')[0].text  # place name
        place_address = place.select('.info_item > .addr > p')[0].text  # place address
        place_local = place.select('.info_item > .addr > .lot_number')[0].text
        place_category = place.select('.head_item > .subcategory')[0].text
        place_detail = place.select('.info_item > .contact> .moreview')[0].get('href') # place detail
        
        number_store += 1
        place_code = str('STORE_') + local + str(number_store).zfill(4) # 가게 코드 (ex. STORE_GC0001)
        
        store_Info = STORE_Info(place_code, place_name, place_address, place_local, place_category)
#         store_Info.data_check()
        
        #### DataFrame 저장 ####
        row = {'place_code': place_code, "ItemID":place_name, "address": place_address, "local" : place_local, "category": place_category}
        row = pd.DataFrame(row, index=[1])
        restaurant_df = restaurant_df.append(row, ignore_index=True)
        
        #### 데이터 베이스 저장 #####

        
        
        
        driver.execute_script('window.open("about:blank", "_blank");')
        driver.switch_to.window(driver.window_handles[-1])
        driver.get(place_detail) # 상세정보 탭으로 변환
        sleep(1)
        
        print('####', place_name)
        sleep(1)
        # 첫 페이지
        extract_review(place_name, place_code , local) # 리뷰 추출

        # 2-5 페이지
        idx = 3
        try:
            page_num = len(driver.find_elements_by_class_name('link_page')) # 페이지 수 찾기
            for i in range(page_num-1):
                # css selector를 이용해 페이지 버튼 누르기
                driver.find_element_by_css_selector('#mArticle > div.cont_evaluation > div.evaluation_review > div > a:nth-child(' + str(idx) +')').send_keys(Keys.ENTER)
                sleep(1)
                extract_review(place_name, place_code, local)
                idx += 1
            driver.find_element_by_link_text('다음').send_keys(Keys.ENTER) # 5페이지가 넘는 경우 다음 버튼 누르기
            
            sleep(1)
            extract_review(place_name, place_code, local) # 리뷰 추출
            
            # 그 이후 페이지
            while True:
                idx = 4
                page_num = len(driver.find_elements_by_class_name('link_page')) #페이지 수 찾기
                for i in range(page_num-1):
                    driver.find_element_by_css_selector('#mArticle > div.cont_evaluation > div.evaluation_review > div > a:nth-child(' + str(idx) +')').send_keys(Keys.ENTER)
                    sleep(1)
                    extract_review(place_name, place_code, local)
                    idx += 1
                driver.find_element_by_link_text('다음').send_keys(Keys.ENTER) # 10페이지 이상으로 넘어가기 위한 다음 버튼 클릭
                sleep(1)
                extract_review(place_name, place_code, local) # 리뷰 추출            
            
        except (NoSuchElementException, ElementNotInteractableException):
            print("no review in crawling")

        driver.close()
        driver.switch_to.window(driver.window_handles[0])  # 검색 탭으로 전환


#### 리뷰 크롤링 하기
def extract_review(place_name, place_code, local):
    """
    리뷰 크롤링 하는 함수
    :param place_place: 리뷰 정보 찾을 장소이름
    :param local : 지역구 코드
    """
    
    global driver, rating_df, number_local

    ret = True

    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # 첫 페이지 리뷰 목록 찾기
    review_lists = soup.select('.list_evaluation > li')

    # 리뷰가 있는 경우
    if len(review_lists) != 0:
        for i, review in enumerate(review_lists):
            comment = review.select('.txt_comment > span') # 리뷰
            rating = review.select('.grade_star > em') # 별점
            user_id = review.select('.append_item > a[data-userid]') # user-id 정보 html 파싱
#             user_name = review.select('.append_item > a[data-username]') # user-name 정보 html 파싱
            timestamp = review.select(' div > span.time_write') #시간정보
            number_local += 1
                  

            #### 클래스 ####
            review_info = REVIEW_Info()
            
            review_info.review_code = local + str(number_local).zfill(6) # 리뷰 코드 (ex. GC000001)
            review_info.place_code = place_code
            
            #### 클래스에 정보 담기 ####
            if len(comment) != 0: # 리뷰
                if comment[0].text:
                    review_info.comment = comment[0].text 
                else:
                    review_info.comment = None
            else:
                review_info.comment = None
            
            if len(rating) != 0: # 별점
                review_info.rating = rating[0].text.replace('점', '')
            else:
                review_info.rating = None

            if(len(user_id) != 0): # 유저id
                if(user_id[0].get('data-userid')):
                    review_info.user_id = user_id[0].get('data-userid')
                else:
                    review_info.user_id = None
            else:
                review_info.user_id = None

            if len(timestamp) != 0: # 시간
                review_info.timestamp = timestamp[0].text
            else:
                review_info.timestamp = None
                
#             review_info.data_check()
            
            #### DataFrame 에 정보 담기 ####
            try:
                row = {"review_code" : review_info.review_code, "place_code": place_code, "ItemID": place_name, 
                       "UserID":review_info.user_id, "review" : review_info.comment,
                       "Rating":review_info.rating, "Timestamp":review_info.timestamp}
                row = pd.DataFrame(row, index=[i])
                rating_df = rating_df.append(row, ignore_index=True)
            
            except:
                row = {"review_code" : review_info.review_code, "place_code": place_code, "ItemID":place_name, 
                       "UserID": None, "review" : None, "Rating":None, "Timestamp":review_info.timestamp}
                row = pd.DataFrame(row, index=[i])
                rating_df = rating_df.append(row, ignore_index=True)
                
    else:
        print('no review in extract')
        ret = False

    return ret



#### CSV 파일로 저장 ####
def create_csv_file(place):
    global rating_df, restaurant_df

    rating_df.to_csv('%s_rating_df.csv' %place)
    rating_df.to_csv('%s_rating_df_ko.csv' %place, sep=',', na_rep='NaN', encoding='utf-8-sig')
        
    restaurant_df.to_csv('%s_restaurant_df.csv'  %place)
    restaurant_df.to_csv('%s_restaurant_df_ko.csv'  %place, sep=',', na_rep='NaN', encoding='utf-8-sig')
    
    

#### 지역구 코드 뽑아오기 ####
def read_local_code(place):
    
    local_place = place.split(' ')[0]

    local_code = pd.read_csv('local_code.csv', encoding='utf-8', index_col = 'local')
    print(local_code)
    return local_code.at[local_place, 'local_code'] #[데이터, 컬럼]

#### 메인 ####
if __name__ == "__main__":
    main()

##### 0 : 성북구 맛집
      local_code
local           
종로구          JRO
중구             J
용산구           YS
성동구           SD
광진구           GJ
동대문구         DDM
중랑구           JR
성북구           SB
강북구           GB
도봉구           DB
노원구           NO
은평구           OP
서대문구         SDM
마포구           MP
양천구           YC
강서구           GS
구로구           GR
금천구           GC
영등포구         YDP
동작구           DJ
관악구           GA
서초구           SC
강남구           GN
송파구           SP
강동구           GD
#### 성북동메밀수제비누룽지백숙
no review in crawling
#### 성북동빵공장
no review in crawling
#### 나폴레옹제과점 본점
no review in crawling
#### 빙수야
no review in crawling
#### 성북동면옥집
no review in crawling
#### 한상차림밥상
no review in crawling
#### 블랑제메종북악
no review in crawling
#### 공푸
no review in crawling
#### 한스갤러리
no review in crawling
#### 수연산방
no review in crawling
#### 팔백집
no review in crawling
#### 금왕돈까스 본점
no review in crawling
#### 쌍다리돼지불백 본점
no review in crawling
#### 태조감자국
no review in crawling
#### 이공김밥 안암본점
no review in crawling
#### 안동

In [None]:
rating_df