# 전체 크롤링 코드

In [1]:
import os
import csv
from time import sleep

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import ElementNotInteractableException
from selenium.common.exceptions import StaleElementReferenceException
from bs4 import BeautifulSoup

import warnings
warnings.filterwarnings('ignore')

##############################################################  ############
##################### variable related selenium ##########################
##########################################################################
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('lang=ko_KR')
chromedriver_path = "C:/chromedriver"
driver = webdriver.Chrome(os.path.join(os.getcwd(), chromedriver_path), options=options)  # chromedriver 열기

reviews = []  # 중복 리뷰를 저장하지 않기 위한 리스트 생성

def main():
    global driver, load_wb, review_num

    driver.implicitly_wait(4)  # 렌더링 될때까지 기다린다 4초
    driver.get('https://map.kakao.com/')  # 주소 가져오기

    # 검색할 목록
    place_infos = [input("")]

    for i, place in enumerate(place_infos):
        # delay
        if i % 4 == 0 and i != 0:
            sleep(5)
        print("#####", i)
        search(place)
        
    # 저장된 리뷰를 CSV 파일에 저장
    save_to_csv(place, reviews)
        
    driver.quit()
    print("finish")

def search(place):
    global driver

    search_area = driver.find_element_by_xpath('//*[@id="search.keyword.query"]')  # 검색 창
    search_area.send_keys(place)  # 검색어 입력
    driver.find_element_by_xpath('//*[@id="search.keyword.submit"]').send_keys(Keys.ENTER)  # Enter로 검색
    sleep(1)

    # 검색된 정보가 있는 경우에만 탐색D
    # 1번 페이지 place list 읽기
    html = driver.page_source

    soup = BeautifulSoup(html, 'html.parser')
    place_lists = soup.select('.placelist > .PlaceItem') # 검색된 장소 목록

    # 검색된 첫 페이지 장소 목록 크롤링하기
    crawling(place, place_lists)
    search_area.clear()

    # 우선 더보기 클릭해서 2페이지
    try:
        driver.find_element_by_xpath('//*[@id="info.search.place.more"]').send_keys(Keys.ENTER)
        sleep(1)

        # 2~ 5페이지 읽기
        for i in range(2, 6):
            # 페이지 넘기기
            xPath = '//*[@id="info.search.page.no' + str(i) + '"]'
            driver.find_element_by_xpath(xPath).send_keys(Keys.ENTER)
            sleep(1)

            html = driver.page_source
            soup = BeautifulSoup(html, 'html.parser')
            place_lists = soup.select('.placelist > .PlaceItem') # 장소 목록 list

            crawling(place, place_lists[:5])

    except ElementNotInteractableException:
        print('not found')
    finally:
        search_area.clear()

def save_to_csv(place, reviews):
    file_name = f"{place}_reviews.csv"
    with open(file_name, 'w', newline='', encoding='utf-8') as csvfile:
        fieldnames = ['place_name', 'review']
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()
        for place_name, review in reviews: 
            writer.writerow({'place_name': place_name, 'review': review})
            print(f"{file_name} saved.")



def crawling(place, place_lists):

    while_flag = False
    for i, place in enumerate(place_lists):
        place_name = place.select('.head_item > .tit_name > .link_name')[0].text  # place name
        place_address = place.select('.info_item > .addr > p')[0].text  # place address

        detail_page_xpath = '//*[@id="info.search.place.list"]/li[' + str(i + 1) + ']/div[5]/div[4]/a[1]'
        driver.find_element_by_xpath(detail_page_xpath).send_keys(Keys.ENTER)
        driver.switch_to.window(driver.window_handles[-1])  # 상세정보 탭으로 변환
        sleep(1)

        print(i+1,'.', place_name)

        # 첫 페이지
        extract_review(place_name)

        # 2-5 페이지
        idx = 3
        try:
            page_num = len(driver.find_elements_by_class_name('link_page')) # 페이지 수 찾기
            for i in range(page_num-1):
                # css selector를 이용해 리뷰 페이지 찾기
                driver.find_element_by_css_selector('#mArticle > div.cont_evaluation > div.evaluation_review > div > a:nth-child(' + str(idx) +')').send_keys(Keys.ENTER)
                sleep(1)
                extract_review(place_name)
                idx += 1
            driver.find_element_by_link_text('후기 더보기').send_keys(Keys.ENTER) # 버튼 누르기
            sleep(1)
            extract_review(place_name) # 리뷰 추출
        except (NoSuchElementException, ElementNotInteractableException):
            print("no review in crawling")

        # 그 이후 페이지
        crawl_next_reviews(place_name)

        driver.close()
        driver.switch_to.window(driver.window_handles[0])  # 검색 탭으로 전환

def extract_review(place_name):
    global driver, reviews
    ret = True

    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    review_lists = soup.select('.list_evaluation > li')

    if len(review_lists) != 0:
        for i, review in enumerate(review_lists):
            comment = review.select('.txt_comment > span')
            if comment:
                comment_text = comment[0].text.strip()
                if comment_text and (place_name, comment_text) not in reviews:  # 수정된 부분
                    reviews.append((place_name, comment_text))  # 수정된 부분
                    print(comment_text)
    else:
        print('no review in extract')
        ret = False

    return ret

def crawl_next_reviews(place_name):
    global driver
    max_clicks = 5  # 최대 클릭 횟수 설정
    click_count = 0 # 현재 클릭 횟수 초기화
    while click_count < max_clicks:
        try:
            driver.find_element_by_link_text('후기 더보기').send_keys(Keys.ENTER)  # 후기 더보기 버튼 클릭
            sleep(1)
            if not extract_review(place_name):  # 리뷰 추출
                break
            click_count += 1  # 클릭 횟수 증가

        except (NoSuchElementException, ElementNotInteractableException):
            print("no more reviews to load")
            break

            
            
if __name__ == "__main__":
    main()
    

제주도 성산일출봉
##### 0
1 . 성산일출봉
제주여행중 경치는 최고! 일출명소
성산일출봉 정상에 오르시면 사방팔방 뷰가 좋아요 🤙
무료코스도 괜찮아요 :)
정말 멋짐.
7:30전 무료입장 가능이라성산에 올때마다 일출보러 왓엇는데,겨울엔 첨이라 늦게 오다보니 7시넘어 주차하고 들어갈려니 검표하는 아저씨가 못올라가게 막네요.매표도 아직 안하는데 내려가서 기다렷다 매표하고 올라오랍니다.저 위에 사람들은 뭐냐고 하니, 저사람들이 불법이고, 그땐 자기가 없엇다네요.벼슬이 따로 없네요.일출봉에 일출 보러 올라가는게 불법이라니요.
성산일출봉오르기는 조금 힘들어도뷰가 좋은 곳
바람한줄기 조차도 운치있던 제주도가 수십년간 개발로 인해 많이 아쉽긴 하지만, 여전히 일출 최고의 명소중 한곳입니다. 한라산, 바다, 유채꽃, 솟아오르는 태양.. 사방 경치의 궁합이 아주 좋아요. 특히, 지금이 일출봉 방문 최적의 시기입니다. 코로나 이전엔 수학여행+관광객으로 미어터졌음. 특히 도자기나라 관광객들 오면 특유의 고주파음으로 귀가 썩어내림. 아름다운 자연경관에 소음쓰레기 버리고 가는 족속들..  칠기나라 애들은 기본메너라도 있지요..  노란 봄날, 광치기해변 유채꽃과 성산일출봉은 언제나 제주를 대표하는 봄의 한컷!
아름다워요..
새해 일출 사전예약 500명 한정, 현장접수 불가새해 일출을 보려고 정말 많은 사람들이 찾아왔지만 미리 예약 안하면 입구컷 당하고 돌아갔습니다. 교통지옥만 맛보고 가네요. 세계적인 명소라고 해서 멀리서 비싼 숙소 잡아서 오는 사람도 많은데 너무 허탈합니다. 예약한 사람이 다 온다는 보장도 없는데 새벽 일찍 눈비비고 일찍 온사람에 대한 혜택도 있어야 되는거 아닌가요? "니가 몰라서 못간거지 아는 사람은 다 갔다?" 성산일출봉이 제주도민의 전유물인가요. 1년 가까이 제주도 살았지만 저도 몰랐습니다. 관계당국은 운영방식을 꼭 재고해주시기 바랍니다. 많은 방문객들이 여행을 망치고 돌아갔을 것 같네요
멀리서만 보던 성산일출봉 가까이서 보니 신기했음가운데에 물있었음올라갈

KeyboardInterrupt: 

In [None]:
import os
from time import sleep
import pandas as pd

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import ElementNotInteractableException
from selenium.common.exceptions import StaleElementReferenceException
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup

import warnings
warnings.filterwarnings('ignore')

options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('lang=ko_KR')
chromedriver_path = "C:/chromedriver"
driver = webdriver.Chrome(os.path.join(os.getcwd(), chromedriver_path), options=options)

def search(place):
    global driver

    search_area = driver.find_element_by_xpath('//*[@id="search.keyword.query"]')
    search_area.send_keys(place)
    driver.find_element_by_xpath('//*[@id="search.keyword.submit"]').send_keys(Keys.ENTER)
    sleep(1)

    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    place_lists = soup.select('.placelist > .PlaceItem')

    crawling(place, place_lists[:5])
    search_area.clear()

    try:
        driver.find_element_by_xpath('//*[@id="info.search.place.more"]').send_keys(Keys.ENTER)
        sleep(1)

        for i in range(2, 6):
            xPath = '//*[@id="info.search.page.no' + str(i) + '"]'
            driver.find_element_by_xpath(xPath).send_keys(Keys.ENTER)
            sleep(1)

            html = driver.page_source
            soup = BeautifulSoup(html, 'html.parser')
            place_lists = soup.select('.placelist > .PlaceItem')

            crawling(place, place_lists[:])

    except ElementNotInteractableException:
        print('not found')
    finally:
        search_area.clear()

def crawling(place, place_lists):
    global driver, all_data

    for i, place in enumerate(place_lists):
        place_name = place.select('.head_item > .tit_name > .link_name')[0].text

        detail_page_xpath = '//*[@id="info.search.place.list"]/li[' + str(i + 1) + ']/div[5]/div[4]/a[1]'
        driver.find_element_by_xpath(detail_page_xpath).send_keys(Keys.ENTER)
        driver.switch_to.window(driver.window_handles[-1])
        sleep(1)

        print(i+1, '.', place_name)        
        
        data_dict = extract_data()

        if data_dict:
            all_data.append(data_dict)

        driver.close()
        driver.switch_to.window(driver.window_handles[0])

def find_element(xpath):
    global driver

    try:
        element = driver.find_element_by_xpath(xpath)
        return element.text
    except NoSuchElementException:
        return ""

def extract_data():
    global driver

    place_name = find_element('//*[@id="mArticle"]/div[1]/div[1]/div[2]/div/h2')
    place_location = find_element('//*[@id="mArticle"]/div[1]/div[2]/div[1]/div/span[1]')
    place_feature = find_element('//*[@id="mArticle"]/div[1]/div[1]/div[2]/div/div/span[1]')
    place_star =  find_element('//*[@id="mArticle"]/div[5]/div[1]/div/em')
    operating_time = find_element('//*[@id="mArticle"]/div[1]/div[2]/div[2]/div/div[1]/ul/li/span/span[1]')

    if place_name:
        data_dict = {"관광지 이름": place_name,
            "place_name": place_name,
            "place_location": place_location,
            "place_feature": place_feature,
            "place_star": place_star,
            "operating_time": operating_time}
        return data_dict
    else:
        return None

def main():
    global driver, all_data
    all_data = []
    driver.implicitly_wait(1)
    driver.get('https://map.kakao.com/')
    
    place_infos = [input("")]
    place_infos_str = "".join(place_infos)

    for i, place in enumerate(place_infos):
        if i % 4 == 0 and i != 0:
            sleep(1)
        search(place)

    driver.quit()
    print("finish")

    # Save all_data to a CSV file
    if all_data:
        data_frame = pd.DataFrame(all_data)
        data_frame = data_frame[['관광지 이름', 'place_name', 'place_location', 'place_feature', 'place_star', 'operating_time']]
        data_frame.to_csv(f"{place_infos_str}_places_data.csv", index=False, encoding='utf-8-sig')
        print("Data saved to top_25_places_data.csv")
    else:
        print("No data to save")

if __name__ == "__main__":
    main()