# 전체 크롤링 코드

In [23]:
import os
import csv
from time import sleep

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import ElementNotInteractableException
from selenium.common.exceptions import StaleElementReferenceException
from bs4 import BeautifulSoup

import warnings
warnings.filterwarnings('ignore')

##############################################################  ############
##################### variable related selenium ##########################
##########################################################################
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('lang=ko_KR')
chromedriver_path = "C:/chromedriver"
driver = webdriver.Chrome(os.path.join(os.getcwd(), chromedriver_path), options=options)  # chromedriver 열기

reviews = []  # 중복 리뷰를 저장하지 않기 위한 리스트 생성

def main():
    global driver, load_wb, review_num

    driver.implicitly_wait(4)  # 렌더링 될때까지 기다린다 4초
    driver.get('https://map.kakao.com/')  # 주소 가져오기

    # 검색할 목록
    place_infos = [input("")]

    for i, place in enumerate(place_infos):
        # delay
        if i % 4 == 0 and i != 0:
            sleep(5)
        print("#####", i)
        search(place)
        
    # 저장된 리뷰를 CSV 파일에 저장
    save_to_csv(place, reviews)
        
    driver.quit()
    print("finish")

def search(place):
    global driver

    search_area = driver.find_element_by_xpath('//*[@id="search.keyword.query"]')  # 검색 창
    search_area.send_keys(place)  # 검색어 입력
    driver.find_element_by_xpath('//*[@id="search.keyword.submit"]').send_keys(Keys.ENTER)  # Enter로 검색
    sleep(1)

    # 검색된 정보가 있는 경우에만 탐색
    # 1번 페이지 place list 읽기
    html = driver.page_source

    soup = BeautifulSoup(html, 'html.parser')
    place_lists = soup.select('.placelist > .PlaceItem') # 검색된 장소 목록

    # 검색된 첫 페이지 장소 목록 크롤링하기
    crawling(place, place_lists)
    search_area.clear()

    # 우선 더보기 클릭해서 2페이지
    try:
        driver.find_element_by_xpath('//*[@id="info.search.place.more"]').send_keys(Keys.ENTER)
        sleep(1)

        # 2~ 5페이지 읽기
        for i in range(2, 6):
            # 페이지 넘기기
            xPath = '//*[@id="info.search.page.no' + str(i) + '"]'
            driver.find_element_by_xpath(xPath).send_keys(Keys.ENTER)
            sleep(1)

            html = driver.page_source
            soup = BeautifulSoup(html, 'html.parser')
            place_lists = soup.select('.placelist > .PlaceItem') # 장소 목록 list

            crawling(place, place_lists[:5])

    except ElementNotInteractableException:
        print('not found')
    finally:
        search_area.clear()

def save_to_csv(place, reviews):
    file_name = f"{place}_reviews.csv"
    with open(file_name, 'w', newline='', encoding='utf-8') as csvfile:
        fieldnames = ['place_name', 'review']
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()
        for place_name, review in reviews: 
            writer.writerow({'place_name': place_name, 'review': review})
            print(f"{file_name} saved.")



def crawling(place, place_lists):

    while_flag = False
    for i, place in enumerate(place_lists):
        place_name = place.select('.head_item > .tit_name > .link_name')[0].text  # place name
        place_address = place.select('.info_item > .addr > p')[0].text  # place address

        detail_page_xpath = '//*[@id="info.search.place.list"]/li[' + str(i + 1) + ']/div[5]/div[4]/a[1]'
        driver.find_element_by_xpath(detail_page_xpath).send_keys(Keys.ENTER)
        driver.switch_to.window(driver.window_handles[-1])  # 상세정보 탭으로 변환
        sleep(1)

        print(i+1,'.', place_name)

        # 첫 페이지
        extract_review(place_name)

        # 2-5 페이지
        idx = 3
        try:
            page_num = len(driver.find_elements_by_class_name('link_page')) # 페이지 수 찾기
            for i in range(page_num-1):
                # css selector를 이용해 리뷰 페이지 찾기
                driver.find_element_by_css_selector('#mArticle > div.cont_evaluation > div.evaluation_review > div > a:nth-child(' + str(idx) +')').send_keys(Keys.ENTER)
                sleep(1)
                extract_review(place_name)
                idx += 1
            driver.find_element_by_link_text('후기 더보기').send_keys(Keys.ENTER) # 버튼 누르기
            sleep(1)
            extract_review(place_name) # 리뷰 추출
        except (NoSuchElementException, ElementNotInteractableException):
            print("no review in crawling")

        # 그 이후 페이지
        crawl_next_reviews(place_name)

        driver.close()
        driver.switch_to.window(driver.window_handles[0])  # 검색 탭으로 전환

def extract_review(place_name):
    global driver, reviews
    ret = True

    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    review_lists = soup.select('.list_evaluation > li')

    if len(review_lists) != 0:
        for i, review in enumerate(review_lists):
            comment = review.select('.txt_comment > span')
            if comment:
                comment_text = comment[0].text.strip()
                if comment_text and (place_name, comment_text) not in reviews:  # 수정된 부분
                    reviews.append((place_name, comment_text))  # 수정된 부분
                    print(comment_text)
    else:
        print('no review in extract')
        ret = False

    return ret

def crawl_next_reviews(place_name):
    global driver
    max_clicks = 5  # 최대 클릭 횟수 설정
    click_count = 0 # 현재 클릭 횟수 초기화
    while click_count < max_clicks:
        try:
            driver.find_element_by_link_text('후기 더보기').send_keys(Keys.ENTER)  # 후기 더보기 버튼 클릭
            sleep(1)
            if not extract_review(place_name):  # 리뷰 추출
                break
            click_count += 1  # 클릭 횟수 증가

        except (NoSuchElementException, ElementNotInteractableException):
            print("no more reviews to load")
            break

            
            
if __name__ == "__main__":
    main()
    

올래길 7코스
##### 0
1 . 올레길 7코스(서귀포-월평 올레)
Soso
초반에 나오는 천지연폭포를 조망할수 있는 칠십리시공원으로부터 황우지선녀탕, 외돌개로 이어지는 길이 너무 멋지다...이후 바닷길을 오가며범섬을 계속 바라보며 풍경감상하며 지루함없이 길을 걸을수있다...법환포구에 카페, 식당들이 있어서 이곳에서 식사및 쉬어가면 좋을듯~ 켄싱턴리조트이후 강정항과 도착점까지의 후반부는 포장길이라 발의 피로도가 강해지는게 아쉽다...
올레길 7코스는 제주에서도 최고의 관광지 답게 해안따라 각종 명소와 더불어 꽃길과 몽골몽골 자갈길등 감성이 충만한 코스입니다.다소 폐쇄되 우회한 길이 있어 아쉽지만 충분히 좋은 코스입니다.
아름다운 올레길
월평포구부터 거꾸로 해변따라 걷기시작했는데 전체적으로 아름다운 풍경 좋았습니다. 숲속 오솔길이 나오다가 점점 범섬, 섶섬, 문섬이 눈앞까지 보이면서 마지막 지점(7코스 초반부분) 선녀탕에서는 물속에 퐁당 다이빙도 했습니다. ^^ 올레센타본부에 방문한 후 근처 네거리식당에서 시원칼칼한 갈치국도 존맛이였어요!!!
올레길 배스트3!
재미 없다
중간에 사유지 있어서 애 먹었네요
어나더레벨의 경치를 보여줍니다 최고네요
자연과 함께   어우러진 바다내음도 너무너무 상쾌하고 ~~~  ^^ 무엇보다도   대한민국의 파라다이스   같아요!!!~~^^@
올레길 중간에 무서운 소가 있어서 가다가 되돌아왔어요 ㅠㅠ 공격당할 뻔 했어요
힘들지만 노을이 하루의 피로를 말끔히 가져가는..
한적한 바다해안가를 걸으며 힐링을 한거 같다.
6시간 걸려 완주. 걷는 동안 마주친 풍경 하나하나가 예술일강정 돌길이 조금 힘들긴 했지만 올레길 최고의 코스!
제주  올레길 과  오름. 숲 .  바다.  어디 한곳    아름답지 않은 곳이 없지만  7코스는  올레길 중 백미  라 할만 합니다.
올레여행자센터에서 시작하여 멋진 바닷가를 걷는 코스. 올레길은 언제 걸어도 멋진곳~!
제주올레길
2 . 올레길 7-1코스(월드컵경기장-서귀포 올레)
서귀포에서 멀리 한라산말고 가

In [18]:
import os
from time import sleep
import pandas as pd

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import ElementNotInteractableException
from selenium.common.exceptions import StaleElementReferenceException
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup

import warnings
warnings.filterwarnings('ignore')

options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('lang=ko_KR')
chromedriver_path = "C:/chromedriver"
driver = webdriver.Chrome(os.path.join(os.getcwd(), chromedriver_path), options=options)

def search(place):
    global driver

    search_area = driver.find_element_by_xpath('//*[@id="search.keyword.query"]')
    search_area.send_keys(place)
    driver.find_element_by_xpath('//*[@id="search.keyword.submit"]').send_keys(Keys.ENTER)
    sleep(1)

    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    place_lists = soup.select('.placelist > .PlaceItem')

    crawling(place, place_lists[:5])
    search_area.clear()

    try:
        driver.find_element_by_xpath('//*[@id="info.search.place.more"]').send_keys(Keys.ENTER)
        sleep(1)

        for i in range(2, 6):
            xPath = '//*[@id="info.search.page.no' + str(i) + '"]'
            driver.find_element_by_xpath(xPath).send_keys(Keys.ENTER)
            sleep(1)

            html = driver.page_source
            soup = BeautifulSoup(html, 'html.parser')
            place_lists = soup.select('.placelist > .PlaceItem')

            crawling(place, place_lists[:])

    except ElementNotInteractableException:
        print('not found')
    finally:
        search_area.clear()

def crawling(place, place_lists):
    global driver, all_data

    for i, place in enumerate(place_lists):
        place_name = place.select('.head_item > .tit_name > .link_name')[0].text

        detail_page_xpath = '//*[@id="info.search.place.list"]/li[' + str(i + 1) + ']/div[5]/div[4]/a[1]'
        driver.find_element_by_xpath(detail_page_xpath).send_keys(Keys.ENTER)
        driver.switch_to.window(driver.window_handles[-1])
        sleep(1)

        print(i+1, '.', place_name)        
        
        data_dict = extract_data()

        if data_dict:
            all_data.append(data_dict)

        driver.close()
        driver.switch_to.window(driver.window_handles[0])

def find_element(xpath):
    global driver

    try:
        element = driver.find_element_by_xpath(xpath)
        return element.text
    except NoSuchElementException:
        return ""

def extract_data():
    global driver

    place_name = find_element('//*[@id="mArticle"]/div[1]/div[1]/div[2]/div/h2')
    place_location = find_element('//*[@id="mArticle"]/div[1]/div[2]/div[1]/div/span[1]')
    place_feature = find_element('//*[@id="mArticle"]/div[1]/div[1]/div[2]/div/div/span[1]')
    place_star =  find_element('//*[@id="mArticle"]/div[5]/div[1]/div/em')
    operating_time = find_element('//*[@id="mArticle"]/div[1]/div[2]/div[2]/div/div[1]/ul/li/span/span[1]')

    if place_name:
        data_dict = {"관광지 이름": place_name,
            "place_name": place_name,
            "place_location": place_location,
            "place_feature": place_feature,
            "place_star": place_star,
            "operating_time": operating_time}
        return data_dict
    else:
        return None

def main():
    global driver, all_data
    all_data = []
    driver.implicitly_wait(1)
    driver.get('https://map.kakao.com/')
    
    place_infos = [input("")]
    place_infos_str = "".join(place_infos)

    for i, place in enumerate(place_infos):
        if i % 4 == 0 and i != 0:
            sleep(1)
        search(place)

    driver.quit()
    print("finish")

    # Save all_data to a CSV file
    if all_data:
        data_frame = pd.DataFrame(all_data)
        data_frame = data_frame[['관광지 이름', 'place_name', 'place_location', 'place_feature', 'place_star', 'operating_time']]
        data_frame.to_csv(f"{place_infos_str}_places_data.csv", index=False, encoding='utf-8-sig')
        print("Data saved to top_25_places_data.csv")
    else:
        print("No data to save")

if __name__ == "__main__":
    main()

제주도 놀이공원
1 . 제주돌문화공원
2 . 스누피가든
3 . 에코랜드테마파크
4 . 9.81파크
5 . 윈드1947카트테마파크
1 . 다이나믹메이즈 제주도성읍점
2 . 루나폴
3 . 서프라이즈테마파크
4 . 신화테마파크
5 . 제주코코몽에코파크
6 . 제주 유리의성 (휴관중)
7 . 바운스슈퍼파크 제주센터
8 . 액티브파크
9 . 퍼시픽리솜 마린스테이지
10 . 제주공룡랜드 (휴업중)
11 . 테디베어하우스 테지움 제주점
12 . 오늘은카트레이싱
13 . 세리월드
14 . 물의도시 베니스랜드
15 . 금능석물원
1 . 제주센트럴파크
2 . 신화워터파크
3 . 성읍랜드
4 . 산방산랜드
5 . 훈데르트바서파크
6 . 노루생태관찰원
7 . 무비랜드왁스뮤지엄 제주
8 . 휘닉스제주 글라스하우스
9 . 토이파크
10 . 런닝맨 제주점
11 . 고스트타운
12 . 포레스트사파리
13 . 중문미로파크
14 . 제주워터월드
15 . 제주거울미로 이상한나라의 앨리스
1 . 히어로플레이파크 제주점
2 . 가시리 조랑말체험장
3 . 남원용암해수풀장
4 . 세리월드 카트레이싱
5 . 제주루지테마파크
6 . 무병장수테마파크
7 . 마린파크
8 . 금호리조트 제주아쿠아나
9 . 휘닉스제주섭지코지 바람의언덕
10 . 펀테마파크
11 . 제주포크테마파크
12 . 다이노대발이파크 (휴업중)
13 . 남제주 나누리파크
14 . 고스트타운 고스트하우스
15 . 휘닉스제주섭지코지 해안산책로
1 . 제주러브랜드 도깨비광장
2 . 렛츠런파크제주 아름다운승마장
3 . 신화워터파크 실내워터파크동
4 . 이상한나라의앨리스 서광카트장
5 . 선녀와나무꾼 테마공원 추억의영화마을
6 . 제주드론파크
7 . 익스트림아일랜드
8 . 아쿠아플라넷제주 오션데크
9 . 렛츠런파크제주 매직포니
10 . 헤이파크
11 . 스위스스토어
12 . 휘닉스제주 불턱BBQ
13 . 제주돌문화공원 돌하르방
14 . 롯데호텔제주 플레이토피아
15 . 제주애견공원
finish
Data saved to top_25_places_dat