# 전체 크롤링 코드

In [3]:
import os
import csv
from time import sleep

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import ElementNotInteractableException
from selenium.common.exceptions import StaleElementReferenceException
from bs4 import BeautifulSoup

import warnings
warnings.filterwarnings('ignore')

##############################################################  ############
##################### variable related selenium ##########################
##########################################################################
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('lang=ko_KR')
chromedriver_path = "C:/chromedriver"
driver = webdriver.Chrome(os.path.join(os.getcwd(), chromedriver_path), options=options)  # chromedriver 열기

reviews = []  # 중복 리뷰를 저장하지 않기 위한 리스트 생성

def main():
    global driver, load_wb, review_num

    driver.implicitly_wait(4)  # 렌더링 될때까지 기다린다 4초
    driver.get('https://map.kakao.com/')  # 주소 가져오기

    # 검색할 목록
    place_infos = [input("")]

    for i, place in enumerate(place_infos):
        # delay
        if i % 4 == 0 and i != 0:
            sleep(5)
        print("#####", i)
        search(place)
        
    # 저장된 리뷰를 CSV 파일에 저장
    save_to_csv(place, reviews)
        
    driver.quit()
    print("finish")

def search(place):
    global driver

    search_area = driver.find_element_by_xpath('//*[@id="search.keyword.query"]')  # 검색 창
    search_area.send_keys(place)  # 검색어 입력
    driver.find_element_by_xpath('//*[@id="search.keyword.submit"]').send_keys(Keys.ENTER)  # Enter로 검색
    sleep(1)

    # 검색된 정보가 있는 경우에만 탐색
    # 1번 페이지 place list 읽기
    html = driver.page_source

    soup = BeautifulSoup(html, 'html.parser')
    place_lists = soup.select('.placelist > .PlaceItem') # 검색된 장소 목록

    # 검색된 첫 페이지 장소 목록 크롤링하기
    crawling(place, place_lists)
    search_area.clear()

    # 우선 더보기 클릭해서 2페이지
    try:
        driver.find_element_by_xpath('//*[@id="info.search.place.more"]').send_keys(Keys.ENTER)
        sleep(1)

        # 2~ 5페이지 읽기
        for i in range(2, 6):
            # 페이지 넘기기
            xPath = '//*[@id="info.search.page.no' + str(i) + '"]'
            driver.find_element_by_xpath(xPath).send_keys(Keys.ENTER)
            sleep(1)

            html = driver.page_source
            soup = BeautifulSoup(html, 'html.parser')
            place_lists = soup.select('.placelist > .PlaceItem') # 장소 목록 list

            crawling(place, place_lists[:5])

    except ElementNotInteractableException:
        print('not found')
    finally:
        search_area.clear()

def save_to_csv(place, reviews):
    file_name = f"{place}_reviews.csv"
    with open(file_name, 'w', newline='', encoding='utf-8') as csvfile:
        fieldnames = ['review']
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()
        for review in reviews:
            writer.writerow({'review': review})
            print(f"{file_name} saved.")


def crawling(place, place_lists):

    while_flag = False
    for i, place in enumerate(place_lists):
        place_name = place.select('.head_item > .tit_name > .link_name')[0].text  # place name
        place_address = place.select('.info_item > .addr > p')[0].text  # place address

        detail_page_xpath = '//*[@id="info.search.place.list"]/li[' + str(i + 1) + ']/div[5]/div[4]/a[1]'
        driver.find_element_by_xpath(detail_page_xpath).send_keys(Keys.ENTER)
        driver.switch_to.window(driver.window_handles[-1])  # 상세정보 탭으로 변환
        sleep(1)

        print(i+1,'.', place_name)

        # 첫 페이지
        extract_review(place_name)

        # 2-5 페이지
        idx = 3
        try:
            page_num = len(driver.find_elements_by_class_name('link_page')) # 페이지 수 찾기
            for i in range(page_num-1):
                # css selector를 이용해 리뷰 페이지 찾기
                driver.find_element_by_css_selector('#mArticle > div.cont_evaluation > div.evaluation_review > div > a:nth-child(' + str(idx) +')').send_keys(Keys.ENTER)
                sleep(1)
                extract_review(place_name)
                idx += 1
            driver.find_element_by_link_text('후기 더보기').send_keys(Keys.ENTER) # 버튼 누르기
            sleep(1)
            extract_review(place_name) # 리뷰 추출
        except (NoSuchElementException, ElementNotInteractableException):
            print("no review in crawling")

        # 그 이후 페이지
        crawl_next_reviews(place_name)

        driver.close()
        driver.switch_to.window(driver.window_handles[0])  # 검색 탭으로 전환

def extract_review(place_name):
    global driver, reviews # reviews 리스트를 사용하기 위해 global로 선언
    ret = True

    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # 현재 페이지 리뷰 목록 찾기
    review_lists = soup.select('.list_evaluation > li')

    # 리뷰가 있는 경우
    if len(review_lists) != 0:
        for i, review in enumerate(review_lists):
            comment = review.select('.txt_comment > span')  # 리뷰
            if comment:
                comment_text = comment[0].text.strip()  # 공백 제거
                if comment_text and comment_text not in reviews:  # comment_text가 비어있지 않고 중복이 아닌 경우에만 출력
                    reviews.append(comment_text)  # 중복이 아닌 리뷰를 reviews 리스트에 추가
                    print(comment_text)
    else:
        print('no review in extract')
        ret = False

    return ret

def crawl_next_reviews(place_name):
    global driver
    max_clicks = 200# 최대 클릭 횟수 설정
    click_count = 0 # 현재 클릭 횟수 초기화
    while click_count < max_clicks:
        try:
            driver.find_element_by_link_text('후기 더보기').send_keys(Keys.ENTER)  # 후기 더보기 버튼 클릭
            sleep(1)
            if not extract_review(place_name):  # 리뷰 추출
                break
            click_count += 1  # 클릭 횟수 증가

        except (NoSuchElementException, ElementNotInteractableException):
            print("no more reviews to load")
            break

            
            
if __name__ == "__main__":
    main()
    

함덕해수욕장
##### 0
1 . 함덕해수욕장
제주에서 젤 좋아하는곳💙
예뻐요..조아요..
일출명소 물놀이 나들이 진짜 바다 색감이 최고!!!!!
바람이 심하게불어서 모래가 많이 날리긴했지만,물맑고 분위기 너무좋았음
함덕.에메랄드빛 해변.최고캠핑하는사람들 쓰레기 처리잘해라 좀!!
처음으로 찾은 함덕해수욕장은 주차장이 작아서 주차가 힘들었고, 주차 후 해수욕장까지 걸어서 1~2부정도 걸어야 보였고, 백사장은 작고, 해수욕장 앞에 횟집들이아닌 편의점,커피숍,호프집,음식점등 다양하게 근접해있다는 점이 좋았습니다 하지만 힐링할곳은 아니고 한번 놀러가볼만한곳으로 다녀오는걸 추천합니다.
편의시설과 인파 적당하고 수심 아이가놀기좋고 소라게 보말등 생물잡기 고운모래놀이 수영 모두 가능함.버스도 자주 다녀서 대중교통 이용 가능
최고입니다. 또 올겁니다.
바다색이 미쳤음 내가 갔을 땐 바다도 잔잔하고 좋았음 근데 사람이 좀 많음
함덕 가신다면 스타벅스보다 해수욕장 바로 앞에 있는 카페 가길 추천 드러요 뷰가 좋거든여   맛보장은 못드려요
따로 찾아서 올만한 곳 입니다.바닷가랑 가까운 곳에 주차장도 별도로 있구요.
서쪽에 협재해수욕장 이라면 동쪽으로는 함덕인듯. .너무 멋지고 바다 가운데 섬처럼 썰물때는 드러나는 모래섬으로 산책도 할수있고 조성도 잘되어 있고 주변 상권도 잘조성되어 있다...깨끗하고 예쁘다...막상 산책다니고 4일을 머물렀는데 해변사진은 몇장없네...다시 찾게될 바다~
나들이
체고 ,,
제주에서 제일 이쁜 바다뷰에 주차까지 좋았음.
바다빛깔 넘 예뻤어요 🫰
예뻐요
이쁨
내가 너무나 애정하는 해수욕장❣️바다색도 최고 예쁘고, 사부작 사부작 거닐며 산책하기에도 좋은 곳 :)
행복했다 ‼️
1년한번가는 제주도  헤헤  또가고싶다
여수보다 다시 찾고 싶은 밤 바다
바다도 하늘도 미쳤다
아주 좋아요 가을에가도 물놀이 물놀이 물놀이 할 수 있어요
https://youtu.be/egjck4nZ4w0ok차박 함덕해수욕장 유튜브 검색하시면 동영상 올렸습니다 여러편과. 아름다운해변

커피 맛있고 쿠키도 맛있습니다.
시원달달한 아이스티와 청귤에이드.오션뷰까지 받쳐주니 금상첨화.1층주문.  2층 시음.장타때리는 커플들만 없으면 더 좋을텐데
규모는 작지만 뷰가 옆건물 스타벅스보다 좋습니다. 스벅은 건물외장재가 뷰를 가려버려요.제주 로컬 브랜드 커피샵은 처음인데 가격저렴한 편이고 커피맛 나쁘지 않았습니다.
뷰 가성비 친절 깨끗합니다 음료는 무난합니다
함덕 카페중 가성비는 최고맛은.. 그냥 에이바웃...ㅋ 뷰는 좋음
뷰가 좋은 가성비 최고 카페
커피+디저트가 아주 좋네요. 뷰도 좋아요~
레몬에이드 맛이 그냥탄산수에 레모나넣은맛이네요..
오전할인도 있고 직원분도 친절하시고 좋아요
10월 21일 아침 7시에 근무하시던 함덕점 남자직원분(안경 쓰셨어요) 칭찬합니다!도민이라 도내 에이바우트 여러 지점을 가봤는데함덕점 남자직원분은 분위기가 밝고 말할 때마다 눈 마주치며 대해주셔서 에이바우트에 대한 이미지가 달라졌어요동네 지점 두고 경치보러 일부러 왔는데 먼거리 온 보람이 있네요ㅎㅎ일부러 칭찬글 남겨요참고로 커피맛과 화장실은 신경써 주시면 더 좋을것 같아요(별☆이 4개인 이유^^;;)
사람이 정말 많지만그것은 오래있을 수 있다는것...!뷰도 좋습니다
아침 11시전에 가기 좋음 조용함
Amazing coffee and price and dessert.  Great customer service.
가격대 엄청 좋고 음료와 디저트도 좋고 컨센트도 좌석마다 있고, 넓고 시원하고 전망도 좋음. 핵심은 싸고 맛있는 음료임.
갈수록 디저트 종류가 없고 관리부실, 오후1시 한창 영업시간에 케잌이 냉동실있다고 먹으려면 10분기다리란다.첫번사진오늘오후 2021.05.26뒷사진 작년가을 초창기때 사진
모닝 아아(11시까지) 1800원 테이크아웃. 맛 좋아요! 바닷가 들고가서 먹었어요
에이바우트커피 처음 가봤는데요. 전 음료 주문하면 디저트도 같이 주고 디저트를 안먹으면 할인해준다는 사실을 몰랐습니다. 점원은 아무말도 안해줬구요.옆에 커피 시키면 디저트도 같이 준다고 써있길래 그

finish


In [9]:
import os
from time import sleep
import pandas as pd

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import ElementNotInteractableException
from selenium.common.exceptions import StaleElementReferenceException
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup

import warnings
warnings.filterwarnings('ignore')

options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('lang=ko_KR')
chromedriver_path = "C:/chromedriver"
driver = webdriver.Chrome(os.path.join(os.getcwd(), chromedriver_path), options=options)

def search(place):
    global driver

    search_area = driver.find_element_by_xpath('//*[@id="search.keyword.query"]')
    search_area.send_keys(place)
    driver.find_element_by_xpath('//*[@id="search.keyword.submit"]').send_keys(Keys.ENTER)
    sleep(1)

    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    place_lists = soup.select('.placelist > .PlaceItem')

    crawling(place, place_lists[:5])
    search_area.clear()

    try:
        driver.find_element_by_xpath('//*[@id="info.search.place.more"]').send_keys(Keys.ENTER)
        sleep(1)

        for i in range(2, 6):
            xPath = '//*[@id="info.search.page.no' + str(i) + '"]'
            driver.find_element_by_xpath(xPath).send_keys(Keys.ENTER)
            sleep(1)

            html = driver.page_source
            soup = BeautifulSoup(html, 'html.parser')
            place_lists = soup.select('.placelist > .PlaceItem')

            crawling(place, place_lists[:5])

    except ElementNotInteractableException:
        print('not found')
    finally:
        search_area.clear()

def crawling(place, place_lists):
    global driver, all_data

    for i, place in enumerate(place_lists):
        place_name = place.select('.head_item > .tit_name > .link_name')[0].text

        detail_page_xpath = '//*[@id="info.search.place.list"]/li[' + str(i + 1) + ']/div[5]/div[4]/a[1]'
        driver.find_element_by_xpath(detail_page_xpath).send_keys(Keys.ENTER)
        driver.switch_to.window(driver.window_handles[-1])
        sleep(1)

        print(i+1, '.', place_name)        
        
        data_dict = extract_data()

        if data_dict:
            all_data.append(data_dict)

        driver.close()
        driver.switch_to.window(driver.window_handles[0])

def find_element(xpath):
    global driver

    try:
        element = driver.find_element_by_xpath(xpath)
        return element.text
    except NoSuchElementException:
        return ""

def extract_data():
    global driver

    place_name = find_element('//*[@id="mArticle"]/div[1]/div[1]/div[2]/div/h2')
    place_location = find_element('//*[@id="mArticle"]/div[1]/div[2]/div[1]/div/span[1]')
    place_feature = find_element('//*[@id="mArticle"]/div[1]/div[1]/div[2]/div/div/span[1]')
    place_star =  find_element('//*[@id="mArticle"]/div[5]/div[1]/div/em')
    operating_time = find_element('//*[@id="mArticle"]/div[1]/div[2]/div[2]/div/div[1]/ul/li/span/span[1]')

    crawling_data = [place_name, place_location, place_feature, place_star, operating_time]
    
    if place_name:
        data_dict = {"place_name": place_name,
            "place_location": place_location,
            "place_feature": place_feature,
            "place_star": place_star,
            "operating_time": operating_time}
        return data_dict, print(crawling_data)
    else:
        return None

def main():
    global driver, all_data
    all_data = []
    driver.implicitly_wait(1)
    driver.get('https://map.kakao.com/')
    
    place_infos = [input("")]
    place_infos_str = "".join(place_infos)

    for i, place in enumerate(place_infos):
        if i % 4 == 0 and i != 0:
            sleep(1)
        search(place)

    driver.quit()
    print("finish")

    # Save all_data to a CSV file
    if all_data:
        data_frame = pd.DataFrame(all_data)
        data_frame.to_csv(f"{place_infos_str}_reviews.csv", index=False, encoding='utf-8-sig')
        print("Data saved to top_25_places_data.csv")
    else:
        print("No data to save")

if __name__ == "__main__":
    main()