# 기본 세팅

In [45]:
# 모듈 import
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import time
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException, ElementNotInteractableException

# 페이지 맨 아래까지 스크롤 다운하는 함수
def scroll_down():
    # 끝까지 스크롤 다운
    last_height = driver.execute_script("return document.body.scrollHeight")

    while True:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        # 페이지 로드 대기
        time.sleep(2)  # 페이지 로딩 대기 시간 조정 가능

        # 새로운 높이 계산
        new_height = driver.execute_script("return document.body.scrollHeight")

        # 더 이상 스크롤할 내용이 없으면 종료
        if new_height == last_height:
            break
        last_height = new_height

# 텍스트 찾기 함수
def find_all_text(x):
    if x:
        x_texts = [i.text.strip() for i in x]
        x_text = ', '.join(x_texts)
    else:
        x_text = "Not found"
    
    return x_text

# 메뉴 클릭 함수
def click_menu(menu):
    # 탭 클릭
    try:
    # CSS 선택자를 사용하여 'veBoZ' 클래스를 가진 <span> 요소 중 텍스트가 menu인 요소 찾기
        menu_buttons = driver.find_elements(By.CSS_SELECTOR, 'a._tab-menu span.veBoZ')

        # '메뉴' 텍스트를 가진 요소 클릭
        for button in menu_buttons:
            if menu in button.text:
                button.click()
                break
    except Exception as e:
        print(f"오류 발생: {e}")

In [27]:
# Chrome WebDriver 초기화
driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))

# 네이버 플레이스 켜기 (여기 id 가져오는 코드 필요)
url = 'https://m.place.naver.com/restaurant/37690949/home?entry=pll'
driver.get(url+'home')

# 식당 홈 탭 크롤링
- 식당 이름
- 메뉴 카테고리
- 주소
- 전화번호
- 웹사이트 주소
- 영업 시간
- 역에서부터의 거리
- 서비스 목록
- 총 리뷰 수

In [10]:
def home_page_data():
    time.sleep(5)
    scroll_down()

    # 페이지 소스 가져오기
    page_source = driver.page_source

    # BeautifulSoup 객체 생성
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    
    # 데이터 쌓기
    # 가게 이름
    try:
        restaurant_name = soup.find('span', class_='GHAhO').text.strip()
    except:
        restaurant_name = float('nan')
        
    # 업종
    try:
        category = soup.find('span', class_='lnJFt').text.strip()
    except:
        category = float('nan')
        
    # 총 방문자 리뷰 수
    try:
        count_reviews = soup.find_all('em', class_='place_section_count')
        second_count_review = count_reviews[1].text.strip()
    except:
        second_count_review = float('nan')
        
    # 주소
    try:
        address = soup.find('div', class_='O8qbU tQY7D').find('span', class_='LDgIH').text.strip()
    except:
        address = float('nan')
       
    # 역 기준 거리
    try:
        distance = soup.find('div', class_='nZapA').text.strip()
    except:
        distance = float('nan')

    # 영업 시간
    try:
        business_hours = soup.find('div', class_='O8qbU pSavy').find('span', class_='A_cdD').text.strip()
    except:
        business_hours = float('nan')

    # 전화번호
    try:
        phone_number = soup.find('div', class_='O8qbU nbXkr').find('span', class_='xlx7Q').text.strip()
    except:
        phone_number = float('nan')
        
    # 홈페이지
    try:
        # 'div' 태그에서 class가 'O8qbU yIPfO'인 요소를 찾고, 그 안에 있는 'a' 태그를 모두 찾기
        website_links = soup.find('div', class_='O8qbU yIPfO').find_all('a', class_='place_bluelink')
        # website_links_hrefs = [link.get('href') for link in website_links]
    except:
        website_links = float('nan')
        
    # 부가 서비스 목록
    try:
        home_service = soup.find('div', class_='xPvPE').text.strip()
    except:
        home_service = float('nan')

    return restaurant_name, category, second_count_review, address, distance, business_hours, phone_number, website_links, home_service

# 메뉴 탭 크롤링
- 메뉴 텍스트 정보

In [46]:
def menu_page_data():
    #메뉴 탭 클릭
    click_menu('메뉴')
    
    time.sleep(5)
    scroll_down()
    
    # 메뉴 더보기 버튼 클릭
    while True:
        try:
            more_menu_button = driver.find_element(By.XPATH, '/html/body/div[3]/div/div/div/div[6]/div/div[1]/div[2]/div/a')
            if more_menu_button.is_displayed() and more_menu_button.is_enabled():
                more_menu_button.click()
                time.sleep(2)  # 클릭 후 로딩 대기
            else:
                break
        except NoSuchElementException:
            break
    
    # 페이지 소스 가져오기
    page_source = driver.page_source

    # BeautifulSoup 객체 생성
    soup = BeautifulSoup(page_source, 'html.parser')

    # 메뉴 텍스트 내용 긁어오기
    try:
        menu_texts = soup.find_all('div', class_='MXkFw')
        menu_contents = [menu_text.text.strip() for menu_text in menu_texts]
    except:
        menu_contents = float('nan')
        
    # 결과 반환
    return menu_contents

# 정보 탭 크롤링
- 소개글
- 편의시설 및 서비스
- 주차
- 좌석, 공간

In [48]:
def info_page_data():
    # 정보 탭 클릭
    click_menu('정보')

    time.sleep(5)
    scroll_down()

    # 페이지 소스 가져오기
    page_source = driver.page_source

    # BeautifulSoup 객체 생성
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    
    # 데이터 쌓기
    # 소개글
    #     try:
    #         introduce_button = driver.find_element(By.XPATH, '/html/body/div[3]/div/div/div/div[5]/div/div[1]/div/div/div[2]/a')
    #         introduce_button.click()
    #         introduce = soup.find('div', class_='T8RFa').text.strip()
    #     except:
    #         introduce = float('nan')
    
    # 편의 시설 및 서비스
    try:
        service = soup.find_all('div', class_='owG4q')
        services = find_all_text(service)
        
    except:
        services = float('nan')
    
    # 주차
    try:
        parking = soup.find('div', class_='TZ6eS').text.strip()
    except:
        parking = float('nan')
    
    # 좌석, 공간
    try:
        seat = soup.find_all('li', class_='Lw5L1')
        seats = find_all_text(seat)
        
    except:
        seats = float('nan')
        
    return services, parking, seats

# 리뷰 탭 크롤링
- 리뷰 텍스트 내용

In [None]:
# 추가한 코드
from urllib.parse import urlparse, parse_qs, urlencode, urlunparse

def scroll_up():
    driver.execute_script("window.scrollTo(0, 0);")
    time.sleep(2)  # 스크롤 후 페이지 로딩 대기
    
def add_query_param_to_url(url, param_name, param_value):
    """현재 URL에 쿼리 파라미터를 추가하여 반환"""
    url_parts = list(urlparse(url))
    query = dict(parse_qs(url_parts[4]))
    query[param_name] = param_value
    url_parts[4] = urlencode(query, doseq=True)
    return urlunparse(url_parts)

In [50]:
def review_page_data():
    # 리뷰 탭 클릭
    click_menu('리뷰')
    time.sleep(5)
    
    # 최신순 버튼 클릭
    # 처음에는 이런 코드였는데, scroll_up(), scroll_down() 사용으로 화면에 버튼이 안보이면 최신순 버튼 클릭이 잘 안돼서..ㅠㅠ
    # 또 얘가 되면 키워드 리뷰 더보기 클릭이 안되고.. 이러저러하다가 뭔가 복잡해졌습니다
    # recent_button = driver.find_element(By.XPATH, '/html/body/div[3]/div/div/div/div[6]/div[2]/div[3]/div/div[2]/div[1]/span[2]/a')
    # recent_button.click()
    # time.sleep(3)
    
# scroll_up()
    current_url = driver.current_url
    updated_url = add_query_param_to_url(current_url, 'reviewSort', 'recent')
    driver.get(updated_url)
    time.sleep(5)  # 페이지 로딩 대기
    
    # 키워드 리뷰 데이터 쌓기
    while True:
        try:
            # "더보기" 버튼의 XPath
            more_review_keyword_xpath = '/html/body/div[3]/div/div/div/div[6]/div[2]/div[1]/div/div/div[2]/a[1]'

            # "더보기" 버튼 요소 찾기
            more_review_keyword = driver.find_element(By.XPATH, more_review_keyword_xpath)

            # "더보기" 버튼 클릭
            more_review_keyword.click()

            # 클릭 후 페이지 로딩 대기
            time.sleep(2)

            # 'a' 태그의 'dP0sq' 클래스를 가진 요소 찾기
            dP0sq_elements = driver.find_elements(By.CLASS_NAME, 'dP0sq')

            if not dP0sq_elements:
                # 'dP0sq' 클래스를 가진 요소가 없으면 루프 종료
                break

        except NoSuchElementException:
            # "더보기" 버튼을 찾을 수 없으면 루프 종료
            break

    scroll_down()

    # 리뷰 키워드 정보 추출
    # 페이지 소스 가져오기
    page_source = driver.page_source

    # BeautifulSoup 객체 생성
    soup = BeautifulSoup(page_source, 'html.parser')

    # 모든 't3JSf' 태그와 'CUoLy' 태그를 찾음
    review_keywords_elements = soup.find_all('span', class_='t3JSf')
    review_keywords_count_elements = soup.find_all('span', class_='CUoLy')

    # 두 리스트의 길이를 확인하여 최소 길이만큼 순회
    min_length = min(len(review_keywords_elements), len(review_keywords_count_elements))

    # 키워드 데이터 리스트 생성
    review_keywords_data = []

    # 순서대로 함께 추가
    for i in range(min_length):
        review_keywords = review_keywords_elements[i].text.strip()
        review_keywords_count = review_keywords_count_elements[i].text.strip()
        review_keywords_data.append({
            'keyword': review_keywords,
            'count': review_keywords_count
        })
    
    scroll_down()
    
    # 끝까지 스크롤 다운 및 더보기 클릭 반복
    i = 0
    while i < 10:
        # 끝까지 스크롤 다운
        last_height = driver.execute_script("return document.body.scrollHeight")

        while True:
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(2)  # 페이지 로딩 대기 시간 조정 가능
            new_height = driver.execute_script("return document.body.scrollHeight")
            if new_height == last_height:
                break
            last_height = new_height

        # 더보기 버튼 클릭
        try:
            more_review_button = driver.find_element(By.XPATH, '/html/body/div[3]/div/div/div/div[6]/div[2]/div[3]/div[2]/div/a')
            if more_review_button.is_displayed() and more_review_button.is_enabled():
                more_review_button.click()
                time.sleep(2)  # 클릭 후 로딩 대기
                i += 1
            else:
                break
        except NoSuchElementException:
            break
        except ElementNotInteractableException:
            break
            
    # 개별 리뷰 더보기 버튼
    # 초기 XPath
    base_xpath = '/html/body/div[3]/div/div/div/div[6]/div[2]/div[3]/div/ul/li[{}]/div/div[4]/a'

    # 버튼을 순차적으로 클릭
    button_index = 1
    while True:
        try:
            # 현재 XPath
            current_xpath = base_xpath.format(button_index)

            # 해당 XPath에 해당하는 요소가 있는지 확인
            button = driver.find_element(By.XPATH, current_xpath)

            # 요소가 있다면 클릭하고 인덱스를 증가시킴
            button.click()
            time.sleep(2)  # 클릭 후 페이지 로딩 대기
            button_index += 1
        except:
            break
            
    scroll_up()
        
    while True:
        try:
            # CSS 선택자를 사용하여 'sIv5s WPk67' 클래스를 가진 <a> 태그 찾기
            review_buttons = driver.find_elements(By.CSS_SELECTOR, 'a.sIv5s.WPk67[role="button"]')

            if not review_buttons:
                # 더 이상 클릭할 버튼이 없으면 종료
                break

            for button in review_buttons:
                try:
                    button.click()
                    time.sleep(2)  # 클릭 후 페이지 로딩 대기
                except ElementNotInteractableException:
                    continue
        except NoSuchElementException:
            print("리뷰 더보기 버튼을 찾을 수 없습니다.")
            break
        except Exception as e:
            print(f"오류 발생: {e}")
            break
            
    scroll_down()

    # 페이지 로드 후 HTML 소스를 BeautifulSoup로 파싱
    html_source = driver.page_source
    soup = BeautifulSoup(html_source, 'html.parser')
    
    try:
        review_texts = soup.find_all('span', class_='zPfVt')
        keyword_review_texts = soup.find_all('div', class_='ERkm0')
    except:
        review_texts = float('nan')
        keyword_review_texts = float('nan')

    # 텍스트 추출
    review_text_list = [span.get_text() for span in review_texts]
    keyword_review_texts_list = [div.get_text() for div in keyword_review_texts]
    
    return review_keywords_data, review_text_list, keyword_review_texts_list

In [51]:
review_page_data()

['미포리1987에서 주말 런치타임 가졌어요:) 여유로운 분위기와 맛, 친절하심, 날씨까지 어느하나 빠지지 않던  식사시간이었어요! 메뉴외 음료가 다양해서 양식 좋아하시면 호불호없이 즐기실 수 있는 맛집이랍니당\n국물치킨은 다음에 또 생각날꺼 같아요😀',
 '샐러드가 신선하고 파스타맛이 좋음\n갈비찜 고기가 좀 퍽퍽한 것만 제외하면\n맛이 좋고 재방문 하고 싶어오',
 '좋아요',
 '가격도 괜찮고 맛도 좋습니다👍🏻👍🏻',
 '좋아요 ',
 '굿',
 '매콤한 갈비찜과 청양크림 파스타 주문했는데\n둘다 넘 맛있었어요☺️👍🏻',
 '대흥의 레전드 아니 마포의 레전드 양식집 ! 국물치킨과 크림파스타가 정말 맛있습니다 :)',
 '4번정도 방문했는데 복불복이 좀 있네요 ^^ 가격대비 생각했을때 앞으로는 안갈꺼같아요.',
 '맛있어요.\n흠이라면 양이 만족스럽지 않다는것!!',
 '감바스, 새우 크림파스타, 제주 협재 볶음밥, 감튀 먹었는데 오늘도 넘 맛있네용!!😋\n특히 감바스랑 같이 먹는 먹물빵 폼이 미쵸써요ㅠ🫢\n또 올껍니당 경의선 숲길 데뚜로 추천해요👍🏻👍🏻',
 '미취학 아이와 가서 먹기에도 가정식 파스타처럼 간이 좋고 맛있습니다. 저희 집 아이는 매우 좋아해요.\n메뉴중에 no 메뉴 파스타?를 어제 주문해서 먹었는데 이것도 매우 좋았습니다!!',
 '학생때부터 자주 다니던 파스타 맛집이에요🥰 스타터인 브루스케타부터 메인 메뉴인 파스타, 뇨끼 전부 맛있어요😋 뇨끼떡볶이는 처음 먹어보는 메뉴인데 색다르면서 술안주로도 좋을 것 같아요. 경의선 숲길 근처 데이트 장소로 추천해요!! ',
 '주말 저녁에 데이트로 갔는데 너무 힐링되는 시간🤭 실제로 보니 은은한 조명에 가게 인테리어가 너무 예뻐 분위기가 좋았어요!!! ❣️ 데\n이트, 소개팅 장소 강추🤭마포리의 시그니처 국물치킨과 꽃게향 가득 쉬림프비스크 파스타도 먹었습니당👏🏻👏🏻 이런 이색적인 메뉴가??\n시원한듯한 국물과 바삭한 치킨, 숙주와 조합 강추니 꼭 드셔보시구요. 숙주가 있어서 건강한 느낌도 있어요!  

* 개별 리뷰의 키워드 버튼 클릭 코드만 따로

In [None]:
# 개별 리뷰의 키워드 버튼 클릭
while True:
    try:
        # CSS 선택자를 사용하여 'sIv5s WPk67' 클래스를 가진 <a> 태그 찾기
        review_buttons = driver.find_elements(By.CSS_SELECTOR, 'a.sIv5s.WPk67[role="button"]')

        if not review_buttons:
            # 더 이상 클릭할 버튼이 없으면 종료
            break

        for button in review_buttons:
            try:
                button.click()
                time.sleep(2)  # 클릭 후 페이지 로딩 대기
            except ElementNotInteractableException:
                continue
    except NoSuchElementException:
        print("리뷰 더보기 버튼을 찾을 수 없습니다.")
        break
    except Exception as e:
        print(f"오류 발생: {e}")
        break
        
# 개별 리뷰의 키워드 추출
    # 페이지 로드 후 HTML 소스를 BeautifulSoup로 파싱
    html_source = driver.page_source
    soup = BeautifulSoup(html_source, 'html.parser')

    try:
        keyword_review_texts = soup.find_all('div', class_='ERkm0')
        # 텍스트 추출
        keyword_review_texts_list = [div.get_text() for div in keyword_review_texts]
    except Exception as e:
        keyword_review_texts_list = []