In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd
import datetime
import re

In [2]:
def get_next_page(driver):
    try:
        driver.find_element_by_class_name("ui_button.nav.next.primary").send_keys(Keys.ENTER)
        return True
    except:
        print('마지막 페이지입니다')
        return False

In [3]:
def convert_date(date):
    stay_date = date.split('숙박 날짜: ')
    stay_date = stay_date[1]

    # 20XX년 X월 형태의 str
    stay_date = stay_date.replace('년', '').replace(' ', '').replace('월', '')
    dt = datetime.datetime.strptime(stay_date, '%Y%m')
    dt = dt.date() #20XX-XX-01 형태의 date 객체
    return dt

In [23]:
# convert_date 실행 예시
convert_date('숙박 날짜: 2020년 11월')

datetime.date(2020, 11, 1)

In [39]:
def get_data(driver):
    iteration = True
    df = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])
    try:
        time.sleep(20)
        #WebDriverWait(driver, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 
        #                                                                    "div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu")))
        # 더보기 클릭
        driver.find_element_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu").click()

        time.sleep(5)
        # 숙박 날짜 가져오기
        dates = driver.find_elements_by_class_name("_34Xs-BQm")
        stay_dates = []
        for d in dates:
            stay_date = convert_date(d.text)
            stay_dates.append(stay_date)
            if stay_date < datetime.date(2019,7,1):
                iteration = False

        # 닉네임 가져오기
        nicknames = driver.find_elements_by_css_selector("div._310S4sqz > div > div._2fxQ4TOx > span > a")
        # 별점 가져오기
        rating_codes = driver.find_elements_by_css_selector("div.oETBfkHU > div._2UEC-y30 > div > span")
        scores = []
        for rc in rating_codes:
            cls_attr = str(rc.get_attribute("class")).split("ui_bubble_rating bubble_")
            score = int(cls_attr[1])
            scores.append(score)

        # 리뷰 가져오기
        reviews = driver.find_elements_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu > div.cPQsENeY > q > span")

        for i in range(len(nicknames)):
            df.loc[i] = [nicknames[i].text, scores[i], reviews[i].text, stay_dates[i]]
            #print(df.loc[i])

    except ElementClickInterceptedException as e:
        print(e)
    except StaleElementReferenceException as e:
        print(e)

    finally:
        return df, iteration

In [40]:
def hotel_review_crawling(url):
    # 데이터 수집
    options = webdriver.ChromeOptions()
    options.add_experimental_option("excludeSwitches", ["enable-logging"])
    driver = webdriver.Chrome(options=options)

    data = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])

    #첫페이지 시작
    #데이터 크롤링, df에 추가하기
    #다음페이지 클릭 -> disbaled 나오기 전까지 반복

    driver.get(url)
    driver.implicitly_wait(10)
    iteration = True
    page = 1
    while iteration:
        print(page, '번째 페이지')
        tmp_df, iteration = get_data(driver)
        data = pd.concat([data, tmp_df], axis=0, ignore_index=True)
        if iteration == False:
            break
        iteration = get_next_page(driver) 
        page += 1

    #data.to_csv('./hotel_review_test_sillastay_mapo.csv', encoding="utf-8-sig")
    
    return data

In [6]:
def preprocessing_data(data):
    # 개행문자 제거
    for idx, review in enumerate(data['review']):
        data['review'][idx] = review.replace('\n', ' ')
    # 날짜순으로 내림차순 정렬
    data.sort_values(by='stay_date', ascending=False, 
                     ignore_index=True, inplace=True)
    data = data[data['stay_date'] > datetime.date(2019,7,1)]
    # 특수문자, 이모지 제거
    ###
    return data

In [68]:
# 실제로 실행하는 코드
url = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d9452203-Reviews-Shilla_Stay_Gwanghwamun-Seoul.html"
url2 = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d8118189-Reviews-or240-Shilla_Stay_Mapo-Seoul.html"

data_sample = hotel_review_crawling(url)
data_sample

1 번째 페이지
2 번째 페이지
3 번째 페이지
4 번째 페이지
5 번째 페이지
6 번째 페이지
7 번째 페이지
8 번째 페이지
9 번째 페이지
10 번째 페이지
11 번째 페이지
12 번째 페이지
13 번째 페이지
14 번째 페이지
15 번째 페이지
16 번째 페이지
17 번째 페이지
18 번째 페이지
19 번째 페이지
20 번째 페이지
21 번째 페이지
22 번째 페이지
23 번째 페이지
24 번째 페이지
25 번째 페이지
26 번째 페이지
27 번째 페이지
28 번째 페이지
29 번째 페이지
30 번째 페이지
31 번째 페이지
32 번째 페이지
33 번째 페이지
34 번째 페이지
35 번째 페이지
36 번째 페이지
37 번째 페이지
38 번째 페이지
39 번째 페이지
40 번째 페이지
41 번째 페이지
42 번째 페이지
43 번째 페이지
44 번째 페이지
45 번째 페이지
46 번째 페이지
47 번째 페이지
48 번째 페이지
49 번째 페이지
50 번째 페이지
51 번째 페이지
52 번째 페이지
53 번째 페이지
54 번째 페이지
55 번째 페이지
56 번째 페이지
57 번째 페이지
58 번째 페이지
59 번째 페이지
60 번째 페이지
61 번째 페이지
62 번째 페이지
63 번째 페이지
64 번째 페이지
65 번째 페이지
66 번째 페이지
67 번째 페이지
68 번째 페이지
69 번째 페이지
70 번째 페이지
71 번째 페이지
72 번째 페이지
73 번째 페이지
74 번째 페이지
75 번째 페이지
76 번째 페이지
77 번째 페이지
78 번째 페이지
79 번째 페이지
80 번째 페이지
81 번째 페이지
82 번째 페이지
83 번째 페이지
84 번째 페이지
85 번째 페이지
86 번째 페이지
87 번째 페이지
88 번째 페이지
89 번째 페이지
90 번째 페이지
91 번째 페이지
92 번째 페이지
93 번째 페이지
94 번째 페이지
95 번째 페이지
96 번째 페이지
97 번째 페이지
98 번째 페이지
99 번째 페이지
100 번째 페이지
101 번째 페

Unnamed: 0,nickname,score,review,stay_date
0,Stella,40,시험때문에 서울 올라가서 신라스테이에서 잤다. 처음 방에 들어갔을때는 책상이 작고 ...,2021-07-01
1,드리머,50,"3번째 방문했습니다. 근처 맛집들이 정말 많고, 룸 컨디션도 좋습니다! 왠만한 곳은...",2021-07-01
2,Junhyeok Kang,50,침대가 푹신푹신하고 습도도 낮고 쾌적했습니다. 욕조도 좋았고 절이 보이는 뷰도 좋았...,2021-07-01
3,Yum,50,"아이둘과 방문했어요^^~\n생각했던 것보다 깔끔하고,\n생각했던것 보다 단정하고,\...",2021-07-01
4,YHYS,50,깨끗하고 경치가좋아요\n위치도 근처여행하기정말좋아요\n경복궁투어하기도좋고 지하철역도...,2021-07-01
...,...,...,...,...
635,Sunshine63719617003,50,비지니스 출장을 자주 다니는 저에게 이처럼 편안하고 가성비 좋은 호텔은 없는거 같아...,2019-05-01
636,Passport65757270688,50,위치가 좋고 쾌적하였습니다. 조식 또한 신선하고 맛이 좋아 다시 방문 하고자 하는 ...,2019-06-01
637,Resort53981688873,50,"객실은 크지는 않으나, 딱 깔끔하게 여행자가 묵고 가기에 적합합니다. 주차장도 크지...",2019-05-01
638,Meander53159585932,50,위치적인 면에서는 정말 괜찮았습니다. 광화문 및 종각역이 도보로 5분걸리며 명동도 ...,2019-05-01


In [69]:
# 기본 전처리 전 원본 데이터 저장(유실방지)
data_sample.to_csv('./data/hotel_review_shillastay_gwanghwamun.csv', encoding="utf-8-sig")

In [70]:
data = preprocessing_data(data_sample)

In [71]:
data

Unnamed: 0,nickname,score,review,stay_date
0,Stella,40,시험때문에 서울 올라가서 신라스테이에서 잤다. 처음 방에 들어갔을때는 책상이 작고 ...,2021-07-01
1,Junhyeok Kang,50,침대가 푹신푹신하고 습도도 낮고 쾌적했습니다. 욕조도 좋았고 절이 보이는 뷰도 좋았...,2021-07-01
2,Yum,50,"아이둘과 방문했어요^^~ 생각했던 것보다 깔끔하고, 생각했던것 보다 단정하고, 기대...",2021-07-01
3,YHYS,50,깨끗하고 경치가좋아요 위치도 근처여행하기정말좋아요 경복궁투어하기도좋고 지하철역도가깝...,2021-07-01
4,Kwon,50,위치가 좋아서 잘 머물다갑니다 근처에 맛집도 많고 뷰도 나름 괜찮았어요 다음에도 방...,2021-07-01
...,...,...,...,...
618,Juntae Kim,50,"서울에 출장오면서 처음 광화문 신라스테이에 묵었습니다. 서울역, 회사와도 인접해 있...",2019-08-01
619,lkjlkj28,40,"침대는 편해서 아주 좋았고, 전반적으로 만족스럽습니다. 조식도 맛있었어요. 냉난방시...",2019-08-01
620,psn1004,40,전체적으로는 무난하고 만족스러움. 주차장 들어가는 안내가 길 바닥이나 잘 보이는 부...,2019-08-01
621,heevely,50,광화문 근처 둘러볼겸 숙소를 여기로 잡았어요 서울와서 주변 명소들 곳곳 관광하고 저...,2019-08-01


In [72]:
# csv 저장을 위한 date to str convert
data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))
# csv 파일로 저장 
data.to_csv('./data/hotel_review_shillastay_gwanghwamun.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))


In [73]:
# 리뷰 내 이모지 제거
data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))
pro_data.to_csv('./data/hotel_review_shillastay_gwanghwamun_del_emoji.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))


In [None]:
# 리뷰 내 특수문자 제거