In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd
import datetime
import re

In [2]:
def get_next_page(driver):
    try:
        driver.find_element_by_class_name("ui_button.nav.next.primary").send_keys(Keys.ENTER)
        return True
    except:
        print('마지막 페이지입니다')
        return False

In [3]:
def convert_date(date):
    stay_date = date.split('숙박 날짜: ')
    stay_date = stay_date[1]

    # 20XX년 X월 형태의 str
    stay_date = stay_date.replace('년', '').replace(' ', '').replace('월', '')
    dt = datetime.datetime.strptime(stay_date, '%Y%m')
    dt = dt.date() #20XX-XX-01 형태의 date 객체
    return dt

In [23]:
# convert_date 실행 예시
convert_date('숙박 날짜: 2020년 11월')

datetime.date(2020, 11, 1)

In [4]:
def get_data(driver):
    iteration = True
    df = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])
    try:
        time.sleep(20)
        #WebDriverWait(driver, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 
        #                                                                    "div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu")))
        # 더보기 클릭
        driver.find_element_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu").click()

        time.sleep(5)
        
        # 숙박 날짜 가져오기
        dates = driver.find_elements_by_class_name("_34Xs-BQm")
        stay_dates = []
        for d in dates:
            stay_date = convert_date(d.text)
            stay_dates.append(stay_date)
            # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
            if stay_date < datetime.date(2018,6,1): 
                iteration = False

        # 닉네임 가져오기
        nicknames = driver.find_elements_by_css_selector("div._310S4sqz > div > div._2fxQ4TOx > span > a")
        # 별점 가져오기
        rating_codes = driver.find_elements_by_css_selector("div.oETBfkHU > div._2UEC-y30 > div > span")
        scores = []
        for rc in rating_codes:
            cls_attr = str(rc.get_attribute("class")).split("ui_bubble_rating bubble_")
            score = int(cls_attr[1])
            scores.append(score)

        # 리뷰 가져오기
        reviews = driver.find_elements_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu > div.cPQsENeY > q > span")
        
        for i in range(len(nicknames)):
            df.loc[i] = [nicknames[i].text, scores[i], reviews[i].text, stay_dates[i]]
            #print(df.loc[i])

    except ElementClickInterceptedException as e:
        print(e)
    except StaleElementReferenceException as e:
        print(e)

    finally:
        return df, iteration

In [5]:
def hotel_review_crawling(url):
    # 데이터 수집
    options = webdriver.ChromeOptions()
    options.add_experimental_option("excludeSwitches", ["enable-logging"])
    driver = webdriver.Chrome(options=options)

    data = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])

    #첫페이지 시작
    #데이터 크롤링, df에 추가하기
    #다음페이지 클릭 -> disbaled 나오기 전까지 반복

    driver.get(url)
    driver.implicitly_wait(10)
    iteration = True
    page = 1
    while iteration:
        print(page, '번째 페이지')
        tmp_df, iteration = get_data(driver)
        data = pd.concat([data, tmp_df], axis=0, ignore_index=True)
        if iteration == False:
            break
        iteration = get_next_page(driver) 
        page += 1

    #data.to_csv('./hotel_review_test_sillastay_mapo.csv', encoding="utf-8-sig")
    
    return data

In [6]:
def preprocessing_data(data):
    # 개행문자 제거
    for idx, review in enumerate(data['review']):
        data['review'][idx] = review.replace('\n', ' ')
    # 날짜순으로 내림차순 정렬
    data.sort_values(by='stay_date', ascending=False, 
                     ignore_index=True, inplace=True)
    # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
    data = data[data['stay_date'] > datetime.date(2018,5,1)]
    # 특수문자, 이모지 제거
    ###
    return data

In [7]:
# 실제로 실행하는 코드
url = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d12242440-Reviews-Shilla_Stay_Seocho-Seoul.html"

data_sample = hotel_review_crawling(url)
data_sample

1 번째 페이지
2 번째 페이지
3 번째 페이지
4 번째 페이지
5 번째 페이지
6 번째 페이지
7 번째 페이지
8 번째 페이지
9 번째 페이지
10 번째 페이지
11 번째 페이지
12 번째 페이지
13 번째 페이지
14 번째 페이지
15 번째 페이지
16 번째 페이지
17 번째 페이지
18 번째 페이지
19 번째 페이지
20 번째 페이지
21 번째 페이지
22 번째 페이지
23 번째 페이지
24 번째 페이지
25 번째 페이지
26 번째 페이지
27 번째 페이지
28 번째 페이지
29 번째 페이지
30 번째 페이지
31 번째 페이지
32 번째 페이지
33 번째 페이지
34 번째 페이지
35 번째 페이지
36 번째 페이지
37 번째 페이지
38 번째 페이지
39 번째 페이지
40 번째 페이지
41 번째 페이지
42 번째 페이지
43 번째 페이지
44 번째 페이지


Unnamed: 0,nickname,score,review,stay_date
0,junho,10,21년5월15일 새벽에 중요한 대회가 있어서 대회장에서 가까운 신라스테이서초에 중학...,2021-05-01
1,Yong shim,50,위치도 좋고 시설도 안락하고 연휴에 푹 쉬다가 갑니다!! 친절한 서비스 정말 감사드...,2021-02-01
2,monjiny,50,호텔 주변에 코인 빨래방과 간단히 먹을수 있는 음식점이 여러곳 있어요 객실도 깨끗하...,2021-03-01
3,Kimchaerin,50,첫느낌은 비지니스호텔같은 느낌이었는데 내부도 깔끔하고 마음에들었고 무엇보다 직원분들...,2021-02-01
4,슬기 이,50,"뱅뱅사거리에 위치해서 접근성도 좋고 깨끗, 안락해서 자주 이용합니다~ 주위도 조용해...",2020-12-01
...,...,...,...,...
215,헤일리,40,가운을 펼친 순간 안에 붙어있던 머리카락이 우수수 .. 교환 요청을 했으나 대응이 ...,2018-09-01
216,Shanghaihanzi,50,여자친구의 생일을 기념으로 예약하게되었어요.사실 같은 삼성그룹이라 복지몰에서 예약할...,2018-09-01
217,준영 서,50,신라스테이는 침대와 침구류 때매 자주 방문합니다.\n\n푹신하고 깔끔한 침구류가 좋...,2018-03-01
218,dlgusdud1107,50,몇달 전 신라스테이 역삼에서의 좋은 경험으로 인해 다시 선택한 신라스테이...업무상...,2018-08-01


In [9]:
# 중간에 크롤링이 끊겼을 경우
url_next = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d12242440-Reviews-or230-Shilla_Stay_Seocho-Seoul.html"
data_sample2 = hotel_review_crawling(url_next)

data_sample_concat = pd.concat([data_sample, data_sample2], axis=0, ignore_index=True)
data_sample_concat

1 번째 페이지


Unnamed: 0,nickname,score,review,stay_date
0,junho,10,21년5월15일 새벽에 중요한 대회가 있어서 대회장에서 가까운 신라스테이서초에 중학...,2021-05-01
1,Yong shim,50,위치도 좋고 시설도 안락하고 연휴에 푹 쉬다가 갑니다!! 친절한 서비스 정말 감사드...,2021-02-01
2,monjiny,50,호텔 주변에 코인 빨래방과 간단히 먹을수 있는 음식점이 여러곳 있어요 객실도 깨끗하...,2021-03-01
3,Kimchaerin,50,첫느낌은 비지니스호텔같은 느낌이었는데 내부도 깔끔하고 마음에들었고 무엇보다 직원분들...,2021-02-01
4,슬기 이,50,"뱅뱅사거리에 위치해서 접근성도 좋고 깨끗, 안락해서 자주 이용합니다~ 주위도 조용해...",2020-12-01
...,...,...,...,...
220,bluekup2018,50,가격 잘 찾아 보시면 10만원대 이하로 즐기실 수 있습니다. 조식이 다른 곳보다 뛰...,2018-06-01
221,kiljy3,50,친구 생일에 여자 셋이서 어디서 보낼까하다가~~~신라스테이 서초에서 좋은시간 보냈어...,2018-06-01
222,Mobile714671,50,"밤늦게 체크인을 했는데, 프런트 직원 분들은.. 딱히 친절하다는 느낌은 못받았지만 ...",2018-05-01
223,보람 강,50,남자친구랑 편히 쉬려고 갔었는데 너무 좋네요 역에서 가까워 위치도 너무 좋았구 프론...,2018-05-01


In [10]:
data_sample_concat

Unnamed: 0,nickname,score,review,stay_date
0,junho,10,21년5월15일 새벽에 중요한 대회가 있어서 대회장에서 가까운 신라스테이서초에 중학...,2021-05-01
1,Yong shim,50,위치도 좋고 시설도 안락하고 연휴에 푹 쉬다가 갑니다!! 친절한 서비스 정말 감사드...,2021-02-01
2,monjiny,50,호텔 주변에 코인 빨래방과 간단히 먹을수 있는 음식점이 여러곳 있어요 객실도 깨끗하...,2021-03-01
3,Kimchaerin,50,첫느낌은 비지니스호텔같은 느낌이었는데 내부도 깔끔하고 마음에들었고 무엇보다 직원분들...,2021-02-01
4,슬기 이,50,"뱅뱅사거리에 위치해서 접근성도 좋고 깨끗, 안락해서 자주 이용합니다~ 주위도 조용해...",2020-12-01
...,...,...,...,...
220,bluekup2018,50,가격 잘 찾아 보시면 10만원대 이하로 즐기실 수 있습니다. 조식이 다른 곳보다 뛰...,2018-06-01
221,kiljy3,50,친구 생일에 여자 셋이서 어디서 보낼까하다가~~~신라스테이 서초에서 좋은시간 보냈어...,2018-06-01
222,Mobile714671,50,"밤늦게 체크인을 했는데, 프런트 직원 분들은.. 딱히 친절하다는 느낌은 못받았지만 ...",2018-05-01
223,보람 강,50,남자친구랑 편히 쉬려고 갔었는데 너무 좋네요 역에서 가까워 위치도 너무 좋았구 프론...,2018-05-01


In [11]:
# 기본 전처리 전 원본 데이터 저장(유실방지)
data_sample_concat.to_csv('./data/hotel_review_shillastay_seocho_origin.csv', encoding="utf-8-sig")

In [12]:
data = preprocessing_data(data_sample_concat)

In [13]:
data

Unnamed: 0,nickname,score,review,stay_date
0,junho,10,21년5월15일 새벽에 중요한 대회가 있어서 대회장에서 가까운 신라스테이서초에 중학...,2021-05-01
1,monjiny,50,호텔 주변에 코인 빨래방과 간단히 먹을수 있는 음식점이 여러곳 있어요 객실도 깨끗하...,2021-03-01
2,Kimchaerin,50,첫느낌은 비지니스호텔같은 느낌이었는데 내부도 깔끔하고 마음에들었고 무엇보다 직원분들...,2021-02-01
3,Yong shim,50,위치도 좋고 시설도 안락하고 연휴에 푹 쉬다가 갑니다!! 친절한 서비스 정말 감사드...,2021-02-01
4,슬기 이,50,"뱅뱅사거리에 위치해서 접근성도 좋고 깨끗, 안락해서 자주 이용합니다~ 주위도 조용해...",2020-12-01
...,...,...,...,...
216,HWL,20,가격과 위치는 보통이었으나 깨끗함 면에서 최악이었습니다. 체크인하자마자 살펴본 방에...,2018-09-01
217,dlgusdud1107,50,몇달 전 신라스테이 역삼에서의 좋은 경험으로 인해 다시 선택한 신라스테이...업무상...,2018-08-01
218,cjh2312018,20,직원 서비스도 아쉽고 특히 중국인이 많아서 좀 많이 피곤하다 프론트 데스크 직원들에...,2018-08-01
219,bluekup2018,50,가격 잘 찾아 보시면 10만원대 이하로 즐기실 수 있습니다. 조식이 다른 곳보다 뛰...,2018-06-01


In [14]:
# csv 저장을 위한 date to str convert
data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))
# 기본 전처리후 데이터 csv 파일로 저장 
#data.to_csv('./data/hotel_review_shillastay_yeoksam.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))


In [15]:
# 리뷰 내 이모지 제거
data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))
#data.to_csv('./data/hotel_review_shillastay_yeoksam_del_emoji.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))


In [16]:
# 리뷰 내 특수문자 제거
test_data = data
special = re.compile(r'[^ A-Za-z0-9가-힣+]')
test_data['review'] = [special.sub('', s) for s in test_data['review']]

# 특수문자 제거 후 파일 저장
test_data.to_csv('./data/hotel_review_shillastay_seocho_final.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  test_data['review'] = [special.sub('', s) for s in test_data['review']]


In [17]:
test_data

Unnamed: 0,nickname,score,review,stay_date
0,junho,10,21년5월15일 새벽에 중요한 대회가 있어서 대회장에서 가까운 신라스테이서초에 중학...,2021-05-01
1,monjiny,50,호텔 주변에 코인 빨래방과 간단히 먹을수 있는 음식점이 여러곳 있어요 객실도 깨끗하...,2021-03-01
2,Kimchaerin,50,첫느낌은 비지니스호텔같은 느낌이었는데 내부도 깔끔하고 마음에들었고 무엇보다 직원분들...,2021-02-01
3,Yong shim,50,위치도 좋고 시설도 안락하고 연휴에 푹 쉬다가 갑니다 친절한 서비스 정말 감사드려요...,2021-02-01
4,슬기 이,50,뱅뱅사거리에 위치해서 접근성도 좋고 깨끗 안락해서 자주 이용합니다 주위도 조용해서 ...,2020-12-01
...,...,...,...,...
216,HWL,20,가격과 위치는 보통이었으나 깨끗함 면에서 최악이었습니다 체크인하자마자 살펴본 방에서...,2018-09-01
217,dlgusdud1107,50,몇달 전 신라스테이 역삼에서의 좋은 경험으로 인해 다시 선택한 신라스테이업무상 강남...,2018-08-01
218,cjh2312018,20,직원 서비스도 아쉽고 특히 중국인이 많아서 좀 많이 피곤하다 프론트 데스크 직원들에...,2018-08-01
219,bluekup2018,50,가격 잘 찾아 보시면 10만원대 이하로 즐기실 수 있습니다 조식이 다른 곳보다 뛰어...,2018-06-01
