In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd
import datetime
import re

In [2]:
def get_next_page(driver):
    try:
        driver.find_element_by_class_name("ui_button.nav.next.primary").send_keys(Keys.ENTER)
        return True
    except:
        print('마지막 페이지입니다')
        return False

In [3]:
def convert_date(date):
    stay_date = date.split('숙박 날짜: ')
    stay_date = stay_date[1]

    # 20XX년 X월 형태의 str
    stay_date = stay_date.replace('년', '').replace(' ', '').replace('월', '')
    dt = datetime.datetime.strptime(stay_date, '%Y%m')
    dt = dt.date() #20XX-XX-01 형태의 date 객체
    return dt

In [23]:
# convert_date 실행 예시
convert_date('숙박 날짜: 2020년 11월')

datetime.date(2020, 11, 1)

In [4]:
def get_data(driver):
    iteration = True
    df = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])
    try:
        time.sleep(20)
        #WebDriverWait(driver, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 
        #                                                                    "div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu")))
        # 더보기 클릭
        driver.find_element_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu").click()

        time.sleep(5)
        
        # 숙박 날짜 가져오기
        dates = driver.find_elements_by_class_name("_34Xs-BQm")
        stay_dates = []
        for d in dates:
            stay_date = convert_date(d.text)
            stay_dates.append(stay_date)
            # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
            if stay_date < datetime.date(2018,6,1): 
                iteration = False

        # 닉네임 가져오기
        nicknames = driver.find_elements_by_css_selector("div._310S4sqz > div > div._2fxQ4TOx > span > a")
        # 별점 가져오기
        rating_codes = driver.find_elements_by_css_selector("div.oETBfkHU > div._2UEC-y30 > div > span")
        scores = []
        for rc in rating_codes:
            cls_attr = str(rc.get_attribute("class")).split("ui_bubble_rating bubble_")
            score = int(cls_attr[1])
            scores.append(score)

        # 리뷰 가져오기
        reviews = driver.find_elements_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu > div.cPQsENeY > q > span")
        
        for i in range(len(nicknames)):
            df.loc[i] = [nicknames[i].text, scores[i], reviews[i].text, stay_dates[i]]
            #print(df.loc[i])

    except ElementClickInterceptedException as e:
        print(e)
    except StaleElementReferenceException as e:
        print(e)

    finally:
        return df, iteration

In [5]:
def hotel_review_crawling(url):
    # 데이터 수집
    options = webdriver.ChromeOptions()
    options.add_experimental_option("excludeSwitches", ["enable-logging"])
    driver = webdriver.Chrome(options=options)

    data = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])

    #첫페이지 시작
    #데이터 크롤링, df에 추가하기
    #다음페이지 클릭 -> disbaled 나오기 전까지 반복

    driver.get(url)
    driver.implicitly_wait(10)
    iteration = True
    page = 1
    while iteration:
        print(page, '번째 페이지')
        tmp_df, iteration = get_data(driver)
        data = pd.concat([data, tmp_df], axis=0, ignore_index=True)
        if iteration == False:
            break
        iteration = get_next_page(driver) 
        page += 1

    #data.to_csv('./hotel_review_test_sillastay_mapo.csv', encoding="utf-8-sig")
    
    return data

In [6]:
def preprocessing_data(data):
    # 개행문자 제거
    for idx, review in enumerate(data['review']):
        data['review'][idx] = review.replace('\n', ' ')
    # 날짜순으로 내림차순 정렬
    data.sort_values(by='stay_date', ascending=False, 
                     ignore_index=True, inplace=True)
    # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
    data = data[data['stay_date'] > datetime.date(2018,5,1)]
    # 특수문자, 이모지 제거
    ###
    return data

In [7]:
# 실제로 실행하는 코드
url = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d7686969-Reviews-Shilla_Stay_Seodaemun-Seoul.html"

data_sample = hotel_review_crawling(url)
data_sample

1 번째 페이지
2 번째 페이지
3 번째 페이지
4 번째 페이지
5 번째 페이지
6 번째 페이지
7 번째 페이지
8 번째 페이지
9 번째 페이지
10 번째 페이지
11 번째 페이지
12 번째 페이지
13 번째 페이지
14 번째 페이지
15 번째 페이지
16 번째 페이지
17 번째 페이지
18 번째 페이지
19 번째 페이지
20 번째 페이지
21 번째 페이지
22 번째 페이지
23 번째 페이지
24 번째 페이지
25 번째 페이지
26 번째 페이지
27 번째 페이지
28 번째 페이지
29 번째 페이지
30 번째 페이지
31 번째 페이지
32 번째 페이지
33 번째 페이지
34 번째 페이지
35 번째 페이지
36 번째 페이지
37 번째 페이지
38 번째 페이지
39 번째 페이지
40 번째 페이지
41 번째 페이지
42 번째 페이지
43 번째 페이지
44 번째 페이지
45 번째 페이지
46 번째 페이지
47 번째 페이지
48 번째 페이지
49 번째 페이지
50 번째 페이지
51 번째 페이지
52 번째 페이지
53 번째 페이지
54 번째 페이지
55 번째 페이지
56 번째 페이지
57 번째 페이지
58 번째 페이지
59 번째 페이지
60 번째 페이지
61 번째 페이지
62 번째 페이지
63 번째 페이지
64 번째 페이지
65 번째 페이지
66 번째 페이지
67 번째 페이지
68 번째 페이지
69 번째 페이지
70 번째 페이지
71 번째 페이지
72 번째 페이지
73 번째 페이지
74 번째 페이지
75 번째 페이지
76 번째 페이지
77 번째 페이지
78 번째 페이지
79 번째 페이지
80 번째 페이지
81 번째 페이지
82 번째 페이지
83 번째 페이지
84 번째 페이지
85 번째 페이지
86 번째 페이지
87 번째 페이지
88 번째 페이지
89 번째 페이지
90 번째 페이지
91 번째 페이지
92 번째 페이지
93 번째 페이지
94 번째 페이지
95 번째 페이지
96 번째 페이지
97 번째 페이지
98 번째 페이지
99 번째 페이지
100 번째 페이지
101 번째 페

Unnamed: 0,nickname,score,review,stay_date
0,하하하,50,서울 중심가에 있어 교통이 매우 편리하다. 바로 지하철역 앞에 있으면 버스 정류장도...,2021-07-01
1,jelee,40,근처에 독립문이나 돈의문 박물관등이 있어 숙박을 했는데 청와대뷰로 아이들이 너무 좋...,2021-07-01
2,Gaogaiger,50,신라스테이 저렴한 가격에 조식까지 먹고 체크아웃도 2시까지 너무 즐거운 호캉스였습니...,2021-07-01
3,영식 윤,50,오랜만에 남편과 호캉스를 왔어요. 쾌적하고 편안하네요. 재방문의사 있습니다. 지하철...,2021-07-01
4,정환 천,50,지하철 역 바로 앞이라 접근성이 좋고 룸 컨디션도 좋습니다. Staff의 친절도도 ...,2021-07-01
...,...,...,...,...
715,hibrugge,50,서대문 역이랑 가까워 교통이 편리합니다. 저희 집과도 가깝습니다.ㅎㅎ 친구들과 맛있...,2018-09-01
716,Departure821049,50,위치가 서대문 역 바로 앞이있어서 찾기가 일단 쉬웠어요! 편의점도 가까워서 좋았네요...,2018-10-01
717,Hunkim seoul,50,가격 대비 매우 만족스러운 스테이였습니다. 비지니스 호텔 답게 방 크기 작은건 어쩔...,2018-09-01
718,장두현,20,위치는 환상적이나 시설은 영 별로다. 좁고 개성도 없고 아늑함이나 포근함도 찾아볼 ...,2017-11-01


In [9]:
# 중간에 크롤링이 끊겼을 경우
url_next = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d7686969-Reviews-or730-Shilla_Stay_Seodaemun-Seoul.html"
data_sample2 = hotel_review_crawling(url_next)

data_sample_concat = pd.concat([data_sample_concat, data_sample2], axis=0, ignore_index=True)
data_sample_concat

1 번째 페이지


Unnamed: 0,nickname,score,review,stay_date
0,하하하,50,서울 중심가에 있어 교통이 매우 편리하다. 바로 지하철역 앞에 있으면 버스 정류장도...,2021-07-01
1,jelee,40,근처에 독립문이나 돈의문 박물관등이 있어 숙박을 했는데 청와대뷰로 아이들이 너무 좋...,2021-07-01
2,Gaogaiger,50,신라스테이 저렴한 가격에 조식까지 먹고 체크아웃도 2시까지 너무 즐거운 호캉스였습니...,2021-07-01
3,영식 윤,50,오랜만에 남편과 호캉스를 왔어요. 쾌적하고 편안하네요. 재방문의사 있습니다. 지하철...,2021-07-01
4,정환 천,50,지하철 역 바로 앞이라 접근성이 좋고 룸 컨디션도 좋습니다. Staff의 친절도도 ...,2021-07-01
...,...,...,...,...
725,dlfkd1220,30,일반스탠다드와 디럭스 차이 무엇?\n왜 욕실용 슬리퍼가 따로 없는지.\n샤워부스 물...,2018-07-01
726,kmj980426,50,서울 호텔 이용은 처음인데 가격에 비해 서비스가 매우 좋고 근처에 편의시설도 가까워...,2018-07-01
727,기웅 박,50,세브란스 병원 방문때문에 지방에서 올라왔음.\n지하철역이 바로 앞이라 교통은 편리했...,2018-06-01
728,Drake G,10,뷰가 상당히 좋지만\n사람이 편하게 지내기에는\n부적합했습니다.\n공용난방으로 유지...,2018-03-01


In [10]:
data_sample_concat

Unnamed: 0,nickname,score,review,stay_date
0,하하하,50,서울 중심가에 있어 교통이 매우 편리하다. 바로 지하철역 앞에 있으면 버스 정류장도...,2021-07-01
1,jelee,40,근처에 독립문이나 돈의문 박물관등이 있어 숙박을 했는데 청와대뷰로 아이들이 너무 좋...,2021-07-01
2,Gaogaiger,50,신라스테이 저렴한 가격에 조식까지 먹고 체크아웃도 2시까지 너무 즐거운 호캉스였습니...,2021-07-01
3,영식 윤,50,오랜만에 남편과 호캉스를 왔어요. 쾌적하고 편안하네요. 재방문의사 있습니다. 지하철...,2021-07-01
4,정환 천,50,지하철 역 바로 앞이라 접근성이 좋고 룸 컨디션도 좋습니다. Staff의 친절도도 ...,2021-07-01
...,...,...,...,...
725,dlfkd1220,30,일반스탠다드와 디럭스 차이 무엇?\n왜 욕실용 슬리퍼가 따로 없는지.\n샤워부스 물...,2018-07-01
726,kmj980426,50,서울 호텔 이용은 처음인데 가격에 비해 서비스가 매우 좋고 근처에 편의시설도 가까워...,2018-07-01
727,기웅 박,50,세브란스 병원 방문때문에 지방에서 올라왔음.\n지하철역이 바로 앞이라 교통은 편리했...,2018-06-01
728,Drake G,10,뷰가 상당히 좋지만\n사람이 편하게 지내기에는\n부적합했습니다.\n공용난방으로 유지...,2018-03-01


In [11]:
# 기본 전처리 전 원본 데이터 저장(유실방지)
data_sample_concat.to_csv('./data/hotel_review_shillastay_seodaemun_origin.csv', encoding="utf-8-sig")

In [12]:
data = preprocessing_data(data_sample_concat)

In [13]:
data

Unnamed: 0,nickname,score,review,stay_date
0,하하하,50,서울 중심가에 있어 교통이 매우 편리하다. 바로 지하철역 앞에 있으면 버스 정류장도...,2021-07-01
1,Junghwa,50,룸컨디션좋고 이벤트로 곰인형도 받았어요. 전망도 좋은데 창문이 더러워서 상쾌하게 보...,2021-07-01
2,jelee,40,근처에 독립문이나 돈의문 박물관등이 있어 숙박을 했는데 청와대뷰로 아이들이 너무 좋...,2021-07-01
3,dayoung,40,휴무를 맞이해 더운 날씨를 피하고자 엄마와 함께 방문해서 편히 쉬다 갑니다! 깔끔하...,2021-07-01
4,euna l,50,언제나 좋네요. 너무 친절하시고 시원하고 쾌적하고 뷰도 좋고 좋습니다 겨통도 좋고 ...,2021-07-01
...,...,...,...,...
721,jooungpark,50,전반적으로 쾌적한 실내조성으로 만족스러운 숙박을 하였습니다. 다만 객실 내 온도 조...,2018-07-01
722,airlie,30,에어컨 냄새인지 냄새가 좀 납니다. 위치는 광화문과 가깝고 강북쪽에서는 꽤 좋습니다...,2018-07-01
723,dlfkd1220,30,일반스탠다드와 디럭스 차이 무엇? 왜 욕실용 슬리퍼가 따로 없는지. 샤워부스 물빠짐...,2018-07-01
724,kmj980426,50,서울 호텔 이용은 처음인데 가격에 비해 서비스가 매우 좋고 근처에 편의시설도 가까워...,2018-07-01


In [14]:
# csv 저장을 위한 date to str convert
data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))
# 기본 전처리후 데이터 csv 파일로 저장 
#data.to_csv('./data/hotel_review_shillastay_yeoksam.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))


In [15]:
# 리뷰 내 이모지 제거
data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))
#data.to_csv('./data/hotel_review_shillastay_yeoksam_del_emoji.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))


In [16]:
# 리뷰 내 특수문자 제거
test_data = data
special = re.compile(r'[^ A-Za-z0-9가-힣+]')
test_data['review'] = [special.sub('', s) for s in test_data['review']]

# 특수문자 제거 후 파일 저장
test_data.to_csv('./data/hotel_review_shillastay_seodaemun_final.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  test_data['review'] = [special.sub('', s) for s in test_data['review']]


In [17]:
test_data

Unnamed: 0,nickname,score,review,stay_date
0,하하하,50,서울 중심가에 있어 교통이 매우 편리하다 바로 지하철역 앞에 있으면 버스 정류장도 ...,2021-07-01
1,Junghwa,50,룸컨디션좋고 이벤트로 곰인형도 받았어요 전망도 좋은데 창문이 더러워서 상쾌하게 보이...,2021-07-01
2,jelee,40,근처에 독립문이나 돈의문 박물관등이 있어 숙박을 했는데 청와대뷰로 아이들이 너무 좋...,2021-07-01
3,dayoung,40,휴무를 맞이해 더운 날씨를 피하고자 엄마와 함께 방문해서 편히 쉬다 갑니다 깔끔하고...,2021-07-01
4,euna l,50,언제나 좋네요 너무 친절하시고 시원하고 쾌적하고 뷰도 좋고 좋습니다 겨통도 좋고 주...,2021-07-01
...,...,...,...,...
721,jooungpark,50,전반적으로 쾌적한 실내조성으로 만족스러운 숙박을 하였습니다 다만 객실 내 온도 조절...,2018-07-01
722,airlie,30,에어컨 냄새인지 냄새가 좀 납니다 위치는 광화문과 가깝고 강북쪽에서는 꽤 좋습니다 ...,2018-07-01
723,dlfkd1220,30,일반스탠다드와 디럭스 차이 무엇 왜 욕실용 슬리퍼가 따로 없는지 샤워부스 물빠짐 답...,2018-07-01
724,kmj980426,50,서울 호텔 이용은 처음인데 가격에 비해 서비스가 매우 좋고 근처에 편의시설도 가까워...,2018-07-01
