# Yanolja 리뷰 크롤링 및 분석

이번 노트북에서는 Selenium을 사용하여 Yanolja의 호텔 리뷰 페이지에서 데이터를 크롤링하고, 수집한 데이터에 대해 분석을 진행합니다. 이 과정에서는 웹페이지 로드, 데이터 추출, 텍스트 처리 및 분석 결과를 Excel 파일로 저장하는 작업을 포함합니다.

### 1단계: Selenium으로 웹페이지 로드

Selenium을 사용하여 Yanolja 리뷰 페이지를 로드하고, 스크롤을 내려서 더 많은 데이터를 가져옵니다.

In [11]:
!pip install selenium
!pip install bs4
!pip install pandas
!pip install openpyxl



In [12]:
from selenium import webdriver
import time

# Selenium 드라이버 설정 (Chrome 사용)
driver = webdriver.Chrome()

# Yanolja 리뷰 페이지로 이동
url = 'https://www.yanolja.com/reviews/domestic/10041505'
######## your code here ########
driver.get(url)
# 페이지 로딩을 위해 대기
time.sleep(3)

# 스크롤 설정: 페이지 하단까지 스크롤을 내리기
scroll_count = 10  # 스크롤 횟수 설정

for _ in range(scroll_count):
    ######## your code here ########
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(1)  # 스크롤 이후 대기

### 2단계: 페이지 소스 가져오기
웹페이지의 HTML 소스를 가져와서 BeautifulSoup을 사용해 데이터를 파싱합니다.

In [13]:
from bs4 import BeautifulSoup

# 웹페이지 소스 가져오기
page_source = driver.page_source

# BeautifulSoup를 사용하여 HTML 파싱
soup = BeautifulSoup(page_source, 'html.parser')

### 3단계: 리뷰 텍스트 추출
리뷰 텍스트를 추출하고 불필요한 공백이나 줄 바꿈을 제거합니다.

In [14]:
# 리뷰 텍스트 추출
################################
reviews_class = soup.select(".css-1kpa3g > p")
################################
reviews = []

# 각 리뷰 텍스트 정리 후 추가
for review in reviews_class:
    cleaned_text = review.get_text(strip=True).replace('\r', '').replace('\n', '')
    reviews.append(cleaned_text)

reviews

['친구들 3명에서 급하게 예약을 했던 숙손데 와.. 우선 프론트 직원님들.. 진짜 너무 친절해서 기분이 좋았습니다. 2박3일 일정이였는데 기분좋게 하루를 시작했고 숙소 위치도 그냥 완전 좋아요..!!!!! 애월은 마스터했습니다. ㅋㅋㅋㅋ 위치 금액 시설이용 서비스 위생 뭐 하나 빠지는거없이  (친구들도인정) 너무 편하게 잘 쉬다가 갑니다 ㅎㅎㅎ 후기 잘 안쓰는데 여기는 꼭 쓰고싶어서 이렇게 남깁니다!오늘도 좋은 하루 되세용:)🍀',
 '작년에 친구들이랑 방문 했다가 좋아서 다른 친구 데리고 다시 방문 했는데 머리 묶으신 여자 직원분 여전히 진짜 너무 친절하시고 좋아요주차 공간이 많지 않은 거 같길래 밤에 차 빼면 차 댈 데 없으려나 하고 걱정했는데 11시에도 지하 주차장 자리 많았어요 보니까 지상에도 자리가 있더라구요지하 1층에는 코인 세탁 건조기도 있고 편의점 가깝고 바다 가깝고 외부에 모래 씻어내는 용도로 있는 샤워기에도 필터까지 끼워져 있는 거 보고 세심한 거까지 신경쓰신다 느꼈어요 ㄴ담에 제주 가면 또 가려구요',
 '오전 일찍 도착해서 짐을 맡겼는데, 여자사장님께서 정말 밝고 유쾌하게 응대해 주셔서 아침부터 기분이 좋아졌습니다😆 긍정에너지 뿜뿜하셔서 사람 기분좋게 해주시더라고요 ㅎㅎ 그래서 피곤한 아침에 저희 가족이 기운이 많이 났습니다! 오전 일찍은 주변에 카페가 대부분이 열지 않았는데 여기서 카페음료도 즐기고 바닷가 뷰도 좋아서 정말 상쾌하게 아침 제주여행을 시작하게 되었네요. 3박 묵었는데 뭐든 먼저 신경 써주시고 침구도 편안하여 푹 쉬다 갑니다. 덕분에 성공적인 여행 감사드립니다. 너무 만족했던 탓에 후기를 처음으로 끄적여 봅니다ㅎㅎ',
 '저는 어딜가든 진짜 리뷰 안쓰는데..처음간 여행에 너무좋은기억이라서 글몇자 올려봅니다. 미리예약하고 가서 걱정없이 갔는데 너무감사하게 호텔사장님께서 친히전화주셔서. 오션뷰 테라스있는곳으로 업그레이드 해주셔서 너무 편히 쉬게되었어요 여행은 잠을잘자야 편하다고 하든데. 따뜻하게 자고 왔어요 시설도 깨끗하고.,

### 4단계: 별점 데이터 추출
HTML에서 별점 데이터를 추출하고, 각 리뷰의 별점을 계산합니다.

In [None]:
# 별점 추출
ratings = []
################################
rating_containers = soup.select(".css-1mdp7n > .css-rz7kwu")
################################

# 각 리뷰별로 별점 계산
for container in rating_containers:

    five_stars = container.select(".css-1mj121y") # 각 리뷰별로 별점은 5개
    rating = 5  #기본 별점 5

    for star in five_stars :
        
        is_empty_star = star.select('[fill-rule="evenodd"]')  # 비어있는 별은 fill-rule = evenodd 로 설정되어있.
        
        if is_empty_star :
            rating -= 1  #비어있으면 1점까기
    
    ratings.append(rating)

ratings

[5,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 5,
 4,
 4,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 3,
 5,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 4,
 4,
 4,
 5,
 5,
 5,
 5,
 3,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 4,
 4,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 4,
 4,
 5,
 5,
 5,
 4,
 5,
 5,
 4,
 3,
 5,
 4,
 4,
 4,
 3,
 5,
 4,
 4,
 5,
 5,
 5,
 2,
 3,
 3,
 4,
 5,
 1,
 5,
 3,
 5,
 3,
 5,
 3,
 1,
 2,
 3,
 1,
 2,
 1,
 1,
 1,
 3,
 5,
 4,
 4,
 4,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 5,
 3,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 4,
 4,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 5,
 4,
 5,
 5,
 5,
 5]

### 5단계: 데이터 정리 및 DataFrame으로 변환
수집된 데이터를 Pandas DataFrame으로 변환하여 후속 분석을 용이하게 만듭니다.

In [None]:
import pandas as pd

# 별점과 리뷰를 결합하여 리스트 생성
data = list(zip(ratings, reviews))

# DataFrame으로 변환
df_reviews = pd.DataFrame(data, columns=['Rating', 'Review'])
df_reviews.index += 1

df_reviews.head(50)

Unnamed: 0,Rating,Review
1,5,친구들 3명에서 급하게 예약을 했던 숙손데 와.. 우선 프론트 직원님들.. 진짜 너...
2,5,작년에 친구들이랑 방문 했다가 좋아서 다른 친구 데리고 다시 방문 했는데 머리 묶으...
3,5,"오전 일찍 도착해서 짐을 맡겼는데, 여자사장님께서 정말 밝고 유쾌하게 응대해 주셔서..."
4,5,저는 어딜가든 진짜 리뷰 안쓰는데..처음간 여행에 너무좋은기억이라서 글몇자 올려봅니...
5,4,제주도 당일예약해서 하루묵게 되엇어요~편의점도 바로앞에잇고 간단히맥주한캔 마시고 ...
...,...,...
216,4,전반적으로 만족했습니다
217,5,큰 기대없이 급히 예약했는데...숙소보고 놀랬어요...잘쉬었습니다... ^^
218,5,큰 기대없이 급히 예약했는데...숙소보고 놀랬어요...잘쉬었습니다... ^^
219,5,큰 기대없이 급히 예약했는데...숙소보고 놀랬어요...잘쉬었습니다... ^^


### 6단계: 리뷰 분석 - 평균 별점 계산
수집된 리뷰에서 평균 별점을 계산합니다.

In [36]:
# 평균 별점 계산

average_rating = df_reviews['Rating'].mean()
print(f"평균 별점 : {average_rating}")


평균 별점 : 4.568181818181818


### 7단계: 자주 등장하는 단어 추출
리뷰 텍스트에서 자주 등장하는 단어를 추출하고, 불용어를 제거하여 분석합니다.

In [None]:
from collections import Counter
import re

# 불용어 리스트 (한국어)
korean_stopwords = set(['이', '그', '저', '것', '들', '다', '을', '를', '에', '의', '가', '이', '는', '해', '한', '하', '하고', '에서', '에게', '과', '와', '너무', '잘', '또','좀', '호텔', '아주', '진짜', '정말'])

## 불용어 리스트에서 '을','를','에' 등이 사실상 의미 없으므로 형태소 분석 필요해보임 (일단 여기선 적용 안 한 상태)

# 모든 리뷰를 하나의 문자열로 결합
all_reviews_text = ' '.join(df_reviews['Review'])

# 단어 추출 (특수문자 제거)
words = re.findall(r'\w+', all_reviews_text)

# 불용어 제거
filtered_words = [word for word in words if word not in korean_stopwords]

# 단어 빈도 계산
word_counts = Counter(filtered_words)

# 자주 등장하는 상위 15개 단어 추출
common_words = word_counts.most_common(15)

common_words

[('좋고', 36),
 ('좋았어요', 34),
 ('바로', 34),
 ('좋았습니다', 30),
 ('좋아요', 30),
 ('있어서', 30),
 ('뷰가', 23),
 ('친절하시고', 19),
 ('객실', 18),
 ('다시', 17),
 ('깨끗하고', 17),
 ('직원분들', 16),
 ('곽지해수욕장', 16),
 ('앞에', 14),
 ('있고', 13)]

### 8단계: 분석 결과 요약
평균 별점과 자주 등장하는 단어를 DataFrame으로 만들어 최종 분석 결과를 요약합니다.

In [39]:
# 분석 결과 요약
summary_df = pd.DataFrame({
    'Average Rating': [average_rating],
    'Common Words': [', '.join([f"{word}({count})" for word, count in common_words])]
})

# 최종 DataFrame 결합
final_df = pd.concat([df_reviews, summary_df], ignore_index=True)
final_df

Unnamed: 0,Rating,Review,Average Rating,Common Words
0,5.0,친구들 3명에서 급하게 예약을 했던 숙손데 와.. 우선 프론트 직원님들.. 진짜 너...,,
1,5.0,작년에 친구들이랑 방문 했다가 좋아서 다른 친구 데리고 다시 방문 했는데 머리 묶으...,,
2,5.0,"오전 일찍 도착해서 짐을 맡겼는데, 여자사장님께서 정말 밝고 유쾌하게 응대해 주셔서...",,
3,5.0,저는 어딜가든 진짜 리뷰 안쓰는데..처음간 여행에 너무좋은기억이라서 글몇자 올려봅니...,,
4,4.0,제주도 당일예약해서 하루묵게 되엇어요~편의점도 바로앞에잇고 간단히맥주한캔 마시고 ...,,
...,...,...,...,...
216,5.0,큰 기대없이 급히 예약했는데...숙소보고 놀랬어요...잘쉬었습니다... ^^,,
217,5.0,큰 기대없이 급히 예약했는데...숙소보고 놀랬어요...잘쉬었습니다... ^^,,
218,5.0,큰 기대없이 급히 예약했는데...숙소보고 놀랬어요...잘쉬었습니다... ^^,,
219,5.0,경치가 너무좋았어요!객실이 좀 좁긴했지만 저렴한가격에 깨끗하고 어차피 잠만 잘꺼니깐요!,,


### 9단계: Excel 파일로 저장
최종 결과를 Excel 파일로 저장합니다.

In [40]:
# Excel 파일로 저장
######## your code here ########
final_df.to_excel('yanolja.xlsx',index=False)

### 10단계: 드라이버 종료
크롤링이 끝난 후, Selenium 드라이버를 종료합니다.

In [41]:
# 드라이버 종료
driver.quit()