# Yanolja 리뷰 크롤링 및 분석

이번 노트북에서는 Selenium을 사용하여 Yanolja의 호텔 리뷰 페이지에서 데이터를 크롤링하고, 수집한 데이터에 대해 분석을 진행합니다. 이 과정에서는 웹페이지 로드, 데이터 추출, 텍스트 처리 및 분석 결과를 Excel 파일로 저장하는 작업을 포함합니다.

### 1단계: Selenium으로 웹페이지 로드

Selenium을 사용하여 Yanolja 리뷰 페이지를 로드하고, 스크롤을 내려서 더 많은 데이터를 가져옵니다.

In [1]:
!pip install selenium
!pip install bs4
!pip install pandas
!pip install openpyxl

Collecting selenium
  Using cached selenium-4.30.0-py3-none-any.whl.metadata (7.5 kB)
Collecting trio~=0.17 (from selenium)
  Using cached trio-0.29.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Using cached trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting sortedcontainers (from trio~=0.17->selenium)
  Using cached sortedcontainers-2.4.0-py2.py3-none-any.whl.metadata (10 kB)
Collecting outcome (from trio~=0.17->selenium)
  Using cached outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Using cached wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Collecting pysocks!=1.5.7,<2.0,>=1.5.6 (from urllib3[socks]<3,>=1.26->selenium)
  Using cached PySocks-1.7.1-py3-none-any.whl.metadata (13 kB)
Using cached selenium-4.30.0-py3-none-any.whl (9.4 MB)
Using cached trio-0.29.0-py3-none-any.whl (492 kB)
Using cached trio_websocket-0.12.2-py3-none-any.whl (21 kB)
Using c

In [15]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# Selenium 드라이버 설정 (Chrome 사용)
driver = webdriver.Chrome()

# Yanolja 리뷰 페이지로 이동
url = 'https://www.musinsa.com/search/goods?keyword=%EB%B0%98%ED%8C%94&keywordType=popular&gf=A'
######## your code here ########
driver.get(url)
# 페이지 로딩을 위해 대기
time.sleep(5)

# 스크롤 설정: 페이지 하단까지 스크롤을 내리기
scroll_count = 5  # 스크롤 횟수 설정
for _ in range(scroll_count):
    ######## your code here ########
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(1)  # 스크롤 이후 대기

### 2단계: 페이지 소스 가져오기
웹페이지의 HTML 소스를 가져와서 BeautifulSoup을 사용해 데이터를 파싱합니다.

In [16]:
from bs4 import BeautifulSoup

# 웹페이지 소스 가져오기
page_source = driver.page_source

# BeautifulSoup를 사용하여 HTML 파싱
soup = BeautifulSoup(page_source, 'html.parser')

### 3단계: 리뷰 텍스트 추출
리뷰 텍스트를 추출하고 불필요한 공백이나 줄 바꿈을 제거합니다.

In [30]:
# 상품 이름추출출
################################
names_class = driver.find_elements(By.CSS_SELECTOR,".text-body_13px_reg.sc-eDLKkx.sc-gLLuof.bnDFEJ.fRGBNZ.font-pretendard")
################################
names = []

# 각 상품 이름름 텍스트 정리 후 추가
for name in names_class:
    cleaned_text = name.text.strip().replace('\r', '').replace('\n', '')
    names.append(cleaned_text)

names

['( 2PACK ) 퓨어코튼 레이어드 체인 반팔티',
 'Rowdy Basketball League T-Shirt_Oatmeal',
 '[리뉴얼 ver.] 린넨 카라 하프 니트 - 9 COLOR',
 '오버핏 크루넥 브루클린 반팔 티셔츠 화이트그린',
 '무지 30수 순면티 2PACK 3컬러',
 '시그니처 코튼 머슬핏 티셔츠 NSTS01',
 '(우먼)로고 링거 티셔츠 - 5 COLOR',
 '릴렉스드 더블코튼 반팔티 ( 7Color )',
 '20수 스텐다드 핏 프리미엄 코튼 티셔츠',
 '어게인스트 자수 반팔 티 [블랙]',
 '오버핏 크루넥 메탈릭 크롬 하트 로고 반팔 티셔츠 화이트',
 '[S~5XL] DTP 드로잉 반팔 티셔츠_D01 하우스',
 '[2PACK] CGP 스몰 아치 로고 반팔 티셔츠',
 '우먼스 플로리 와펜 반팔 티셔츠 블랙',
 '[무료반품] 드라이 핏 피트니스 티셔츠 M - 블랙:매트 실버 / DX0990-010',
 '쿨코튼 유넥 반팔 티셔츠 [6 COLOR]',
 '[3PACK]무지 쿨론 기능성 쿨 반팔 티셔츠 3P',
 '[4color] 컷오프 로고 반팔 티셔츠 MDTS048',
 '[2PACK] 로고 반팔 티셔츠 블랙/블랙',
 '무지 머슬핏 반팔티셔츠 [블랙]',
 '( 2PACK ) 퓨어코튼 루즈핏 체인 반팔티',
 '원캣 우먼 레귤러 베이직 티셔츠',
 'New MOMO Shirring Short Top (Black)',
 '[2PACK] 루즈핏 숏슬리브',
 '우먼 캣츠포에버 레귤러 반팔 티셔츠_화이트',
 'WXT013 아이 라이크 휴먼 반팔 티셔츠 (LEMON)',
 '(우먼)씬 스트라이프 티셔츠 - 6 COLOR',
 '[2pack] 클래식 머슬핏 무지 반팔 티셔츠',
 '레드로고 반팔티 [화이트]',
 'SORANO Single Logo T-Shirt [2Color]',
 '풋볼 져지 티셔츠_화이트',
 'AEROCOOL S OG TEE 2PACK none',
 'Hybrid Tattoo Tee Charco

### 4단계: 별점 데이터 추출
HTML에서 별점 데이터를 추출하고, 각 리뷰의 별점을 계산합니다.

In [28]:
# 별점, 별점개수, 좋아요개수 추출
ratings = []
rating_numbers =[]
like_numbers = []
################################
rating_containers = driver.find_elements(By.CSS_SELECTOR,".text-etc_11px_reg.text-yellow.font-pretendard")
like_number_containers = driver.find_elements(By.CSS_SELECTOR,".text-etc_11px_reg.text-red.font-pretendard")
################################

for i in range(0, len(rating_containers), 2):
    rating = rating_containers[i].text.strip()
    rating_count = rating_containers[i+1].text.strip().replace('(', '').replace(')', '')

    ratings.append(rating)
    rating_numbers.append(rating_count)

for j in like_number_containers:
    like_numbers.append(j.text.strip())


print(ratings)
print("-------------------------------------")
print(rating_numbers)
print("-------------------------------------")
print(like_numbers)

['4.8', '4.8', '4.8', '4.8', '4.6', '4.8', '4.5', '4.9', '4.8', '4.8', '4.8', '4.8', '4.8', '4.8', '4.9', '4.9', '4.8', '4.6', '4.8', '5.0', '4.8', '4.8', '4.6', '4.9', '4.8', '4.9', '4.8', '4.9', '4.2', '4.8', '4.8', '4.9', '5.0', '4.4', '4.9', '5.0', '4.9', '4.7', '4.9', '4.8', '4.9']
-------------------------------------
['4천+', '206', '1만+', '1천+', '233', '6천+', '13', '439', '168', '345', '165', '112', '6천+', '19', '109', '1천+', '1천+', '78', '4', '43', '4천+', '607', '8', '2천+', '168', '19', '5', '1천+', '6', '5', '1천+', '2천+', '7', '5', '36', '41', '1천+', '60', '17', '1천+', '348']
-------------------------------------
['2.0만', '8.1천', '4.8만', '1.3만', '1.5천', '1.5만', '2.5천', '1.7천', '1.3천', '1.4천', '5.6천', '8.3천', '2.9만', '268', '2.2천', '5.6천', '9.4천', '1.2천', '79', '1.3천', '1.7만', '1.2만', '746', '7.1천', '4.5천', '474', '388', '2.8천', '104', '885', '4.3만', '1.3만', '1.9천', '435', '253', '746', '3.6천', '1.3천', '1.3천', '1.1만', '6.5천']


### 5단계: 데이터 정리 및 DataFrame으로 변환
수집된 데이터를 Pandas DataFrame으로 변환하여 후속 분석을 용이하게 만듭니다.

In [None]:
import pandas as pd

# 상품명, 별점개수, 별점, 좋아요개수를 결합하여 리스트 생성
data = list(zip(names, rating_numbers, ratings, like_numbers))

# DataFrame으로 변환
df_reviews = pd.DataFrame(data, columns=['Name', 'Rating', 'Rating_number', 'Like_number'])
df_reviews

### 9단계: Excel 파일로 저장
최종 결과를 Excel 파일로 저장합니다.

In [39]:
with open('musinsa.txt', 'w', encoding='utf-8') as f:
    for i in range(len(names)):
        name = names[i] if i < len(names) else ""
        rating = ratings[i] if i < len(ratings) else ""
        rating_count = rating_numbers[i] if i < len(rating_numbers) else ""
        like = like_numbers[i] if i < len(like_numbers) else ""

        line = f"이름 : {name:<50} 별점개수 : {rating_count:<8} 별점 : {rating:<4} 좋아요 : {like}\n"
        f.write(line)

### 10단계: 드라이버 종료
크롤링이 끝난 후, Selenium 드라이버를 종료합니다.

In [40]:
# 드라이버 종료
driver.quit()