# 프립 리뷰 데이터 크롤링

## Contents

- 1. 크롬드라이버 열기 및 웹페이지 접근
- 2. 개별 동작 만들기
    - 2-1. 별점 가져오기
    - 2-2. 날짜 가져오기
    - 2-3. 본문 가져오기
    - 2-4. 데이터 수집 함수 생성
- 3. 전체 동작 반복문 

## 1. 크롬드라이버 열기 및 웹페이지 접근

In [1]:
# 라이브러리
from selenium import webdriver
from bs4 import BeautifulSoup
import time
from tqdm import tqdm_notebook
import pandas as pd

In [2]:
# 드라이버 열기 , 크롬 버전에 따라 드라이버 계속 변경됨 
# 보안 환경설정 이슈 발생할 수 있음 
browser = webdriver.Chrome('./chromedriver4')

In [36]:
# 드라이버 닫기
browser.quit()

In [3]:
# url 규칙 , 변경될 수 있음 
page = 1
word = '101770'  # 상품번호
url = f'https://frip.co.kr/products/{word}/reviews?page={page}'
print(url)

https://frip.co.kr/products/101770/reviews?page=1


In [2]:
# url 함수화 
def get_search_page_url(word, page):
    url = f'https://frip.co.kr/products/{word}/reviews?page={page}'
    return url

In [4]:
# 검색 
# url을 넣어서 검색한다. 
browser.get(url)

In [68]:
# html 가져오기 

html = browser.page_source
soup = BeautifulSoup(html, 'html.parser')

In [24]:
# 리뷰들 가져오기 
reviews = soup.select('div.CardReview__Wrapper-f2ssd2-0')

In [25]:
len(reviews)

8

## 2. 개별 동작 만들기

## 2-1. 별점 가져오기

In [24]:
# 리뷰에서 첫번째 리뷰에 이미지 테그들 
# reviews[0].select('img')

In [65]:
# 별점
sum([1 if j==846 else 0.5 if j==1741 else 0 for j in [len(str(i)) for i in reviews[0].select('img')])

3.5

In [33]:
# 별점 가독성 

# 첫번째 리뷰의 이미지 테그에서 글자의수 중 별점에 해당하는 것 글자수로 전환한 리스트
image_string_list = [len(str(i)) for i in reviews[7].select('img')]
print(image_string_list)
# 이미지 글자수로 판단 , 846 별, 1741 반별, 1688 별없음
star_list = [1 if j==846 else 0.5 if j==1741 else 0 for j in image_string_list]
star = sum(star_list)
star

[242, 245, 846, 846, 846, 1688, 1688, 679, 205, 212]


3

In [86]:
# [len(str(i)) for i in reviews[0].select('img')]

[409, 846, 846, 846, 846, 1688, 679]

## 2-2. 날짜 가져오기

In [29]:
# 해더 
reviews[0].select('div.CardReview__Header-f2ssd2-1')[0].text.strip()

'채송아2016년 9월 16일 11:16 작성'

## 2-3. 본문 가져오기

In [30]:
# 본문
reviews[0].select('div.CardReview__Body-f2ssd2-9')[0].text.strip()

'평소에 역사에 많은 지식이 없음에도 불구하고 가이드분께서 너무 자세히 이해하기 쉽게 설명해 주셔서 흥미롭고 값진 시간이였어요~ 감사합니다 ㅎㅎ'

## 2-4. 데이터 수집 함수 생성

In [3]:
def get_data(reviews):
    data = []
    for review in reviews:
        # date
        try : 
            date = review.select('div.CardReview__Header-f2ssd2-1')[0].text.strip()
        except :
            date = ''
        # contents
        try : 
            content = review.select('div.CardReview__Body-f2ssd2-9')[0].text.strip()
        except : 
            content = ''
        # star point
        try : 
            # 첫번째 리뷰의 이미지 테그에서 글자의수 중 별점에 해당하는 것 글자수로 전환한 리스트
            image_string_list = [len(str(i)) for i in review.select('img')]
            # print(image_string_list)
            # 이미지 글자수로 판단 , 846 별, 1741 반별, 1688 별없음
            star_list = [1 if j==846 else 0.5 if j==1741 else 0 for j in image_string_list]
            star = sum(star_list)
        except : 
            star = ''
        data.append([date, content, star])
    return data

In [35]:
# 테스트 
get_data(reviews)

[['문보현2020년 9월 12일 21:43 작성',
  '여자친구랑 너무 즐거운 데이트였습니다. 조금 아쉬운점은 환기가 잘 되지않아 버터 냄새가 너무 심한거 외에는 전체적으로 다 좋았습니다',
  4.5],
 ['단추2020년 3월 2일 15:13 작성', '만드는것도 쉽고 재밌어요! ㅎㅎ\n너무 맛있네요 ㅠ 다먹었어요..', 4.5],
 ['ㅇㅅㅇ2019년 7월 23일 22:52 작성',
  '조금 늦게 올리지만 너무 좋았어요! 선생님께서도 너무 친절하셨고 설명도 자세하고 쉽게 해주셨어요!\n다만 한가지 단점이라면 찾아가는데 조금 힘들었네요...\n그것 외에는 너무너무 좋았어요!',
  4.5],
 ['이정봉2019년 7월 20일 16:06 작성',
  '선생님의 빠르고 귀에 쏙쏙들어오는 강좌 수업에 금방 익힐수 있었습니다.더 다양한 디저트 수업 생기길 기원합니다',
  4.5],
 ['배소미2021년 1월 1일 22:18 작성', '재밌게 만들었습니다 ㅎㅎ', 4],
 ['배소미2021년 1월 1일 22:18 작성', '친절히 상세히 알려주셔서 좋았어요!', 4],
 ['김원준2020년 8월 13일 18:52 작성',
  '평소 디저트에 관심이 많아서 여기저기서 배우고 있는데\n휘낭시에 원데이 클래스 정말 재미있었어요',
  4],
 ['윤의정2019년 8월 8일 21:45 작성',
  '좋은 경험이었습니다. 근데 저는 베이킹을 하면서 각 재료들이 어떤 역할을 하는지, 이 재료가 빠지면 결과가 어떻게 달라지는지 등이 궁금하고 질문하면서 수업하고 싶었는데 선생님이 스피드 있게 해야하는 것만 딱딱 진행하는 스타일이라 이런점은 조금 아쉬웠네요',
  3]]

## 3 전체 동작 반복문

In [32]:
# 드라이버 열기 , 크롬 버전에 따라 드라이버 계속 변경됨 
# 보안 환경설정 이슈 발생할 수 있음 
browser = webdriver.Chrome('./chromedriver4')


# 대기 
browser.implicitly_wait(3)


# 키워드 및 페이지 수 설정 
word = '110484'    # 상품번호
total_page = 24
# price = 50000
# 제목 [반포] 휘낭시에 3종 만들기 #18개완성
# 카테고리 : 베이킹
# 지역 : 강남/서초

# 데이터 수집 
review_data_total = []


for page in range(1, total_page+1):
    url = get_search_page_url(word, page)
    browser.get(url)
    
    time.sleep(5)
    
    html = browser.page_source
    soup = BeautifulSoup(html, 'html.parser')
    
    # 리뷰 가져오기 
    reviews = soup.select('div.CardReview__Wrapper-f2ssd2-0')
    # 데이터 추출
    review_data = get_data(reviews)
    
    review_data_total = review_data_total + review_data
    

In [None]:
# 드라이버 닫기
browser.quit()

In [33]:
result = pd.DataFrame(review_data_total,
                     columns=['날짜','내용','별점'])

In [34]:
result.별점.unique()

array([5. , 4.5, 4. , 3.5])

In [35]:
result['제목'] = '[서울] 덕수궁 야간 투어 #5대 궁궐투어 #중구'
result['카테고리'] = '투어'
result['지역'] = '종로/중구'
result['가격'] = 25000

In [36]:
result.tail()

Unnamed: 0,날짜,내용,별점,제목,카테고리,지역,가격
232,김지은2018년 7월 22일 23:29 작성,인기 있는 프립은 이유가 있는 것 같아요! \n밤에 찾는 궁은 너무 낭만적이고 성쌤...,4.0,[서울] 덕수궁 야간 투어 #5대 궁궐투어 #중구,투어,종로/중구,25000
233,조현자2017년 7월 19일 13:18 작성,처음 해본 프립 활동인데~ 좋아요~\n분위기 좋게 비도 부슬부슬 오는게 야경 분위기...,4.0,[서울] 덕수궁 야간 투어 #5대 궁궐투어 #중구,투어,종로/중구,25000
234,이수연2016년 11월 12일 17:36 작성,날씨도 좋고 예쁜 가을하늘 아래서 조선시대 가장 오랫동안 법궁 역할을 한 창덕궁에 ...,4.0,[서울] 덕수궁 야간 투어 #5대 궁궐투어 #중구,투어,종로/중구,25000
235,이지훈2016년 8월 3일 10:21 작성,평소 역사에 관심이 많았는데 정말 좋은 경험 이었습니다 ㅎㅎㅎ,4.0,[서울] 덕수궁 야간 투어 #5대 궁궐투어 #중구,투어,종로/중구,25000
236,이진이2018년 9월 17일 8:04 작성,제가 중간에 먹느라 빠져서 끝까지 못한건 아쉽네요 야간에 보는 궁의 느낌이 새로웠습니다,3.5,[서울] 덕수궁 야간 투어 #5대 궁궐투어 #중구,투어,종로/중구,25000


In [37]:
result.to_csv('/Users/jin/Documents/pythonstudy/NLP/frip_data/frip_tour2.csv')

## 결과 

- 상품번호에 규칙성이 없어서, 각각 수작업으로 한 활동씩 크롤링하여, csv파일 만들어서 저장했습니다.