# [Part1] 마켓컬리 상품리뷰 크롤링

- 1. '인기상품순' 이동
- 2. 상품명, 부연설명, 가격, 해당 URL 링크 크롤링
- 3. 후기 크롤링 1000개, 2페이지부터(1페이지는 공지사항)
- 4. 상품명 별 크롤링 1000개씩 데이터프레임 저장
- 5. 상품 당 리뷰가 아닌, 인기상품군에 대한 모든 리뷰를 Concat한 결과물을 가져옴(향후 수정 필요)
- 6. csv로 저장(상품명, 부연설명, 가격, 해당 URL, 상품리뷰)
- chromedriver version download : https://chromedriver.chromium.org/downloads

# 1. 환경 설정

In [1]:
from selenium import webdriver 
from selenium.webdriver import ActionChains 
import time
from selenium.webdriver.common.by import By
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup

driver = webdriver.Chrome() 
driver.set_window_size(1500, 800)

# 1. 사이트 접속
driver.get('https://www.kurly.com/shop/goods/goods_list.php?category=029')
time.sleep(4)

# 2. '인기상품순' 클릭 
driver.find_element_by_css_selector('#goodsList > div.list_ability > div > div > div > ul > li:nth-child(3) > a').click()

# 2. 인기상품군(280여건) 의 상품정보 크롤링 

#### 2.1) 상품명, 상품가격, 상품설명, 제품코드 함수생성

In [2]:
## 1. 상품명, 상품가격, 상품설명 크롤링
def get_product_info():
    product_info = driver.find_elements(By.CLASS_NAME, "info")
    for product_list in product_info:

        # 할인 가격 시 밀리는 현상 발생
        if ("%" in product_list.text.split('\n')[1]):
            ## 상품명
            product_name = product_list.text.split('\n')[0]
            product_dict['product_name'].append(product_name)

            ## 상품가격
            product_price = product_list.text.split('\n')[2]
            product_dict['product_price'].append(product_price)

            ## 상품설명이 없는 경우도 있음.
            try:
                product_content = product_list.text.split('\n')[3]
                product_dict['product_content'].append(product_content)
            except:
                product_content = 'NA'
                product_dict['product_content'].append(product_content)
                pass

        else:            
            # 상품명
            product_name = product_list.text.split('\n')[0]
            product_dict['product_name'].append(product_name)

            # 상품가격
            product_price = product_list.text.split('\n')[1]
            product_dict['product_price'].append(product_price)

            # 상품설명
            product_content = product_list.text.split('\n')[2]
            product_dict['product_content'].append(product_content)
            
        
## 2. 해당 제품코드 크롤링
def get_product_id():
    
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    contents = soup.select('div.group_btn')

    for p_tag in contents:
        try:
            # 제품코드
            product_list.append(int(p_tag.text))
        except:
            pass

#### 2.2) 상품 정보 크롤링 실행

In [3]:
# 설정
product_list = []
product_dict = {'product_name':[], 'product_price' : [], 'product_content' : []}


# 1번째 페이지 실행 
get_product_id()
get_product_info()
    
# 2번쨰 페이지 클릭
driver.find_element_by_css_selector('#goodsList > div.layout-pagination > div > span:nth-child(4) > a').click()
time.sleep(2)
get_product_id()
get_product_info()

# 3번째 페이지 클릭
driver.find_element_by_css_selector('#goodsList > div.layout-pagination > div > span:nth-child(5) > a').click()
time.sleep(2)
get_product_id()
get_product_info()
print("제품코드 갯수 : ", len(product_list))

# Product_id + URL 작업
review_url = []
for product_url in product_list:
    concat_url = "https://www.kurly.com/shop/goods/goods_review_list.php?goodsno=" + str(product_url) + "&page="
    review_url.append(concat_url)

제품코드 갯수 :  290


#### 2.2) 품절된 상품은 크롤링 되지 않으므로, 상태에 맞춰 변경 필요

In [4]:
# 8개의 상품 품절 상태
out_of_order = 8

prodcut_df = pd.DataFrame.from_dict(product_dict)[:-out_of_order]
prodcut_df['product_code'] = product_list
prodcut_df['product_url'] = review_url

In [5]:
prodcut_df

Unnamed: 0,product_name,product_price,product_content,product_code,product_url
0,[연세우유 x 마켓컬리] 전용목장우유 900mL,"1,850원","가격, 퀄리티 모두 만족스러운 1A등급 우유",63110,https://www.kurly.com/shop/goods/goods_review_...
1,[남향푸드또띠아] 간편 간식 브리또 10종,"2,900원",가볍고 든든한 멕시칸 푸드,27449,https://www.kurly.com/shop/goods/goods_review_...
2,[스윗밸런스] 오늘의 샐러드 6종,"4,900원",다채로운 토핑을 얹은 샐러드,66426,https://www.kurly.com/shop/goods/goods_review_...
3,[KF365] 애호박 1개,"1,950원","믿고 먹을 수 있는 상품을 합리적인 가격에, KF365",30559,https://www.kurly.com/shop/goods/goods_review_...
4,[하림] 냉장 닭가슴살 4종,"1,700원",간편하게 꺼내먹는 냉장 닭가슴살!,51264,https://www.kurly.com/shop/goods/goods_review_...
...,...,...,...,...,...
285,[아이바나리] KF94 소형 /초소형 10매 12종,"8,900원",내 아이에게 꼭 맞는 마스크,100492,https://www.kurly.com/shop/goods/goods_review_...
286,[발뮤다] 가습기 필터 세트 ERN-S100,"50,000원",기화식 가습기용 교체 필터,49583,https://www.kurly.com/shop/goods/goods_review_...
287,[닌텐도] SWITCH 본체 모여봐요 동물의 숲 에디션 3종,"360,000원",,94888,https://www.kurly.com/shop/goods/goods_review_...
288,[LUMENA] H3 PLUS 미니 가습기 3 종,"32,900원",건조한 공간을 한결 촉촉하게,94147,https://www.kurly.com/shop/goods/goods_review_...


# 3. 인기상품군의 상품리뷰 크롤링 

#### 3.1) 해당 상품평 크롤링 과정

In [10]:
# 설정
review_url = prodcut_df['product_url'].to_list()
# 한 리뷰 당 몇개의 게시글을 크롤링, 임시로 4페이지까지, 한 페이지당 7개의 리뷰 게시글 확인 
page_limit = 50 # 50 개하면 350개리뷰 크롤링
kurly_dict = {'review':[]}
review_list = []
start = time.time()

# 1. 280 개 중 1개의 상품주소로 접속
for seq, URL in enumerate(review_url):
    
    # 2. 해당 상품주소 중 n 개의 리뷰 크롤링
    for page_num in range(2, page_limit+1):
        if (page_num-1) % 10 == 0:
            print('{}번째 페이지 수집 중'.format(seq+1), time.time() - start, sep = '\t')

        # 페이지에서 게시물 리스트가 포함된 프레임으로 이동
        driver.get(URL + str(page_num))
    
        html = driver.page_source
        soup = BeautifulSoup(html, 'html.parser')
        contents = soup.select('div.inner_review')

        for p_tag in contents:
            review = str(p_tag).split("</div>")[-2].strip()
            kurly_dict['review'].append(review)
        time.sleep(int(np.random.randint(2, 5, size=1))) # 2 ~ 5초 간 랜덤으로 sleep

# 3. 데이터프레임 변경
Final_df = pd.DataFrame.from_dict(kurly_dict)

# 4. 중복된 리뷰 제거
Final_df.drop_duplicates(inplace = True)
Final_df

Unnamed: 0,review
0,생각보다 별로인 것
1,맛잇는데요 ㅎㅎㅎㅎ
2,매워요 ㅎㅎㅎㅎㅎㅎㅎ
3,랜덤으로 많이 들은 날도 있고 아닌 날도 있고 ...그르네요 ... 맛있긴 해요
4,요 또 주문 ㅎㅎㅎ
...,...
184,살짝 짜긴 한데 그래도 나트륨양이 너무 높진 않아 괜찮은것 같아요
185,살짝 짜긴 한데 그래도 나트륨양이 너무 높진 않아 괜찮은것 같아요
186,살짝 짜긴 한데 그래도 나트륨양이 너무 높진 않아 괜찮은것 같아요
187,살짝 짜긴 한데 그래도 나트륨양이 너무 높진 않아 괜찮은것 같아요


- 인기상품군을 중심으로 모든 Review를 Concat함.
- 상품 별 Review를 DataFrame을 다시 만들 필요가 있음.

# 4. 저장

In [None]:
# 상품정보
prodcut_df.to_csv('product_df.csv', index = False, encoding = 'utf-8-sig')

# 상품리뷰
Final_df.to_csv('product_df.csv', index = False, encoding = 'utf-8-sig')