## 네이버 쇼핑 고객 리뷰 수집

- 네이버 쇼핑에서 키워드로 검색(예: 스탠바이미)
- 검색 결과 중 리뷰 개수가 많은 상품 선택<br>
  https://search.shopping.naver.com/catalog/29938164618

### HTTP 요청 실행

In [None]:
# 관련 라이브러리를 호출합니다.
import requests

In [None]:
# 요청 URL을 설정합니다.
url = 'https://search.shopping.naver.com/catalog/29938164618'

In [None]:
# 쿼리 스트링을 딕셔너리로 설정합니다.
query = {'query': '스탠바이미'}

In [None]:
# HTTP 요청을 실행합니다.
res = requests.get(url = url, params = query)

### HTTP 응답 확인

In [None]:
# HTTP 응답 상태코드를 확인합니다.
res.status_code

In [None]:
# HTTP 응답 헤더를 확인합니다.
res.headers

In [None]:
# HTTP 요청 URL을 확인합니다.
res.url

In [None]:
# HTTP 응답 바디(str)의 일부를 출력합니다.
res.text[:1000]

### HTML 파싱(Parsing)

In [None]:
# 관련 라이브러리를 호출합니다.
from bs4 import BeautifulSoup as bts

In [None]:
# 문자열(str)을 bs4.BeautifulSoup 자료형으로 변환합니다.
soup = bts(markup = res.text, features = 'html.parser')

In [None]:
# soup의 클래스를 확인합니다.
type(soup)

In [None]:
# soup을 출력합니다.
soup

### 리뷰 데이터 수집

In [None]:
# 고객 리뷰를 포함하는 HTML 요소를 선택하고 items에 할당합니다.
items = soup.select(selector = '#section_review > ul > li')

In [None]:
# items의 길이를 확인합니다.
len(items)

In [None]:
# HTML 요소의 텍스트를 리스트로 반환하는 함수를 생성합니다.
def getHtmlText(x, css):
    return [i.select(selector = css)[0].text for i in x]

In [None]:
# 별점을 수집합니다.
star = getHtmlText(x = items, css = 'div > span:nth-child(1)')
print(star)

In [None]:
# 온라인 쇼핑몰을 수집합니다.
shop = getHtmlText(x = items, css = 'div > span:nth-child(2)')
print(shop)

In [None]:
# 리뷰 등록일자를 수집합니다.
date = getHtmlText(x = items, css = 'div > span:nth-child(4)')
print(date)

In [None]:
# 리뷰 내용을 수집합니다.
text = getHtmlText(x = items, css = 'div > p')
print(text)

### 데이터프레임으로 저장

In [None]:
# 관련 라이브러리를 호출합니다.
import pandas as pd

In [None]:
# 데이터프레임을 생성합니다.
df = pd.DataFrame(data = {'별점': star, '쇼핑몰': shop, '등록일': date, '리뷰': text})

In [None]:
# df의 처음 5행을 출력합니다.
df.head()

### xlsx 파일로 저장

In [None]:
# 관련 라이브러리를 호출합니다.
import os

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# xlsx 파일로 저장합니다.
df.to_excel(excel_writer = 'Naver Shopping Review.xlsx', index = None)

## End of Document