#### 쇼핑몰의 데이터 수집
- 매일 1,000여 개의 상품 정보를 수집해서 가격의 변화, 품절 여부 등을 조사하려면 시간이 많이 소요
- 자동화 방법 필요


#### 쇼핑몰의 상품 정보
- 여러 페이지에 나누어 있는 경우가 많음
- 한 페이지에 모두 넣으면 스크롤을 내리지 않은 페이지까지 로드 되어 속도 저하 및 자원이 비효율적으로 사용되는 문제 때문에 
- 페이징 기능을 넣어 여러 페이지로 나누어 설계하는 경우가 많음


#### 쇼핑몰의 상품 정보 수집 방법
    - 모든 페이지에 있는 데이터 수집 방법이 필요
    - 페이지가 바뀌고 카테고리가 바뀌어도 데이터 수집이 가능하도록 분리해서 반복
    - 상품별 추출
    - 페이지별 추출
    - 카테고리 추출
    

#### 화장품 쇼핑몰 사이트 크롤링

- url : http://jolse.com (스킨케어 - 토너&미스트)
- 크롤링 url : https://jolse.com/category/toners-mists/1019/

In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests


In [2]:
# 사이트 서버에 요청후 응답 반환
url ="https://jolse.com/category/toners-mists/1019/"
res = requests.get(url)
res 
# <Response [403]> 권한 없는 접속

<Response [403]>

In [8]:
# 403 에러 일 경우
res = urlopen(url)
html = res.read()
bs_obj = BeautifulSoup(html, "html.parser")
# bs_obj

In [11]:
# 1페이지 전체 상품 추출
# 모든 상품 정보가 들어있는 ul 태그 추출
# ul class:prdList grid4

ul = bs_obj.find("ul", {"class":"prdList grid4"})
# print(ul)


In [13]:
# 전체 상품 정보가 있는 ul 태그 객체  이용해서 모든 제품 정보를 각각 추출
# findAll 함수 이용
prd_boxes = ul.findAll("div",{"class":"box"})
print(len(prd_boxes)) # 1페이지의 총 제품 수


48


In [19]:
# prd_boxes[0].find("p",{"class","name"}).text  # 불필요한 text 까지 같이 추출
prd_boxes[0].find("p",{"class","name"}).find("span").text # 가장 안쪽의 tag의 text 추출

# '\n{ Isntree Hyaluronic Acid Toner 200ml (Renewal)\n'
# 'Isntree Hyaluronic Acid Toner 200ml (Renewal)'

'Isntree Hyaluronic Acid Toner 200ml (Renewal)'

In [39]:
# 전체 상품명 출력

for box in prd_boxes:
    p_tag = box.find("p",{"class":"name"})
    span = p_tag.find("span")
    print(span.text)
    

Isntree Hyaluronic Acid Toner 200ml (Renewal)
SON&PARK BEAUTY WATER 340ml
SOME BY MI AHA BHA PHA 30 Days Miracle Toner 150ml
SOME BY MI Galactomyces Pure Vitamin C Glow Toner 200ml
PURITO Centella Green Level Calming Toner 200ml
SON&PARK Beauty Water 60ml
Pyunkang Yul Essence Toner 100ml
secretKey Hyaluron Aqua Soft Toner 500ml
ROUND LAB 1025 Dokdo Toner 200ml
SOME BY MI Snail Truecica Miracle Repair Toner 135ml
Dr.MYSKIN Vita Galacto Bifida 90 Toner 110ml
COSRX AHA 7 WHITEHEAD POWER LIQUID 100ml
secretKey Fresh Toner 248ml
BLITHE Vital Treatment 8 Nourishing Beans 150ml
COSRX Two In One Poreless Power Liquid 100ml
Pyunkang Yul Essence Toner 200ml
Isntree Clear Skin BHA Toner 200ml
COSRX One Step Moisture Up Pad 70ea
Elizavecca Hell-Pore Clean up AHA Fruit Toner 200ml
BENTON Aloe BHA Skin Toner 200ml
COSRX One Step Original Clear Pad 70ea
NATURE REPUBLIC Soothing & Moisture Aloe Vera 92% Soothing Gel Mist 150ml
COSRX BHA BLACKHEAD POWER LIQUID100 ML
SKIN&LAB Medicica Balancing Toner 18

In [34]:
# 전체 가격 출력
# 전체 가격과 세일 가격 출력
# 가격정보는 div .box 안의 ul 태그 내에 정의
# ul 태그내 기준이 될만한 선택값이 없으므로 모든 span 추출 후 
# indexing 해서 가격과 세일가격을 추출

price_ul = prd_boxes[0].find("ul")
# price_ul
price_span = price_ul.findAll("span")
# print(price_span[0].text)
# print(price_span[1].text)
# print(price_span[2].text)
# print(price_span[3].text)
# print(price_span[4].text)


print(price_span[1].text)
print(price_span[-1].text)


USD 19.00
USD 11.99


In [41]:
# 반복문 이용해서 전체 제품의 가격 정보 출력
for box in prd_boxes :
    price_ul = box.find("ul")
    price_span = price_ul.findAll("span")
    print("가격 : ", price_span[1].text)
    print("세일 가격 : ", price_span[-1].text)
    print()

가격 :  USD 19.00
세일 가격 :  USD 13.99

가격 :  USD 29.40
세일 가격 :  USD 24.99

가격 :  USD 24.00
세일 가격 :  USD 13.99

가격 :  USD 34.00
세일 가격 :  USD 17.99

가격 :  USD 25.20
세일 가격 :  USD 21.42

가격 :  USD 10.50
세일 가격 :  USD 8.92

가격 :  USD 14.50
세일 가격 :  USD 12.32

가격 :  USD 22.00
세일 가격 :  USD 18.70

가격 :  USD 17.00
세일 가격 :  USD 14.45

가격 :  USD 24.00
세일 가격 :  USD 15.99

가격 :  USD 15.70
세일 가격 :  USD 13.34

가격 :  USD 17.81
세일 가격 :  USD 13.99

가격 :  USD 12.00
세일 가격 :  USD 10.20

가격 :  USD 42.90
세일 가격 :  USD 36.46

가격 :  USD 22.00
세일 가격 :  USD 14.99

가격 :  USD 21.90
세일 가격 :  USD 18.61

가격 :  USD 21.96
세일 가격 :  USD 13.89

가격 :  USD 19.50
세일 가격 :  USD 14.99

가격 :  USD 14.00
세일 가격 :  USD 11.90

가격 :  USD 19.00
세일 가격 :  USD 16.15

가격 :  USD 19.63
세일 가격 :  USD 14.99

가격 :  USD 12.16
세일 가격 :  USD 8.50

가격 :  USD 20.81
세일 가격 :  USD 14.99

가격 :  USD 21.63
세일 가격 :  USD 18.39

가격 :  USD 16.50
세일 가격 :  USD 14.02

가격 :  USD 18.60
세일 가격 :  USD 15.81

가격 :  USD 26.00
세일 가격 :  USD 22.10

가격 :  USD 18.70
세일 가격 :  USD 1

In [42]:
#연습문제 : 위 코드를 아래와 같이 출력되게 변경하시오.
# 품목 : xxx
# 가격 : xxx
# 세일가격 : xxx
 

In [43]:
# 반복문 이용해서 전체 제품의 가격 정보 출력
# prd_boxes : 각 제품의 정보를 저장함.
len(prd_boxes)

48

In [44]:


for box in prd_boxes :
    # 제품명 추출 코드
    p_tag = box.find("p",{"class":"name"})
    span = p_tag.find("span")
    # 가격추출 코드
    price_ul = box.find("ul")
    price_span = price_ul.findAll("span")
    # 최종 DATA 추출 후 출력
    print("제품명 : ", span.text)
    print("가격 : ", price_span[1].text)
    print("세일 가격 : ", price_span[-1].text)
    

제품명 :  Isntree Hyaluronic Acid Toner 200ml (Renewal)
가격 :  USD 19.00
세일 가격 :  USD 13.99
제품명 :  SON&PARK BEAUTY WATER 340ml
가격 :  USD 29.40
세일 가격 :  USD 24.99
제품명 :  SOME BY MI AHA BHA PHA 30 Days Miracle Toner 150ml
가격 :  USD 24.00
세일 가격 :  USD 13.99
제품명 :  SOME BY MI Galactomyces Pure Vitamin C Glow Toner 200ml
가격 :  USD 34.00
세일 가격 :  USD 17.99
제품명 :  PURITO Centella Green Level Calming Toner 200ml
가격 :  USD 25.20
세일 가격 :  USD 21.42
제품명 :  SON&PARK Beauty Water 60ml
가격 :  USD 10.50
세일 가격 :  USD 8.92
제품명 :  Pyunkang Yul Essence Toner 100ml
가격 :  USD 14.50
세일 가격 :  USD 12.32
제품명 :  secretKey Hyaluron Aqua Soft Toner 500ml
가격 :  USD 22.00
세일 가격 :  USD 18.70
제품명 :  ROUND LAB 1025 Dokdo Toner 200ml
가격 :  USD 17.00
세일 가격 :  USD 14.45
제품명 :  SOME BY MI Snail Truecica Miracle Repair Toner 135ml
가격 :  USD 24.00
세일 가격 :  USD 15.99
제품명 :  Dr.MYSKIN Vita Galacto Bifida 90 Toner 110ml
가격 :  USD 15.70
세일 가격 :  USD 13.34
제품명 :  COSRX AHA 7 WHITEHEAD POWER LIQUID 100ml
가격 :  USD 17.81
세일 가격 :  USD 1

In [45]:
# 위에서 수집한 데이터를 DF로 저장

In [46]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
import pandas as pd

In [47]:
# 수집 데이터를 저장할 빈 리스트 생성

prd_list = []
price_list = []
sale_price_list = []


In [48]:
# 크롤링 문서 응답객체 받아오기
url = "https://jolse.com/category/toners-mists/1019/"

# 403에러 일 경우
res = urlopen(url)
html = res.read()

#bs4 객체 생성
bs_obj = BeautifulSoup(html, "html.parser")

# 전체 제품 목록을 담고 있는 ul 태그 추출
ul = bs_obj.find("ul",{"class":"prdList grid4"})

# 전체 ul 에서 각 품목별로 추출(list 집합자료로 생성)
prd_boxes = ul.findAll("div",{"class":"box"})




In [49]:
# 리스트에 추출한 data 저장
for box in prd_boxes :
    # 제품명 추출 코드
    p_tag = box.find("p",{"class":"name"})
    span = p_tag.find("span")
    # 가격 추출 코드
    price_ul = box.find("ul")
    price_span = price_ul.findAll("span")
    # 최종 data 추출 후 출력
    prd_list.append(span.text)
    price_list.append(price_span[1].text)
    sale_price_list.append(price_span[-1].text)


In [50]:
sale_price_list

['USD 13.99',
 'USD 24.99',
 'USD 13.99',
 'USD 17.99',
 'USD 21.42',
 'USD 8.92',
 'USD 12.32',
 'USD 18.70',
 'USD 14.45',
 'USD 15.99',
 'USD 13.34',
 'USD 13.99',
 'USD 10.20',
 'USD 36.46',
 'USD 14.99',
 'USD 18.61',
 'USD 13.89',
 'USD 14.99',
 'USD 11.90',
 'USD 16.15',
 'USD 14.99',
 'USD 8.50',
 'USD 14.99',
 'USD 18.39',
 'USD 14.02',
 'USD 15.81',
 'USD 22.10',
 'USD 15.89',
 'USD 22.44',
 'USD 25.50',
 'USD 23.73',
 'USD 21.25',
 'USD 17.19',
 'USD 18.69',
 'USD 15.30',
 'USD 17.99',
 'USD 14.17',
 'USD 20.40',
 'USD 8.50',
 'USD 14.32',
 'USD 15.71',
 'USD 20.40',
 'USD 31.96',
 'USD 17.00',
 'USD 23.80',
 'USD 17.85',
 'USD 19.12',
 'USD 14.45']

In [54]:
import pandas as pd

prd_dict={"품목":prd_list,
          "가격":price_list,
          "세일가격":sale_price_list}
prd_df = pd.DataFrame(prd_dict,index=range(1,(len(prd_list)+1)))
prd_df

Unnamed: 0,품목,가격,세일가격
1,Isntree Hyaluronic Acid Toner 200ml (Renewal),USD 19.00,USD 13.99
2,SON&PARK BEAUTY WATER 340ml,USD 29.40,USD 24.99
3,SOME BY MI AHA BHA PHA 30 Days Miracle Toner 1...,USD 24.00,USD 13.99
4,SOME BY MI Galactomyces Pure Vitamin C Glow To...,USD 34.00,USD 17.99
5,PURITO Centella Green Level Calming Toner 200ml,USD 25.20,USD 21.42
6,SON&PARK Beauty Water 60ml,USD 10.50,USD 8.92
7,Pyunkang Yul Essence Toner 100ml,USD 14.50,USD 12.32
8,secretKey Hyaluron Aqua Soft Toner 500ml,USD 22.00,USD 18.70
9,ROUND LAB 1025 Dokdo Toner 200ml,USD 17.00,USD 14.45
10,SOME BY MI Snail Truecica Miracle Repair Toner...,USD 24.00,USD 15.99


In [55]:
prd_df.to_csv("./crawl_data/prd1page.csv")
