### 쇼핑몰 데이터 수집
- 매일 1000여개의 상품 정보를 수집해서 가격의 변화, 품절 여부 등을 조사하려면 시간이 많이 소요됨. 
- 자동화 방법 필요

#### 쇼핑몰의 상품 정보
- 여러 페이지에 나누어져 있는 경우가 많음
- 한 페이지에 모두 넣으면 스크롤을 내리지 않은 페이지까지 로드되어 속도 저하 및 자원이 비효율적으로 사용되는 문제 때문에
- 페이징 기능을 넣어 여러 페이지로 나누어 설게하는 경우가 많음

#### 쇼핑몰의 상품 정보 수집 방법
   - 모든 페이지에 있는 데이터 수집 방법 필요
   - 페이지가 바뀌고 카테고리가 바뀌어도 데이터를 수집할 수 있도록 분리해서 반복
   - 상품별 추출
   - 페이지별 추출
   - 카테고리 추출

#### 화장품 쇼핑몰 사이트 크롤링

- url: http://jolse.com (스킨케어 - 토너 & 미스트)
- 크롤링할 url : https://jolse.com/category/toners-mists/1019/

In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests


In [2]:
url = "https://jolse.com/category/toners-mists/1019/"
res=requests.get(url)
res
#권한이 없는 접근을 하고 있으므로 403에러를 띄운다.
#urlopen으로 접근하면 응답을 반환해주기도함
#이것도 안되면 header를 사용해야함

<Response [403]>

In [3]:
#사이트 서버에 요청 후 응답 반환
res=requests.get(url)
res = urlopen(url)
html  = res.read()

bs_obj = BeautifulSoup(html,"html.parser")


In [4]:
# 1 페이지 전체 상품 추출
# 모든 상품 정보가 들어있는 ul 태그 추출
# ul class:prdList grid4

ul = bs_obj.find("ul",{"class":"prdList grid4"})
#print(ul)

In [5]:
# 전체 상품 정보가 있는 ul 태그 객체 이용해서 모든 제품 정보를 추출
#findAll 함수 이용

prd_boxes = ul.findAll('div',{'class':'box'})
print(len(prd_boxes)) #1페이지의 총 제품수

48


In [6]:
print(prd_boxes[0].find('p',{"class":"name"}).text) #불필요한 text까지 같이 추출됨
prd_boxes[0].find('p',{"class":"name"}).find('span').text # 가장 안쪽의 tag로 접근해서 


{ Isntree Hyaluronic Acid Toner 200ml (Renewal)



'Isntree Hyaluronic Acid Toner 200ml (Renewal)'

In [7]:
#전체 상품명 출력

for box in prd_boxes:
    p_tag = box.find('p',{"class":"name"})
    span = p_tag.find("span")
    print(span.text)

Isntree Hyaluronic Acid Toner 200ml (Renewal)
SON&PARK BEAUTY WATER 340ml
SOME BY MI AHA BHA PHA 30 Days Miracle Toner 150ml
SOME BY MI Galactomyces Pure Vitamin C Glow Toner 200ml
PURITO Centella Green Level Calming Toner 200ml
SON&PARK Beauty Water 60ml
Pyunkang Yul Essence Toner 100ml
secretKey Hyaluron Aqua Soft Toner 500ml
ROUND LAB 1025 Dokdo Toner 200ml
SOME BY MI Snail Truecica Miracle Repair Toner 135ml
Dr.MYSKIN Vita Galacto Bifida 90 Toner 110ml
COSRX AHA 7 WHITEHEAD POWER LIQUID 100ml
secretKey Fresh Toner 248ml
BLITHE Vital Treatment 8 Nourishing Beans 150ml
COSRX Two In One Poreless Power Liquid 100ml
Pyunkang Yul Essence Toner 200ml
Isntree Clear Skin BHA Toner 200ml
COSRX One Step Moisture Up Pad 70ea
Elizavecca Hell-Pore Clean up AHA Fruit Toner 200ml
BENTON Aloe BHA Skin Toner 200ml
COSRX One Step Original Clear Pad 70ea
NATURE REPUBLIC Soothing & Moisture Aloe Vera 92% Soothing Gel Mist 150ml
COSRX BHA BLACKHEAD POWER LIQUID100 ML
SKIN&LAB Medicica Balancing Toner 18

In [8]:
#전체 가격 출력
#전체 가격과 세일가격 출력
#가격 정보는 div .box 안의 ul 태그 내에 정의
#ul 태그내 기준이 될만한 선택값이 없으므로 모든 span 추출 후 indexing해서 가격과 세일 가격 추출

price_ul = prd_boxes[0].find("ul")
#price_ul

price_span = price_ul.findAll("span")

print(price_span[1].text)
print(price_span[-1].text)

USD 19.00
USD 13.99


In [9]:
#반복문 이용해서 전체 제품의 가격 정보 출력

for box in prd_boxes:
    price_ul = box.find('ul')
    price_span = price_ul.findAll('span')
    print("가격: ",price_span[1].text)
    print("세일 가격: ",price_span[-1].text)

가격:  USD 19.00
세일 가격:  USD 13.99
가격:  USD 29.40
세일 가격:  USD 24.99
가격:  USD 24.00
세일 가격:  USD 13.99
가격:  USD 34.00
세일 가격:  USD 17.99
가격:  USD 25.20
세일 가격:  USD 21.42
가격:  USD 10.50
세일 가격:  USD 8.92
가격:  USD 14.50
세일 가격:  USD 12.32
가격:  USD 22.00
세일 가격:  USD 18.70
가격:  USD 17.00
세일 가격:  USD 14.45
가격:  USD 24.00
세일 가격:  USD 15.99
가격:  USD 15.70
세일 가격:  USD 13.34
가격:  USD 17.81
세일 가격:  USD 13.99
가격:  USD 12.00
세일 가격:  USD 10.20
가격:  USD 42.90
세일 가격:  USD 36.46
가격:  USD 22.00
세일 가격:  USD 14.99
가격:  USD 21.90
세일 가격:  USD 18.61
가격:  USD 21.96
세일 가격:  USD 13.89
가격:  USD 19.50
세일 가격:  USD 14.99
가격:  USD 14.00
세일 가격:  USD 11.90
가격:  USD 19.00
세일 가격:  USD 16.15
가격:  USD 19.63
세일 가격:  USD 14.99
가격:  USD 12.16
세일 가격:  USD 8.50
가격:  USD 20.81
세일 가격:  USD 14.99
가격:  USD 21.63
세일 가격:  USD 18.39
가격:  USD 16.50
세일 가격:  USD 14.02
가격:  USD 18.60
세일 가격:  USD 15.81
가격:  USD 26.00
세일 가격:  USD 22.10
가격:  USD 18.70
세일 가격:  USD 15.89
가격:  USD 26.40
세일 가격:  USD 22.44
가격:  USD 30.00
세일 가격:  USD 25.50
가격:  USD 27.

In [12]:
#연습문제 : 위 코드를 아래와 같이 출력되게 변경하시오.
# 품목 : xxx
# 가격 : xxx
# 세일가격 : xxx
price_list=[]
sale_list=[]
name_list=[]

for box in prd_boxes:
    p_tag = box.find('p',{"class":"name"})
    
    span = p_tag.find("span")
    print("품목: ",span.text)
    name_list.append(span.text)
    
    price_ul = box.find('ul')
    price_span = price_ul.findAll('span')
    print("가격: ",price_span[1].text)
    price_list.append(price_span[1].text)
        
    print("세일 가격: ",price_span[-1].text)
    sale_list.append(price_span[-1].text)
    print()
    
    
    


품목:  Isntree Hyaluronic Acid Toner 200ml (Renewal)
가격:  USD 19.00
세일 가격:  USD 13.99

품목:  SON&PARK BEAUTY WATER 340ml
가격:  USD 29.40
세일 가격:  USD 24.99

품목:  SOME BY MI AHA BHA PHA 30 Days Miracle Toner 150ml
가격:  USD 24.00
세일 가격:  USD 13.99

품목:  SOME BY MI Galactomyces Pure Vitamin C Glow Toner 200ml
가격:  USD 34.00
세일 가격:  USD 17.99

품목:  PURITO Centella Green Level Calming Toner 200ml
가격:  USD 25.20
세일 가격:  USD 21.42

품목:  SON&PARK Beauty Water 60ml
가격:  USD 10.50
세일 가격:  USD 8.92

품목:  Pyunkang Yul Essence Toner 100ml
가격:  USD 14.50
세일 가격:  USD 12.32

품목:  secretKey Hyaluron Aqua Soft Toner 500ml
가격:  USD 22.00
세일 가격:  USD 18.70

품목:  ROUND LAB 1025 Dokdo Toner 200ml
가격:  USD 17.00
세일 가격:  USD 14.45

품목:  SOME BY MI Snail Truecica Miracle Repair Toner 135ml
가격:  USD 24.00
세일 가격:  USD 15.99

품목:  Dr.MYSKIN Vita Galacto Bifida 90 Toner 110ml
가격:  USD 15.70
세일 가격:  USD 13.34

품목:  COSRX AHA 7 WHITEHEAD POWER LIQUID 100ml
가격:  USD 17.81
세일 가격:  USD 13.99

품목:  secretKey Fresh Toner 248m

In [11]:
# 위에서 수집한 정보를 데이터 df로 저장해보세요

import pandas as pd

df1 = pd.DataFrame({'가격':price_list,
                   '세일가격':sale_list},                   
                 index=name_list)
df1.index.name = '제품명'


df1

Unnamed: 0_level_0,가격,세일가격
제품명,Unnamed: 1_level_1,Unnamed: 2_level_1
Isntree Hyaluronic Acid Toner 200ml (Renewal),USD 19.00,USD 13.99
SON&PARK BEAUTY WATER 340ml,USD 29.40,USD 24.99
SOME BY MI AHA BHA PHA 30 Days Miracle Toner 150ml,USD 24.00,USD 13.99
SOME BY MI Galactomyces Pure Vitamin C Glow Toner 200ml,USD 34.00,USD 17.99
PURITO Centella Green Level Calming Toner 200ml,USD 25.20,USD 21.42
SON&PARK Beauty Water 60ml,USD 10.50,USD 8.92
Pyunkang Yul Essence Toner 100ml,USD 14.50,USD 12.32
secretKey Hyaluron Aqua Soft Toner 500ml,USD 22.00,USD 18.70
ROUND LAB 1025 Dokdo Toner 200ml,USD 17.00,USD 14.45
SOME BY MI Snail Truecica Miracle Repair Toner 135ml,USD 24.00,USD 15.99


In [17]:
import pandas as pd

prd_dict={"품목":name_list,
          "가격":price_list,
          "세일가격":sale_list}

prd_df = pd.DataFrame(prd_dict,index=range(1,(len(name_list)+1)))


prd_df

Unnamed: 0,품목,가격,세일가격
1,Isntree Hyaluronic Acid Toner 200ml (Renewal),USD 19.00,USD 13.99
2,SON&PARK BEAUTY WATER 340ml,USD 29.40,USD 24.99
3,SOME BY MI AHA BHA PHA 30 Days Miracle Toner 1...,USD 24.00,USD 13.99
4,SOME BY MI Galactomyces Pure Vitamin C Glow To...,USD 34.00,USD 17.99
5,PURITO Centella Green Level Calming Toner 200ml,USD 25.20,USD 21.42
6,SON&PARK Beauty Water 60ml,USD 10.50,USD 8.92
7,Pyunkang Yul Essence Toner 100ml,USD 14.50,USD 12.32
8,secretKey Hyaluron Aqua Soft Toner 500ml,USD 22.00,USD 18.70
9,ROUND LAB 1025 Dokdo Toner 200ml,USD 17.00,USD 14.45
10,SOME BY MI Snail Truecica Miracle Repair Toner...,USD 24.00,USD 15.99


In [19]:
prd_df.to_csv("./crawlData/prd1page.csv")