### 쇼핑몰 크롤링 결과 DB연동

### 쇼핑몰 크롤링
- 상품의 시세 파악을 위해서는 쇼핑몰 데이터를 추출하여 파악하는 것이 일반적임
- 특정 사이트를 선정하여 매일 상품의 가격 변환을 확인
- 사이트 선정 시 구성이 변하지 않고, 접속량이 일정 수준 이상인 사이트를 선정
- https://jolse.com/category/toners-mists/1019/page=1

#### 크롤링 작업 순서
(1) 첫 번째 페이지에서 상품 정보 추출   
    - 추천 상품 2개   
    - 일반 상품 20개   
    - 각 상품박스        
        - 상품명         
        - 상품가격      
            - 정상가       
            - 세일가           
   
(2) 여러 페이지 크롤링    
    - (1) 접속 & 파싱 함수   
    - (2) 1개의 상품 추출 함수   
    - (3) 한 페이지에서 상품 추출    
    - (4) 여러 페이지에서 추출             
        - base_url + page 번호(i)   

In [1]:
###########################################################################

In [2]:
# 1. DB 연결

In [3]:
import pymysql

In [4]:
# 1. DB 연결 
# 호스트명, 포트번호, 로그인 계정, 비밀번호, CHARSET 파라미터로 지정 
conn = pymysql.connect(host='localhost', 
                       port=3306, 
                       user='root', 
                       passwd='1234',
                       charset='utf8')
# 연결 객체 반환 

In [5]:
# 2. cursor 객체 생성 
# cursor 객체를 통해서 메소드 호출 
cursor = conn.cursor()

In [6]:
# 2. 데이터베이스(스키마) 생성

In [7]:
sql = 'create database crawling_db'
cursor.execute(sql)

In [60]:
sql = 'show databases'
cursor.execute(sql)

13

In [61]:
result = cursor.fetchall()
result

(('crawling_db',),
 ('information_schema',),
 ('mysql',),
 ('performance_schema',),
 ('sakila',),
 ('shopdb',),
 ('sqldb1',),
 ('sqldb2',),
 ('sqldb3',),
 ('sqldb4',),
 ('sys',),
 ('testdb',),
 ('world',))

In [62]:
sql = 'use crawling_db'
cursor.execute(sql)

0

In [11]:
# 3. 테이블 생성

In [12]:
sql = '''
    create table product (
        prdNo int auto_increment not null primary key,
        prdName varchar(200),
        prdPrice float,
        prdDisPrice float
    )
'''

cursor.execute(sql)

# float : 숫자만 저장 (17.80)

In [63]:
# 생성된 테이블 확인
sql = 'show tables'
cursor.execute(sql)
cursor.fetchall()

1

(('product',),)

In [14]:
# 4. save_data() 함수 생성 : insert 수행
# insert into 테이블명(열1, 열2, ...) values(값1, 값2, ...)
# 주의! : 순서에 맞춰 개수 일치
# 열이름은 테이블의 열이름과 동일해야 함

In [97]:
def save_data(prd_info):
    sql = 'insert into product (prdName, prdPrice, prdDisPrice) values(%s, %s, %s)'
    values = (prd_info['prdName'], prd_info['prdPrice'], prd_info['prdDisPrice'])
    cursor.execute(sql, values)

# save_data(prd_info) 함수는 get_page_product(url) 함수에서 호출

In [16]:
###################################################################
# 여기까지 DB 저장 코드 추가

In [65]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"
from urllib.request import urlopen
import bs4
import pandas as pd
import requests

In [66]:
url = 'https://jolse.com/category/toners-mists/1019/page=1'
html = urlopen(url)
# 파서 객체 생성
bs_obj = bs4.BeautifulSoup(html, 'html.parser')

In [19]:
# bs_obj # url 잘 찾아서 html로 잘 받았는지 확인

In [67]:
# 페이지 구조
# 추천 상품 2개는 모든 페이지에 동일
# 일반 상품 20개
# 추천 상품과 일반 상품 그룹을 구성하는 태그명 동일
# <ul class='prdList grip5'>

uls = bs_obj.findAll('ul', {'class':'prdList grid5'})
len(uls)

2

In [68]:
# uls[0]

In [69]:
#### (1) 첫 페이지에서 상품 정보 추출
# 상품 정보만 담고 있는 div 태그 사용 (상품 이미지 제외)
# div {'class':'description'}
boxes = bs_obj.findAll('div',{'class':'description'})
len(boxes) # 22 : 추천 상품 2개, 일반 상품 20개
boxes

22

[<div class="description">
 <span class="chk"><input class="ProductCompareClass xECPCNO_37796" type="checkbox"/></span>
 <span class="prd-brand"></span>
 <strong class="name"><a class="" href="/product/haruharu-wonder-black-rice-hyaluronic-toner-300ml/37796/category/1019/display/2/"><span class="title displaynone"><span style="font-size:14px;color:#555555;font-weight:bold;">Product</span> :</span> <span style="font-size:14px;color:#555555;font-weight:bold;">Haruharu WONDER Black Rice Hyaluronic Toner 300ml</span></a></strong>
 <ul class="xans-element- xans-product xans-product-listitem spec"><li class="xans-record-">
 <strong class="title displaynone"><span style="font-size:16px;color:#888888;">Price</span></strong> <span style="font-size:16px;color:#888888;text-decoration:line-through;">USD 37.00</span><span id="span_product_tax_type_text" style="text-decoration:line-through;"> </span></li>
 <li class="xans-record-">
 <strong class="title"><span style="font-size:20px;color:#ff2d46;fon

In [23]:
# 추출할 요소 파악
# 상품명 : <strong class='name'>
# 정상 가격 / 세일 가격 : <span> 태그로 선택자 없음
# - description boxes 안에서 순서로 찾아감
# - 정상 가격 : ul에서 두 번째[1] <span>
# - 세일 가격 : ul에서 마지막[-1] <span>

#### (1) 상품명 추출

In [70]:
# 전체 상품명 출력
for box in boxes:
    strong_tag = box.find('strong', {'class':'name'})
    print(strong_tag.text.split(':')[1])
    # 구분자 :으로 분리해서 오른쪽 값 (인덱스로 두 번째 값 :[1])

 Haruharu WONDER Black Rice Hyaluronic Toner 300ml
 SOME BY MI Propolis B5 Glow Barrier Calming Toner 150ml
 Anua Heartleaf 77% Soothing Toner 250ml
 COSRX AHA/BHA CLARIFYING TREATMENT TONER 150ml
 COSRX Full Fit Propolis Synergy Toner 150ml
 🔸0.99deal🔸 COSRX Refresh AHA/BHA Vitamin C Daily Toner 50ml
 Haruharu WONDER Black Rice Hyaluronic Toner 150ml (Fragrance Free)
 ROUND LAB 1025 Dokdo Toner 200ml
 Beauty of Joseon Ginseng Essence Water 150ml
 SOME BY MI AHA BHA PHA 30 Days Miracle Toner 150ml
 COSRX BHA BLACKHEAD POWER LIQUID 100 ML
 Pyunkang Yul Essence Toner 200ml
 AXIS-Y The Mini Glow Set
 Isntree Green tea Fresh Toner 200ml
 COSRX CENTELLA WATER ALCOHOL FREE TONER 150ml
 numbuzin No.3 Super Glowing Essence Toner 200ml
 COSRX AHA 7 WHITEHEAD POWER LIQUID 100ml
 ROUND LAB 1025 Dokdo Toner 100ml
 COSRX Balancium Comfort Ceramide Cream Mist 120ml
 Isntree Hyaluronic Acid Toner 200ml (Renewal)
 Haruharu WONDER Black Rice Hyaluronic Toner 300ml
 ROUND LAB 1025 Dokdo Toner 500ml


In [71]:
# 상품명을 리스트로 저장
product_list = []

for box in boxes:
    strong_tag = box.find('strong', {'class':'name'})
    product_list.append(strong_tag.text.split(':')[1])

In [72]:
len(product_list)

22

In [73]:
product_list

[' Haruharu WONDER Black Rice Hyaluronic Toner 300ml',
 ' SOME BY MI Propolis B5 Glow Barrier Calming Toner 150ml',
 ' Anua Heartleaf 77% Soothing Toner 250ml',
 ' COSRX AHA/BHA CLARIFYING TREATMENT TONER 150ml',
 ' COSRX Full Fit Propolis Synergy Toner 150ml',
 ' 🔸0.99deal🔸 COSRX Refresh AHA/BHA Vitamin C Daily Toner 50ml',
 ' Haruharu WONDER Black Rice Hyaluronic Toner 150ml (Fragrance Free)',
 ' ROUND LAB 1025 Dokdo Toner 200ml',
 ' Beauty of Joseon Ginseng Essence Water 150ml',
 ' SOME BY MI AHA BHA PHA 30 Days Miracle Toner 150ml',
 ' COSRX BHA BLACKHEAD POWER LIQUID 100 ML',
 ' Pyunkang Yul Essence Toner 200ml',
 ' AXIS-Y The Mini Glow Set',
 ' Isntree Green tea Fresh Toner 200ml',
 ' COSRX CENTELLA WATER ALCOHOL FREE TONER 150ml',
 ' numbuzin No.3 Super Glowing Essence Toner 200ml',
 ' COSRX AHA 7 WHITEHEAD POWER LIQUID 100ml',
 ' ROUND LAB 1025 Dokdo Toner 100ml',
 ' COSRX Balancium Comfort Ceramide Cream Mist 120ml',
 ' Isntree Hyaluronic Acid Toner 200ml (Renewal)',
 ' Haruha

#### (2) 상품 가격 확인

In [74]:
# 상품 가격의 <span> 태그가 선택자로 지정되어 있지 않기 때문에
# description boxes 안에서 찾아감
# 먼저 ul 태그 확인
boxes[0].find('ul')

<ul class="xans-element- xans-product xans-product-listitem spec"><li class="xans-record-">
<strong class="title displaynone"><span style="font-size:16px;color:#888888;">Price</span></strong> <span style="font-size:16px;color:#888888;text-decoration:line-through;">USD 37.00</span><span id="span_product_tax_type_text" style="text-decoration:line-through;"> </span></li>
<li class="xans-record-">
<strong class="title"><span style="font-size:20px;color:#ff2d46;font-weight:bold;"></span></strong> <span style="font-size:20px;color:#ff2d46;font-weight:bold;">USD 18.50</span></li>
</ul>

In [75]:
# <ul class="xans-element- xans-product xans-product-listitem spec">
# <li class="xans-record-">
# <strong class="title displaynone">
# <span style="font-size:16px;color:#888888;">Price</span></strong> 
# 정상가(두번째)<span style="font-size:16px;color:#888888;text-decoration:line-through;">USD 37.00</span>
# <span id="span_product_tax_type_text" style="text-decoration:line-through;"> </span></li>
# <li class="xans-record-">
# <strong class="title"><span style="font-size:20px;color:#ff2d46;font-weight:bold;"></span></strong> 
# 세일가(마지막)<span style="font-size:20px;color:#ff2d46;font-weight:bold;">USD 33.30</span></li>
# </ul>

In [76]:
# 정상 가격 : 두 번째 span
boxes[0].find('ul').findAll('span')[1].text

# 세일 가격 : 마지막[-1] span
boxes[0].find('ul').findAll('span')[-1].text

'USD 37.00'

'USD 18.50'

In [77]:
# 첫 페이지의 전체 상품 정보 추출
# 상품명, 정상가격, 세일가격
for box in boxes:
    name = box.find('strong', {'class':'name'}).text.split(':')[1]
    price = box.find('ul').findAll('span')[1].text
    sale_price = box.find('ul').findAll('span')[-1].text

    print('상품명 : ', name[1:])
    print('정상가 : ', price)
    print('할인가 : ', sale_price)

상품명 :  Haruharu WONDER Black Rice Hyaluronic Toner 300ml
정상가 :  USD 37.00
할인가 :  USD 18.50
상품명 :  SOME BY MI Propolis B5 Glow Barrier Calming Toner 150ml
정상가 :  USD 22.00
할인가 :  USD 15.40
상품명 :  Anua Heartleaf 77% Soothing Toner 250ml
정상가 :  USD 28.00
할인가 :  USD 25.20
상품명 :  COSRX AHA/BHA CLARIFYING TREATMENT TONER 150ml
정상가 :  USD 17.25
할인가 :  USD 12.07
상품명 :  COSRX Full Fit Propolis Synergy Toner 150ml
정상가 :  USD 28.00
할인가 :  USD 19.60
상품명 :  🔸0.99deal🔸 COSRX Refresh AHA/BHA Vitamin C Daily Toner 50ml
정상가 :  USD 9.00
할인가 :  USD 6.30
상품명 :  Haruharu WONDER Black Rice Hyaluronic Toner 150ml (Fragrance Free)
정상가 :  USD 22.00
할인가 :  USD 15.40
상품명 :  ROUND LAB 1025 Dokdo Toner 200ml
정상가 :  USD 17.00
할인가 :  USD 13.60
상품명 :  Beauty of Joseon Ginseng Essence Water 150ml
정상가 :  USD 24.55
할인가 :  USD 19.64
상품명 :  SOME BY MI AHA BHA PHA 30 Days Miracle Toner 150ml
정상가 :  USD 24.00
할인가 :  USD 17.40
상품명 :  COSRX BHA BLACKHEAD POWER LIQUID 100 ML
정상가 :  USD 20.81
할인가 :  USD 14.57
상품명 :  Pyunkang Yu

In [78]:
##################################################################

#### 첫 페이지에서 상품 정보 추출하여 df로 저장
- 접속 / 파싱
- 수집
- df로 저장

In [79]:
url = 'https://jolse.com/category/toners-mists/1019/page=1'
html = urlopen(url)
# 파서 객체 생성
bs_obj = bs4.BeautifulSoup(html, 'html.parser')

In [80]:
# 빈 리스트 생성
prd_list = []
price_list = []
sale_price_list = []

In [81]:
# 전체 상품 데이터 추출 : boxes 추출
boxes = bs_obj.findAll('div',{'class':'description'})

# 각 box에서 상품명, 정상가, 세일가 추출해서 리스트에 저장
for box in boxes:
    prd_list.append(box.find('strong', {'class':'name'}).text.split(':')[1])
    price_list.append(box.find('ul').findAll('span')[1].text)
    sale_price_list.append(box.find('ul').findAll('span')[-1].text)

In [82]:
# 각 리스트를 데이터프레임으로 생성
product_df = pd.DataFrame({
    '품목' : prd_list,
    '가격' : price_list,
    '세일가격' : sale_price_list
})

product_df

Unnamed: 0,품목,가격,세일가격
0,Haruharu WONDER Black Rice Hyaluronic Toner 3...,USD 37.00,USD 18.50
1,SOME BY MI Propolis B5 Glow Barrier Calming T...,USD 22.00,USD 15.40
2,Anua Heartleaf 77% Soothing Toner 250ml,USD 28.00,USD 25.20
3,COSRX AHA/BHA CLARIFYING TREATMENT TONER 150ml,USD 17.25,USD 12.07
4,COSRX Full Fit Propolis Synergy Toner 150ml,USD 28.00,USD 19.60
5,🔸0.99deal🔸 COSRX Refresh AHA/BHA Vitamin C Da...,USD 9.00,USD 6.30
6,Haruharu WONDER Black Rice Hyaluronic Toner 1...,USD 22.00,USD 15.40
7,ROUND LAB 1025 Dokdo Toner 200ml,USD 17.00,USD 13.60
8,Beauty of Joseon Ginseng Essence Water 150ml,USD 24.55,USD 19.64
9,SOME BY MI AHA BHA PHA 30 Days Miracle Toner ...,USD 24.00,USD 17.40


In [83]:
################################### 첫 페이지(한 페이지)에서 상품 정보 추출 완료

#### (2) 여러 페이지 크롤링
- 현재 페이지 뿐 아니라 다른 모든 페이지에서도 반복 적용할 수 있도록 함수로 작성

#### 함수명 및 수행 기능
(1) get_request_product(url) : 접속 및 파싱      
    - url 받아서 접속 및 파싱     
    - 반환값 : bs4 객체       
(2) get_product_info(box) : 1개 상품 정보 추출     
    - box 받아서 상품 정보 추출 후 반환      
    - 반환값 : 1개 상품의 상품명/가격/세일가격을 딕셔너리 형태로 반환       
(3) get_page_product(url) : 각 페이지에서 전체 상품 정보 추출하고 df에 추가       
    - 전달받은 url 페이지에서 box 추출하여      
    - get_product_info(box) 호출해서 전달하고 반환된 1개의 상품 정보로      
    - 데이터프레임 생성 및 추가       

In [84]:
# 최종 상품 정보 저장할 빈 데이터프레임 생성
# all_product_df = pd.DataFrame({
#     '품목' : [],
#     '가격' : [],
#     '세일가격' : []
# })

# all_product_df

In [85]:
all_product_df = pd.DataFrame({
    'prdName' : [],
    'prdPrice' : [],
    'prdDisPrice' : []
})

all_product_df

Unnamed: 0,prdName,prdPrice,prdDisPrice


In [86]:
# (1) 접속 및 파싱 기능 수행하는 함수
# url 받아서 접속 및 파싱
# bs4 객체 반환

def get_request_product(url):
    try:
        html = urlopen(url)
        # 파서 객체 생성
        bs_obj = bs4.BeautifulSoup(html, 'html.parser') 
    except:
        print("접속 및 파싱 오류")

    return bs_obj

In [87]:
# 5. get_product_info(box) 함수 수정
# 상품명에 ‘와 다이아몬드 문자(🔸) 저장 시 오류 발생하기때문에 ‘와 다이아몬드 문자 제거
# 가격이 없는 경우 오류 발생 처리 
# 현재 가격이 USD 18.70 저장되어 있는데 숫자만 추출해서 저장하는 것으로 변경

In [88]:
# (2) get_product_info(box) : 1개 상품 정보 추출
# box 받아서 상품 정보 추출 후 반환
# 반환값 : 1개 상품의 상품명/가격/세일가격을 딕셔너리 형태로 반환

# def get_product_info(box) : 
#     try:
#         name = box.find('strong', {'class':'name'}).text.split(':')[1]
#         price = box.find('ul').findAll('span')[1].text
#         sale_price = box.find('ul').findAll('span')[-1].text
#     except:
#         print("상품 정보 추출 오류")

#     return {'품목':name, '가격':price, '세일가격':sale_price}

In [89]:
# DB에 저장하기 위해 수정
def get_product_info(box) : 
    try:
        # (1) 상품명 추출
        name = box.find('strong', {'class':'name'}).text.split(':')[1]
        # 상품명에 ' 와 다이아몬드 문자 있는 경우 오류
        name = name.replace("'", "")
        name = name.replace("🔸", "")
        
        # (2) 가격 추출
        price = box.find('ul').findAll('span')[1].text
        sale_price = box.find('ul').findAll('span')[-1].text

        # 세일 가격 없을 시 값이 없으면 오류 발생 -> 처리
        if sale_price == ' ':
            sale_price = 'USD 0.0'
    
    except:
        print("상품 정보 추출 오류")

    # (3) 숫자만 추출
    # 현재 가격 : USD 18.70 되어 있는 것을 18.70만 추출해서 저장
    # 열이름이 영어이므로 KEY를 영어로 변경
    return {'prdName':name, 'prdPrice':price[4:], 'prdDisPrice':sale_price[4:]}

In [90]:
# 6. get_page_product(url) 함수에 추가
# save_data() 함수 호출

In [91]:
# (3) get_page_product(url) : 각 페이지에서 전체 상품 정보 추출하고 df에 추가
def get_page_product(url):
    global all_product_df
    print(url)
    try:
        # 접속 및 파싱
        bs_obj = get_request_product(url)

        # 페이지에서 전체 상품 추출
        boxes = bs_obj.findAll('div', {'class' : 'description'})
        # 첫 페이지에만 추천 상품 2개 포함되어 있으므로
        # 첫 페이지에서는 22개 다 추출하고
        # 두 번째 이후 페이지에서 추천 상품 제외하고 추출
        # 두 번째 페이지 구분 : https:// ...... /?page=2
        # url을 = 구분자로 split() 해서 오른쪽 값([1])이 페이지  번호
        # 페이지 번호가 1이 아니라면 세 번째 상품부터 추출
        if url.split('=')[1] != '1':  # 페이지 번호가 1이 아니라면 
            boxes = boxes[2:]         # 세 번째 상품부터 끝까지 추출
        
    except:
        print("페이지 정보 추출 오류")
        
    # 추출된 각  상품 정보를 df에 추가
    for box in boxes:
        df = pd.DataFrame(get_product_info(box), index=range(1,2)) # 형식적 인덱스 추가
        all_product_df = pd.concat([all_product_df, df], axis=0, ignore_index=True)

        # save_data(prd) 함수 호출
        prd = get_product_info(box)
        save_data(prd) # box : 상품 1개 정보 (prdName, prdPrice, prdDisPrice)

In [92]:
# 테스트 : 테스트 후 주석 처리할 것
# url = 'http://jolse.com/category/toners-mists/1019/page=2'
# get_page_product(url)

In [93]:
all_product_df
# 결과 확인 후
# 데이터프레임을 다시 초기화 할 것

Unnamed: 0,prdName,prdPrice,prdDisPrice


#### 여러 페이지 추출
- url 뒤에 페이지 번호 있음
- url 작성 시 페이지 번호를 붙임
- 'http://jolse.com/category/toners-mists/1019/page=' + 페이지 번호

In [94]:
# 마지막 페이지 값 추출
url = 'https://jolse.com/category/toners-mists/1019/page=1'
html = urlopen(url)
# 파서 객체 생성
bs_obj = bs4.BeautifulSoup(html, 'html.parser')
last_page = bs_obj.find('a',{'class':'last'})['href'].split('=')[1]
last_page

'21'

In [95]:
# 7. 모든 페이지에서 상품 정보 추출 후 commit 
# 최종 상품 정보 저장할 빈 데이터프레임 생성 시 열이름을 영어로 변경 (테이블의 필드명과 동일하게)

In [98]:
# 모든 페이지에서 상품 정보 추출
base_url='https://jolse.com/category/toners-mists/1019/page='

for i in range(1, int(last_page) + 1):
    url = base_url + str(i)
    get_page_product(url)

conn.commit()
# 모든 페이지에서 상품 정보 추출 후 commit

https://jolse.com/category/toners-mists/1019/page=1
https://jolse.com/category/toners-mists/1019/page=2
https://jolse.com/category/toners-mists/1019/page=3
https://jolse.com/category/toners-mists/1019/page=4
https://jolse.com/category/toners-mists/1019/page=5
https://jolse.com/category/toners-mists/1019/page=6
https://jolse.com/category/toners-mists/1019/page=7
https://jolse.com/category/toners-mists/1019/page=8
https://jolse.com/category/toners-mists/1019/page=9
https://jolse.com/category/toners-mists/1019/page=10
https://jolse.com/category/toners-mists/1019/page=11
https://jolse.com/category/toners-mists/1019/page=12
https://jolse.com/category/toners-mists/1019/page=13
https://jolse.com/category/toners-mists/1019/page=14
https://jolse.com/category/toners-mists/1019/page=15
https://jolse.com/category/toners-mists/1019/page=16
https://jolse.com/category/toners-mists/1019/page=17
https://jolse.com/category/toners-mists/1019/page=18
https://jolse.com/category/toners-mists/1019/page=19
ht

In [99]:
all_product_df

Unnamed: 0,prdName,prdPrice,prdDisPrice
0,Haruharu WONDER Black Rice Hyaluronic Toner 3...,37.00,18.50
1,Haruharu WONDER Black Rice Hyaluronic Toner 3...,37.00,18.50
2,SOME BY MI Propolis B5 Glow Barrier Calming T...,22.00,15.40
3,Anua Heartleaf 77% Soothing Toner 250ml,28.00,25.20
4,COSRX AHA/BHA CLARIFYING TREATMENT TONER 150ml,17.25,12.07
...,...,...,...
418,ROUND LAB 1025 Dokdo Toner 100ml,13.55,10.84
419,COSRX Balancium Comfort Ceramide Cream Mist 1...,29.00,14.50
420,Isntree Hyaluronic Acid Toner 200ml (Renewal),19.30,14.47
421,Haruharu WONDER Black Rice Hyaluronic Toner 3...,37.00,18.50


In [100]:
all_product_df.to_csv('./crawl_data/shopping_products.csv', index=0)

In [101]:
all_product_df = pd.read_csv('./crawl_data/shopping_products.csv')
all_product_df

Unnamed: 0,prdName,prdPrice,prdDisPrice
0,Haruharu WONDER Black Rice Hyaluronic Toner 3...,37.00,18.50
1,Haruharu WONDER Black Rice Hyaluronic Toner 3...,37.00,18.50
2,SOME BY MI Propolis B5 Glow Barrier Calming T...,22.00,15.40
3,Anua Heartleaf 77% Soothing Toner 250ml,28.00,25.20
4,COSRX AHA/BHA CLARIFYING TREATMENT TONER 150ml,17.25,12.07
...,...,...,...
418,ROUND LAB 1025 Dokdo Toner 100ml,13.55,10.84
419,COSRX Balancium Comfort Ceramide Cream Mist 1...,29.00,14.50
420,Isntree Hyaluronic Acid Toner 200ml (Renewal),19.30,14.47
421,Haruharu WONDER Black Rice Hyaluronic Toner 3...,37.00,18.50


In [None]:
#########################################################################

In [None]:
# (2) 방법2
# 데이터프레임 전체를 DB에 저장
# sqlalchemy 패키지 설치 

In [109]:
# !pip install sqlalchemy==1.4.36

Collecting sqlalchemy==1.4.36
  Downloading SQLAlchemy-1.4.36.tar.gz (8.1 MB)
     ---------------------------------------- 0.0/8.1 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.1 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.1 MB 640.0 kB/s eta 0:00:13
     - -------------------------------------- 0.2/8.1 MB 2.5 MB/s eta 0:00:04
     ---- ----------------------------------- 0.8/8.1 MB 5.9 MB/s eta 0:00:02
     -------- ------------------------------- 1.7/8.1 MB 9.0 MB/s eta 0:00:01
     -------------- ------------------------- 3.0/8.1 MB 12.9 MB/s eta 0:00:01
     ------------------------ --------------- 5.0/8.1 MB 17.8 MB/s eta 0:00:01
     ------------------------------ --------- 6.3/8.1 MB 20.1 MB/s eta 0:00:01
     ---------------------------------------  8.1/8.1 MB 22.6 MB/s eta 0:00:01
     ---------------------------------------- 8.1/8.1 MB 20.0 MB/s eta 0:00:00
  Installing build dependencies: started
  Installing build dependencie

In [104]:
from sqlalchemy import create_engine
import pymysql

In [None]:
# product2 테이블 생성

In [105]:
sql = '''
    create table product2 (
        prdNo int auto_increment not null primary key,
        prdName varchar(200),
        prdPrice float,
        prdDisPrice float
    )
'''

cursor.execute(sql)

# float : 숫자만 저장 (17.80)

0

In [110]:
# 생성된 테이블 확인
sql = 'show tables'
cursor.execute(sql)
cursor.fetchall()

2

(('product',), ('product2',))

In [111]:
# db 연결 객체 생성
conn_obj = create_engine('mysql+pymysql://root:1234@localhost/crawling_db')
db_conn = conn_obj.connect()

In [112]:
# 데이터프레임의 데이터를 product2 테이블에 저장
all_product_df.to_sql(name='product2', con=conn_obj, if_exists='append', index=False)

ImportError: Unable to find a usable engine; tried using: 'sqlalchemy'.
A suitable version of sqlalchemy is required for sql I/O support.
Trying to import the above resulted in these errors:
 - Pandas requires version '1.4.36' or newer of 'sqlalchemy' (version '1.3.24' currently installed).