## 파이썬과 MySQL 연동 #2

## 쇼핑몰 사이트 크롤링한 데이터 MySQL DB에 저장하고 조회하기

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import pymysql
import time

### DB 연동 순서

1. DB 연동 준비
    - MySQL 연결 및 cursor 생성
    - shopdb 생성
    - table 생성
2. 크롤링 & DB 저장
    - 크롤링: 데이터를 table 형식에 맞게 정제
    - 데이터 insert & commit() 해서 db에 반영
3. DB 테이블 조회 및 추출
    - 테이블 조회: select
    - 데이터 추출: fetchall
    - 추출 데이터 csv 파일 또는 데이터프레임에 저장
4. MySQL 연결 종료

## #1. DB 연동 준비
- 데이터베이스 shopdb2 생성
- 테이블 product 생성

#### 1-1. MySQL 연결 및 cursor 객체 생성

In [5]:

    host_name = 'localhost'
    host_port = 3306
    user = 'root'
    password = 'acorn1234'
    conn = pymysql.connect(host=host_name, #MySQL Sever Address
                           port=host_port, #MySQL Sever port)
                           user=user, #MySQL username
                           passwd=password, #password for MySQL username
                            charset='utf8mb4')
    cur = conn.cursor()
    

In [6]:
sql = 'show databases;'
cur.execute(sql)
result = cur.fetchall()
result

(('bookstore',),
 ('information_schema',),
 ('marketdb',),
 ('marketdb2',),
 ('mysql',),
 ('performance_schema',),
 ('sakila',),
 ('schooldb',),
 ('shopdb',),
 ('sqldb',),
 ('sqldb2',),
 ('sys',),
 ('testdb',),
 ('testdb2',),
 ('uniondb',),
 ('world',))

#### 1-2. 데이터베이스 shopdb 생성

In [9]:
sql = 'drop database if exists shopdb2;'
cur.execute(sql)
sql = 'create database shopdb2 default character set utf8mb4;'
cur.execute(sql)

1

In [10]:
sql = 'show databases;'
cur.execute(sql)
result = cur.fetchall()
result

(('bookstore',),
 ('information_schema',),
 ('marketdb',),
 ('marketdb2',),
 ('mysql',),
 ('performance_schema',),
 ('sakila',),
 ('schooldb',),
 ('shopdb2',),
 ('sqldb',),
 ('sqldb2',),
 ('sys',),
 ('testdb',),
 ('testdb2',),
 ('uniondb',),
 ('world',))

#### 1-3. Table 생성

- 'shopdb2' 데이터베이스 선택

In [11]:
sql = 'use shopdb2;'
cur.execute(sql)

0

In [12]:
sql = 'select database();'
cur.execute(sql)
result = cur.fetchone()
result

('shopdb2',)

- 테이블 'product' 생성 

In [14]:
sql1 = 'drop table if exists product;'
sql2 = '''
        create table product (
            product_id int auto_increment not null,
            product_name varchar(300) not null,
            price varchar(50),
            sale_price varchar(50),
            link varchar(300),
            primary key(product_id)
        );
    '''
sql_list = [sql1, sql2]

for sql in sql_list:
    cur.execute(sql)

In [15]:
# 테이블 데이터저장 : 데이터베이스 변경사항 저장(저장 디스크 I/O 작업 수행)
conn.commit()

- 테이블 목록 조회

In [17]:
sql = 'show tables;'
cur.execute(sql)
result = cur.fetchall()
result

(('product',),)

- product 테이블 정보 조회

In [18]:
sql = 'desc product;'
cur.execute(sql)
result = cur.fetchall()
result

(('product_id', 'int', 'NO', 'PRI', None, 'auto_increment'),
 ('product_name', 'varchar(300)', 'NO', '', None, ''),
 ('price', 'varchar(50)', 'YES', '', None, ''),
 ('sale_price', 'varchar(50)', 'YES', '', None, ''),
 ('link', 'varchar(300)', 'YES', '', None, ''))

In [19]:
# 데이터베이스 접속 종료
conn.close()

#### 1-4. DB생성 + table 생성 함수

In [2]:
def createDB_and_Table():
    host_name, host_port, user, password = 'localhost', 3306, 'root', 'acorn1234'
    sql1 = 'drop database if exists shopdb2;'
    sql2 = 'create database shopdb2 default character set utf8mb4;'
    sql3 = 'use shopdb2;'
    sql4 = 'drop table if exists product;'
    sql5 = '''
            create table product (
                product_id int auto_increment not null,
                product_name varchar(300) not null,
                price varchar(50),
                sale_price varchar(50),
                link varchar(300),
                primary key(product_id)
            );
        '''
    sql_list = [sql1, sql2, sql3, sql4, sql5]
    try:
        # MySQL 연결
        conn = pymysql.connect(host=host_name, port=host_port, user=user, passwd=password, charset='utf8mb4')
        print('MySQL연결성공!')        
        with conn.cursor() as cur:
            for sql in sql_list:
                cur.execute(sql)
                time.sleep(1) # 서버 부하 감소!
            cur.execute( 'desc product;')
            result = cur.fetchall()
            print(f'테이블 product정보\n{result}')
        conn.commit()
        print('테이블생성완료!')

    except Exception as e:
        print(f'{e}:오류발생!')
    finally:
        conn.close()
        print('MySQL접속종료!')

In [25]:
createDB_and_Table()

MySQL연결성공!
테이블 product정보
(('product_id', 'int', 'NO', 'PRI', None, 'auto_increment'), ('product_name', 'varchar(300)', 'NO', '', None, ''), ('price', 'varchar(50)', 'YES', '', None, ''), ('sale_price', 'varchar(50)', 'YES', '', None, ''), ('link', 'varchar(300)', 'YES', '', None, ''))
테이블생성완료!
MySQL접속종료!


---

## #2. 크롤링 & DB에 저장
: 크롤링한 데이터를 테이블에 insert

### 쇼핑몰 크롤링 데이터 DB 저장 방식

#### 방식1. 웹 페이지 별로 크롤링하고 바로 DB에 저장
- 장점
    - **실시간 저장** : 크롤링한 데이터 즉시 DB 반영
    - **메모리 부담 낮음** : 크롤링할 때 마다 삽입하므로 메모리에 데이터 누적되지 않음
    - 복구 용이 : 크롤링 도중 프로그램 중단되어도 저장된 데이터는 남아 있음
- 단점
    - DB 연결/삽입 횟수 증가로 **성능 저하** 가능(특히 레코드가 많을 경우)
    - 삽입 시 오류가 나면 크롤링과 저장 로직이 엉킬 수 있음
    - commit을 자주해야 하므로 트랜잭션 비용 증
- 이용 상황
    - 소량의 데이터 또는 실시간 처리가 필요한 경우
    - 네트워크나 크롤링 실패 위험이 큰 경우

#### 방식2. 모든 웹페이지 데이터를 모두 수집한 뒤 한번에 DB에 저장
- 장점
    - 성능 최적화 가능 : 크롤링은 빠르게 하고, executemany()로 대량 저장
    - I/O비용 감소 : DB와의 연결은 한 번만 하므로
    - 삽입 전에 데이터를 정제/검증/필터링할 수 있어 가공된 데이터 저장 가능
- 단점
    - 메모리 사용량 증가 : 데이터 수집하는 동안 메모리에 계속 보관해야 함
    - 크롤링 도중 에러나 인터럽트 발생 시 모든 데이터 손실 가능성 존재
    - 저장하기 전까지 아무것도 DB에 남지 않음 (중간 장애 발생 시 문제됨)
- 이용 상황
    - 대량의 데이터 또는 성능 최우선인 경우
    - 데이터 정제/검증 후 저장이 필요한 경우

#### 크롤링 페이지 url목록 생성

In [3]:
def get_product_urls():
    headers={'User-Agent':'Mozilla/5.0'}
    url = 'https://jolse.com/category/toners-mists/1019/'
    html = requests.get(url, headers=headers).text
    soup = BeautifulSoup(html, 'html.parser')
    last = soup.find('a', {'class':'last'})['href'].split('=')
    page = last[0] # '?page'
    lastNo = last[-1]
    return [url + page + '=' +str(i)for i in range(1, int(lastNo)+1)]

In [76]:
get_product_urls()

['https://jolse.com/category/toners-mists/1019/?page=1',
 'https://jolse.com/category/toners-mists/1019/?page=2',
 'https://jolse.com/category/toners-mists/1019/?page=3',
 'https://jolse.com/category/toners-mists/1019/?page=4',
 'https://jolse.com/category/toners-mists/1019/?page=5',
 'https://jolse.com/category/toners-mists/1019/?page=6',
 'https://jolse.com/category/toners-mists/1019/?page=7',
 'https://jolse.com/category/toners-mists/1019/?page=8',
 'https://jolse.com/category/toners-mists/1019/?page=9',
 'https://jolse.com/category/toners-mists/1019/?page=10',
 'https://jolse.com/category/toners-mists/1019/?page=11',
 'https://jolse.com/category/toners-mists/1019/?page=12',
 'https://jolse.com/category/toners-mists/1019/?page=13']

### 2-1. 웹 페이지별로 크롤링한 후 DB에 저장

- 1개 상품의 이름, 정상가, 세일가, 링크 정보 추출하는 함수 정의

In [4]:
def get_product_info(item):
    # item :soup의 div 태그객체
    # 상품명 추출
    box = item.find('strong',{'class':'name'})
    spans = box.find_all('span')
    prd_name = spans[-1].text
    # 가격 추출
    ul = item.find('ul')
    span_price = ul.find_all('span')
    # 정상가
    price = span_price[1].text
    # 세일가
    try:
        sale_price = span_price[4].text.split('(')[0].strip()
    except:
        sale_price = 'No Sale'
    # 상세링크
    link = box.a['href'] # box.a.get('href')
    return prd_name, price, sale_price, link

- 한 페이지에 들어있는 상품목록 추출 함수 정의

In [5]:
def crawl_products_info(url):
    headers={'User-Agent':'Mozilla/5.0'}
    html = requests.get(url, headers=headers).text
    soup = BeautifulSoup(html, 'html.parser')
    box = soup.find('ul',{'class':'prdList grid5'})
    items = box.find_all('div', {'class':'description'})
    return [get_product_info(item) for item in items]

In [42]:
url = 'https://jolse.com/category/toners-mists/1019/?page=1'
result = crawl_products_info(url)
print(len(result), result[0])

40 ('SKIN1004 Madagascar Centella Toning Toner 210ml', 'USD 20.00', 'USD 13.99', '/product/skin1004-madagascar-centella-toning-toner-210ml/28744/category/1019/display/1/')


- 크롤링 데이터를 DB table에 저장하기

In [6]:
def save_to_db(conn, prd_list):
    try:
        with conn.cursor() as cursor:
            sql = '''insert into product (product_name, price, sale_price, link) 
                values (%s, %s, %s, %s);'''
            cursor.executemany(sql, prd_list)
        conn.commit()
    except Exception as e:
        print(f'{e}:오류발생!')

- 크롤링 & DB 저장

In [7]:
# url = 'https://jolse.com/category/toners-mists/1019/?page=1'
# prd_list = crawl_products_info(url)

def mysql_connect(host_info):
    try:
        conn = pymysql.connect(host=host_info['host'], 
                                port=host_info['port'], 
                                user=host_info['user'], 
                                passwd=host_info['passwd'], 
                                db=host_info['db'],
                                charset=host_info['charset'])
        print(f'MySQL{host_info['db']}접속성공!')
    except Exception as e:
        print(f'{e} 오류')
    return conn
# save_to_db(conn, result)

In [80]:
host_info = {'host':'localhost', 
            'port':3306, 
            'user':'root', 
            'passwd':'acorn1234', 
            'db':'shopdb2',
            'charset':'utf8mb4'}
conn = mysql_connect(host_info)

MySQLshopdb2접속성공!


In [87]:
url = 'https://jolse.com/category/toners-mists/1019/?page=1' 
prd_list = crawl_products_info(url)
save_to_db(conn, prd_list)

In [82]:
prd_list[0]

('SKIN1004 Madagascar Centella Toning Toner 210ml',
 'USD 20.00',
 'USD 13.99',
 '/product/skin1004-madagascar-centella-toning-toner-210ml/28744/category/1019/display/1/')

In [8]:
def select_table(conn, table):
    with conn.cursor() as cur:
        sql = f'select * from {table};'
        cur.execute(sql)
        result = cur.fetchall()
    return result

In [91]:
select_table(conn,'product')

((1,
  'SKIN1004 Madagascar Centella Toning Toner 210ml',
  'USD 20.00',
  'USD 13.99',
  '/product/skin1004-madagascar-centella-toning-toner-210ml/28744/category/1019/display/1/'),
 (2,
  'ROUND LAB 1025 Dokdo Toner 200ml',
  'USD 17.00',
  'USD 14.45',
  '/product/round-lab-1025-dokdo-toner-200ml/18903/category/1019/display/1/'),
 (3,
  'celimax Jiwoogae Heartleaf BHA Peeling Pad 60pcs (22AD)',
  'USD 17.50',
  'USD 12.25',
  '/product/celimax-jiwoogae-heartleaf-bha-peeling-pad-60pcs-22ad/55940/category/1019/display/1/'),
 (4,
  'SKIN1004 Madagascar Centella Probio-Cica Essense Toner 210ml',
  'USD 24.00',
  'USD 13.99',
  '/product/skin1004-madagascar-centella-probio-cica-essense-toner-210ml/68504/category/1019/display/1/'),
 (5,
  'COSRX Full Fit Propolis Synergy Toner 150ml',
  'USD 28.00',
  'USD 19.60',
  '/product/cosrx-full-fit-propolis-synergy-toner-150ml/30828/category/1019/display/1/'),
 (6,
  'haruharu wonder Black Rice Hyaluronic Toner 150ml (Fragrance Free)',
  'USD 22.0

In [98]:
conn.close()

In [9]:
def crawl_and_storeDB_by_page():
    # 단계1. DB 접속 후
    host_info = {'host':'localhost', 
                'port':3306, 
                'user':'root', 
                'passwd':'acorn1234', 
                'db':'shopdb2',
                'charset':'utf8mb4'}
    conn = mysql_connect(host_info)
    
    # 단계2. 웹페이지 목록
    url_list = get_product_urls()
    n = len(url_list)
    
    # 단계3. 웹페이지 단위로 크롤링하고 DB table에 삽입을 url_list만큼 반복
    for i, url in enumerate(url_list):
        try:
            prd_list = crawl_products_info(url)
            save_to_db(conn, prd_list)
            print(f'{i+1}/{n} page 크롤링 완료 후 데이터 저장!')
            time.sleep(1)
        except Exception as e:
            print(f'{url}->{e}:에러발생!')
    print('전체 페이지 크롤링 및 저장 완료!')
    conn.close()
    print('MySQL DB 접속 종료!')

In [99]:
crawl_and_storeDB_by_page()

MySQLshopdb2접속성공!
1/13 page 크롤링 완료 후 데이터 저장!
2/13 page 크롤링 완료 후 데이터 저장!
3/13 page 크롤링 완료 후 데이터 저장!
4/13 page 크롤링 완료 후 데이터 저장!
5/13 page 크롤링 완료 후 데이터 저장!
6/13 page 크롤링 완료 후 데이터 저장!
7/13 page 크롤링 완료 후 데이터 저장!
8/13 page 크롤링 완료 후 데이터 저장!
9/13 page 크롤링 완료 후 데이터 저장!
10/13 page 크롤링 완료 후 데이터 저장!
11/13 page 크롤링 완료 후 데이터 저장!
12/13 page 크롤링 완료 후 데이터 저장!
13/13 page 크롤링 완료 후 데이터 저장!
전체 페이지 크롤링 및 저장 완료!
MySQL DB 접속 종료!


In [None]:
createDB_and_Table()
crawl_and_storeDB_by_page()
host_info = {'host':'localhost', 
            'port':3306, 
            'user':'root', 
            'passwd':'acorn1234', 
            'db':'shopdb2',
            'charset':'utf8mb4'}
conn = mysql_connect(host_info)
data = select_table(conn,'product')
print(f'{len(data)}행:\n{data[0]}')

MySQL연결성공!


In [None]:
createDB_and_Table()
crawl_and_storeDB_by_page()

----

### 2-2. 모든 페이지 크롤링한 후 한번에 DB 저장

- 지정한 페이지의 전체 상품목록을 db 테이블에 저장하는 함수 정의

In [10]:
def crawl_and_storeDB():
    # 단계1. DB 접속 후
    host_info = {'host':'localhost', 
                'port':3306, 
                'user':'root', 
                'passwd':'acorn1234', 
                'db':'shopdb2',
                'charset':'utf8mb4'}
    conn = mysql_connect(host_info)
    
    # 단계2. 웹페이지 목록
    url_list = get_product_urls()
    n = len(url_list)
    all_data = []
    # 단계3. 웹페이지 단위로 크롤링하고 DB table에 삽입을 url_list만큼 반복
    for i, url in enumerate(url_list):
        try:
            prd_list = crawl_products_info(url)
            all_data.extend(prd_list)
            print(f'{i+1}/{n} page 크롤링 완료!')
            time.sleep(1)
        except Exception as e:
            print(f'{url}->{e}:에러발생!')
    
    try:
        save_to_db(conn, all_data)
        print('전체 크롤링 및 저장 완료!')
    except Exception as e:
        print(f'데이터삽입에러!:{e}')
    conn.close()
    print('MySQL DB 접속 종료!')

In [12]:
createDB_and_Table()
crawl_and_storeDB()

MySQL연결성공!
테이블 product정보
(('product_id', 'int', 'NO', 'PRI', None, 'auto_increment'), ('product_name', 'varchar(300)', 'NO', '', None, ''), ('price', 'varchar(50)', 'YES', '', None, ''), ('sale_price', 'varchar(50)', 'YES', '', None, ''), ('link', 'varchar(300)', 'YES', '', None, ''))
테이블생성완료!
MySQL접속종료!
MySQLshopdb2접속성공!
1/13 page 크롤링 완료!
2/13 page 크롤링 완료!
3/13 page 크롤링 완료!
4/13 page 크롤링 완료!
5/13 page 크롤링 완료!
6/13 page 크롤링 완료!
7/13 page 크롤링 완료!
8/13 page 크롤링 완료!
9/13 page 크롤링 완료!
10/13 page 크롤링 완료!
11/13 page 크롤링 완료!
12/13 page 크롤링 완료!
13/13 page 크롤링 완료!
전체 크롤링 및 저장 완료!
MySQL DB 접속 종료!


---

### #3. 저장한 데이터베이스 테이블 조회(select) 및 추출

In [11]:
host_info = {'host':'localhost', 
            'port':3306, 
            'user':'root', 
            'passwd':'acorn1234', 
            'db':'shopdb2',
            'charset':'utf8mb4'}
conn = mysql_connect(host_info)

def select_table(conn, table):
    with conn.cursor() as cur:
        sql = f'select * from {table};'
        cur.execute(sql)
        result = cur.fetchall()
        print(f'{len(result)}행 조회')
    return result

MySQLshopdb2접속성공!


In [13]:
data_rows = select_table(conn, 'product')
conn.close()

492행 조회


In [14]:
type(data_rows), data_rows[0]

(tuple,
 (1,
  'SKIN1004 Madagascar Centella Toning Toner 210ml',
  'USD 20.00',
  'USD 13.99',
  '/product/skin1004-madagascar-centella-toning-toner-210ml/28744/category/1019/display/1/'))

#### db 테이블에 저장된 데이터 df로 가져오기

In [15]:
df = pd.DataFrame(data_rows, columns=['ProductID','ProductName', 'Price', 'SalePrice', 'link'])
df.head(3)

Unnamed: 0,ProductID,ProductName,Price,SalePrice,link
0,1,SKIN1004 Madagascar Centella Toning Toner 210ml,USD 20.00,USD 13.99,/product/skin1004-madagascar-centella-toning-t...
1,2,ROUND LAB 1025 Dokdo Toner 200ml,USD 17.00,USD 14.45,/product/round-lab-1025-dokdo-toner-200ml/1890...
2,3,celimax Jiwoogae Heartleaf BHA Peeling Pad 60p...,USD 17.50,USD 12.25,/product/celimax-jiwoogae-heartleaf-bha-peelin...


In [23]:
conn.close()

#### sql문으로 조회한 데이터를 데이터 프레임으로 저장

In [16]:
sql = 'select * from product;'
conn = mysql_connect(host_info)
df2 = pd.read_sql(sql, conn)
conn.close()
df2.head()

MySQLshopdb2접속성공!


  df2 = pd.read_sql(sql, conn)


Unnamed: 0,product_id,product_name,price,sale_price,link
0,1,SKIN1004 Madagascar Centella Toning Toner 210ml,USD 20.00,USD 13.99,/product/skin1004-madagascar-centella-toning-t...
1,2,ROUND LAB 1025 Dokdo Toner 200ml,USD 17.00,USD 14.45,/product/round-lab-1025-dokdo-toner-200ml/1890...
2,3,celimax Jiwoogae Heartleaf BHA Peeling Pad 60p...,USD 17.50,USD 12.25,/product/celimax-jiwoogae-heartleaf-bha-peelin...
3,4,SKIN1004 Madagascar Centella Probio-Cica Essen...,USD 24.00,USD 13.99,/product/skin1004-madagascar-centella-probio-c...
4,5,COSRX Full Fit Propolis Synergy Toner 150ml,USD 28.00,USD 19.60,/product/cosrx-full-fit-propolis-synergy-toner...


---

- SQLAlchemy 설치

In [29]:
!pip install sqlalchemy==2.0.25

Collecting sqlalchemy==2.0.25
  Downloading SQLAlchemy-2.0.25-cp312-cp312-win_amd64.whl.metadata (9.8 kB)
Collecting greenlet!=0.4.17 (from sqlalchemy==2.0.25)
  Downloading greenlet-3.1.1-cp312-cp312-win_amd64.whl.metadata (3.9 kB)
Downloading SQLAlchemy-2.0.25-cp312-cp312-win_amd64.whl (2.1 MB)
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
   ---------------------------------------- 2.1/2.1 MB 16.6 MB/s eta 0:00:00
Downloading greenlet-3.1.1-cp312-cp312-win_amd64.whl (299 kB)
Installing collected packages: greenlet, sqlalchemy
  Attempting uninstall: sqlalchemy
    Found existing installation: SQLAlchemy 1.3.24
    Uninstalling SQLAlchemy-1.3.24:
      Successfully uninstalled SQLAlchemy-1.3.24
Successfully installed greenlet-3.1.1 sqlalchemy-2.0.25


In [33]:
# !pip uninstall sqlalchemy==1.3.24

In [17]:
import sqlalchemy
sqlalchemy.__version__

'2.0.25'

In [18]:
from sqlalchemy import create_engine

In [19]:
db_conn_str = 'mysql+pymysql://root:acorn1234@localhost/shopdb2?charset=utf8mb4'
db_conn = create_engine(db_conn_str)
conn = db_conn.connect()

In [20]:
sql = 'select product_name, price, sale_price from product;'
df = pd.read_sql(sql, conn)
df.head()

Unnamed: 0,product_name,price,sale_price
0,SKIN1004 Madagascar Centella Toning Toner 210ml,USD 20.00,USD 13.99
1,ROUND LAB 1025 Dokdo Toner 200ml,USD 17.00,USD 14.45
2,celimax Jiwoogae Heartleaf BHA Peeling Pad 60p...,USD 17.50,USD 12.25
3,SKIN1004 Madagascar Centella Probio-Cica Essen...,USD 24.00,USD 13.99
4,COSRX Full Fit Propolis Synergy Toner 150ml,USD 28.00,USD 19.60


In [21]:
conn.close()

In [23]:
db_conn.dispose()

---