In [1]:
    # 정규화 함수
import re
    # spl 사용함수
import sqlite3
    # url 호출함수
from urllib.request import urlopen
    # html 스크래핑을 위한 함수
from html import unescape
    # 전처리 함수
import pandas as pd
    # 디렉토리 사용함수
import os

In [2]:
def fetch(url):
    """
    매개변수로 전달받을 url을 기반으로 웹 페이지를 추출
    웹 페이지의 Content-Type 헤더를 통해 인코딩 형식 확인
    반환값: str 자료형의 HTML
    """
    f = urlopen(url)
    # HTTP 헤더를 기반으로 인코딩 형식 추출
    encoding = f.info().get_content_charset(failobj="utf-8")
    # 추출한 인코딩 형식을 기반으로 문자열 디코딩
    html = f.read().decode(encoding)
    return html

In [4]:
def scrape(html):
    """
    매개변수 html로 받은 HTML을 기반으로 정규 표현식을 사용해 도서 정보를 추출합니다.
    반환값: 도서(dict) 리스트
    """
    books = []
    # re.findall()을 사용해 도서 하나에 해당하는 HTML을 추출
    for partial_html in re.findall(r'<td class="left"><a.*?</td>', html, re.DOTALL):
        # 도서의 URL을 추출
        url = re.search(r'<a href="(.*?)">', partial_html).group(1)
        url = 'http://www.hanbit.co.kr' + url
        # 태그를 제거해서 도서의 제목 추출
        title = re.sub(r'<.*?>', '', partial_html)
        title = unescape(title)
        books.append(pd.DataFrame({'url': [url], 'title': [title]}))
    return pd.concat(books)

In [5]:
def save(db_path, books):
    with sqlite3.connect(os.path.join('.', db_path)) as con: # sqlite DB 파일이 존재하지 않는 경우 파일생성
        try:
            books.to_sql(name = 'BOOKS_INFO', con = con, index = False, if_exists='append') 
            #if_exists : {'fail', 'replace', 'append'} default : fail
        except Exception as e:
            print(str(e))
    
    query = 'SELECT * FROM BOOKS_INFO'
    df = pd.read_sql(query, con = con)
    return df

In [6]:
html = fetch('http://www.hanbit.co.kr/store/books/full_book_list.html')

In [7]:
df = scrape(html)
df.reset_index(drop=True, inplace=True)
df2 = save('books.db', df)
df2

Unnamed: 0,url,title
0,http://www.hanbit.co.kr/store/books/look.php?p...,나는 꼭 필요한 것만 남기기로 했다
1,http://www.hanbit.co.kr/store/books/look.php?p...,파이썬과 대스크를 활용한 고성능 데이터 분석
2,http://www.hanbit.co.kr/store/books/look.php?p...,웹어셈블리 인 액션
3,http://www.hanbit.co.kr/store/books/look.php?p...,쉽게 배워 바로 써먹는 디자인 패턴
4,http://www.hanbit.co.kr/store/books/look.php?p...,부의 원칙
5,http://www.hanbit.co.kr/store/books/look.php?p...,초보자를 위한 언리얼 엔진 4 입문
6,http://www.hanbit.co.kr/store/books/look.php?p...,분산원장 기술
7,http://www.hanbit.co.kr/store/books/look.php?p...,나도 초록 식물 잘 키우면 소원이 없겠네
8,http://www.hanbit.co.kr/store/books/look.php?p...,"IT CookBook, 액세스 2019로 배우는 데이터베이스 기초와 실습"
9,http://www.hanbit.co.kr/store/books/look.php?p...,GAN 인 액션


In [11]:
df2.to_csv('df2.csv')

In [12]:
from xml.etree import ElementTree

In [13]:
엑셀 = pd.ExcelWriter('df2.xlsx')
df2.to_excel(엑셀, '.', index=False )
엑셀.save()