# 주요 라이브러리 활용 


> - 라이브러리 설치
- 웹 페이지 간단하게 추출
- HTML 스크레이핑
- RSS 스크레이핑하기
- 데이터베이스에 저장
- 크롤러와 URL
- 파이썬으로 크롤러 만들기

## 라이브러리 설치 
> - pip 설치 
- (venv) C:\> pip install <module_name> 
- (venv) C:\> pip install <module_name>=1.0 
- (venv) C:\> pip freeze

## 웹 페이지 간단하게 추출 
> urllib.Request : GET, POST 요청 처리

> - get(), post(), put(), delete(), head(), option()
- 위 함수는 HTTP 메소드 GET, POST, PUT, DELETE, HEAD, OPTIONS 에 대응

> cf> http와 https의 차이점은 https는 security 처리가 내부적으로 된 사이트라는 것.
https가 더 안전하다고 볼 수 있다.

## HTML 스크레이핑 
> - HTML 요소를 지정하는 방식 : XPath / CSS 선택자
- lxml 스크래이핑 : C언어로 작성된 XML 처리와 관련된 libxml2와 libxslt의 파이썬 바인딩
- BeautifuSoup 스크래이핑 : 아주 쉽고 간단한 공개 API (cf. Current Version : BeautifulSoup4 since 2012)
- pyquery 스크래이핑 : jQuery와 같은 사용법으로 HTML에서 스크래이핑 할 수 있게 해주는 라이브러리

> cf> lxml은 c언어로 구성되어 있어 처리속도가 가장 빠르고 거의 다 활용되므로,
웬만하면 lxml로 지정하면 된다.

In [2]:
! wget http://www.hanbit.co.kr/store/books/full_book_list.html -O ./data/full_book_list.html

--2018-11-14 09:25:29--  http://www.hanbit.co.kr/store/books/full_book_list.html
Resolving www.hanbit.co.kr (www.hanbit.co.kr)... 218.38.58.195
Connecting to www.hanbit.co.kr (www.hanbit.co.kr)|218.38.58.195|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: './data/full_book_list.html'

     0K .......... .......... .......... .......... .....       936K=0.05s

2018-11-14 09:25:29 (936 KB/s) - './data/full_book_list.html' saved [46428]



**c3-01_scrape_by_lxml**
> lxml 로 스크레이핑

In [4]:
# ! pip install cssselect

Collecting cssselect
  Downloading https://files.pythonhosted.org/packages/7b/44/25b7283e50585f0b4156960691d951b05d061abf4a714078393e51929b30/cssselect-1.0.3-py2.py3-none-any.whl
Installing collected packages: cssselect
Successfully installed cssselect-1.0.3


In [5]:
import lxml.html
import pandas as pd

# HTML 파일을 읽어 들이고, getroot() 메서드로 HtmlElement 객체를 생성합니다.
tree = lxml.html.parse('./data/full_book_list.html')
html = tree.getroot()

A_Tag_Text = []
A_Tag_Link = []

# cssselect() 메서드로 a 요소의 리스트를 추출하고 반복을 돌립니다.
for a in html.cssselect('a'):
    # href 속성과 글자를 추출합니다.
    # print(a.get('href'), a.text)
    
    if a.text is not None:
        A_Tag_Text.append(a.text)
        A_Tag_Link.append(a.get('href'))

book_df = pd.DataFrame({'Text' : A_Tag_Text, 
                        'Link' : A_Tag_Link},
                      columns = ['Text', 'Link'])
book_df.head(10)

Unnamed: 0,Text,Link
0,한빛미디어,http://www.hanbit.co.kr/media/
1,한빛아카데미,http://www.hanbit.co.kr/academy/
2,한빛비즈,http://www.hanbit.co.kr/biz/
3,한빛라이프,http://www.hanbit.co.kr/life/
4,한빛에듀,http://www.hanbit.co.kr/edu/
5,리얼타임,http://www.hanbit.co.kr/realtime/
6,한빛정보교과서,http://www.hanbit.co.kr/textbook/
7,한빛대관서비스,http://www.hanbit.co.kr/rent/
8,로그인,http://www.hanbit.co.kr/member/login.html
9,회원가입,http://www.hanbit.co.kr/member/member_agree.html


**c3-02_scrape_by_bs4**
> BeautifulSopu 로 스크래이핑

In [6]:
# encoding type 확인 : <meta charset=''> 정보
# ! type data\full_book_list.html

In [7]:
from bs4 import BeautifulSoup
import pandas as pd

# HTML 파일을 읽어 들이고 BeautifulSoup 객체를 생성합니다.
with open('data/full_book_list.html', encoding='utf-8') as f:
    soup = BeautifulSoup(f, 'html.parser')

category_tag = soup.find('ul', 'lnb_depth1_category')

# find_all() 메서드로 a 요소를 추출하고 반복을 돌립니다.
for a_tag in category_tag.find_all('a'):
    if len(a_tag['href']) > 1:
        print("href 속성 : {} \t, 글자 : {}, ".format(a_tag['href'], a_tag.text))

href 속성 : /store/books/category_list.html?cate_cd=001 	, 글자 : IT/모바일, 
href 속성 : /store/books/category_list.html?cate_cd=001001 	, 글자 : 프로그래밍, 
href 속성 : /store/books/category_list.html?cate_cd=001002 	, 글자 : 웹, 
href 속성 : /store/books/category_list.html?cate_cd=001003 	, 글자 : 모바일/스마트기기, 
href 속성 : /store/books/category_list.html?cate_cd=001013 	, 글자 : 데이터베이스, 
href 속성 : /store/books/category_list.html?cate_cd=001005 	, 글자 : 운영체제, 
href 속성 : /store/books/category_list.html?cate_cd=001014 	, 글자 : 하드웨어, 
href 속성 : /store/books/category_list.html?cate_cd=001015 	, 글자 : 시스템/네트워크, 
href 속성 : /store/books/category_list.html?cate_cd=001016 	, 글자 : 보안, 
href 속성 : /store/books/category_list.html?cate_cd=001009 	, 글자 : 비즈니스/문화, 
href 속성 : /store/books/category_list.html?cate_cd=001010 	, 글자 : 게임, 
href 속성 : /store/books/category_list.html?cate_cd=001017 	, 글자 : IT에세이, 
href 속성 : /store/books/category_list.html?cate_cd=001012 	, 글자 : 자격증, 
href 속성 : /store/books/category_list.html?cate_cd=002 	, 

## RSS 스크레이핑 
> - feedparser 모듈 사용
- 표준 라이브러리인 ElementTree보다 간단한 방법으로 RSS 피드에서 데이터 추출 가능

**c3-03_scrape_by_feedparser **
> feedparser 로 RSS 스크래이핑

> - 모듈설치 : pip install feedparser

In [9]:
! pip install feedparser

Collecting feedparser
  Downloading https://files.pythonhosted.org/packages/91/d8/7d37fec71ff7c9dbcdd80d2b48bcdd86d6af502156fc93846fb0102cb2c4/feedparser-5.2.1.tar.bz2 (192kB)
Building wheels for collected packages: feedparser
  Running setup.py bdist_wheel for feedparser: started
  Running setup.py bdist_wheel for feedparser: finished with status 'done'
  Stored in directory: C:\Users\student\AppData\Local\pip\Cache\wheels\8c\69\b7\f52763c41c5471df57703a0ef718a32a5e81ee35dcf6d4f97f
Successfully built feedparser
Installing collected packages: feedparser
Successfully installed feedparser-5.2.1


In [19]:
import feedparser
import pandas as pd

Title = []
Link  = [] 

# 알라딘 도서 RSS를 읽어 들입니다.
d = feedparser.parse('http://www.aladin.co.kr/rss/special_new/351')

# 항목을 순회합니다.
for entry in d.entries:
    Title.append(entry.title)
    Link.append(entry.link)
    
    # print('제목:', entry.title)
    # print('링크:', entry.link)
    # print()
    
rss_df = pd.DataFrame({'제목': Title, '링크':Link}, columns=['제목', '링크'])

In [20]:
rss_df.head(10)

Unnamed: 0,제목,링크
0,마인크래프트와 함께 즐겁게 파이썬/최일선 지음/비제이퍼블릭,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
1,2019 이기적 미니족보 컴퓨터활용능력 2급 필기/영진정보연구소 지음/영진.com(...,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
2,빅데이터 활용사전 419/윤종식 지음/데이터에듀,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
3,보안관제와 윈도우 포렌식 실무/오재헌 지음/홍릉과학출판사,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
4,정보 보안 개론과 실습 - 시스템 해킹과 보안/양대일 지음/한빛아카데미(교재),http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
5,2019 이기적 정보처리산업기사 필기 기본서 & 무료 동영상 (전강 제공)/최희준....,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
6,2019 이기적 사무자동화산업기사 필기 기본서 - 전2권/신면철.영진정보연구소 지음...,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
7,네이버 포스트가 답이다/바이컴퍼니 지음/앤써북,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
8,오늘부터 나도 미니컴퓨터 메이커 + 워크북 세트 - 전2권/장성균 외 지음/바이플러...,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
9,리눅스의 정석/배동규 지음/다올미디어,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...


In [21]:
d = feedparser.parse('http://www.aladin.co.kr/rss/special_new/351')
# type(d), len(d.entries)
d

{'feed': {'title': '분야별 신간 특선 - 컴퓨터/모바일',
  'title_detail': {'type': 'text/plain',
   'language': None,
   'base': 'http://www.aladin.co.kr/rss/special_new/351',
   'value': '분야별 신간 특선 - 컴퓨터/모바일'},
  'links': [{'rel': 'alternate',
    'type': 'text/html',
    'href': 'http://www.aladin.co.kr/rsscenter/go.aspx/www.aladin.co.kr/shop/book/wspecialnew.aspx?cid=351&rssType=1&type=title'}],
  'link': 'http://www.aladin.co.kr/rsscenter/go.aspx/www.aladin.co.kr/shop/book/wspecialnew.aspx?cid=351&rssType=1&type=title',
  'language': 'ko-kr',
  'subtitle': '분야별 신간 특선',
  'subtitle_detail': {'type': 'text/html',
   'language': None,
   'base': 'http://www.aladin.co.kr/rss/special_new/351',
   'value': '분야별 신간 특선'},
  'rights': 'Copyright 1999 - 2018 Aladdin communications Inc. Corporation All Rights Reserved.',
  'rights_detail': {'type': 'text/plain',
   'language': None,
   'base': 'http://www.aladin.co.kr/rss/special_new/351',
   'value': 'Copyright 1999 - 2018 Aladdin communications Inc. Corp

In [13]:
entry = d.entries[0]
entry

{'authors': [{'name': '알라딘', 'email': 'noSpam.rss@aladdin.co.kr'}],
 'author': '알라딘 <noSpam.rss@aladdin.co.kr>',
 'author_detail': {'name': '알라딘', 'email': 'noSpam.rss@aladdin.co.kr'},
 'tags': [{'term': '국내도서>컴퓨터/모바일>프로그래밍 언어>파이썬',
   'scheme': None,
   'label': None}],
 'title': '마인크래프트와 함께 즐겁게 파이썬/최일선 지음/비제이퍼블릭',
 'title_detail': {'type': 'text/plain',
  'language': None,
  'base': 'http://www.aladin.co.kr/rss/special_new/351',
  'value': '마인크래프트와 함께 즐겁게 파이썬/최일선 지음/비제이퍼블릭'},
 'links': [{'rel': 'alternate',
   'type': 'text/html',
   'href': 'http://www.aladin.co.kr/rsscenter/go.aspx?rssType=1&type=item&itemId=173766231'}],
 'link': 'http://www.aladin.co.kr/rsscenter/go.aspx?rssType=1&type=item&itemId=173766231',
 'published': 'Mon, 12 Nov 2018 17:35:00 +0900',
 'published_parsed': time.struct_time(tm_year=2018, tm_mon=11, tm_mday=12, tm_hour=8, tm_min=35, tm_sec=0, tm_wday=0, tm_yday=316, tm_isdst=0),
 'id': 'http://www.aladin.co.kr/shop/wproduct.aspx?itemID=173766231',
 'guidislink

In [14]:
entry.keys()

dict_keys(['authors', 'author', 'author_detail', 'tags', 'title', 'title_detail', 'links', 'link', 'published', 'published_parsed', 'id', 'guidislink', 'summary', 'summary_detail'])

In [15]:
entry.title

'마인크래프트와 함께 즐겁게 파이썬/최일선 지음/비제이퍼블릭'

In [16]:
entry.link

'http://www.aladin.co.kr/rsscenter/go.aspx?rssType=1&type=item&itemId=173766231'

In [17]:
entry.tags

[{'term': '국내도서>컴퓨터/모바일>프로그래밍 언어>파이썬', 'scheme': None, 'label': None}]

In [18]:
entry.tags[0]['term']

'국내도서>컴퓨터/모바일>프로그래밍 언어>파이썬'

## 데이터베이스에 저장 
> - MySQL
- MongoDB

**c3-04_save_mysql **
> MySQL에 저장

> - SQLite와 달리 클리이언트/서버형 아키텍처 채용
- 즉, connection 객체 생성할 때, 사용자계정정보(ID/PW) 정보가 필요하다

### MongoDB 개요 
> NoSQL 의 일종, 문서형 데이터베이스(NoSQL = Not only SQL)

> - 오픈소스 소프트웨어로 공개
- 유연한 데이터 구조, 높은 쓰기 성능, 사용하기 쉽다. 

> - MongoDB의 데이터 구조 
- \- 하나의 데이터베이스는 여러개의 콜렉션을 가지며, 
- \- 하나의 콜렉션은 여러 개의 문서를 갖는다. 
- \- 문서는 BSON 이라고 부르는 JSON의 바이너리 형식으로 다룬다. 
- \- 미리 데이터 구조를 정의할 필요없고, 문서마다 다른 데이터 구조를 가질 수 있다.

### MongoDB 설치 
> MongoDB Install in Windows

> - Manual : https://docs.mongodb.com/manual/tutorial/install-mongodb-on-windows/
- Download : https://www.mongodb.com/download-center/community?jmp=homepage

### MongoDB 실행 
> 설치 디렉토리 하단의 bin에서 mongod.exe, mongo.exe 실행(보통 bin폴더에 실행파일들 다 들어가 있다. 파이썬은 예외적으로  script 폴더)

> - mongod.exe : MongoDB 서버 실행파일
- mongo.exe   : MongoDB를 조작할수 있는 MongoDB Shell 프로그램 

> - \- 먼저 MongoDB Shell을 실행하기 전에 MongoDB 서버를 실행시켜야 한다. 
- \- 탐색기에서 실행파일 Shift+우클릭을 통해 메뉴창을 연다. 
- \- 여기에서 명령창 열기(W)를 눌러서 현재 폴더에서 윈도우 명령프롬프트(cmd)를 실행한다.

**c3-05_save_mongo** 
> MongoDB에 저장

> - 파이썬 바인딩인 PyMongo 를 사용
- 모듈설치 : pip install pymongo

In [24]:
# ! pip install pymongo

> cf> Rdb는 만들 때 구조가 만들어져 있다. 들어갈 때 구조가 다 동일하다.
그러나 몽고db의 경우에는 구조가 다양하므로 구조 역시도 다양하게 만들 수 있다.

## 파이썬 크롤러 
> - 목록 페이지에서 URL 목록 추출
- 상세페이지 스크레이핑
- 상세페이지 크롤링
- 스크레이핑 데이터 저장
- 최종 크롤러 생성

**c3-06_python_crawler_1** 
> 목록 페이지에서 URL 목록 추출(1)

In [25]:
import requests
import lxml.html

response = requests.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
root = lxml.html.fromstring(response.content)
for a in root.cssselect('.view_box a'):
    url = a.get('href')
    print(url)

/store/books/look.php?p_code=B6994299591
javascript:;
/store/books/look.php?p_code=B6994299591
/store/books/look.php?p_code=B8463831992
javascript:;
/store/books/look.php?p_code=B8463831992
/store/books/look.php?p_code=B9515842027
javascript:;
/store/books/look.php?p_code=B9515842027
/store/books/look.php?p_code=B3283906872
javascript:;
/store/books/look.php?p_code=B3283906872
/store/books/look.php?p_code=B2486465157
javascript:;
/store/books/look.php?p_code=B2486465157
/store/books/look.php?p_code=B4851649517
javascript:;
/store/books/look.php?p_code=B4851649517
/store/books/look.php?p_code=B8608817158
javascript:;
/store/books/look.php?p_code=B8608817158
/store/books/look.php?p_code=B1266184916
javascript:;
/store/books/look.php?p_code=B1266184916
/store/books/look.php?p_code=B8718279503
javascript:;
/store/books/look.php?p_code=B8718279503
/store/books/look.php?p_code=B3696148245
javascript:;
/store/books/look.php?p_code=B3696148245
/store/books/look.php?p_code=B6727651495
javascrip

**c3-07_python_crawler_2** 
> 목록 페이지에서 URL 목록 추출(2)

In [26]:
import requests
import lxml.html

response = requests.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
root = lxml.html.fromstring(response.content)

# 모든 링크를 절대 URL로 변환합니다.
root.make_links_absolute(response.url)

# 선택자를 추가해서 명확한 선택을 할 수 있게 합니다.
for a in root.cssselect('.view_box .book_tit a'):
    url = a.get('href')
    print(url)

http://www.hanbit.co.kr/store/books/look.php?p_code=B7198274060
http://www.hanbit.co.kr/store/books/look.php?p_code=B6994299591
http://www.hanbit.co.kr/store/books/look.php?p_code=B6734602013
http://www.hanbit.co.kr/store/books/look.php?p_code=B8463831992
http://www.hanbit.co.kr/store/books/look.php?p_code=B9515842027
http://www.hanbit.co.kr/store/books/look.php?p_code=B3283906872
http://www.hanbit.co.kr/store/books/look.php?p_code=B2486465157
http://www.hanbit.co.kr/store/books/look.php?p_code=B4851649517
http://www.hanbit.co.kr/store/books/look.php?p_code=B8608817158
http://www.hanbit.co.kr/store/books/look.php?p_code=B1266184916
http://www.hanbit.co.kr/store/books/look.php?p_code=B8718279503
http://www.hanbit.co.kr/store/books/look.php?p_code=B3696148245
http://www.hanbit.co.kr/store/books/look.php?p_code=B6727651495
http://www.hanbit.co.kr/store/books/look.php?p_code=B5331040931
http://www.hanbit.co.kr/store/books/look.php?p_code=B1401258166
http://www.hanbit.co.kr/store/books/look

**c3-08_python_crawler_3 **
> 목록 페이지에서 URL 목록 추출(3)

In [27]:
import requests
import lxml.html

def main():
    """
    크롤러의 메인 처리
    """
    # 여러 페이지에서 크롤링할 것이므로 Session을 사용합니다.
    session = requests.Session()  
    
    # scrape_list_page() 함수를 호출해서 제너레이터를 추출합니다.
    response = session.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
    urls = scrape_list_page(response)
    # 제너레이터는 list처럼 사용할 수 있습니다.
    for url in urls:
        print(url)

def scrape_list_page(response):
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    for a in root.cssselect('.view_box .book_tit a'):
        url = a.get('href')
        # yield 구문으로 제너레이터의 요소 반환
        yield url

if __name__ == '__main__':
    main()

http://www.hanbit.co.kr/store/books/look.php?p_code=B7198274060
http://www.hanbit.co.kr/store/books/look.php?p_code=B6994299591
http://www.hanbit.co.kr/store/books/look.php?p_code=B6734602013
http://www.hanbit.co.kr/store/books/look.php?p_code=B8463831992
http://www.hanbit.co.kr/store/books/look.php?p_code=B9515842027
http://www.hanbit.co.kr/store/books/look.php?p_code=B3283906872
http://www.hanbit.co.kr/store/books/look.php?p_code=B2486465157
http://www.hanbit.co.kr/store/books/look.php?p_code=B4851649517
http://www.hanbit.co.kr/store/books/look.php?p_code=B8608817158
http://www.hanbit.co.kr/store/books/look.php?p_code=B1266184916
http://www.hanbit.co.kr/store/books/look.php?p_code=B8718279503
http://www.hanbit.co.kr/store/books/look.php?p_code=B3696148245
http://www.hanbit.co.kr/store/books/look.php?p_code=B6727651495
http://www.hanbit.co.kr/store/books/look.php?p_code=B5331040931
http://www.hanbit.co.kr/store/books/look.php?p_code=B1401258166
http://www.hanbit.co.kr/store/books/look

**c3-09_python_crawler_4 **
> 상세페이지 스크레이핑(1)

In [28]:
import requests
import lxml.html

def main():
    # 여러 페이지에서 크롤링할 것이므로 Session을 사용합니다.
    session = requests.Session()  
    response = session.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
    urls = scrape_list_page(response)

    for url in urls:
        response = session.get(url)  # Session을 사용해 상세 페이지를 추출합니다.
        ebook = scrape_detail_page(response)  # 상세 페이지에서 상세 정보를 추출합니다.
        print(ebook)  # 책 관련 정보를 출력합니다.
        break  # 책 한 권이 제대로 되는지 확인하고 종료합니다.

def scrape_list_page(response):
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    for a in root.cssselect('.view_box .book_tit a'):
        url = a.get('href')
        yield url

def scrape_detail_page(response):
    """
    상세 페이지의 Response에서 책 정보를 dict로 추출합니다.
    """
    root = lxml.html.fromstring(response.content)
    ebook = {
        'url': response.url,
        'title': root.cssselect('.store_product_info_box h3')[0].text_content(),
        'price': root.cssselect('.pbr strong')[0].text_content(),
        'content': [p.text_content()\
            for p in root.cssselect('#tabs_3 .hanbit_edit_view p')]
    }
    return ebook

if __name__ == '__main__':
    main()

{'url': 'http://www.hanbit.co.kr/store/books/look.php?p_code=B7198274060', 'title': '재미있고 빠른 한글 1권 : 기본 모음과 자음', 'price': '6,300', 'content': ['', '\r\n\t\t\t\t\t\t1권. 기본 모음과 자음\r\n', '01 모음 ㅇ (이아야어여)', '02 자음 ㄱ (기가갸거겨)', '03 자음 ㅋ (키카캬커켜)', '04 자음 ㄴ (니나냐너녀)', '05 자음 ㄷ (디다댜더뎌)', '06 자음 ㅌ (티타탸터텨)', '07 자음 ㄹ (리라랴러려)', '08 자음 ㅁ (미마먀머며)', '09 자음 ㅂ (비바뱌버벼)', '10 자음 ㅍ (피파퍄퍼펴)', '\xa0', '\r\n\t\t\t\t\t\t2권. 기본 자음과 쌍자음\r\n', '01 자음 ㅅ (시사샤서셔)', '02 자음 ㅈ (지자쟈저져)', '03 자음 ㅊ (치차챠처쳐)', '04 자음 ㅎ (히하햐허혀)', '05 쌍자음 ㄲ (끼까꺄꺼껴)', '06 쌍자음 ㄸ (띠따땨떠뗘)', '07 쌍자음 ㅃ (삐빠뺘뻐뼈)', '08 쌍자음 ㅆ (씨싸쌰써쎠)', '09 쌍자음 ㅉ (찌짜쨔쩌쪄)', '10 1~2권 확인학습 1~2', '\xa0', '\r\n\t\t\t\t\t\t3권. 받침\r\n', '01 받침 ㅇ', '02 받침 ㄱ ㅋ\xa0', '03 받침 ㄴ', '04 받침 ㄹ', '05 받침 ㅁ', '06 받침 ㅂ ㅍ', '07 받침 ㅅ', '08 받침 ㄷ ㅌ ㅈ ㅊ ㅎ', '09 확인학습 1~4 / 신나는 한글 놀이 1~3', '\xa0', '\r\n\t\t\t\t\t\t4권. 복잡한 모음\r\n', '01 복잡한 모음 애', '02 복잡한 모음 에', '03 복잡한 모음 외', '04 복잡한 모음 위', '05 복잡한 모음 얘 예', '06 복잡한 모음 와 의', '07 복잡한 모음 워', '08 복잡한 모음 왜 웨', '09 확인학습 1~4']}


**c3-10_python_crawler_5 **
> 상세페이지 스크레이핑(2)

### Regular Expression 관련 사이트
- Text 정보를 re로 테스트
- 작성된 re를 다이어그램으로 표현

In [31]:
import requests
import lxml.html
import re

def main():
    # 여러 페이지에서 크롤링할 것이므로 Session을 사용합니다.
    session = requests.Session()  
    response = session.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
    urls = scrape_list_page(response)
    for url in urls:
        response = session.get(url)  # Session을 사용해 상세 페이지를 추출합니다.
        ebook = scrape_detail_page(response)  # 상세 페이지에서 상세 정보를 추출합니다.
        print(ebook)  # 책 관련 정보를 출력합니다.
        break  # 책 한 권이 제대로 되는지 확인하고 종료합니다.

def scrape_list_page(response):
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    for a in root.cssselect('.view_box .book_tit a'):
        url = a.get('href')
        yield url

def scrape_detail_page(response):
    """
    상세 페이지의 Response에서 책 정보를 dict로 추출합니다.
    """
    root = lxml.html.fromstring(response.content)
    ebook = {
        'url': response.url,
        'title': root.cssselect('.store_product_info_box h3')[0].text_content(),
        'price': root.cssselect('.pbr strong')[0].text_content(),
        'content': [normalize_spaces(p.text_content())
            for p in root.cssselect('#tabs_3 .hanbit_edit_view p')
            if normalize_spaces(p.text_content()) != '']
    }
    return ebook

def normalize_spaces(s):
    """
    연결돼 있는 공백을 하나의 공백으로 변경합니다.
    """
    return re.sub(r'\s+', ' ', s).strip()

if __name__ == '__main__':
    main()

{'url': 'http://www.hanbit.co.kr/store/books/look.php?p_code=B7198274060', 'title': '재미있고 빠른 한글 1권 : 기본 모음과 자음', 'price': '6,300', 'content': ['1권. 기본 모음과 자음', '01 모음 ㅇ (이아야어여)', '02 자음 ㄱ (기가갸거겨)', '03 자음 ㅋ (키카캬커켜)', '04 자음 ㄴ (니나냐너녀)', '05 자음 ㄷ (디다댜더뎌)', '06 자음 ㅌ (티타탸터텨)', '07 자음 ㄹ (리라랴러려)', '08 자음 ㅁ (미마먀머며)', '09 자음 ㅂ (비바뱌버벼)', '10 자음 ㅍ (피파퍄퍼펴)', '2권. 기본 자음과 쌍자음', '01 자음 ㅅ (시사샤서셔)', '02 자음 ㅈ (지자쟈저져)', '03 자음 ㅊ (치차챠처쳐)', '04 자음 ㅎ (히하햐허혀)', '05 쌍자음 ㄲ (끼까꺄꺼껴)', '06 쌍자음 ㄸ (띠따땨떠뗘)', '07 쌍자음 ㅃ (삐빠뺘뻐뼈)', '08 쌍자음 ㅆ (씨싸쌰써쎠)', '09 쌍자음 ㅉ (찌짜쨔쩌쪄)', '10 1~2권 확인학습 1~2', '3권. 받침', '01 받침 ㅇ', '02 받침 ㄱ ㅋ', '03 받침 ㄴ', '04 받침 ㄹ', '05 받침 ㅁ', '06 받침 ㅂ ㅍ', '07 받침 ㅅ', '08 받침 ㄷ ㅌ ㅈ ㅊ ㅎ', '09 확인학습 1~4 / 신나는 한글 놀이 1~3', '4권. 복잡한 모음', '01 복잡한 모음 애', '02 복잡한 모음 에', '03 복잡한 모음 외', '04 복잡한 모음 위', '05 복잡한 모음 얘 예', '06 복잡한 모음 와 의', '07 복잡한 모음 워', '08 복잡한 모음 왜 웨', '09 확인학습 1~4']}


**c3-11_python_crawler_6 **
> 상세페이지 크롤링

In [32]:
import time # time 모듈을 임포트합니다.
import re 
import requests
import lxml.html

def main():
    session = requests.Session()
    response = session.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
    urls = scrape_list_page(response)
    for url in urls:
        time.sleep(1) # 1초 동안 휴식합니다.
        response = session.get(url)
        ebook = scrape_detail_page(response)
        print(ebook)

def scrape_list_page(response):
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    for a in root.cssselect('.view_box .book_tit a'):
        url = a.get('href')
        yield url

def scrape_detail_page(response):
    """
    상세 페이지의 Response에서 책 정보를 dict로 추출합니다.
    """
    root = lxml.html.fromstring(response.content)
    ebook = {
        'url': response.url,
        'title': root.cssselect('.store_product_info_box h3')[0].text_content(),
        'price': root.cssselect('.pbr strong')[0].text_content(),
        'content': [normalize_spaces(p.text_content())
            for p in root.cssselect('#tabs_3 .hanbit_edit_view p')
            if normalize_spaces(p.text_content()) != '']
    }
    return ebook

def normalize_spaces(s):
    """
    연결돼 있는 공백을 하나의 공백으로 변경합니다.
    """
    return re.sub(r'\s+', ' ', s).strip()

if __name__ == '__main__':
    main()

{'url': 'http://www.hanbit.co.kr/store/books/look.php?p_code=B7198274060', 'title': '재미있고 빠른 한글 1권 : 기본 모음과 자음', 'price': '6,300', 'content': ['1권. 기본 모음과 자음', '01 모음 ㅇ (이아야어여)', '02 자음 ㄱ (기가갸거겨)', '03 자음 ㅋ (키카캬커켜)', '04 자음 ㄴ (니나냐너녀)', '05 자음 ㄷ (디다댜더뎌)', '06 자음 ㅌ (티타탸터텨)', '07 자음 ㄹ (리라랴러려)', '08 자음 ㅁ (미마먀머며)', '09 자음 ㅂ (비바뱌버벼)', '10 자음 ㅍ (피파퍄퍼펴)', '2권. 기본 자음과 쌍자음', '01 자음 ㅅ (시사샤서셔)', '02 자음 ㅈ (지자쟈저져)', '03 자음 ㅊ (치차챠처쳐)', '04 자음 ㅎ (히하햐허혀)', '05 쌍자음 ㄲ (끼까꺄꺼껴)', '06 쌍자음 ㄸ (띠따땨떠뗘)', '07 쌍자음 ㅃ (삐빠뺘뻐뼈)', '08 쌍자음 ㅆ (씨싸쌰써쎠)', '09 쌍자음 ㅉ (찌짜쨔쩌쪄)', '10 1~2권 확인학습 1~2', '3권. 받침', '01 받침 ㅇ', '02 받침 ㄱ ㅋ', '03 받침 ㄴ', '04 받침 ㄹ', '05 받침 ㅁ', '06 받침 ㅂ ㅍ', '07 받침 ㅅ', '08 받침 ㄷ ㅌ ㅈ ㅊ ㅎ', '09 확인학습 1~4 / 신나는 한글 놀이 1~3', '4권. 복잡한 모음', '01 복잡한 모음 애', '02 복잡한 모음 에', '03 복잡한 모음 외', '04 복잡한 모음 위', '05 복잡한 모음 얘 예', '06 복잡한 모음 와 의', '07 복잡한 모음 워', '08 복잡한 모음 왜 웨', '09 확인학습 1~4']}
{'url': 'http://www.hanbit.co.kr/store/books/look.php?p_code=B6994299591', 'title': '재미있고 빠른 한글 2권 : 기본 자음과 쌍자음', 'price': '6,300', 'conten

{'url': 'http://www.hanbit.co.kr/store/books/look.php?p_code=B8608817158', 'title': 'IT 트렌드 스페셜 리포트 2019', 'price': '16,020', 'content': ['프롤로그', '1장. 인공지능 : 비즈니스의 경쟁력을 만들어내는 기반 기술', '01. 비즈니스에 미치는 영향', '02. 유용한 활용처', '03. 주목해야 하는 회사', '04. 실패 사례로 보는 한계점', '05. 전망', '06. 핵심 키워드 요약', '[테크 리포트] 솔리드웨어 : 세계가 인정하는 머신러닝 자동화 솔루션', '2장. 5G : 무지연 비즈니스 플랫폼의 탄생', '01. 4G가 만드는 비즈니스 변화', '02. 5G 탄생', '03. 5G를 활용한 모바일 서비스 변화', '04. 모바일 서비스 시나리오', '05. 국내 주요 사업자 동향', '06. 해외 동향', '07. 제약 사항', '08. 전망', '09. 핵심 키워드 요약', '[테크 리포트] SK텔레콤 : 5G 시대 선도 전략', '3장. 로봇 : 산업 현장을 넘어 일상으로', '01. 비즈니스 가치와 원인', '02. 활용 사례', '03. 주목해야 하는 회사', '04. 국가별 현황', '05. 주요 쟁점', '06. 전망', '07. 핵심 키워드 요약', '[테크 리포트] 뉴로메카 : RaaS로서의 협동로봇', '4장. 드론 : 지능형 드론 시대의 개막', '01. 비즈니스 가치와 원인', '02. 농업에서 우주 개발까지', '03. 주목할 만한 회사', '04. 유인 드론, 꿈이 현실로', '05. 인공지능, 드론을 진화시키다', '06. 전망', '07. 핵심 키워드 요약', '[테크 리포트] (주)엑스드론 : 다목적 임무용 무인기 상용화', '5장. 대화형 플랫폼 : 새로운 사용자 경험의 탄생', '01. 비즈니스 가치와 원인', '02. 대화형 플랫폼의 응용 사례', '03. 주목해야 하는 회사', '04. 한계점, 제약 

{'url': 'http://www.hanbit.co.kr/store/books/look.php?p_code=B1401258166', 'title': '(무료동영상) 2019 전기기사 필기', 'price': '32,400', 'content': ['이제는 합격이다', '- 동영상 강좌 안내', '- 시험 안내', '- 이 책의 학습 방법', '- 한눈에 보는 출제 분석표', '- 실력에 맞는 유형별 학습 로드맵', '- 회차별 학습 체크 리스트', '- 편저자의 말', '과년도 기출문제 1권', '- 2018년 전기기사 1회', '- 2018년 전기기사 2회', '- 2018년 전기기사 3회', '- 2017년 전기기사 1회', '- 2017년 전기기사 2회', '- 2017년 전기기사 3회', '- 2016년 전기기사 1회', '- 2016년 전기기사 2회', '- 2016년 전기기사 3회', '- 2015년 전기기사 1회', '- 2015년 전기기사 2회', '- 2015년 전기기사 3회', '- 2014년 전기기사 1회', '- 2014년 전기기사 2회', '- 2014년 전기기사 3회', '- 2013년 전기기사 1회', '- 2013년 전기기사 2회', '- 2013년 전기기사 3회', '- 2012년 전기기사 1회', '- 2012년 전기기사 2회', '- 2012년 전기기사 3회', '과년도 기출문제 2권', '- 2011년 전기기사 1회', '- 2011년 전기기사 2회', '- 2011년 전기기사 3회', '- 2010년 전기기사 1회', '- 2010년 전기기사 2회', '- 2010년 전기기사 3회', '- 2009년 전기기사 1회', '- 2009년 전기기사 2회', '- 2009년 전기기사 3회', '- 2008년 전기기사 1회', '- 2008년 전기기사 2회', '- 2008년 전기기사 3회', '- 2007년 전기기사 1회', '- 2007년 전기기사 2회', '- 2007년 전기기사 3회', '- 2006년 전기기사 1회', '

**c3-12_python_crawler_final **
> MongoDB 저장기능 추가한 최종적인 크롤러

In [33]:
# 크롤러 실행
# % run modules/python_crawler_final.py 