# 주요 라이브러리 활용 
- 라이브러리 설치
- 웹 페이지 간단하게 추출
- HTML 스크레이핑
- RSS 스크레이핑하기
- 데이터베이스에 저장
- 크롤러와 URL
- 파이썬으로 크롤러 만들기

# pip 설치 
- (venv) C:\> pip install <module_name> 
- (venv) C:\> pip install <module_name>=1.0 
- (venv) C:\> pip freeze

## 웹 페이지 간단하게 추출 
- urllib.Request : GET, POST 요청 처리

- get(), post(), put(), delete(), head(), option()
- 위 함수는 HTTP 메소드 GET, POST, PUT, DELETE, HEAD, OPTIONS 에 대응

## HTML 스크레이핑 
- HTML 요소를 지정하는 방식 : XPath / CSS 선택자
- lxml 스크래이핑 : C언어로 작성된 XML 처리와 관련된 libxml2와 libxslt의 파이썬 바인딩
- BeautifuSoup 스크래이핑 : 아주 쉽고 간단한 공개 API (cf. Current Version : BeautifulSoup4 since 2012)
- pyquery 스크래이핑 : jQuery와 같은 사용법으로 HTML에서 스크래이핑 할 수 있게 해주는 라이브러리

In [1]:
! wget http://www.hanbit.co.kr/store/books/full_book_list.html -O ./data/full_book_list.html

--2018-11-14 10:21:28--  http://www.hanbit.co.kr/store/books/full_book_list.html
Resolving www.hanbit.co.kr (www.hanbit.co.kr)... 218.38.58.195
Connecting to www.hanbit.co.kr (www.hanbit.co.kr)|218.38.58.195|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: './data/full_book_list.html'

     0K .......... .......... .......... .......... .....       769K=0.06s

2018-11-14 10:21:29 (769 KB/s) - './data/full_book_list.html' saved [46411]



### c3-01_scrape_by_lxml
- lxml로 스크레이핑

In [4]:
import lxml.html
import pandas as pd

# HTML 파일을 읽어 들이고, getroot() 메서드로 HtmlElement 객체를 생성합니다.
tree = lxml.html.parse('./data/full_book_list.html')
html = tree.getroot()

A_Tag_Text = []
A_Tag_Link = []

# cssselect() 메서드로 a 요소의 리스트를 추출하고 반복을 돌립니다.
for a in html.cssselect('a'):
    # href 속성과 글자를 추출합니다.
    # print(a.get('href'), a.text)
    
    if a.text is not None:
        A_Tag_Text.append(a.text)
        A_Tag_Link.append(a.get('href'))

book_df = pd.DataFrame({'Text' : A_Tag_Text, 
                        'Link' : A_Tag_Link},
                      columns = ['Text', 'Link'])
book_df.head(10)

Unnamed: 0,Text,Link
0,한빛미디어,http://www.hanbit.co.kr/media/
1,한빛아카데미,http://www.hanbit.co.kr/academy/
2,한빛비즈,http://www.hanbit.co.kr/biz/
3,한빛라이프,http://www.hanbit.co.kr/life/
4,한빛에듀,http://www.hanbit.co.kr/edu/
5,리얼타임,http://www.hanbit.co.kr/realtime/
6,한빛정보교과서,http://www.hanbit.co.kr/textbook/
7,한빛대관서비스,http://www.hanbit.co.kr/rent/
8,로그인,http://www.hanbit.co.kr/member/login.html
9,회원가입,http://www.hanbit.co.kr/member/member_agree.html


### c3-02_scrape_by_bs4 ¶
- BeautifulSopu 로 스크래이핑

In [5]:
# encoding type 확인 : <meta charset=''> 정보
# ! type data\full_book_list.html

In [6]:
from bs4 import BeautifulSoup
import pandas as pd

# HTML 파일을 읽어 들이고 BeautifulSoup 객체를 생성합니다.
with open('data/full_book_list.html', encoding='utf-8') as f:
    soup = BeautifulSoup(f, 'html.parser')

category_tag = soup.find('ul', 'lnb_depth1_category')

# find_all() 메서드로 a 요소를 추출하고 반복을 돌립니다.
for a_tag in category_tag.find_all('a'):
    if len(a_tag['href']) > 1:
        print("href 속성 : {} \t, 글자 : {}, ".format(a_tag['href'], a_tag.text))

href 속성 : /store/books/category_list.html?cate_cd=001 	, 글자 : IT/모바일, 
href 속성 : /store/books/category_list.html?cate_cd=001001 	, 글자 : 프로그래밍, 
href 속성 : /store/books/category_list.html?cate_cd=001002 	, 글자 : 웹, 
href 속성 : /store/books/category_list.html?cate_cd=001003 	, 글자 : 모바일/스마트기기, 
href 속성 : /store/books/category_list.html?cate_cd=001013 	, 글자 : 데이터베이스, 
href 속성 : /store/books/category_list.html?cate_cd=001005 	, 글자 : 운영체제, 
href 속성 : /store/books/category_list.html?cate_cd=001014 	, 글자 : 하드웨어, 
href 속성 : /store/books/category_list.html?cate_cd=001015 	, 글자 : 시스템/네트워크, 
href 속성 : /store/books/category_list.html?cate_cd=001016 	, 글자 : 보안, 
href 속성 : /store/books/category_list.html?cate_cd=001009 	, 글자 : 비즈니스/문화, 
href 속성 : /store/books/category_list.html?cate_cd=001010 	, 글자 : 게임, 
href 속성 : /store/books/category_list.html?cate_cd=001017 	, 글자 : IT에세이, 
href 속성 : /store/books/category_list.html?cate_cd=001012 	, 글자 : 자격증, 
href 속성 : /store/books/category_list.html?cate_cd=002 	, 

### c3-03_scrape_by_feedparser 
- feedparser 로 RSS 스크래이핑
- 모듈설치 : pip install feedparser

In [7]:
# ! pip install feedparser

Collecting feedparser
  Downloading https://files.pythonhosted.org/packages/91/d8/7d37fec71ff7c9dbcdd80d2b48bcdd86d6af502156fc93846fb0102cb2c4/feedparser-5.2.1.tar.bz2 (192kB)
Building wheels for collected packages: feedparser
  Running setup.py bdist_wheel for feedparser: started
  Running setup.py bdist_wheel for feedparser: finished with status 'done'
  Stored in directory: C:\Users\Ente_LJS\AppData\Local\pip\Cache\wheels\8c\69\b7\f52763c41c5471df57703a0ef718a32a5e81ee35dcf6d4f97f
Successfully built feedparser
Installing collected packages: feedparser
Successfully installed feedparser-5.2.1


In [8]:
import feedparser
import pandas as pd

Title = []
Link  = [] 

# 알라딘 도서 RSS를 읽어 들입니다.
d = feedparser.parse('http://www.aladin.co.kr/rss/special_new/351')

# 항목을 순회합니다.
for entry in d.entries:
    Title.append(entry.title)
    Link.append(entry.link)
    
    # print('제목:', entry.title)
    # print('링크:', entry.link)
    # print()
    
rss_df = pd.DataFrame({'제목': Title, '링크':Link}, columns=['제목', '링크'])

In [9]:
rss_df.head(10)

Unnamed: 0,제목,링크
0,마인크래프트와 함께 즐겁게 파이썬/최일선 지음/비제이퍼블릭,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
1,2019 이기적 미니족보 컴퓨터활용능력 2급 필기/영진정보연구소 지음/영진.com(...,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
2,빅데이터 활용사전 419/윤종식 지음/데이터에듀,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
3,보안관제와 윈도우 포렌식 실무/오재헌 지음/홍릉과학출판사,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
4,정보 보안 개론과 실습 - 시스템 해킹과 보안/양대일 지음/한빛아카데미(교재),http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
5,2019 이기적 정보처리산업기사 필기 기본서 & 무료 동영상 (전강 제공)/최희준....,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
6,2019 이기적 사무자동화산업기사 필기 기본서 - 전2권/신면철.영진정보연구소 지음...,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
7,네이버 포스트가 답이다/바이컴퍼니 지음/앤써북,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
8,오늘부터 나도 미니컴퓨터 메이커 + 워크북 세트 - 전2권/장성균 외 지음/바이플러...,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...
9,리눅스의 정석/배동규 지음/다올미디어,http://www.aladin.co.kr/rsscenter/go.aspx?rssT...


In [10]:
d = feedparser.parse('http://www.aladin.co.kr/rss/special_new/351')
type(d), len(d.entries)

(feedparser.FeedParserDict, 25)

In [11]:
entry = d.entries[0]
entry

{'authors': [{'name': '알라딘', 'email': 'noSpam.rss@aladdin.co.kr'}],
 'author': '알라딘 <noSpam.rss@aladdin.co.kr>',
 'author_detail': {'name': '알라딘', 'email': 'noSpam.rss@aladdin.co.kr'},
 'tags': [{'term': '국내도서>컴퓨터/모바일>프로그래밍 언어>파이썬',
   'scheme': None,
   'label': None}],
 'title': '마인크래프트와 함께 즐겁게 파이썬/최일선 지음/비제이퍼블릭',
 'title_detail': {'type': 'text/plain',
  'language': None,
  'base': 'http://www.aladin.co.kr/rss/special_new/351',
  'value': '마인크래프트와 함께 즐겁게 파이썬/최일선 지음/비제이퍼블릭'},
 'links': [{'rel': 'alternate',
   'type': 'text/html',
   'href': 'http://www.aladin.co.kr/rsscenter/go.aspx?rssType=1&type=item&itemId=173766231'}],
 'link': 'http://www.aladin.co.kr/rsscenter/go.aspx?rssType=1&type=item&itemId=173766231',
 'published': 'Mon, 12 Nov 2018 17:35:00 +0900',
 'published_parsed': time.struct_time(tm_year=2018, tm_mon=11, tm_mday=12, tm_hour=8, tm_min=35, tm_sec=0, tm_wday=0, tm_yday=316, tm_isdst=0),
 'id': 'http://www.aladin.co.kr/shop/wproduct.aspx?itemID=173766231',
 'guidislink

In [12]:
entry.keys()

dict_keys(['authors', 'author', 'author_detail', 'tags', 'title', 'title_detail', 'links', 'link', 'published', 'published_parsed', 'id', 'guidislink', 'summary', 'summary_detail'])

In [13]:
entry.title

'마인크래프트와 함께 즐겁게 파이썬/최일선 지음/비제이퍼블릭'

In [14]:
entry.link

'http://www.aladin.co.kr/rsscenter/go.aspx?rssType=1&type=item&itemId=173766231'

In [15]:
entry.tags

[{'term': '국내도서>컴퓨터/모바일>프로그래밍 언어>파이썬', 'scheme': None, 'label': None}]

In [16]:
entry.tags[0]['term']

'국내도서>컴퓨터/모바일>프로그래밍 언어>파이썬'

### c3-04_save_mysql 
- MySQL에 저장
- SQLite와 달리 클리이언트/서버형 아키텍처 채용
- 즉, connection 객체 생성할 때, 사용자계정정보(ID/PW) 정보가 필요하다

In [17]:
# ! pip install pymongo

Collecting pymongo
  Downloading https://files.pythonhosted.org/packages/d8/25/44b0fc81668a883739b108d9bd0c95b24f0b0204cb2dc93e0f259e173670/pymongo-3.7.2-cp36-cp36m-win_amd64.whl (315kB)
Installing collected packages: pymongo
Successfully installed pymongo-3.7.2


# 파이썬 크롤러 
- 목록 페이지에서 URL 목록 추출
- 상세페이지 스크레이핑
- 상세페이지 크롤링
- 스크레이핑 데이터 저장
- 최종 크롤러 생성

In [20]:
# mongoDB에 저장
import lxml.html
from pymongo import MongoClient

# HTML 파일을 읽어 들이고 
# getroot() 메서드를 사용해 HtmlElement 객체를 추출합니다.
tree = lxml.html.parse('data/full_book_list.html')
html = tree.getroot()

client = MongoClient('localhost', 27017)
db = client.scraping   # scraping 데이터베이스를 추출합니다.
collection = db.links  # links 콜렉션을 추출합니다.

# 스크립트를 여러 번 사용해도 같은 결과를 출력할 수 있게 콜렉션의 문서를 제거합니다.
collection.delete_many({})

# cssselect() 메서드로 a 요소의 목록을 추출합니다.
for a in html.cssselect('a'):
    # href 속성과 링크의 글자를 추출해서 저장합니다.
    collection.insert_one({
        'url': a.get('href'),
        'title': a.text.strip(),
    })

# 콜렉션의 모든 문서를 _id 순서로 정렬해서 추출합니다.
for link in collection.find().sort('_id'):
    print(link['_id'], link['url'], link['title'])

ServerSelectionTimeoutError: localhost:27017: [WinError 10061] 대상 컴퓨터에서 연결을 거부했으므로 연결하지 못했습니다

### c3-06_python_crawler_1 
- 목록 페이지에서 URL 목록 추출(1)

In [18]:
import requests
import lxml.html

response = requests.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
root = lxml.html.fromstring(response.content)
for a in root.cssselect('.view_box a'):
    url = a.get('href')
    print(url)

/store/books/look.php?p_code=B7198274060
javascript:;
/store/books/look.php?p_code=B7198274060
/store/books/look.php?p_code=B6994299591
javascript:;
/store/books/look.php?p_code=B6994299591
/store/books/look.php?p_code=B6734602013
javascript:;
/store/books/look.php?p_code=B6734602013
/store/books/look.php?p_code=B8463831992
javascript:;
/store/books/look.php?p_code=B8463831992
/store/books/look.php?p_code=B9515842027
javascript:;
/store/books/look.php?p_code=B9515842027
/store/books/look.php?p_code=B3283906872
javascript:;
/store/books/look.php?p_code=B3283906872
/store/books/look.php?p_code=B2486465157
javascript:;
/store/books/look.php?p_code=B2486465157
/store/books/look.php?p_code=B4851649517
javascript:;
/store/books/look.php?p_code=B4851649517
/store/books/look.php?p_code=B8608817158
javascript:;
/store/books/look.php?p_code=B8608817158
/store/books/look.php?p_code=B1266184916
javascript:;
/store/books/look.php?p_code=B1266184916
/store/books/look.php?p_code=B8718279503
javascrip

### c3-07_python_crawler_2 
- 목록 페이지에서 URL 목록 추출(2)

In [19]:
import requests
import lxml.html

response = requests.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
root = lxml.html.fromstring(response.content)

# 모든 링크를 절대 URL로 변환합니다.
root.make_links_absolute(response.url)

# 선택자를 추가해서 명확한 선택을 할 수 있게 합니다.
for a in root.cssselect('.view_box .book_tit a'):
    url = a.get('href')
    print(url)

http://www.hanbit.co.kr/store/books/look.php?p_code=B7198274060
http://www.hanbit.co.kr/store/books/look.php?p_code=B6994299591
http://www.hanbit.co.kr/store/books/look.php?p_code=B6734602013
http://www.hanbit.co.kr/store/books/look.php?p_code=B8463831992
http://www.hanbit.co.kr/store/books/look.php?p_code=B9515842027
http://www.hanbit.co.kr/store/books/look.php?p_code=B3283906872
http://www.hanbit.co.kr/store/books/look.php?p_code=B2486465157
http://www.hanbit.co.kr/store/books/look.php?p_code=B4851649517
http://www.hanbit.co.kr/store/books/look.php?p_code=B8608817158
http://www.hanbit.co.kr/store/books/look.php?p_code=B1266184916
http://www.hanbit.co.kr/store/books/look.php?p_code=B8718279503
http://www.hanbit.co.kr/store/books/look.php?p_code=B3696148245
http://www.hanbit.co.kr/store/books/look.php?p_code=B6727651495
http://www.hanbit.co.kr/store/books/look.php?p_code=B5331040931
http://www.hanbit.co.kr/store/books/look.php?p_code=B1401258166
http://www.hanbit.co.kr/store/books/look