### 크롤링 crawling
+ 웹 상에 존재하는 다양한 컨텐츠를 수집하는 행위
+ html 문서를 통채로 읽어서 내용을 분석한 뒤 필요한 데이터만 골라서 추출하는 것이 주된 작업

### 파이썬으로 크롤링 하기
+ urllib/urllib2 : 사용하기 무난, 코드 단순, 내장 패키지
+ requests : 따로 설치, urllib보다 고급기능 제공
+ lxml : 웹을 통해 읽어 들인 문서 내용 분석 문서내에서 필요한 데이터를 추출하는데 사용

In [1]:
# 패키지 설치
# pip install requests
# pip install lxml
# pip install cssselect

In [2]:
import requests
import lxml.html
from lxml.cssselect import CSSSelector

In [3]:
# 핫빛 미디어 홈페이지(hanb.co.kr)의 베스트셀러 페이지의 도서 정보(이미지, 도서명, 저자, 가격)를 수집하세요.
url = 'https://www.hanbit.co.kr/store/books/bestseller_list.html'

# 지정한 url의 문서를 읽어옴 get(주소, 옵션)
res = requests.get(url)

# requests 패키지 실행후 유용한 변수로 결과 확인
# http 응답코드, 응답으로 받은 컨텐츠의 인코딩 및 컨텐츠 유형 확인
print(res.status_code, res.encoding, res.headers['content-type'])

200 UTF-8 text/html; charset=UTF-8


In [4]:
# 응답으로 받은 컨텐츠 확인 : text, content
res.text[:500]

'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>한빛출판네트워크</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="한빛출판네트워크"/>\r\n<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위'

In [5]:
res.content[:500]

b'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac"/>\r\n<meta property="og:descripti'

In [6]:
# 스크래핑한 결과를 분석해서 필요한 데이터를 추출하기 위해 따로 변수로 저장
html = res.text
# html 문서에 저장된 문서 내 요소들을 탐색하기 편하도록 계층구조 DOM로 생성
root = lxml.html.fromstring(html)

In [7]:
# 추출한 제목을 저장하기 위해 리스트 선언
titles = []
authors = []
prices = []
thumbs = []

# 모든 p 태그들 중에서 클래스명이 book_tit인 p태그(들)를 찾은 후 하위 태그가 a인 요소들을 선택 select한후 텍스트 요소를 추출함
for title in root.cssselect('p.book_tit a'):
    # 확인 print(title.text_content())
    titles.append(title.text_content())
print(titles)

for author in root.cssselect('p.book_writer'):
    authors.append(author.text_content())
print(authors)

for price in root.cssselect('span.price'):
    prices.append(price.text_content())
print(prices)

for thumb in root.cssselect('img.thumb'):
    thumbs.append(thumb.get('src'))
print(thumbs)

['혼자 공부하는 머신러닝+딥러닝', '제대로 알고 쓰는 논문 통계분석 : SPSS & AMOS (개정증보판)', '비겁한 돈', '365 부모 말하기 연습 일력(스프링북)', '1000개 숨은그림찾기 바다 동물', '유지보수하기 어렵게 코딩하는 방법: 평생 개발자로 먹고 살 수 있다', '회사에서 바로 통하는  실무 엑셀+파워포인트+워드&한글(개정판)', '혼자 공부하는 파이썬', '이것이 취업을 위한 코딩 테스트다 with 파이썬', '한번에 통과하는 논문 : SPSS 결과표 작성과 해석 방법', '프리드버그 선형대수학', '혼자 공부하는 C 언어', '심리 읽어드립니다', '눈 떠보니 선진국', '일잘러의 비밀, 구글 스프레드시트 제대로 파헤치기']
['박해선 ', '노경섭 ', '황현희 , 제갈현열 ', '박재연 , 공인영 ', '이한이 ', '로에디 그린 ', '전미진 , 이화진 , 신면철 ', '윤인성 ', '나동빈 ', '히든그레이스 논문통계팀 ', '스티븐 H. 프리드버그 , 아놀드 J. 인셀 , 로렌스 E. 스펜스 ', '서현우 ', '김경일 , 사피엔스 스튜디오 ', '박태웅 ', '강남석 ']
['23,400원', '28,000원', '14,400원', '16,200원', '7,200원', '0원', '19,800원', '16,200원', '30,600원', '23,000원', '35,000원', '21,600원', '15,750원', '14,850원', '25,200원']
['/data/books/B2002963743_m.jpg', '/data/books/B3589179269_m.jpg', '/data/books/B7543250605_m.jpg', '/data/books/B5051207171_m.jpg', '/data/books/B7197264292_m.jpg', '/data/ebook/E2375873090_m.jpg', '/data/books/B6634694521_m.jpg', '/data/books/B2587075793_m.jpg', 

In [8]:
# 추출한 데이터들을 csv 형식으로 재작성
# 혼자 공부하는 파이썬, 윤인성, 16200
data = ""

for i in range(len(titles)):
    #print(f'"{titles[i]}", "{authors[i].rstrip()}", {prices[i].replace(",","")[:-1]}, {thumbs[i]\n')
    data += f'"{titles[i]}", "{authors[i].rstrip().replace(",","，")}", {prices[i].replace(",","")[:-1]}, {thumbs[i][12:]}\n'

In [9]:
# 추출한 데이터들을 csv 형식 재작성
# 혼자 공부하는 파이썬 윤인성 16200 이미지경로
hdr = 'title,author,price,thumb\n'
with open('books.csv', 'w') as f:
    f.write(hdr)
    f.write(data)

In [10]:
# 한빛미디어 홈페이지의 '새로나온책' 페이지의 도서정보(이미지, 도서명, 저자, 발행일, 가격)를 수집하세요
# 단, 1~3페이지까지의 도서들을 대상으로 수집합니다
url = 'https://www.hanbit.co.kr/store/books/full_book_list.html'
res = requests.get(url)
html = res.text
root = lxml.html.fromstring(html)

brands = []
titles = []
writers = []
pubdates = []
prices = []

# css 선택자가 요소마다 다름
# 이런 경우 이름을 요소를 선택하는 것보다는 요소위치를 선택자로 사용해서 요소를 선택하는 것이 좋음
# for brand in root.cssselect('td.brd_m'):
# 모든 td 테그들 중에서 첫번째 td태그(들)를 선택함
for brand in root.cssselect('table.tbl_type_list td:first_child'):
    # 확인 print(brand.text_content())
    brands.append(brand.text_content())
print(brands)

for title in root.cssselect('td.left a'):
    titles.append(title.text_content())
print(titles)

# 동일한 코드가 있는 경우
# for writer in root.cssselect('td.left+td.left'):
for writer in root.cssselect('td:nth-child(3)'):
    writers.append(writer.text_content())
print(writers)

# 코드가 없는 경우
for pubdate in root.cssselect('td.left+td.left+td'):
    pubdates.append(pubdate.text_content())
print(pubdates)

#for price in root.cssselect('td.right'):
for price in root.cssselect('table.tbl_type_list td:last-child'):  # td:last-child 만 치면 다른 것도 가져옴
    prices.append(price.text_content())
print(prices)

['한빛아카데미', '한빛미디어', '한빛미디어', '한빛미디어', '한빛미디어', '한빛미디어', '한빛라이프', '한빛비즈', '한빛미디어', '한빛비즈', '한빛라이프', '한빛미디어', '한빛아카데미', '한빛미디어', '한빛비즈', '한빛라이프', '한빛미디어', '한빛미디어', '한빛비즈', '한빛라이프', '한빛비즈', '한빛미디어', '한빛라이프', '한빛미디어', '한빛에듀', '한빛에듀', '한빛에듀', '한빛미디어', '한빛미디어', '한빛미디어', '한빛미디어', '한빛아카데미', '한빛아카데미', '한빛에듀', '한빛미디어', '한빛아카데미', '한빛미디어', '한빛미디어', '한빛미디어', '한빛비즈', '한빛아카데미', '한빛에듀', '한빛에듀', '한빛라이프', '한빛비즈', '한빛미디어', '한빛미디어', '한빛미디어', '한빛미디어', '한빛미디어']
['C 언어 for Beginner 4판', '금융 전략을 위한 머신러닝', '그래프QL 인 액션', '비전 시스템을 위한 딥러닝', '무던한 개발자를 위한 모던한 자바스크립트', '오준석의 안드로이드 생존코딩_코틀린 편(2판)', '하루 한 장 초등과학 365', '다시, 배우다', '당당한 디자인 결정을 위한 9가지 방법', '슈퍼 석세스', '365 부모 말하기 연습 일력(스프링북)', '엑셀 매크로&VBA 업무 공략집', '공학도를 위한 수치해석(8판)', '데이터 과학자 되는 법', '돈 되는 기획', '초등 어휘력이 공부력이다', '빠르게 찾아 바로 적용하는 엑셀 에센스 사전 100', '스토리텔링 우동이즘의 잘 팔리는 웹툰, 웹소설 이야기 만들기', '만화로 배우는 의학의 역사(개정판)', '중학교 입학 가이드', '비겁한 돈', '보고서 작성 실무 강의(개정판)', '나도 영문 손글씨 잘 쓰면 소원이 없겠네', '구글 BERT의 정석', '1000개 숨은그림찾기 보물찾기 : 찾아도 찾아도 끝판왕', '1000개 숨은그림찾기 탈것 : 찾아도 찾아도 끝판왕', '1000

### 네이버 검색 예제
+ search.naver.com/search.naver?query=검색어
+ 네이버에 검색어를 입력하고 검색결과에서 데이터 추출
+ 질의 문자열 querystring을 이용해서 검색하고 그 걸과에서 필요한 데이터를 추출함
+ 특정 사이트는 스크래핑이나 크롤링을 막기 위한 방편으로 사이트에 접속하는 사용자의 useragent를 확인함
+ UA 없이 사이트 접속을 시도하면 접속권한 거부의 의미로403 응답코드와 함께 접속을 금지하기로 함

In [11]:
query = 'html5'
url = 'https://search.naver.com/search.naver'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'}
params = {'query' : query}

res = requests.get(url, headers=headers, params=params)
html = res.text
root = lxml.html.fromstring(html)

In [12]:
# 블로그 웹사이트, 네이버책, 포스트 등의 제목과 링크 추출

titles = []
links = []

for web in root.cssselect('panel-list a.api_txt_lines'):
    print(web.text_content())
    print(web.get('href'))

for brain in root.cssselect('a.question_text'):
    print(brain.text_content())
    print(brain.get('href'))

for wiki in root.cssselect('a.link_tit'):
    print(wiki.text_content())
    print(wiki.get('href'))

for book in root.cssselect('a.title_area'):
    print(book.text_content())
    print(book.get('href'))

Html5 구조 | 기초부터 디자인까지 셀프코딩#2
https://blog.naver.com/call_1994/222253172378
[html5 &CSS] CSS 기초 속성선택자 a[href]{background-color: gray; color :black; } #027
https://blog.naver.com/kji9653/222586859039
NonActiveX, 웹표준 HTML5 적용 연말정산 프로그램, IE 종료에 대응하세요!
https://blog.naver.com/ctv0126/222589937855
코린이 html5 css 질문드립니다.
https://cafe.naver.com/hacosa/301623
[HTML5] html5 기본틀
https://blog.naver.com/makeflood/222593552238
GPU를 사용하여 HTML5 기반 게임 앱의 성능을 변화하는 방법
https://cafe.naver.com/windows10user/21613
[HTML5] #1 HTML의 기본
https://blog.naver.com/syjakk/222556885083
 HTML5 - 나무위키 
https://namu.wiki/w/HTML5
 HTML5test - How well does your browser support HTML5? 
https://html5test.com/
 W3C HTML 
https://www.w3.org/html/
 Web Hypertext Application Technology Working Group (WHATWG) 
https://whatwg.org/
 Do it! HTML5+CSS3 웹 표준의 정석 
https://book.naver.com/bookdb/book_detail.nhn?bid=15975063
 Do it! HTML5+CSS3 웹 표준의 정석 
https://book.naver.com/bookdb/book_detail.nhn?bid=11472743
 HTML5 웹 프로그래밍 입문 
https://b

In [13]:
# jtbc 뉴스 사이트(news.jtbc.joins.com)에서
# 사진npic,제목title,기사미리보기preview,범주ntype 등을
# 크롤링해서 jtbcnews 테이블에 저장
# 단, 뉴스기사는 2020-10-22일자를 대상으로 한다
url = 'https://news.jtbc.joins.com/section/list.aspx'
params = {'pdate':'20201022'}
res = requests.get(url, headers=headers, params=params)
html = res.text
root = lxml.html.fromstring(html)

In [14]:
npics = []
titles = []
previews = []
ntypes = []

for npic in root.cssselect('dd.photo a img'):
    #print(npic.get('src'))
    npics.append(npic.get('src'))

for title in root.cssselect('dt.title_cr a'):
    # print(title.text_content())
    titles.append(title.text_content())

for preview in root.cssselect('dd.read_cr a'):
    # print(preview.text_content())
    previews.append(preview.text_content())

for ntype in root.cssselect('span.location'):
    # print(ntype.text_content())
    ntype = ntype.text_content().replace('\t', '')
    ntype = ntype.replace('\r\n', '')
    ntype = ntype.replace(' ', '')
    ntype = ntype.replace('[JTBC>', '')
    ntype = ntype.replace(']', '')
    ntypes.append(ntype)


In [15]:
import re
for ntype in root.cssselect('span.location'):
    # print(ntype.text_content())
    ntype = re.sub('\t|\r\n| ', '', ntype.text_content())
    ntype = re.sub('\[JTBC>|\]', '', ntype)
    ntypes.append(ntype)    

for i in range(len(titles)):
    rows = f'{i} {titles[i]} {previews[i]} \
             {ntypes[i]} {npics[i]}\n'
    print(rows)

print(len(titles), len(previews), len(ntypes), len(npics))

0 건설 폐기물 파묻은 땅에서 벼농사…'브랜드 쌀'로 판매  [앵커]경기도 일부 지역에서 '건설 폐기물'이 섞인 논에서 자란 벼를 브랜드 쌀로 포장해 팔고 있습니다. 저희 취재진이 다섯 달 동안 현장을 추적했는데요. 업체들이 처리 비용을 아끼려고 논에다 폐기물을 퍼부었...              사회 https://photo.jtbc.joins.com/news/2020/10/22/202010222242142756_LC.jpg.tn350.jpg

1 [단독] '술접대' 지목 유흥업소…"김봉현과 검사들 왔었다"  [앵커]오늘(22일) 국정감사에선 김봉현 전 회장이 주장한 '검사 술접대 의혹'도 쟁점이 됐습니다. 아직 그 진위는 확인되지 않고 있는데, 일단 당사자 측은 강하게 반박하고 있습니다. 저희 법조팀이 그 유흥업소를...              사회 https://photo.jtbc.joins.com/news/2020/10/22/202010222217403478_LC.jpg.tn350.jpg

2 [원보가중계] 국감 중에 이러시면…강훈식, 또 게임하다 딱 걸려  좋은 밤, 좋은 뉴스 < 원보가중계 > 시작합니다.첫 번째 소식입니다.앞서 대검찰청 국정감사 리포트에서 미처 다루지 못한 소식이 있어서 준비했습니다.열린민주당 김진애 의원, 윤석열 검찰총장 상대로 부인의 재...              정치 https://photo.jtbc.joins.com/news/2020/10/22/202010222102401754_LC.jpg.tn350.jpg

3 [날씨박사] 먼지에 한파까지…23일 아침은 더 춥다  [앵커]날씨박사 시간입니다. 기상학 박사, 김세현 기상전문기자가 나와 있습니다.김세현 기자, 오늘(22일) 황사 때문에 전국 곳곳에 미세먼지 주의보가 내려졌고, 지금도 내려진 곳이 있다고 하는데, 오늘 밤엔 한...              날씨 https://photo.jtbc.joins.com/news/2020/10/22/202010222120070095_LC