# browserless 크롤링

- 앞선 셀레니움은 물리적으로 직접 브라우저를 켜 놓고 크롤링을 했습니다.
- 이렇게 크롤링을 하면 사람과 컴퓨터를 구분할 수 없기 때문에 크롤링을 막는 사이트를 뚫기 유용하고
- 무엇보다 눈에 동작이 보여서 직관적이지만, 실행 속도가 느리다는 단점이 있습니다.

- 셀레니움을 통한 크롤링 시에는,특히 비동기 요청이나 api 크롤링을 하는데 어려움이 있기 때문에 
- 이를 보완하기 위해 * requests * 를 사용합니다.

- 서식을 손상시키지 않고(콤마 포함하고 싶을때) 넣으려면 해당 문자를 따옴표""로 묶어준다)

> 🟥 임포트

In [185]:
# 셀레니움과 달리, 내장되어 있어서 따로 설치할 필요 없음
import requests

> 🟥 데이터 가져오기
>
> - 브라우저가 없기 때문에 '어디로 이동해라'라는 행동이 필요 없음
> - 1. request.get("접속주소")로 접속
> - 2. 받아온 변수 res.text를 하면 해당 페이지의 소스코드가 나옵니다.
> - 3. 뷰티풀 스프에서 파싱한 다음, 하던대로 사용하면 됨

In [6]:
# 1. request.get("접속주소")로 접속

res = requests.get("http://www.naver.com")

# 2. 받아온 변수 res.text를 하면 해당 페이지의 소스코드가 나옵니다.
source = res.text

In [7]:
# 3. 확인
source

'\n<!doctype html>                          <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버

In [13]:
# 4. 뷰티풀 스프에서 파싱한 다음, 하던대로 사용하면 됨
from bs4 import BeautifulSoup

import time 
import codecs

### 🟦 (실습) 교보문고 순회 크롤링 하기

- 교보문고 순회크롤러를 이용해 1 ~ 200위까지의 도서 제목, 가격, 저자를 얻어와서 txt & csv 파일로 만들어주세요

In [182]:
# 0. 리스트 생성

total_title = []
total_author = []
total_price = []

In [183]:
# 1. 교보문고 베스트 페이지 접속

for i in range(1, 11) :
    
    # 해당 페이지 접속 후, 소스코드 파이썬 변수로 저장하기
    res = requests.get("https://www.kyobobook.co.kr/bestSellerNew/bestseller.laf?targetPage=%s" % i)
    time.sleep(2)
    source = res.text
    
    # 디버깅용 코드
    print("%s페이지 진행중" %i)
    
    # 저장된 파이썬 코드 파싱하기
    parsed_source = BeautifulSoup(source, "html.parser")
    
    detail_list = parsed_source.find_all("div", class_="detail")
    
    # 제목, 저자, 가격
    for item in detail_list :
        title = item.find_all("div", class_="title")
        total_title.append(title[0].text.strip().replace(",",""))
        # 🟡 콤마를 빼지 않고 싶다면, title의 앞 뒤에 따옴표를 붙여주면 된다 ex '"' + title[0].text.strip() + '"'
    
        author = item.find_all("div", class_="author")
        #print(author[0].text.strip().replace("\t","").replace("\r\n","").replace("\n",""))
        total_author.append(author[0].text.strip().replace("\t","").replace("\r\n","").replace("\n","")) 
    
        price = item.find_all("strong", class_="book_price")
        #print(price[0].text.replace(",","").replace("원", "") + "\n")
        total_price.append(price[0].text.replace(",","").replace("원", ""))
        
    time.sleep(2)
    

1페이지 진행중
2페이지 진행중
3페이지 진행중
4페이지 진행중
5페이지 진행중
6페이지 진행중
7페이지 진행중
8페이지 진행중
9페이지 진행중
10페이지 진행중


In [None]:
# 2. 리스트에 잘 들어갔나 디버깅

In [176]:
print(total_title)

['작별인사', '불편한 편의점(40만부 기념 벚꽃 에디션)', '흔한남매 10', '인플레이션에서 살아남기', '역행자', '기분을 관리하면 인생이 관리된다', '마음의 법칙', '변화하는 세계 질서', '행성 1(양장본 HardCover)', '문재인의 위로(양장본 HardCover)', '세상의 마지막 기차역', '최재천의 공부', 'Go Go 카카오프렌즈 24: 스웨덴', '무엇이 옳은가', '멘탈을 바꿔야 인생이 바뀐다', '어느 날, 내 죽음에 네가 들어왔다', '이어령의 마지막 수업', '내가 틀릴 수도 있습니다', '이웃집 백만장자(골드 리커버 에디션)', '어서 오세요, 휴남동 서점입니다 (여름 숲 에디션)', '설민석의 한국사 대모험 21', '운명을 바꾸는 부동산 투자 수업: 기초편', '2022 제13회 젊은작가상 수상작품집', '물고기는 존재하지 않는다', '이상한 과자 가게 전천당 14', '나의 투자는 새벽 4시에 시작된다', '부자 아빠 가난한 아빠 1(20주년 특별 기념판)(개정증보판)', '돈그릇을 키우는 6가지 방법', '둥실이네 떡집(난 책읽기가 좋아)(양장본 HardCover)', '더 찬스(인생명강)(양장본 HardCover)', '책들의 부엌', '테라피스트', '오은영의 화해', '밤의 끝을 알리는(양장본 HardCover)', '저주토끼(3판)', '나는 대출 없이 0원으로 소형 아파트를 산다', '나의 히어로 아카데미아 33', '세븐', '나를 살리는 논어 한마디', '컬러애 물들다', '돈의 속성(200쇄 리커버에디션)(개정증보판)(양장본 HardCover)', '나에게 고맙다(30만 부 기념 전면 개정판)', '룬의 아이들 블러디드 5(양장본 HardCover)', '나는 당신이 행복했으면 좋겠습니다', '흔한남매 별난 방탈출 5', '긴긴밤(보름달문고 83)', '나로서 충분히 괜찮은 사람', '지박소년 하나코 군 17', '당신은 결국 무엇이든 해내는 사람', '고민의 답', '칵테일, 러브, 좀비(안전가

In [177]:
print(total_author)

['김영하| 복복서가| 2022년 05월 02일', '김호연| 나무옆의자| 2021년 04월 20일', '흔한남매 (원작)저자 더보기백난도| 미래엔아이세움| 2022년 04월 28일', '오건영| 페이지2북스| 2022년 05월 23일', '자청| 웅진지식하우스| 2022년 05월 30일', '김다슬| 클라우디아| 2022년 04월 12일', '폴커 키츠저자 더보기마누엘 투쉬| 포레스트북스| 2022년 02월 10일', '레이 달리오| 한빛비즈| 2022년 06월 01일', '베르나르 베르베르| 열린책들| 2022년 05월 30일', '더휴먼 편집부| 더휴먼| 2022년 05월 10일', '무라세 다케시| 모모| 2022년 05월 09일', '최재천저자 더보기안희경| 김영사| 2022년 05월 18일', '김미영| 아울북| 2022년 05월 25일', '후안 엔리케스| 세계사| 2022년 04월 19일', '박세니| 마인드셋(Mindset)| 2022년 04월 30일', '세이카 료겐| 모모| 2022년 05월 09일', '김지수저자 더보기이어령| 열림원| 2021년 10월 28일', '비욘 나티코 린데블라드| 다산초당| 2022년 04월 18일', '토머스 J. 스탠리저자 더보기윌리엄 D. 댄코| 리드리드출판| 2022년 06월 10일', '황보름| 클레이하우스| 2022년 01월 17일', '설민석저자 더보기스토리박스| 단꿈아이| 2022년 05월 27일', '정태익| 리더스북| 2022년 03월 22일', '임솔아저자 더보기김멜라김병운김지연김혜진| 문학동네| 2022년 04월 08일', '룰루 밀러| 곰출판| 2021년 12월 17일', '히로시마 레이코| 길벗스쿨| 2022년 04월 25일', '유목민| 리더스북| 2022년 04월 15일', '로버트 기요사키| 민음인| 2018년 02월 22일', '김승현| 앤페이지| 2022년 04월 29일', '김리리| 비룡소| 2022년 04월 22일', '김영익| 21세기북스| 2022년 05월 11일', '김

In [None]:
print(total_price)

In [None]:
# 3. 위에 얻어 놓은 total_title, totla_author, total_price를 이용해 csv 형태로 데이터를 저장해보세요

In [179]:
# 3-1 print로 확인

for i in range(len(total_author)) :
    print(total_title[i]+",", total_author[i]+",", total_price[i]+"\n")

작별인사, 김영하| 복복서가| 2022년 05월 02일, 12600

불편한 편의점(40만부 기념 벚꽃 에디션), 김호연| 나무옆의자| 2021년 04월 20일, 12600

흔한남매 10, 흔한남매 (원작)저자 더보기백난도| 미래엔아이세움| 2022년 04월 28일, 12150

인플레이션에서 살아남기, 오건영| 페이지2북스| 2022년 05월 23일, 16920

역행자, 자청| 웅진지식하우스| 2022년 05월 30일, 15750

기분을 관리하면 인생이 관리된다, 김다슬| 클라우디아| 2022년 04월 12일, 15840

마음의 법칙, 폴커 키츠저자 더보기마누엘 투쉬| 포레스트북스| 2022년 02월 10일, 14400

변화하는 세계 질서, 레이 달리오| 한빛비즈| 2022년 06월 01일, 34200

행성 1(양장본 HardCover), 베르나르 베르베르| 열린책들| 2022년 05월 30일, 15120

문재인의 위로(양장본 HardCover), 더휴먼 편집부| 더휴먼| 2022년 05월 10일, 14220

세상의 마지막 기차역, 무라세 다케시| 모모| 2022년 05월 09일, 12600

최재천의 공부, 최재천저자 더보기안희경| 김영사| 2022년 05월 18일, 14850

Go Go 카카오프렌즈 24: 스웨덴, 김미영| 아울북| 2022년 05월 25일, 10800

무엇이 옳은가, 후안 엔리케스| 세계사| 2022년 04월 19일, 16020

멘탈을 바꿔야 인생이 바뀐다, 박세니| 마인드셋(Mindset)| 2022년 04월 30일, 14220

어느 날, 내 죽음에 네가 들어왔다, 세이카 료겐| 모모| 2022년 05월 09일, 13500

이어령의 마지막 수업, 김지수저자 더보기이어령| 열림원| 2021년 10월 28일, 14850

내가 틀릴 수도 있습니다, 비욘 나티코 린데블라드| 다산초당| 2022년 04월 18일, 14400

이웃집 백만장자(골드 리커버 에디션), 토머스 J. 스탠리저자 더보기윌리엄 D. 댄코| 리드리드

In [184]:
# 3-2 파일에 넣기

f = codecs.open("C:/crawler1/kyobo2.txt", encoding="utf-8", mode="w") 

f.write("제목,저자,가격\n")

for i in range(len(total_author)) : # 어차피 길이 200
    f.write(total_title[i]+",")
    f.write(total_author[i]+",")
    f.write(total_price[i]+"\n")
    
    # 선생님은 포매팅 사용하심
    ##f.write("%s,%s,%s\n" % (total_title[i], total_author[i] ...)
    
f.close()

> 이 아래는 위의 코드를 위한 노력 ㅠ

In [10]:
# 1-1 일단 1 페이지를 상대로 얻어오기 연습

res = requests.get("https://www.kyobobook.co.kr/bestSellerNew/bestseller.laf?targetPage=1")
source = res.text
source

'\n\n\n\n\n\n\n\r\n\r\n\r\n\r\n\r\n<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\r\n<html xmlns="http://www.w3.org/1999/xhtml" lang="ko" xml:lang="ko">\r\n<!-- s:html:head -->\r\n<head>\r\n\r\n\r\n\r\n\r\n\n\n\n\n\n\n\n\r\n \n\n\n\n\n\n\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\n\n\n\n\n\n\n\r\n\r\n\r\n<title>교보문고 종합 주간 집계 | 국내도서 | 베스트셀러 - 교보문고</title>\r\n\r\n\r\n\r\n\n\n\n\n\n\n\n\r\n\r\n\r\n\r\n\r\n\r\n<!--MS의 최신 웹브라우저인 edge 브라우저 호환을 위해 넣어줌-->\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n\r\n<meta http-equiv="Content-Type" content="text/html; charset=euc-kr"/>\r\n<meta http-equiv="Pragma" content="nocache"/>\r\n<meta http-equiv="Expires" content="0"/>\r\n<meta http-equiv="Cache-Control" content="no-cache"/>\r\n\r\n\r\n\r\n<link rel="shortcut icon" href="https://simage.kyobobook.co.kr/newimages/apps/b2c/kyobo.ICO"/>\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\

In [14]:
parsed_source = BeautifulSoup(source, "html.parser")
print(parsed_source)


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml">
<!-- s:html:head -->
<head>
<title>교보문고 종합 주간 집계 | 국내도서 | 베스트셀러 - 교보문고</title>
<!--MS의 최신 웹브라우저인 edge 브라우저 호환을 위해 넣어줌-->
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type">
<meta content="nocache" http-equiv="Pragma"/>
<meta content="0" http-equiv="Expires"/>
<meta content="no-cache" http-equiv="Cache-Control"/>
<link href="https://simage.kyobobook.co.kr/newimages/apps/b2c/kyobo.ICO" rel="shortcut icon"/>
<link href="https://simage.kyobobook.co.kr/ink/css/default_ink_ssl.css" rel="stylesheet" type="text/css"/>
<!-- s:공통 스크립트 -->
<script src="https://simage.kyobobook.co.kr/ink/js/jquery-1.4.4.min.js" type="text/javascript"></script>
<script type="text/javascript">jQuery.noConflict();</script>
<script src="/js/prototype.js" type=

In [19]:
detail_list = parsed_source.find_all("div", class_="detail")
print(len(detail_list))

20


In [161]:
# 타이틀 완

for item in detail_list :
    title = item.find_all("div", class_="title")
    ##total_title.append(author[0].text.strip().replace("\t",""))
    print(title[0].text.strip())

작별인사
불편한 편의점(40만부 기념 벚꽃 에디션)
흔한남매 10
인플레이션에서 살아남기
역행자
기분을 관리하면 인생이 관리된다
마음의 법칙
변화하는 세계 질서
행성 1(양장본 HardCover)
문재인의 위로(양장본 HardCover)
세상의 마지막 기차역
최재천의 공부
Go Go 카카오프렌즈 24: 스웨덴
무엇이 옳은가
멘탈을 바꿔야 인생이 바뀐다
어느 날, 내 죽음에 네가 들어왔다
이어령의 마지막 수업
내가 틀릴 수도 있습니다
이웃집 백만장자(골드 리커버 에디션)
어서 오세요, 휴남동 서점입니다


In [143]:
# 저자 완 ( 나중에 다시 보기 !! \r\n을 제거한 후, \n을 제거해야 제대로 돌아갔음 )

for item in detail_list :
    author = item.find_all("div", class_="author")
    print(author[0].text.strip().replace("\t","").replace("\r\n","").replace("\n",""))
    ##total_author.append(author[0].text.strip().replace("\t","").replace("\r\n","").replace("\n",""))

김영하| 복복서가| 2022년 05월 02일
김호연| 나무옆의자| 2021년 04월 20일
흔한남매 (원작)저자 더보기백난도| 미래엔아이세움| 2022년 04월 28일
오건영| 페이지2북스| 2022년 05월 23일
자청| 웅진지식하우스| 2022년 05월 30일
김다슬| 클라우디아| 2022년 04월 12일
폴커 키츠저자 더보기마누엘 투쉬| 포레스트북스| 2022년 02월 10일
레이 달리오| 한빛비즈| 2022년 06월 01일
베르나르 베르베르| 열린책들| 2022년 05월 30일
더휴먼 편집부| 더휴먼| 2022년 05월 10일
무라세 다케시| 모모| 2022년 05월 09일
최재천저자 더보기안희경| 김영사| 2022년 05월 18일
김미영| 아울북| 2022년 05월 25일
후안 엔리케스| 세계사| 2022년 04월 19일
박세니| 마인드셋(Mindset)| 2022년 04월 30일
세이카 료겐| 모모| 2022년 05월 09일
김지수저자 더보기이어령| 열림원| 2021년 10월 28일
비욘 나티코 린데블라드| 다산초당| 2022년 04월 18일
토머스 J. 스탠리저자 더보기윌리엄 D. 댄코| 리드리드출판| 2022년 06월 10일
황보름| 클레이하우스| 2022년 01월 17일


In [144]:
# 가격 완

for item in detail_list :
    price = item.find_all("strong", class_="book_price")
    print(price[0].text.replace(",","").replace("원", "") + "\n")

12600

12600

12150

16920

15750

15840

14400

34200

15120

14220

12600

14850

10800

16020

14220

13500

14850

14400

16920

13500

