# 스크래핑과 크롤링
## 스크래핑(Scraping)
- 웹사이트에 있는 특정 정보를 추출하는 기술
## 크롤링(Crawling)
- 웹사이트를 정기적으로 돌며 정보를 추출하는 기술
## 1.1 데이터 다운로드
- 파이썬 네트워크 라이브러리 urllib
- urllib를 이용한 다운로드

## urllib.request 사용
- urllib.request.urlretrieve() : 파일 직접 다운로드

In [2]:
%%html

<!-- 에디터 폰트를 조정합니다. -->
<style type='text/css'>
.CodeMirror{
    font-size: 14px;
    font-family: Bitstream Vera Sans Mono;
}
</style>

In [3]:
#import
import urllib.request

In [4]:
#다운받을 파일 경로
url = 'https://t1.daumcdn.net/daumtop_chanel/op/20170315064553027.png'
downfile = 'daum_logo.png'

In [5]:
#다운로드
urllib.request.urlretrieve(url, downfile)
print('file download!!')

file download!!


### 기본 사용법
- urllub.parse.urlencode()
- urllib.request.urlopen() : urllib.request.Request 객체를 받아 HTTP 요청
- response.getcode() : 응답코드 200 이면 OK, 404 면 File Not Found 등등
- response.read() : html 을 읽어 옴

In [6]:
# 라이브러리 import
import urllib.request
import urllib.parse

In [7]:
# https://book.naver.com/search/search.nhn?sm=sta_hty.book&sug=&where=nexearch&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC
url = 'https://book.naver.com/search/search.nhn'
# 파라메터
values = {'sm':'sta_hty.book', 'sug':'','where':'nexearch','query':'파이썬'}
params = urllib.parse.urlencode(values)
url = url + '?' + params
print(url)

https://book.naver.com/search/search.nhn?sm=sta_hty.book&sug=&where=nexearch&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC


In [8]:
#download
response = urllib.request.urlopen(url)
status_code = response.getcode()
print(status_code)
data = response.read()
text = data.decode('utf-8')
#print(text)

200


### header 값 추가
- 크롬등의 브라우저에서 header 값 확인
- F12 -> Network -> 주소선택 -> user-agent 값 확인

#### 네이버 책 PC 해더
user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36

#### 네이버 책 모바일 해더
user-agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Mobile Safari/537.36

In [9]:
URL = "http://www.daum.net"
URL = "http://www.naver.com"
header_info = {'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Mobile Safari/537.36'} 
request = urllib.request.Request(URL, headers=header_info) 

response = urllib.request.urlopen(request)
print(response.geturl()) # https://m.daum.net/?nil_top=mobile
print(response.info()) # 응답해더 값

https://m.naver.com/
Server: NWS
Date: Thu, 04 Jun 2020 09:10:33 GMT
Content-Type: text/html; charset=UTF-8
Transfer-Encoding: chunked
Connection: close
Strict-Transport-Security: max-age=63072000
Vary: Cookie,Accept-Encoding,User-Agent
Set-Cookie: MM_NEW=1; Path=/; Domain=.naver.com; Expires=Fri, 04 Jun 2021 09:10:33 GMT
Cache-Control: no-cache, no-store, must-revalidate
Pragma: no-cache
P3P: CP="CAO DSP CURa ADMa TAIa PSAa OUR LAW STP PHY ONL UNI PUR FIN COM NAV INT DEM STA PRE"
X-XSS-Protection: 1; mode=block
X-Frame-Options: DENY
X-Protocol: https
Referrer-Policy: unsafe-url




### Request 모듈
- urllib 보다 유용하며 Rest API를 지원
- 매개변수는 dictionary로 구성 하며 인코딩(URL 인코딩)이 필요없음
- https://2.python-requests.org/en/master/
- 설치(Installation) : pip install requests

#### 기본 사용법
- requests.get(URL) : URL HTTP 요청
- response.status_code : 응답코드 200 이면 OK, 404 면 File Not Found 등등
- response.text : 응답내용을 읽어 옴
- get 요청 : requests.get() 에서 parmas 옵션 사용
- post 요청 : requests.get() 에서 data 옵션 사용
- header 값 추가 : requests.get() 에서 headers 옵션 사용

In [10]:
# 라이브러리 import
import requests

In [11]:
# GET 요청 : params 사용
url = 'https://book.naver.com/search/search.nhn'
# 파라메터
params = {'sm':'sta_hty.book', 'sug':'', 'where':'nexearch','query':'파이썬'}

response = requests.get(url, params=params)
status_code = response.status_code
text = response.text

#print(text)

In [12]:
# POST 요청 : data 사용
url = 'https://book.naver.com/search/search.nhn'
# 파라메터
params = {'sm':'sta_hty.book', 'sug':'', 'where':'nexearch','query':'파이썬'}

response = requests.get(url, data=params)
status_code = response.status_code
text = response.text

#print(text)

### Header 값 추가하기

In [41]:
# header 추가  : headers 사용
url = 'https://book.naver.com/search/search.nhn'
# 파라메터
params = {'sm':'sta_hty.book', 'sug':'', 'where':'nexearch','query':'파이썬'}
#header_info = {'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Mobile Safari/537.36'} 
header_info = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}
response = requests.get(url, headers=header_info, params=params)

#print(dir(response))

status_code = response.status_code
print(status_code)
if status_code == 200:
    mtext = response.text
    uri = response.url
print(uri)
#print(mtext)
#uri # 모바일 주소

200
https://book.naver.com/search/search.nhn?sm=sta_hty.book&sug=&where=nexearch&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC


## BeautifulSoup
- HTML과 XML 정보 추출
- 사이트 주소 : https://www.crummy.com/software/BeautifulSoup/
- 설치(Installation) : pip install beautifulsoup4

### BeautifulSoup 기본 사용법

#### BeautifulSoup객체.태그명

In [14]:
pip install beautifulsoup4

Note: you may need to restart the kernel to use updated packages.


In [15]:
# import
from bs4 import BeautifulSoup

In [42]:
# use soup
soup = BeautifulSoup(mtext, 'html.parser')
# soup
#print(soup)
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [44]:
# 데이터 추출 1
title = soup.title
print(title) # 태그명
print(title.string)
print(title.text) # 데이터가 필요하므로 많이쓰임
print(title.get_text())
print(type(title.string))
print(type(title.text))
print(type(title.get_text()))

<title>
파이썬 검색결과, 책 검색 : 네이버 책</title>

파이썬 검색결과, 책 검색 : 네이버 책

파이썬 검색결과, 책 검색 : 네이버 책

파이썬 검색결과, 책 검색 : 네이버 책
<class 'bs4.element.NavigableString'>
<class 'str'>
<class 'str'>


In [45]:
# 데이터 추출 2
h3 = soup.h3 # Header3으로 되있는 데이터만 추출
print(h3)
print(h3.string)
print(h3.text)
print(type(h3))
print(type(h3.string))
print(type(h3.text))

<h3 class="blind">전체 분야 메뉴</h3>
전체 분야 메뉴
전체 분야 메뉴
<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>
<class 'str'>


#### BeautifulSoup객체(태그명)
- 1개 이상의 데이터를 list로 넘겨줌

In [46]:
# 데이터 추출 1
title = soup('title') # title 태그 가져오기
print(title) # list로 데이터 가져옴
print(title[0].string)

[<title>
파이썬 검색결과, 책 검색 : 네이버 책</title>]

파이썬 검색결과, 책 검색 : 네이버 책


In [47]:
# 데이터 추출 2
h3 = soup('h3') # 여러개를 가져옴
print(h3)
print(h3[0].string)
print(h3[1].text)

[<h3 class="blind">전체 분야 메뉴</h3>, <h3 class="blind">푸터</h3>]
전체 분야 메뉴
푸터


### find() 로 요소 찾기
#### 하나만 검색 : find('태그명')

In [48]:
find_h3 = soup.find('h3')
print(find_h3)
print(find_h3.string)
print(find_h3.text)

<h3 class="blind">전체 분야 메뉴</h3>
전체 분야 메뉴
전체 분야 메뉴


#### 모두 검색 : find_all('태그명')

In [49]:
find_all_meta = soup.find_all('meta')
for i in find_all_meta:
    print(i)

<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="article" property="og:type"/>
<meta content="네이버 책: '파이썬' 검색결과" property="og:title"/>
<meta content="http://book.naver.com/search/search.nhn?sm=sta_hty.book&amp;sug=&amp;where=nexearch&amp;query=%ED%8C%8C%EC%9D%B4%EC%8D%AC" property="og:url"/>
<meta content="https://ssl.pstatic.net/static/m/book/icons/book_og_270x270.png" property="og:image"/>
<meta content="책으로 만나는 새로운 세상" property="og:description"/>
<meta content="" property="og:article:thumbnailUrl"/>
<meta content="네이버 책" property="og:article:author"/>
<meta content="https://book.naver.com" property="og:article:author:url"/>


#### 숫자 제한해서 검색 : find_all('태그명', limit=숫자)

In [50]:
find_all_meta3 = soup.find_all('meta', limit=3)
for i in find_all_meta3:
    print(i)

<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="article" property="og:type"/>


#### 클래스(class)로 검색
- find_all(class_=' ')

In [51]:
find_all_class = soup.find_all(class_='thumb_type thumb_type2')
for i in find_all_class:
    print(i)
    print('*'*50)

<div class="thumb_type thumb_type2">
<a class="N=a:bls.thumb,r:1,i:98000001_000000000000000000E551D0" href="http://book.naver.com/bookdb/book_detail.nhn?bid=15028688" target="_blank">
<img alt="혼자 공부하는 파이썬" onerror="this.src='https://ssl.pstatic.net/static/book/image/noimg3.gif';" src="https://bookthumb-phinf.pstatic.net/cover/150/286/15028688.jpg?type=m1&amp;udate=Thu Jun 04 18:12:03 KST 2020"/><span class="mask"><span class="bg1"></span><span class="bg2"></span></span>
</a>
</div>
**************************************************
<div class="thumb_type thumb_type2">
<a class="N=a:bls.thumb,r:2,i:98000001_000000000000000000E3AFC1" href="http://book.naver.com/bookdb/book_detail.nhn?bid=14921665" target="_blank">
<img alt="파이썬" onerror="this.src='https://ssl.pstatic.net/static/book/image/noimg3.gif';" src="https://bookthumb-phinf.pstatic.net/cover/149/216/14921665.jpg?type=m1&amp;udate=Thu Jun 04 18:12:03 KST 2020"/><span class="mask"><span class="bg1"></span><span class="bg2"></span><

In [52]:
# 책 상세 주소 가져오기 + 리스트에 담기
for i in find_all_class:
    print(i.a.attrs['href'])

book_address = [i.a.attrs['href'] for i in find_all_class]
#print(book_address)

book_bid = [i.split('=')[1] for i in book_address]
book_bid

http://book.naver.com/bookdb/book_detail.nhn?bid=15028688
http://book.naver.com/bookdb/book_detail.nhn?bid=14921665
http://book.naver.com/bookdb/book_detail.nhn?bid=14126163
http://book.naver.com/bookdb/book_detail.nhn?bid=15052904
http://book.naver.com/bookdb/book_detail.nhn?bid=16238302
http://book.naver.com/bookdb/book_detail.nhn?bid=15871779
http://book.naver.com/bookdb/book_detail.nhn?bid=14922892
http://book.naver.com/bookdb/book_detail.nhn?bid=16318024
http://book.naver.com/bookdb/book_detail.nhn?bid=14820571
http://book.naver.com/bookdb/book_detail.nhn?bid=16241301
http://book.naver.com/bookdb/book_detail.nhn?bid=16324192
http://book.naver.com/bookdb/book_detail.nhn?bid=14623546
http://book.naver.com/bookdb/book_detail.nhn?bid=14922211
http://book.naver.com/bookdb/book_detail.nhn?bid=16276456
http://book.naver.com/bookdb/book_detail.nhn?bid=14645299
http://book.naver.com/bookdb/book_detail.nhn?bid=16237901
http://book.naver.com/bookdb/book_detail.nhn?bid=15987559
http://book.na

['15028688',
 '14921665',
 '14126163',
 '15052904',
 '16238302',
 '15871779',
 '14922892',
 '16318024',
 '14820571',
 '16241301',
 '16324192',
 '14623546',
 '14922211',
 '16276456',
 '14645299',
 '16237901',
 '15987559',
 '16330711',
 '14144026',
 '15654623']

In [53]:
# 책 상세 주소 가져오기 다른 방법
for i in find_all_class:
    print(i.a['href'])

http://book.naver.com/bookdb/book_detail.nhn?bid=15028688
http://book.naver.com/bookdb/book_detail.nhn?bid=14921665
http://book.naver.com/bookdb/book_detail.nhn?bid=14126163
http://book.naver.com/bookdb/book_detail.nhn?bid=15052904
http://book.naver.com/bookdb/book_detail.nhn?bid=16238302
http://book.naver.com/bookdb/book_detail.nhn?bid=15871779
http://book.naver.com/bookdb/book_detail.nhn?bid=14922892
http://book.naver.com/bookdb/book_detail.nhn?bid=16318024
http://book.naver.com/bookdb/book_detail.nhn?bid=14820571
http://book.naver.com/bookdb/book_detail.nhn?bid=16241301
http://book.naver.com/bookdb/book_detail.nhn?bid=16324192
http://book.naver.com/bookdb/book_detail.nhn?bid=14623546
http://book.naver.com/bookdb/book_detail.nhn?bid=14922211
http://book.naver.com/bookdb/book_detail.nhn?bid=16276456
http://book.naver.com/bookdb/book_detail.nhn?bid=14645299
http://book.naver.com/bookdb/book_detail.nhn?bid=16237901
http://book.naver.com/bookdb/book_detail.nhn?bid=15987559
http://book.na

In [54]:
# 책 bid : 책 제목 딕셔너리에 담기
for i in find_all_class: # img alt="혼자 공부하는 파이썬"
    print(i.img.attrs['alt'])
    #print(i.img['alt'])
    #print()

book_title = [i.img.attrs['alt'] for i in find_all_class]

혼자 공부하는 파이썬
파이썬
모두의 파이썬
Do it! 점프 투 파이썬
파이썬 머신러닝 완벽 가이드
파이썬 for Beginner
머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로
생활코딩! 파이썬
모두의 데이터 분석 with 파이썬
파이썬과 리액트를 활용한 주식 자동 거래 시스템 구축(프로그래밍&프랙티스 시리즈 22)
Do it! 첫 파이썬
파이썬으로 배우는 알고리즘 트레이딩
파이썬 라이브러리를 활용한 데이터 분석
실무자를 위한 파이썬 100제
파이썬 라이브러리를 활용한 머신러닝
이것이 데이터 분석이다 with 파이썬
데이터 분석 실무 with 파이썬
파이썬과 케라스를 이용한 딥러닝/강화학습 주식투자(개정판)(위키북스 데이터 사이언스 시리즈 55)
파이썬 코딩 도장
파이썬 웹프로그래밍 실전편


## 데이터 list, dict 만들기

In [55]:
book_info_list = []
book_info_dict = {}
for i in find_all_class:
    title = i.img.attrs['alt']
    bid = i.a.attrs['href'].split("=")[1]
    book_info_list.append((bid,title ))
    book_info_dict[bid] = title

book_info_list                 
book_info_dict

{'15028688': '혼자 공부하는 파이썬',
 '14921665': '파이썬',
 '14126163': '모두의 파이썬',
 '15052904': 'Do it! 점프 투 파이썬',
 '16238302': '파이썬 머신러닝 완벽 가이드',
 '15871779': '파이썬 for Beginner',
 '14922892': '머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로',
 '16318024': '생활코딩! 파이썬',
 '14820571': '모두의 데이터 분석 with 파이썬',
 '16241301': '파이썬과 리액트를 활용한 주식 자동 거래 시스템 구축(프로그래밍&프랙티스 시리즈 22)',
 '16324192': 'Do it! 첫 파이썬',
 '14623546': '파이썬으로 배우는 알고리즘 트레이딩',
 '14922211': '파이썬 라이브러리를 활용한 데이터 분석',
 '16276456': '실무자를 위한 파이썬 100제',
 '14645299': '파이썬 라이브러리를 활용한 머신러닝',
 '16237901': '이것이 데이터 분석이다 with 파이썬',
 '15987559': '데이터 분석 실무 with 파이썬',
 '16330711': '파이썬과 케라스를 이용한 딥러닝/강화학습 주식투자(개정판)(위키북스 데이터 사이언스 시리즈 55)',
 '14144026': '파이썬 코딩 도장',
 '15654623': '파이썬 웹프로그래밍 실전편'}

In [56]:
# 책 이름 리스트에 담기
find_all = soup.find_all(class_='thumb_type thumb_type2')
book_title = []
for item in find_all:
    book_title.append(item.img['alt'])
#book_title
# bib번호 리스트에 담기
hef = [i.a.attrs['href'] for i in find_all]
book_id = [i.split('=')[1] for i in hef]
book_id
#하나로 묶는 경우
# book_id = [i.a.attrs['href'].split('=')[1] for i in find_all]

['15028688',
 '14921665',
 '14126163',
 '15052904',
 '16238302',
 '15871779',
 '14922892',
 '16318024',
 '14820571',
 '16241301',
 '16324192',
 '14623546',
 '14922211',
 '16276456',
 '14645299',
 '16237901',
 '15987559',
 '16330711',
 '14144026',
 '15654623']

#### 아이디(id)로 검색

In [57]:
find_id = soup.find(id='searchBiblioList')
# for i in find_id:
#     print(i)

In [58]:
find_all_id = soup.find_all(id='searchBiblioList')
# for i in find_all_id:
#     print(i)

#### 속성으로 검색
- find_all(attrs={'속성':'값'}) 사용

In [59]:
# class 특정 값 가져오기
find_all_attrs_class = soup.find_all(attrs={'class':'thumb_type thumb_type2'})

In [60]:
# id 특정 값 가져오기
find_all_attrs_id = soup.find_all(attrs={'id':'searchBiblioList'})

In [61]:
find_all_attrs_type = soup.find_all(attrs={'type':'책소개'})
print(find_all_attrs_type)

[<dd id="searchDescrition_15028688" line="3" type="책소개">
<span class="txt_g1">소개 </span>
				1:1 과외하듯 배우는 <strong>파이썬</strong> 프로그래밍 자습서(<strong>파이썬</strong> 최신 버전 반영)
이 책은 독학으로 프로그래밍 언어를 처음 배우려는 입문자가, 혹은 <strong>파이썬</strong>을 배우려는 입문자가 ‘꼭 필요한 내용을 제대로’ 학습할 수 있도록 구성했다. ‘무엇을’, ‘어떻게’ 학습해야 할지조차 모르는 입문자의...</dd>, <dd id="searchDescrition_14921665" line="3" type="책소개">
<span class="txt_g1">소개 </span>
				막막했던 <strong>파이썬</strong>, 이제 한 권으로 기초를 배우는
<strong>파이썬</strong> 사용 설명서!전 세계적으로 유명한 구글(GOOGLE)이 자신의 많은 서비스를 <strong>파이썬</strong>으로 제공하고 있습니다. 이것은 구글의 뛰어난 서비스를 개인의 비즈니스에 쉽게 이용할 수 있다는 의미입니다.이러한 발전에 맞춰 <strong>파이썬</strong> 문법의 기초를...</dd>, <dd id="searchDescrition_14126163" line="3" type="책소개">
<span class="txt_g1">소개 </span>
<strong>파이썬</strong> 분야 &amp; 어린이 코딩 교육 분야
2년 연속 베스트셀러! 개정판 출간!

즐겁게 시작하는 나의 첫 프로그래밍!
프로그래밍을 한 번도 해본 적이 없어도 괜찮다. <strong>파이썬</strong>이 무엇인지 몰라도... 어느새 <strong>파이썬</strong> 프로그램으로 멋진 그림을 그리고, 계산을 하고, 간단한 게임을 만들고, 수학 문제를...</dd>, <dd id="searchDescrition_15052904" line="3"

#### 태그의 텍스트(내용)만 검색
- text 속성 사용

In [62]:
find_all_attrs_type = soup.find_all(attrs={'type':'책소개'})
for i in find_all_attrs_type:
    print(i.text)
    print("*"*80)


소개 
				1:1 과외하듯 배우는 파이썬 프로그래밍 자습서(파이썬 최신 버전 반영)
이 책은 독학으로 프로그래밍 언어를 처음 배우려는 입문자가, 혹은 파이썬을 배우려는 입문자가 ‘꼭 필요한 내용을 제대로’ 학습할 수 있도록 구성했다. ‘무엇을’, ‘어떻게’ 학습해야 할지조차 모르는 입문자의...
********************************************************************************

소개 
				막막했던 파이썬, 이제 한 권으로 기초를 배우는
파이썬 사용 설명서!전 세계적으로 유명한 구글(GOOGLE)이 자신의 많은 서비스를 파이썬으로 제공하고 있습니다. 이것은 구글의 뛰어난 서비스를 개인의 비즈니스에 쉽게 이용할 수 있다는 의미입니다.이러한 발전에 맞춰 파이썬 문법의 기초를...
********************************************************************************

소개 
파이썬 분야 & 어린이 코딩 교육 분야
2년 연속 베스트셀러! 개정판 출간!

즐겁게 시작하는 나의 첫 프로그래밍!
프로그래밍을 한 번도 해본 적이 없어도 괜찮다. 파이썬이 무엇인지 몰라도... 어느새 파이썬 프로그램으로 멋진 그림을 그리고, 계산을 하고, 간단한 게임을 만들고, 수학 문제를...
********************************************************************************

소개 
파이썬 4년 연속 베스트셀러 1위! ★★★★
《DO IT! 점프 투 파이썬》 전면 개정판 출시!
문과생도 중고등학생도 직장인도 프로그래밍에 눈뜨게... 점프 투 파이썬》으로 출간되었던 이 책은 약 4년 동안의 피드백을 반영하여 초보자가 더 빠르게 입문하고, 더 깊이 있게 공부할 수 있도록...
************************************************************************

#### CSS 선택자 사용하기
- select_one(선택자) : 요소 하나 추출 == find(태그, class_, id, attrs={'속성':'값'})
- select(선택자) : 요소 리스트로 추출 == find_all()
- 선택자가 들어있는 요소를 select함 값을 선택하는게 아님

- select_one(.class) 클래스로 하나 가져오기

In [36]:
book_group = soup.select_one('div.book_group')
book_group

<div class="book_group"> <a class="book_thumb _lp_load" href="#" lp-api="?_lp_type=cm&amp;col_prs=csa&amp;format=text&amp;nqx_theme=%7B+%22theme%22%3A%7B%22main%22%3A%7B%22name%22%3A%22book_info%22%2C%22os%22%3A15028688%2C%22pkid%22%3A20000%7D%7D+%7D&amp;query=%25ED%258C%258C%25EC%259D%25B4%25EC%258D%25AC&amp;sm=igr_brg&amp;tab=info&amp;tab_prs=csa&amp;where=bridge" onclick="return tCR('a=bok.img&amp;r=1&amp;i=98000001_000000000000000000E551D0');"> <img alt="혼자 공부하는 파이썬" onerror="on_noimage_book(this, 87, 123, 'bg_nimg2');" src="https://search.pstatic.net/common/?src=https%3A%2F%2Fbookthumb-phinf.pstatic.net%2Fcover%2F150%2F286%2F15028688.jpg%3Ftype%3Dw150%26udate%3D20200321&amp;type=m174_246" width="87"/> <span class="sticker_best">베스트<br>셀러</br></span> </a> <div class="book_info"> <a class="title_area _ellipsis _lp_load" href="#" lp-api="?_lp_type=cm&amp;col_prs=csa&amp;format=text&amp;nqx_theme=%7B+%22theme%22%3A%7B%22main%22%3A%7B%22name%22%3A%22book_info%22%2C%22os%22%3A15028688%2

- select_one(#id) 아이디로 하나 가져오기

In [37]:
book_aside = soup.select_one('div#aside')
book_aside

<div id="aside"><section class="api_subject_bx nrealtime_srch type_old" id="_keywordRank"> <div class="group_title"> <div class="_menu tab_menu" role="tablist"> <a aria-selected="false" class="tab _tab" href="#" onclick="tCR('a=brk_old*r.tab&amp;r=&amp;i=&amp;m=0&amp;u=javascript'); return false;" role="tab">급상승 검색어</a> <a aria-selected="true" class="tab selected _tab" href="#" onclick="tCR('a=brk_old*h.tab&amp;r=&amp;i=&amp;m=0&amp;u=javascript'); return false;" role="tab">뉴스토픽</a> </div> </div> <div class="_content group_ranking type_realtime" style="display:none"> <div class="title_area"> <h3 class="title">급상승 검색어</h3> </div> <div class="group_kwd"> <div class="_submenu tab_area"> <ul class="realtime_tab" role="tablist"> <li class="item" role="presentation"> <a aria-selected="true" class="_tab tab selected" href="#" onclick="tCR('a=brk_old*r.lefttab&amp;r=&amp;i=&amp;m=0&amp;u=javascript'); return false;" role="tab"> <span class="tab_inner">1~10위</span> </a> </li> <li class="item" r

- select_one(태그명) 태그 하나로 가져오기

In [38]:
book_img = book_group.select_one('img')
book_img

<img alt="혼자 공부하는 파이썬" onerror="on_noimage_book(this, 87, 123, 'bg_nimg2');" src="https://search.pstatic.net/common/?src=https%3A%2F%2Fbookthumb-phinf.pstatic.net%2Fcover%2F150%2F286%2F15028688.jpg%3Ftype%3Dw150%26udate%3D20200321&amp;type=m174_246" width="87"/>

- 속성으로 값 가져오기 [속성값]

In [39]:
book_alt = book_img['alt']
book_alt

'혼자 공부하는 파이썬'

In [40]:
book_href = book_group.select_one('a')['href']
book_href

'#'