# Selenium 이란?
* 웹브라우저를 자동으로 제어하는 라이브러리
* 원래 다양한 웹브라우저를 자동으로 테스트하는 도구
* 코드를 통해 웹브라우저 조작 가능
* 동적 웹사이트에서 정보를 가져오는데 활용
* https://www.selenium.dev/documentation/webdriver/

In [5]:
!pip install selenium
!pip install webdriver-manager



In [6]:
import selenium
print(selenium.__version__)

4.36.0


In [7]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 웹브라우저를 실행 할 때 사용할 옵션 - 사람인 것처럼 정보 입력
options = Options()
options.add_experimental_option("detach", True)
options.add_argument("start-maximized")
options.add_argument("Chrome/135.0.0.0")
options.add_argument("lang=ko_KR")

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=options
    )

# 웹브라우저에서 url d열기
driver.get("https://search.shopping.naver.com/book/search?bookTabType=ALL&pageIndex=1&pageSize=40&prevQuery=%EB%84%A4%EC%9D%B4%EB%B2%84%20%EB%8F%84%EC%84%9C&query=%ED%95%80%ED%85%8C%ED%81%AC&sort=REL")

In [8]:
search_box = driver.find_element(By.CSS_SELECTOR, "._searchInput_search_text_83jy9._nlog_click")

In [9]:
# 검색창 텍스트 지우기
search_box.clear()

In [10]:
# 검색창에 텍스트 입력
search_box.send_keys("파이썬")

In [11]:
# 검색창에서 검색하기
search_box.send_keys(Keys.ENTER)

In [12]:
search_button = driver.find_element(By.CSS_SELECTOR, "._searchInput_button_search_wu9xq._nlog_click")

In [13]:
# 검색창 버튼 클릭
search_button.click()

In [14]:
search_box.clear()
search_box.send_keys("증권")
search_button.click()

StaleElementReferenceException: Message: stale element reference: stale element not found
  (Session info: chrome=141.0.7390.123); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#staleelementreferenceexception
Stacktrace:
	GetHandleVerifier [0x0x33fe43+66515]
	GetHandleVerifier [0x0x33fe84+66580]
	(No symbol) [0x0x12dc48]
	(No symbol) [0x0x13fc3b]
	(No symbol) [0x0x13ed10]
	(No symbol) [0x0x1350e2]
	(No symbol) [0x0x133608]
	(No symbol) [0x0x1369d4]
	(No symbol) [0x0x136a68]
	(No symbol) [0x0x17a45a]
	(No symbol) [0x0x16fa12]
	(No symbol) [0x0x19b1cc]
	(No symbol) [0x0x16db74]
	(No symbol) [0x0x19b384]
	(No symbol) [0x0x1bcba7]
	(No symbol) [0x0x19afc6]
	(No symbol) [0x0x16c2ca]
	(No symbol) [0x0x16d154]
	GetHandleVerifier [0x0x597353+2521315]
	GetHandleVerifier [0x0x5922d3+2500707]
	GetHandleVerifier [0x0x367c94+229924]
	GetHandleVerifier [0x0x3581f8+165768]
	GetHandleVerifier [0x0x35ecad+193085]
	GetHandleVerifier [0x0x348158+100072]
	GetHandleVerifier [0x0x3482f0+100480]
	GetHandleVerifier [0x0x3325aa+11066]
	BaseThreadInitThunk [0x0x76985d49+25]
	RtlInitializeExceptionChain [0x0x77a3d6db+107]
	RtlGetAppContainerNamedObjectPath [0x0x77a3d661+561]
	(No symbol) [0x0]


# Selenium에서 원하는 요소찾기
* driver.find_element(By.CSS_SELECTOR, "css 셀렉터"): 1개 요소 찾기
* driver.find_elements(By.CSS_SELECTOR, "css 셀렉터"): 여러개 요소 찾기, list로 반환
* driver.find_element(By.ID, "id"): html에서 id에 해당하는 태그 찾아줌
* driver.find_element(By.LINK_TEXT, "link에 포함된 문자"): link에 포함된 문자 찾기
* driver.find_element(By.PARTIAL_LINK_TEXT, "link에 포함된 일부 문자"): link에 포함된 일부 문자 찾기

In [15]:
# 찾은 태그 안쪽 html 출력 .get_attribute('innerHTML')
driver.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").get_attribute('innerHTML').text

AttributeError: 'str' object has no attribute 'text'

In [16]:
# 찾은 태그 안쪽 전체 html 출력 .get_attribute('outerHTML')
driver.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").get_attribute('outerHTML')

'<div class="bookListItem_title__1mWGq"><span class="bookListItem_text__oxa7M"><span>Do it! 점프 투 파이썬</span><span> (중학생도 첫날부터 실습하는 초고속 입문서)</span></span></div>'

In [17]:
# 책제목
title = driver.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").text

In [18]:
# 저자
author = driver.find_element(By.CSS_SELECTOR, ".bookListItem_define_item__jqcW8 > span:nth-child(2)").text

In [19]:
# 출판사
publisher = driver.find_element(By.CSS_SELECTOR, ".bookListItem_detail_publish__SGgZN > span:nth-child(2)").text
publisher

'이지스퍼블리싱'

In [20]:
# 출간일
pub_date = driver.find_element(By.CSS_SELECTOR, ".bookListItem_detail_date__6_wYJ").text

In [21]:
# 평점
rating = driver.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[0][2:]
rating

'4.96'

In [22]:
# 리뷰수
n_reviews = driver.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[1].replace("(", "").replace(")", "")
n_reviews

'85'

In [23]:
# 가격
price = int(driver.find_element(By.CSS_SELECTOR, ".bookPrice_price__Nv4Ee > em").text.replace(",", ""))

In [27]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 웹브라우저를 실행 할 때 사용할 옵션 - 사람인 것처럼 정보 입력
options = Options()
options.add_experimental_option("detach", True)
options.add_argument("start-maximized")
options.add_argument("Chrome/141.0.0.0")
options.add_argument("lang=ko_KR")


driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=options
    )

keyword = input("검색어를 입력하세요:  ")
# 웹브라우저에서 url 열기
book_info_list = {}
for page in range(1, 11):
    driver.get(f"https://search.shopping.naver.com/book/search?bookTabType=ALL&pageIndex={page}&pageSize=40&prevQuery={keyword}&query={keyword}&sort=REL")
    # 전체 40개 데이터를 얻기 위해서 마우스 스크롤
    for scroll in range(0, 8001, 1000):
        driver.execute_script(f"window.scrollTo({0}, {scroll})")
        time.sleep(2)

    book_list = driver.find_elements(By.CSS_SELECTOR, ".list_book > li")
    for book in book_list:
        # 책제목
        title = book.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").text

        try:
            # 저자
            author= book.find_element(By.CSS_SELECTOR, ".bookListItem_define_item__jqcW8 > span:nth-child(2)").text
        except:
            author= ""
        try:
            # 출판사
            publisher = book.find_element(By.CSS_SELECTOR, ".bookListItem_detail_publish__SGgZN > span:nth-child(2)").text
        except:
            publisher = ""
        try:
            # 출간일
            pub_date = book.find_element(By.CSS_SELECTOR, ".bookListItem_detail_date__6_wYJ").text
        except:
            pub_date = ""
        try:
            # 평점
            rating = book.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[0][2:]
        except:
            rating = 0
        try:
            # 리뷰수
            n_reviews = book.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[1].replace("(", "").replace(")", "") if book.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi") != None else 0
        except:
            n_reviews = 0
        try:
            # 가격
            price = int(book.find_element(By.CSS_SELECTOR, ".bookPrice_price__Nv4Ee > em").text.replace(",", "")) 
        except:
            price = 0

        keys = ['책제목', '저자', '출판사', '출간일', '평점', '리뷰수', '가격']
        book_info = (title, author, publisher, pub_date, rating, n_reviews, price)

        for key, value in zip(keys, book_info):
            book_info_list.setdefault(key, []).append(value)

driver.close()            
            
df = pd.DataFrame(book_info_list)
df

검색어를 입력하세요:  파이썬


Unnamed: 0,책제목,저자,출판사,출간일,평점,리뷰수,가격
0,Do it! 점프 투 파이썬 (중학생도 첫날부터 실습하는 초고속 입문서),박응용,이지스퍼블리싱,2023.06.15.,4.96,85,19800
1,혼자 공부하는 파이썬 (1:1 과외하듯 배우는 프로그래밍 자습서),윤인성,한빛미디어,2022.06.01.,4.91,23,19800
2,파이썬,홍의경,생능출판,2022.03.09.,0.0,0,29440
3,독학 파이썬,야마다 요시히로,정보문화사,2024.12.20.,0.0,0,28800
4,파이썬 (제2판),"염기원, 오지영",북두,2022.01.20.,0.0,0,16200
5,으뜸 파이썬 (개정판),"박동규, 강영민",생능출판,2024.06.14.,4.6,10,30600
6,파이썬,염기원,복두출판사,2020.08.20.,0.0,0,13500
7,파이썬,김영천,기한재,2020.02.25.,0.0,0,23000
8,파이썬 (비전공자를위한 파이썬 기초 입문서),김명호,에듀웨이,2019.05.25.,0.0,0,16200
9,파이썬 + AI (코드조각과 실행화면으로 배우는 코딩),"안용제, 김남규",디지털북스,2024.07.15.,5.0,1,23940


In [77]:
title

['핀테크 4.0 (핀테크 혁명과 금융의 미래)',
 '핀테크 4.0 (핀테크 혁명과 금융의 미래)',
 '핀테크',
 '핀테크 (IT와 금융이 만나는 새로운 세상)',
 '핀테크와 법 (제3판)',
 '핀테크 4.0 (핀테크 혁명과 금융의 미래)',
 '핀테크 4.0 (핀테크 혁명과 금융의 미래)',
 '핀테크 혁명 (모바일 은행 설립자가 알려주는 핀테크 시대의 돈 관리 기술)',
 '핀테크가 강한 나라 (석학 9인의 금융 플랫폼 미래 통찰)',
 '핀테크가 강한 나라 (석학 9인의 금융 플랫폼 미래 통찰)']

In [78]:
author

['김종현',
 '김종현',
 '한석주',
 '강창호',
 '강현구, 유주선 외 1명',
 '김종현',
 '김종현',
 '앤 보덴',
 '강형구, 김솔 외 3명',
 '강형구, 김솔 외 3명']

In [79]:
publisher

['한국금융연수원',
 '한국금융연수원',
 '커뮤니케이션북스',
 '한빛미디어',
 '씨아이알',
 '한국금융연수원',
 '한국금융연수원',
 '유엑스리뷰',
 '한울',
 '한울아카데미']

In [80]:
pub_date

['2025.08.26.',
 '2024.12.16.',
 '2015.11.01.',
 '2015.06.05.',
 '2020.11.12.',
 '2020.08.05.',
 '2020.08.05.',
 '2020.03.03.',
 '2024.04.08.',
 '2024.04.08.']

In [81]:
rating

[]

In [82]:
n_reviews

[]

In [85]:
price

[]