# Selenium 이란?
* 웹브라우저를 자동으로 제어하는 라이브러리
* 원래 다양한 웹브라우저를 자동으로 테스트하는 도구
* 코드를 통해 웹브라우저 조작 가능
* 동적 웹사이트에서 정보를 가져오는 활용
* https://www.selenium.dev/documentation/webdriver/

In [5]:
# !pip install selenium
# !pip install webdriver-manager

In [6]:
import selenium
print(selenium.__version__)

4.36.0


In [7]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 웹브라우저를 실행 할 때 사용할 옵션 - 사람인 것처럼 정보 입력
options = Options()
options.add_experimental_option("detach", True)
options.add_argument("start-maximized")
options.add_argument("Chrome/141.0.0.0")
options.add_argument("lang=ko_KR")


driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=options
    )
# 웹브라우저에서 url 열기
driver.get("https://search.shopping.naver.com/book/search?bookTabType=ALL&pageIndex=1&pageSize=40&prevQuery=%EB%84%A4%EC%9D%B4%EB%B2%84%EB%8F%84%EC%84%9C&query=%ED%95%80%ED%85%8C%ED%81%AC&sort=REL")

In [9]:
search_box = driver.find_element(By.CSS_SELECTOR, "._searchInput_search_text_83jy9._nlog_click")
search_box.clear()

In [10]:
search_box.send_keys("파이썬")

In [11]:
search_box.send_keys(Keys.ENTER)

In [15]:
search_box = driver.find_element(By.CSS_SELECTOR, "._searchInput_search_text_83jy9._nlog_click")
search_box.clear()
search_box.send_keys("증권")
search_button = driver.find_element(By.CSS_SELECTOR, "._searchInput_button_search_wu9xq._nlog_click")
search_button.click()

# selenium에서 원하는 요소찾기
* driver.find_element(By.CSS_SELECTOR,css셀렉터): 1개 요소 찾기
* driver.find_elements(By.CSS_SELECTOR,css셀렉터): 여러개의 요소 찾기, list 반환
* driver.find_element(By.ID, "id"): html에서 id에 해당하는 태그 찾아줌
* driver.find_element(By.LINK_TEXT, "link에 포함된 문자"): link에 포함된 문자 찾기
* driver.find_element(By.PARTIAL_LINK_TEXT, "link에 포함된 일부 문자"): link에 포함된 문자 찾기

In [21]:
# 찾은 태그 안쪽 html 출력 .get_attribute('innerHTML')
driver.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").get_attribute('innerHTML')

'<span class="bookListItem_text__oxa7M"><span>주식투자 단기 트레이딩의 정석</span></span>'

In [19]:
# 찾은 태그 안쪽 html 출력 .get_attribute('outerHTML')
driver.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").get_attribute('outerHTML')

'<div class="bookListItem_title__1mWGq"><span class="bookListItem_text__oxa7M"><span>주식투자 단기 트레이딩의 정석</span></span></div>'

In [22]:
# 책제목
title = driver.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").text

'주식투자 단기 트레이딩의 정석'

In [25]:
# 저자
author= driver.find_element(By.CSS_SELECTOR, ".bookListItem_define_item__jqcW8 > span:nth-child(2)").text

In [30]:
# 출판사
publisher = driver.find_element(By.CSS_SELECTOR, ".bookListItem_detail_publish__SGgZN > span:nth-child(2)").text

In [32]:
# 출간일
pub_date = driver.find_element(By.CSS_SELECTOR, ".bookListItem_detail_date__6_wYJ").text

In [38]:
# 평점
rating = driver.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[0][2:]

In [42]:
# 리뷰수
n_reviews = driver.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[1].replace("(", "").replace(")", "")

In [46]:
# 가격
price = int(driver.find_element(By.CSS_SELECTOR, ".bookPrice_price__Nv4Ee > em").text.replace(",", ""))

In [52]:
title = [titles.text for titles in driver.find_elements(By.CSS_SELECTOR, ".bookListItem_title__1mWGq")]
title

['주식투자 단기 트레이딩의 정석',
 '벤저민 그레이엄의 증권분석',
 'ETF 투자의 모든 것 (배당수익과 주가수익 다 잡는 제2의 소득 파이프라인)',
 '트레이딩의 전설 (실전투자대회 수상자 9인을 만나다)',
 '한국의 미래 (거대한 변곡점, 마지막 부의 기회를 잡아라)',
 '단 3개의 미국 ETF로 은퇴하라 (원하는 삶을 앞당기는 돈 자동 사냥 시스템)',
 '워런 버핏 바이블: 완결판 (버핏이 직접 말해주는 투자와 경영, 삶의 지혜: 1983~2025)',
 '주식 투자의 기쁨 (89세 현역 트레이더 시게루 할아버지의 흔들리지 않는 투자 철학)',
 '주식투자 단기 트레이딩의 정석 (25년 투자 고수가 전하는 매일 수익 내는 단타 매매의 기술)',
 '투자디톡스 + 필사노트 세트 (본성에 휘둘리지 않고 불안에서 벗어나기)']

# 네이버 책 데이터 수집하기

In [79]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 웹브라우저를 실행 할 때 사용할 옵션 - 사람인 것처럼 정보 입력
options = Options()
options.add_experimental_option("detach", True)
options.add_argument("start-maximized")
options.add_argument("Chrome/141.0.0.0")
options.add_argument("lang=ko_KR")


driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=options
    )

keyword = input("검색어를 입력하세요:  ")
# 웹브라우저에서 url 열기
book_info_list = {}
for page in range(1, 11):
    driver.get(f"https://search.shopping.naver.com/book/search?bookTabType=ALL&pageIndex={page}&pageSize=40&prevQuery={keyword}&query={keyword}&sort=REL")

    # 전체 40개 데이터를 얻기 위해서 마우스 스크롤
    for scroll in range(0, 8001, 1000):
        driver.execute_script(f"window.scrollTo({0}, {scroll})")
        time.sleep(2)

    book_list = driver.find_elements(By.CSS_SELECTOR, ".list_book > li")
    for book in book_list:
        # 책제목
        title = book.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").text

        try:
            # 저자
            author= book.find_element(By.CSS_SELECTOR, ".bookListItem_define_item__jqcW8 > span:nth-child(2)").text
        except:
            author= ""
        try:
            # 출판사
            publisher = book.find_element(By.CSS_SELECTOR, ".bookListItem_detail_publish__SGgZN > span:nth-child(2)").text
        except:
            publisher = ""
        try:
            # 출간일
            pub_date = book.find_element(By.CSS_SELECTOR, ".bookListItem_detail_date__6_wYJ").text
        except:
            pub_date = ""
        try:
            # 평점
            rating = book.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[0][2:]
        except:
            rating = 0
        try:
            # 리뷰수
            n_reviews = book.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[1].replace("(", "").replace(")", "") if book.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi") != None else 0
        except:
            n_reviews = 0
        try:
            # 가격
            price = int(book.find_element(By.CSS_SELECTOR, ".bookPrice_price__Nv4Ee > em").text.replace(",", "")) 
        except:
            price = 0

        keys = ['책제목', '저자', '출판사', '출간일', '평점', '리뷰수', '가격']
        book_info = (title, author, publisher, pub_date, rating, n_reviews, price)

        for key, value in zip(keys, book_info):
            book_info_list.setdefault(key, []).append(value)

driver.close()            
            
df = pd.DataFrame(book_info_list)
df

검색어를 입력하세요:  파이썬


Unnamed: 0,책제목,저자,출판사,출간일,평점,리뷰수,가격
0,파이썬 디자인 패턴 2/e (디자인 패턴을 사용해 소프트웨어 설계 문제 해결하기),체탄 기리다,에이콘출판,2018.11.30.,0.0,0,13500
1,"자료구조와 알고리즘 with 파이썬 (수강생이 궁금해하고, 어려우하는 내용을 가장 ...",최영규,생능북스,2023.11.20.,5.0,1,21600
2,"전문가를 위한 파이썬 (파이썬3 버전 기준 | 간단하고, 명료하고, 효율적인 파이썬...",루시아누 하말류,한빛미디어,2016.08.12.,4.5,2,49500
3,파이썬으로 배우는 공업수학,"김도영, 김재현 외 3명",지오북스,2022.03.01.,0.0,0,0
4,파이썬 핵심 레퍼런스 (빠르게 찾아서 바로 적용하는 실무가이드 | 파이썬 3.4와 ...,마크 루츠,인사이트,2016.08.12.,0.0,0,15120
5,마인크래프트로 배우는 파이썬 입문,주식회사 Nuco 카지마 유헤이,에이케이커뮤니케이션즈,2023.11.25.,5.0,1,14220
6,"파이썬 네트워크 프로그래밍 (사물인터넷을 위한, 제3판)","서열규, 전희성",복두출판사,2022.02.25.,0.0,0,25200
7,파이썬 프로그래밍 길라잡이,장혜진,홍릉,2022.02.25.,0.0,0,27550
8,파이썬과 수치 해석 2/e (파이썬 수치 해석 레시피),로버트 요한슨,에이콘출판,2019.08.30.,0.0,0,45000
9,파이썬으로 제어하는 마이크로비트 개정판 (개정판),북마크,부크크(bookk),2025.01.02.,0.0,0,10900
