# Selenium 이란?

* 웹브라우저를 자동으로 제어하는 라이브러리
* 원래 다양한 웹브라우저를 자동으로 테스트하는 도구
* 코드를 통해 웹브라우저 조작 가능
* 동적 웹사이트에서 정보를 가져오는 활용
* https://www.selenium.dev/documentation/webdriver/

In [1]:
# !pip install selenium
# !pip install webdriver-manager

Collecting selenium
  Downloading selenium-4.36.0-py3-none-any.whl.metadata (7.5 kB)
Collecting trio<1.0,>=0.30.0 (from selenium)
  Downloading trio-0.31.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket<1.0,>=0.12.2 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting sortedcontainers (from trio<1.0,>=0.30.0->selenium)
  Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl.metadata (10 kB)
Collecting outcome (from trio<1.0,>=0.30.0->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket<1.0,>=0.12.2->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Downloading selenium-4.36.0-py3-none-any.whl (9.6 MB)
   ---------------------------------------- 0.0/9.6 MB ? eta -:--:--
   ---------------------------------------- 0.0/9.6 MB ? eta -:--:--
   --- ------------------------------------ 0.8/9.6 MB 3.4 MB/s eta 0:00:03
   ---- ---------

Collecting webdriver-manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl (27 kB)
Installing collected packages: webdriver-manager
Successfully installed webdriver-manager-4.0.2


In [2]:
import selenium
print(selenium.__version__)

4.36.0


In [3]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 웹브라우저를 실행 할 때 사용할 옵션 - 사람인 것처럼 정보 입력
options = Options()
options.add_experimental_option("detach", True)
options.add_argument("start-maximized")
options.add_argument("Chrome/141.0.0.0")
options.add_argument("lang=ko_KR")


driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=options
    )
# 웹브라우저에서 url 열기
driver.get("https://search.shopping.naver.com/book/search?bookTabType=ALL&pageIndex=1&pageSize=40&prevQuery=%EB%84%A4%EC%9D%B4%EB%B2%84%EB%8F%84%EC%84%9C&query=%ED%95%80%ED%85%8C%ED%81%AC&sort=REL")

In [4]:
search_box = driver.find_element(By.CSS_SELECTOR, "._searchInput_search_text_83jy9._nlog_click")
search_box.clear()

In [5]:
search_box.send_keys("파이썬")

In [6]:
search_box.send_keys(Keys.ENTER)

In [7]:
search_box = driver.find_element(By.CSS_SELECTOR, "._searchInput_search_text_83jy9._nlog_click")
search_box.clear()
search_box.send_keys("증권")
search_button = driver.find_element(By.CSS_SELECTOR, "._searchInput_button_search_wu9xq._nlog_click")
search_button.click()

# selenium에서 원하는 요소찾기

* driver.find_element(By.CSS_SELECTOR,css셀렉터): 1개 요소 찾기
* driver.find_elements(By.CSS_SELECTOR,css셀렉터): 여러개의 요소 찾기, list 반환
* driver.find_element(By.ID, "id"): html에서 id에 해당하는 태그 찾아줌
* driver.find_element(By.LINK_TEXT, "link에 포함된 문자"): link에 포함된 문자 찾기
* driver.find_element(By.PARTIAL_LINK_TEXT, "link에 포함된 일부 문자"): link에 포함된 문자 찾기

In [8]:
# 찾은 태그 안쪽 html 출력 .get_attribute('innerHTML')
driver.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").get_attribute('innerHTML')

'<span class="bookListItem_text__oxa7M"><span>주식투자 단기 트레이딩의 정석</span></span>'

In [9]:
# 찾은 태그 안쪽 html 출력 .get_attribute('outerHTML')
driver.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").get_attribute('outerHTML')

'<div class="bookListItem_title__1mWGq"><span class="bookListItem_text__oxa7M"><span>주식투자 단기 트레이딩의 정석</span></span></div>'

In [10]:
# 책제목
title = driver.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").text

In [11]:
# 저자
author= driver.find_element(By.CSS_SELECTOR, ".bookListItem_define_item__jqcW8 > span:nth-child(2)").text

In [12]:
# 출판사
publisher = driver.find_element(By.CSS_SELECTOR, ".bookListItem_detail_publish__SGgZN > span:nth-child(2)").text

In [13]:
# 출간일
pub_date = driver.find_element(By.CSS_SELECTOR, ".bookListItem_detail_date__6_wYJ").text

In [14]:
# 평점
rating = driver.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[0][2:]

In [15]:
# 가격
price = int(driver.find_element(By.CSS_SELECTOR, ".bookPrice_price__Nv4Ee > em").text.replace(",", ""))

In [16]:
title = [titles.text for titles in driver.find_elements(By.CSS_SELECTOR, ".bookListItem_title__1mWGq")]
title

['주식투자 단기 트레이딩의 정석',
 '벤저민 그레이엄의 증권분석',
 'ETF 투자의 모든 것 (배당수익과 주가수익 다 잡는 제2의 소득 파이프라인)',
 '트레이딩의 전설 (실전투자대회 수상자 9인을 만나다)',
 '단 3개의 미국 ETF로 은퇴하라 (원하는 삶을 앞당기는 돈 자동 사냥 시스템)',
 '워런 버핏 바이블: 완결판 (버핏이 직접 말해주는 투자와 경영, 삶의 지혜: 1983~2025)',
 '한국의 미래 (거대한 변곡점, 마지막 부의 기회를 잡아라)',
 '주식 투자의 기쁨 (89세 현역 트레이더 시게루 할아버지의 흔들리지 않는 투자 철학)',
 '모든 주식을 소유하라(리커버판)',
 '주식투자 단기 트레이딩의 정석 (25년 투자 고수가 전하는 매일 수익 내는 단타 매매의 기술)']

# 네이버 책 데이터 수집하기

In [17]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 웹브라우저를 실행 할 때 사용할 옵션 - 사람인 것처럼 정보 입력
options = Options()
options.add_experimental_option("detach", True)
options.add_argument("start-maximized")
options.add_argument("Chrome/141.0.0.0")
options.add_argument("lang=ko_KR")


driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=options
    )

keyword = input("검색어를 입력하세요:  ")
# 웹브라우저에서 url 열기
book_info_list = {}
for page in range(1, 11):
    driver.get(f"https://search.shopping.naver.com/book/search?bookTabType=ALL&pageIndex={page}&pageSize=40&prevQuery={keyword}&query={keyword}&sort=REL")

    # 전체 40개 데이터를 얻기 위해서 마우스 스크롤
    for scroll in range(0, 8001, 1000):
        driver.execute_script(f"window.scrollTo({0}, {scroll})")
        time.sleep(2)

    book_list = driver.find_elements(By.CSS_SELECTOR, ".list_book > li")
    for book in book_list:
        # 책제목
        title = book.find_element(By.CSS_SELECTOR, ".bookListItem_title__1mWGq").text

        try:
            # 저자
            author= book.find_element(By.CSS_SELECTOR, ".bookListItem_define_item__jqcW8 > span:nth-child(2)").text
        except:
            author= ""
        try:
            # 출판사
            publisher = book.find_element(By.CSS_SELECTOR, ".bookListItem_detail_publish__SGgZN > span:nth-child(2)").text
        except:
            publisher = ""
        try:
            # 출간일
            pub_date = book.find_element(By.CSS_SELECTOR, ".bookListItem_detail_date__6_wYJ").text
        except:
            pub_date = ""
        try:
            # 평점
            rating = book.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[0][2:]
        except:
            rating = 0
        try:
            # 리뷰수
            n_reviews = book.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi").text.split()[1].replace("(", "").replace(")", "") if book.find_element(By.CSS_SELECTOR, ".bookListItem_grade__e60mi") != None else 0
        except:
            n_reviews = 0
        try:
            # 가격
            price = int(book.find_element(By.CSS_SELECTOR, ".bookPrice_price__Nv4Ee > em").text.replace(",", "")) 
        except:
            price = 0

        keys = ['책제목', '저자', '출판사', '출간일', '평점', '리뷰수', '가격']
        book_info = (title, author, publisher, pub_date, rating, n_reviews, price)

        for key, value in zip(keys, book_info):
            book_info_list.setdefault(key, []).append(value)

driver.close()            
            
df = pd.DataFrame(book_info_list)
df

검색어를 입력하세요:  파이썬


InvalidSessionIdException: Message: invalid session id: session deleted as the browser has closed the connection
from disconnected: not connected to DevTools
  (Session info: chrome=141.0.7390.108); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#invalidsessionidexception
Stacktrace:
	GetHandleVerifier [0x0x72fe43+66515]
	GetHandleVerifier [0x0x72fe84+66580]
	(No symbol) [0x0x51dc48]
	(No symbol) [0x0x50ce80]
	(No symbol) [0x0x52b81b]
	(No symbol) [0x0x591c25]
	(No symbol) [0x0x5ac4d9]
	(No symbol) [0x0x58afc6]
	(No symbol) [0x0x55c2ca]
	(No symbol) [0x0x55d154]
	GetHandleVerifier [0x0x987353+2521315]
	GetHandleVerifier [0x0x9822d3+2500707]
	GetHandleVerifier [0x0x757c94+229924]
	GetHandleVerifier [0x0x7481f8+165768]
	GetHandleVerifier [0x0x74ecad+193085]
	GetHandleVerifier [0x0x738158+100072]
	GetHandleVerifier [0x0x7382f0+100480]
	GetHandleVerifier [0x0x7225aa+11066]
	BaseThreadInitThunk [0x0x75205d49+25]
	RtlInitializeExceptionChain [0x0x7753d6db+107]
	RtlGetAppContainerNamedObjectPath [0x0x7753d661+561]
