## Selenium
- 브라우저 조작을 자동화 할 수 있는 도구(마우스 클릭, 키보드 입력이 대표적)
- 원래는 웹에서 프로그램을 테스트할 때 반복적인 작업을 자동으로 수행하기 위한 목적으로 만들어진 도구
- 공식문서: https://www.selenium.dev/documentation/
- requests는 정적인 문서를 가져올 때 사용했다면 selenium은 동적 크롤링 가능

#### 장점
- selenium은 브라우저를 직접 제어하는 자동화 도구이므로 자바 스크립트 및 모든 동적 활동에 대응 가능
- requests는 자바 스크립트 실행이 어려워 동적인 로딩 페이지에서 제대로 된 정보를 얻는 것이 불가능
- 스크롤을 내리면 처음 보이는 페이지의 콘텐츠 외에도 다양한 콘텐츠가 등장
 - requests는 첫 화면의 콘텐츠만 크롤링 가능, selenium은 스크롤을 내리면서 페이지 내 모든 콘텐츠 크롤링 가능

#### 단점
- 브라우저를 조작/제어하는 작업이기 때문에 request 등 기존 작업에 비해 실행 속도가 느림

In [1]:
# !pip install selenium

In [2]:
from selenium.webdriver import Chrome

## Driver
- 브라우저에 접근/제어할 수 있는 도구(selenium으로 브라우저를 제어하기 위해서 필요한 도구)
- ChromeDriver 설치: https://chromedriver.chromium.org/downloads
- 크롬 버전 확인(크롬 브라우저 -> 도움말 -> Chrome 정보) 후 알맞은 버전의 크롬 드라이버 설치(102/103/104)
- 압축 해제 후 응용 프로그램(chromedriver.exe)을 ipynb 파일과 같은 위치로 이동
- 웹 드라이버 파일 경로 주의

In [3]:
# 빈 크롬 창 실행 및 변수에 지정(엣지, 파이어폭스 등 다른 브라우저도 가능)
driver = Chrome('chromedriver.exe')

  driver = Chrome('chromedriver.exe')


In [4]:
# 테스트 브라우저 종료
driver.close()

In [5]:
import time

# time 모듈은 동적 크롤링에서 매우 중요!
# A, B 작업을 순서대로 실행하고자 하는 경우,
# A 작업을 마치기 전에 B 작업을 시작하여 A가 정상 진행되지 않는 것을 방지하기 위해 사용
# 동적 크롤링 시 원하는 정보가 수집되지 않는 대부분의 문제는 time(시간 지연)으로 해결 가능

driver = Chrome('chromedriver.exe') # 빈 크롬 창 열기

time.sleep(3) # 시간 지연 3초
url = 'https://www.naver.com/'
driver.get(url) # get: 해당 URL로 이동

time.sleep(3)
driver.back() # 뒤로 가기

time.sleep(3)
driver.close() # 크롬 창 닫기

  driver = Chrome('chromedriver.exe') # 빈 크롬 창 열기


### 실시간 이슈 키워드 수집: requests to selenium

In [8]:
# requests 활용

import requests
from bs4 import BeautifulSoup

# request
url = 'https://news.nate.com/search?q=abcd'
response = requests.get(url).text

# parse
news_page = BeautifulSoup(response)

# 데이터 접근
kwd_area = news_page.find('span', {'class':'kwd-list'})
kwd_area.find_all('a')[1].text

'이상한 변호사 우영우'

In [12]:
# selenium 자동화 도구 활용

from selenium.webdriver import Chrome # 모듈 변경: requests -> selenium
from bs4 import BeautifulSoup
import time # 자동화 도구: time 모듈 반드시 import

driver = Chrome('chromedriver.exe') # 크롬 드라이버 생성

# request -> get 방식 변경
# response = requests.get(url).text: 요청, 응답 get, 응답 저장(변수)까지 한 문장으로 수행
# driver.get(): 단순 요청 작업 -> 크롬 브라우저 URL 이동만 진행
# 요청문에 대한 응답(페이지 HTML 소스)를 변수에 저장하는 작업은 따로 수행
time.sleep(3)
url = 'https://news.nate.com/search?q=abcd'
driver.get(url)
response = driver.page_source

# 크롬 브라우저 종료 -> 소스 코드를 가져왔으므로 띄워놓을 필요 x
time.sleep(5)
driver.close()

# parse -> 방식 동일
news_page = BeautifulSoup(response)

# 데이터 접근 -> 방식 동일
kwd_area = news_page.find('span', {'class':'kwd-list'})
kwd_area.find_all('a')[1].text

  driver = Chrome('chromedriver.exe') # 크롬 드라이버 생성


'이상한 변호사 우영우'

### 동적 페이지 크롤링
- 웹 브라우저 자체를 실행하는 selenium은 페이지의 소스만 가져오는 requests에 비해 속도가 느리다는 단점 존재
- but, 브라우저의 조작(타이핑, 클릭 등)을 자동화하여 동적 웹 문서에 대한 크롤링 가능
- 동적 크롤링: 사용자의 입력에 따라서 동적으로 움직이는 페이지를 크롤링
 - ex) 특정 키워드를 검색한 후 그에 대한 결과를 얻고자 하는 경우
 - requests 모듈은 정적 웹 문서에 대한 크롤링만 가능

#### 일반화된 브라우저 조작/제어 과정
1. 화면 구성요소(A) 탐색 및 객체 생성
 - x = A: 구성요소를 변수에 할당
2. 구성요소(A)에 대하여 타이핑, 클릭 등의 행위(B) 수행
 - x.B(): 구성요소를 할당한 대상 x에 특정 행위/메소드 적용

### 알라딘 온라인 중고샵 검색 실습
- 알라딘 온라인 중고샵: https://www.aladin.co.kr/home/wusedshopmain.aspx?start=main
- 책 제목 검색, 검색 결과 페이지로 이동, 이동한 페이지의 소스에 접근(검색어 타이핑 및 검색 버튼 클릭)

In [14]:
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By # find_element() 태그 추출 방식 지정에 사용
import time

driver = Chrome('chromedriver.exe')

time.sleep(3)
url = 'https://www.aladin.co.kr/home/wusedshopmain.aspx?start=main'
driver.get(url)


# 화면 구성요소 객체 생성 및 작업 수행

# 검색어를 입력할 위치 파악(개발자 도구): 태그의 id와 xpath를 파악하는 것이 일반적
# find_element_by_id(), find_element_by_xpath() -> 현재는 지원하지 않는 기능

# 현재 사용되는 방식: find_element(By.ID), find_element(By.XPATH)
# By.ID(id), NAME(name), XPATH(xpath), CLASS_NAME(class), TAG_NAME(tag name)

# xpath: XML, HTML에서 특정 노드를 찾기 위해 사용하는 method
# 요소별로 고유한 path이므로 태그명처럼 중복되는 경우를 처리할 필요 x
# 개발자 도구 소스 코드 -> 오른쪽 클릭 copy -> copy xpath

time.sleep(3)
box_path = '//*[@id="SearchWord"]' # copy xpath
box = driver.find_element(By.XPATH, value=box_path) # 구성요소 A 생성(검색 창)
box.send_keys('해리포터') # A에 대하여 B 행위 수행(검색 창에 검색어 입력)

time.sleep(3)
btn_path = '//*[@id="global_search"]/input'
btn = driver.find_element(By.XPATH, value=btn_path) # 검색 버튼 btn 생성
btn.click() # 검색 버튼 클릭(검색 실행)


# 검색 후 이동한 결과 페이지의 소스 저장
response = driver.page_source

time.sleep(5)
driver.close()

  driver = Chrome('chromedriver.exe')


In [15]:
# id와 class명을 활용하여 검색 창/검색 버튼 추출

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time

driver = Chrome('chromedriver.exe')

time.sleep(3)
url = 'https://www.aladin.co.kr/home/wusedshopmain.aspx?start=main'
driver.get(url)

time.sleep(3)
box = driver.find_element(value='SearchWord') # default: id
box.send_keys('해리포터')

time.sleep(3)
btn = driver.find_element(By.CLASS_NAME, value='searchBtn') # 검색 버튼의 class명으로 추출
btn.click()

response = driver.page_source

time.sleep(5)
driver.close()

  driver = Chrome('chromedriver.exe')


In [16]:
# Keys 모듈 활용

from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
import time

driver = Chrome('chromedriver.exe')

time.sleep(3)
url = 'https://www.aladin.co.kr/home/wusedshopmain.aspx?start=main'
driver.get(url)

time.sleep(3)
box = driver.find_element(value='SearchWord') # 검색 창 생성
box.send_keys('해리포터') # 검색어 입력
box.send_keys(Keys.RETURN) # Keys.RETURN -> 키보드 enter 키 입력

response = driver.page_source

time.sleep(5)
driver.close()

  driver = Chrome('chromedriver.exe')


### 알라딘 베스트셀러 50권의 중고 서적을 검색하는 프로그램

In [17]:
# 중고샵에 책 제목을 검색했을 때 나오는 중고 서적의 목록을 출력하는 함수

def search_page_all_books(response):
    
    search_page = BeautifulSoup(response)
    
    # 모든 책에 대하여 책 정보가 담긴 div(class='ss_book_box')를 추출
    search_page_all_books = search_page.find_all('div', {'class':'ss_book_box'})
    
    book_list = []
    
    for book in search_page_all_books:
        midpoint = book.find('div', {'class':'ss_book_list'})
        title = midpoint.find('a', {'class':'bo3'}).find('b').text
        book_list.append(title)
    
    return book_list

In [18]:
search_page_all_books(response) # response: '해리포터' 검색 결과 페이지의 소스

['해리 포터와 마법사의 돌 (미나리마 에디션)',
 '해리 포터와 비밀의 방 (미나리마 에디션)',
 '해리 포터와 마법사의 돌 1 (무선)',
 '해리 포터와 마법사의 돌 2 (무선)',
 '해리 포터와 비밀의 방 1 (무선)',
 '해리 포터와 비밀의 방 2 (무선)',
 '해리 포터 시리즈 1~4편 박스 세트 - 전10권 (무선)',
 '해리 포터와 아즈카반의 죄수 1 (무선)',
 '해리 포터와 아즈카반의 죄수 2 (무선)',
 '해리 포터 시리즈 5~7편 박스 세트 - 전13권 (무선)',
 '해리 포터와 불의 잔 1 (무선)',
 '해리 포터와 불의 잔 2 (무선)',
 '해리 포터와 불의 잔 3 (무선)',
 '해리 포터와 불의 잔 4 (무선)',
 '[세트] 해리 포터와 마법사의 돌 + 해리 포터와 비밀의 방 (미나리마 에디션) - 전2권',
 '해리 포터 : 마법사의 돌 (양장)',
 '해리 포터와 불사조 기사단 1 (무선)',
 '해리 포터와 죽음의 성물 4 (무선)',
 '해리 포터와 저주받은 아이 1, 2부 (양장)',
 '해리 포터와 불사조 기사단 2 (무선)',
 '해리 포터와 죽음의 성물 1 (무선)',
 '해리 포터와 비밀의 방 (양장)',
 '해리 포터와 죽음의 성물 3 (무선)',
 '해리 포터와 불사조 기사단 5 (무선)',
 '해리 포터와 불사조 기사단 4 (무선)']

In [19]:
import requests

In [20]:
# 알라딘 베스트셀러 50권의 제목을 반환하는 함수

def best_sellers():
    
    url = 'https://www.aladin.co.kr/shop/common/wbest.aspx?BranchType=1'

    response = requests.get(url).text
    aladin = BeautifulSoup(response)
    
    all_books = aladin.find_all('div', {'class':'ss_book_box'})

    books = []

    for book_area in all_books:
        midpoint = book_area.find('div', {'class':'ss_book_list'})
        title = midpoint.find('a', {'class':'bo3'}).find('b').text
        books.append(title)

    return books

In [21]:
best_sellers()

['헤어질 결심 각본',
 '알싸한 기린의 세계',
 '믿음에 대하여',
 '파친코 1',
 '원펀맨 One Punch Man 25',
 '역행자',
 '유럽 도시 기행 2',
 '불편한 편의점 (40만부 기념 벚꽃 에디션)',
 '계속 가보겠습니다',
 '흔한남매 11',
 '작별인사',
 '마법천자문 53',
 '이상한 과자 가게 전천당 15',
 '다정한 것이 살아남는다',
 'ETS 토익 정기시험 기출문제집 1000 Vol. 3 Reading (리딩)',
 '물고기는 존재하지 않는다',
 'ETS 토익 정기시험 기출문제집 1000 Vol. 3 Listening (리스닝)',
 '세상의 마지막 기차역',
 '옆집 천사님 때문에 어느샌가 인간적으로 타락한 사연 5.5 (소책자 부속 특별판)',
 '사서함 110호의 우편물',
 '튜브',
 '기분을 관리하면 인생이 관리된다',
 '최재천의 공부',
 '아기곰의 재테크 불변의 법칙',
 '1차원이 되고 싶어 (0차원 에디션)',
 '2022 큰별쌤 최태성의 별★별한국사 한국사능력검정시험 심화(1, 2, 3급) 상',
 '해커스 토익 기출 보카 TOEIC VOCA 단어장',
 '2022 큰별쌤 최태성의 별★별한국사 한국사능력검정시험 심화(1, 2, 3급) 하',
 '지정학의 힘',
 '매일을 헤엄치는 법',
 '밥 프록터 부의 확신',
 '입지 센스',
 '명탐정 코난 : 경찰학교 편 - 하',
 '2022 큰별쌤 최태성의 별★별한국사 기출 500제 한국사능력검정시험 심화 (1.2.3급)',
 '명탐정 코난 : 경찰학교 편 - 상',
 '유럽 도시 기행 1',
 '다섯번째 산',
 '지구 끝의 온실 (여름 에디션)',
 '너무 잘하려고 애쓰지 마라',
 '친밀한 이방인',
 '눈물 한 방울',
 '감정 어휘',
 '넛지 : 파이널 에디션',
 '꽁꽁꽁 아이스크림',
 '원피스 102',
 '한 개의 기쁨이 천 개의 슬픔을 이긴다 : 삶과 태도에 관하여',
 '변화하는 세계 질서',
 '계속 가봅시다 남는 게 체

In [None]:
# 알라딘 베스트셀러 50권을 알라딘 중고샵에 검색하는 프로그램

driver = Chrome('chromedriver.exe')

time.sleep(3)
url = 'https://www.aladin.co.kr/home/wusedshopmain.aspx?start=main'
driver.get(url)

time.sleep(3)

# 베스트셀러 중고 서적 목록을 저장할 list
used_best = []

for book in best_sellers():
    
    box_path = '//*[@id="SearchWord"]'
    box = driver.find_element(By.XPATH, value=box_path)
    
    box.clear() # 검색 창 초기화: 50권의 책 제목이 이어서 입력되는 것을 방지
    box.send_keys(book) # book 변수에 할당된 검색어 입력
    time.sleep(1)

    time.sleep(3)
    btn_path = '//*[@id="global_search"]/input'
    btn = driver.find_element(By.XPATH, value=btn_path)
    btn.click()

    time.sleep(3)
    response = driver.page_source
    
    time.sleep(3)
    result = search_page_all_books(response)

    used_best.append({'베스트셀러':book, '중고 책 목록':result})

driver.close()

# WebDriverException 에러: 로딩 시간이 오래 소요되어 발생
# time.sleep 시간을 늘려주거나 재부팅하여 해결 가능

In [25]:
used_best[:5]

[{'베스트셀러': '헤어질 결심 각본', '중고 책 목록': []},
 {'베스트셀러': '알싸한 기린의 세계', '중고 책 목록': ['알싸한 기린의 세계']},
 {'베스트셀러': '믿음에 대하여',
  '중고 책 목록': ['능력주의와 불평등',
   '말씀, 그리고 사색과 결단 2',
   '불교에 대해 꼭 알아야 할 100가지',
   '하나님은 당신이 건강하기 원하십니다',
   '데 레 코퀴나리아',
   '사막의 우물(발견할 수 있다는 믿음에 대하여)',
   '하나님이 주신 최고의 선물 믿음 - 많은 사람들이 궁금해 하는 믿음에 대하여 성경적으로 고찰한 책',
   '하나님이 주신 최고의 선물 믿음 - 많은 사람들이 궁금해 하는 믿음에 대하여 성경적으로 고찰한 책이다',
   '많은 사람들이 궁금해 하는 믿음에 대하여 성경적으로 고찰한 책',
   '하나님이 주신 최고의 선물 믿음 - 믿음에 대하여 성경적으로 고찰한 책',
   '소하고 순한 믿음에 관하여',
   '믿음을 심어 성공을 거두라 -  순전한 믿음을 고백할 때 거두게 되는 풍성한 열매에 대해 담은책 .(양장본)',
   '믿음의 핵심',
   '사막의 우물',
   '박해 (큰믿음)',
   '사막의 우물 (양장)',
   '믿음에 대하여',
   '뉴스를 말하다']},
 {'베스트셀러': '파친코 1', '중고 책 목록': ['파친코 1', '[세트] 파친코 1~2 세트 - 전2권']},
 {'베스트셀러': '원펀맨 One Punch Man 25', '중고 책 목록': []}]

In [26]:
import pandas as pd

df = pd.DataFrame(used_best)
df.head()

Unnamed: 0,베스트셀러,중고 책 목록
0,헤어질 결심 각본,[]
1,알싸한 기린의 세계,[알싸한 기린의 세계]
2,믿음에 대하여,"[능력주의와 불평등, 말씀, 그리고 사색과 결단 2, 불교에 대해 꼭 알아야 할 1..."
3,파친코 1,"[파친코 1, [세트] 파친코 1~2 세트 - 전2권]"
4,원펀맨 One Punch Man 25,[]


In [27]:
df.to_csv('aladin.csv', index=False, encoding='utf-8-sig')

In [29]:
aladin = pd.read_csv('aladin.csv')
aladin.head()

Unnamed: 0,베스트셀러,중고 책 목록
0,헤어질 결심 각본,[]
1,알싸한 기린의 세계,['알싸한 기린의 세계']
2,믿음에 대하여,"['능력주의와 불평등', '말씀, 그리고 사색과 결단 2', '불교에 대해 꼭 알아..."
3,파친코 1,"['파친코 1', '[세트] 파친코 1~2 세트 - 전2권']"
4,원펀맨 One Punch Man 25,[]
