# Selenium
- URL만으로 접근할 수 없는 홈페이지에 접근 가능
- 크롤링보다는 만들어진 홈페이지를 테스트하고 웹 브라우저를 제어하는 목적으로 사용

# 관련 패키지 설치
- pip install Selenium
- pip install webdriver_manager

# 웹 드라이버 실행하기

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# 웹 드라이버 동적 다운로드 방식
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

# 기 설치된 웹 드라이버 구동 방식
# s = Service('c://DEV//chromedriver//chromedriver.exe')  # 설치한 웹드라이버의 경로
# driver = webdriver.Chrome(service=s)

# find_element() 함수

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

driver.get('https://www.daum.net')
ele = driver.find_element(by=By.LINK_TEXT, value='카페')
print(ele)  # 셀레니움의 web element를 가져옴, HTML 파싱x
print(type(ele))
print(ele.text)

<selenium.webdriver.remote.webelement.WebElement (session="2495ff3a1c0aa57e58f0137075de39df", element="2B2F7FB3B6E7F4B621DD4E2DA038D101_element_19")>
<class 'selenium.webdriver.remote.webelement.WebElement'>
카페


# 이벤트 제어

## click()

In [2]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

driver.get('https://www.daum.net')
ele = driver.find_element(by=By.LINK_TEXT, value='카페')
ele.click()

## send_keys()

In [3]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

driver.get('https://www.daum.net')
ele = driver.find_element(By.ID, 'q')   # 검색창의 element값 찾기
ele.send_keys('python')  # python 입력
ele.send_keys(Keys.ENTER)  # 엔터 입력

# Selenium과 BeautifulSoup 연결
- 페이지의 내용이 자바스크립트를 이용해 동적으로 불러오는 경우에는 곧바로 BeautifulSoup를 이용할 경우 HTML 내용이 개발자 모드를 통해 보는 HTML 소스와 다를 수 있다.
- 이런 경우 Selenium을 이용해서 페이지를 요청하고 sleep()함수를 통해 페이지가 로딩될 때까지 기다린 후 BeautifulSoup으로 스크래핑 한다.

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

driver.get('https://www.daum.net')
ele = driver.find_element(By.ID, 'q') 
ele.send_keys('데이터 분석') 
ele.send_keys(Keys.ENTER)

bs = BeautifulSoup(driver.page_source, 'lxml')  # driver.page_source: 웹드라이버를 통해 얻은 페이지의 소스코드

[실습] 네이버 로그인 하기

In [8]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

driver.get('https://www.naver.com')
ele = driver.find_element(By.CLASS_NAME, 'MyView-module__link_login___HpHMW')
ele.click()  # 간혹 click 이벤트가 적용되지 않는 경우 send_keys(Keys.ENTER)를 이용

id = 'chans0907'
pw = ''

# ele = driver.find_element(By.ID, 'id')
# ele.send_keys(id)
# ele = driver.find_element(By.ID, 'pw')
# ele.send_keys(pw)

# 로봇에 의해 클릭되지 못하도록 막았기 때문에 스크립트로 처리하여 로그인함
driver.execute_script(f'document.getElementById("id").value="{id}"')  # document: 돔 객체 가져옴
driver.execute_script(f'document.getElementById("pw").value="{pw}"')

ele = driver.find_element(By.CLASS_NAME, 'btn_login')
ele.click()

# 구글에서 이미지 검색 후 스크래핑 하기

## [step-1] 구글에서 이미지 검색 후 검색 결과 6번 스크롤 하기 

In [15]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# 페이지가 로드될 때까지 기다리는 시간
SCROLL_PAUSE_TIME = 1

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

driver.get('https://www.google.com')
ele = driver.find_element(By.CLASS_NAME, 'gLFyf')
ele.send_keys('python')
ele.submit()

# 이미지 검색결과로 이동
driver.find_element(By.LINK_TEXT, '이미지').click()
# 페이지가 로드될때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)

# 스크롤하기
last_height = driver.execute_script('return document.body.scrollHeight')   # 스크롤바의 높이
print('last height: ', last_height)

for i in range(6):
    # 윈도우 창의 스크롤바를 0에서부터 가장 밑(scrollHeight값)까지 이동
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    time.sleep(SCROLL_PAUSE_TIME)
    new_height = driver.execute_script('return document.body.scrollHeight')
    print('new height:', new_height)
    print('-'*30)

# 더이상 스크롤 될 페이지가 없을 경우 scrollHeight 값의 변화가 없다

last height:  3996
new height: 8116
------------------------------
new height: 16114
------------------------------
new height: 23628
------------------------------
new height: 31384
------------------------------
new height: 31465
------------------------------
new height: 31465
------------------------------


## [step-2] 구글에서 이미지 검색 후 검색 결과 스크롤한 후 '결과더보기' 클릭 하기 

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# 페이지가 로드될 때까지 기다리는 시간
SCROLL_PAUSE_TIME = 1

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

driver.get('https://www.google.com')
ele = driver.find_element(By.CLASS_NAME, 'gLFyf')
ele.send_keys('python')
ele.submit()

# 이미지 검색결과로 이동
driver.find_element(By.LINK_TEXT, '이미지').click()
# 페이지가 로드될때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)

# 스크롤하기
last_height = driver.execute_script('return document.body.scrollHeight')   # 스크롤바의 높이

#스크롤 횟수 카운팅
scroll_cnt = 0

while True:
    # 윈도우 창의 스크롤바를 0에서부터 가장 밑(scrollHeight값)까지 이동
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height: {last_height}, new height: {new_height}, scroll count: {scroll_cnt}')

    if last_height != new_height:   # 계속해서 new_height값이 변경된다면
        last_height = new_height
    else:  # 더이상 new_height값에 변동이 없다면 즉, 더이상 스크롤할 페이지가 없다면
        ele = driver.find_element(By.CSS_SELECTOR, '#islmp > div > div > div > div > div.C5Hr4 > div.K414Oe > div.FAGjZe > input')
        # 해당 엘리먼트와 상호작용이 불가한 상태면 ElementNotInteractableException 예외 발생, 그 때 반복문 break
        try:
            ele.click()
            print('결과 더보기 클릭')
        except ElementNotInteractableException:
            break
        

## [step-3] 검색 결과를 스크롤한 후 검색 결과 이미지의 src 값 수집하기

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
from bs4 import BeautifulSoup


SCROLL_PAUSE_TIME = 1   # 페이지가 로드될 때까지 기다리는 시간
IMAGE_EXTRACT_NUM = 20  # 이미지 수집 개수
SEARCH_KEYWORD = 'python'

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

driver.get('https://www.google.com')
ele = driver.find_element(By.CLASS_NAME, 'gLFyf')
ele.send_keys('python')
ele.submit()

# 이미지 검색결과로 이동
driver.find_element(By.LINK_TEXT, '이미지').click()
# 페이지가 로드될때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)

# 스크롤하기
last_height = driver.execute_script('return document.body.scrollHeight')   # 스크롤바의 높이

#스크롤 횟수 카운팅
scroll_cnt = 0

while True:
    # 윈도우 창의 스크롤바를 0에서부터 가장 밑(scrollHeight값)까지 이동
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height: {last_height}, new height: {new_height}, scroll count: {scroll_cnt}')

    if last_height != new_height:   # 계속해서 new_height값이 변경된다면
        last_height = new_height
    else:  # 더이상 new_height값에 변동이 없다면 즉, 더이상 스크롤할 페이지가 없다면
        ele = driver.find_element(By.CSS_SELECTOR, '#islmp > div > div > div > div > div.C5Hr4 > div.K414Oe > div.FAGjZe > input')
        # 해당 엘리먼트와 상호작용이 불가한 상태면 ElementNotInteractableException 예외 발생, 그 때 반복문 break
        try:
            ele.click()
            print('결과 더보기 클릭')
        except:
            break

########## 이미지 선택 & 해당 이미지 src 저장 ########## 
# 검색된 첫 번째 이미지 선택: CSS_SELECTOR 값 복사
imgs = driver.find_elements(By.CSS_SELECTOR, '#islrg > div.islrc > div a.FRuiCf.islib.nfEiy')
print('이미지 개수', len(imgs))

img_cnt  = 0   # 미리 정의해놓은 이미지 수집 개수만큼 반복 하기 위함
img_src_list = []

for img in imgs:
    img.send_keys(Keys.ENTER)
    # 검색 이미지 클릭 후 오른편에 크게 보여지는 원본 이미지의 CSS_SELECTOR 값 수집
    # img_src = driver.find_element(By.CSS_SELECTOR, '#Sva75c > div.A8mJGd.NDuZHe.CMiV2d.OGftbe-N7Eqid-H9tDt > div.dFMRD > div.AQyBn > div.tvh9oe.BIB1wf.hVa2Fd > c-wiz > div > div > div > div.v6bUne > div.p7sI2.PUxBg > a > img').get('src')          # src 속성 값 가져오기
    img_src = driver.find_element(By.XPATH, '//*[@id="Sva75c"]/div[2]/div[2]/div[2]/div[2]/c-wiz/div/div/div/div[3]/div[1]/a/img').get_attribute('src')
    if not img_src.startswith('http'):   # 가져온 주소가 'http'로 시작하지 않으면 수집 하지 않음
        continue
    img_cnt += 1
    print(f'[{img_cnt}].{img_src}')
    img_src_list.append(img_src)   # 수집한 주소를 리스트에 넣기
    if img_cnt == IMAGE_EXTRACT_NUM: break

## [step-4] 검색 결과를 스크롤한 후 검색 결과 이미지 저장하기

In [7]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
from bs4 import BeautifulSoup


SCROLL_PAUSE_TIME = 1   # 페이지가 로드될 때까지 기다리는 시간
IMAGE_EXTRACT_NUM = 20  # 이미지 수집 개수
SEARCH_KEYWORD = 'python'  # 검색할 키워드

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=webdriver.ChromeOptions())

# ============== python 검색하기 ============== 
driver.get('https://www.google.com')
ele = driver.find_element(By.CLASS_NAME, 'gLFyf')  # 검색창 찾기
ele.send_keys('python')  # 파이썬 입력
ele.submit()  # 제출

# 이미지 검색결과로 이동
driver.find_element(By.LINK_TEXT, '이미지').click()
# 페이지가 로드될때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)


# ============== 스크롤하기 ============== 
last_height = driver.execute_script('return document.body.scrollHeight')   # 스크롤바의 높이

#스크롤 횟수 카운팅
scroll_cnt = 0

while True:
    # 윈도우 창의 스크롤바를 0에서부터 가장 밑(scrollHeight값)까지 이동
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height: {last_height}, new height: {new_height}, scroll count: {scroll_cnt}')

    if last_height != new_height:   # 계속해서 new_height값이 변경된다면
        last_height = new_height
    else:  # 더이상 new_height값에 변동이 없다면 즉, 더이상 스크롤할 페이지가 없다면
        ele = driver.find_element(By.CSS_SELECTOR, '#islmp > div > div > div > div > div.C5Hr4 > div.K414Oe > div.FAGjZe > input')
        # 해당 엘리먼트와 상호작용이 불가한 상태면 ElementNotInteractableException 예외 발생, 그 때 반복문 break
        try:
            ele.click()
            print('결과 더보기 클릭')
        except:
            break


# ============== 이미지 선택 & 해당 이미지 src 저장 ==============
# 검색된 첫 번째 이미지 선택: CSS_SELECTOR 값 복사
imgs = driver.find_elements(By.CSS_SELECTOR, '#islrg > div.islrc > div a.FRuiCf.islib.nfEiy')
print('이미지 개수', len(imgs))

img_cnt  = 0   # 미리 정의해놓은 이미지 수집 개수만큼 반복 하기 위함
img_src_list = []

for img in imgs:
    img.send_keys(Keys.ENTER)
    # 검색 이미지 클릭 후 오른편에 크게 보여지는 원본 이미지의 CSS_SELECTOR 값 수집
    # css 선택자가 이미지마다 다른 것도 있어 nosearchelement오류발생, 예외처리하여 다른 css 선택자값 가진 이미지는 건너뛰고 수집하기
    try:  
        img_src = driver.find_element(By.CSS_SELECTOR, '#Sva75c > div.A8mJGd.NDuZHe.CMiV2d.OGftbe-N7Eqid-H9tDt > div.dFMRD > div.AQyBn > div.tvh9oe.BIB1wf.hVa2Fd > c-wiz > div > div > div > div.v6bUne > div.p7sI2.PUxBg > a > img').get_attribute('src')  # src 속성 값 가져오기
    except:
        continue
        
    if not img_src.startswith('http'):   # 가져온 주소가 'http'로 시작하지 않으면 수집 하지 않음
        continue
    img_cnt += 1
    print(f'[{img_cnt}].{img_src}')
    img_src_list.append(img_src)   # 수집한 주소를 리스트에 넣기
    if img_cnt == IMAGE_EXTRACT_NUM: break


# ================= 검색 이미지 파일로 저장 =================
import os 
import requests

now = time.localtime()
path = 'c:/Temp/'
folder_name = f'{now.tm_year}.{now.tm_mon}.{now.tm_mday}.{now.tm_hour}.{now.tm_min}.{now.tm_sec}'
directory = SEARCH_KEYWORD+'/'+folder_name+'/'  # 수집시마다 새로운 폴더 이름 생성

os.chdir(path)  # Temp 폴더로 이동 
if not os.path.exists(directory):   # 디렉토리 폴더가 존재하는지 여부 확인
    os.makedirs(directory)

file_no = 1  # 파일 넘버 초기화
os.chdir(path+directory)  # 새로 만든 폴더로 경로 이동
for url in img_src_list:
    extension = url.split('.')[-1]  # url 주소를 '.'으로 구분하여 가장 마지막에 있는 것이 확장자
    ext = ''
    if extension in ['jpg','JPG','jpeg','JPEG','png','PNG','gif','GIF']:  # url에 일반적인 이미지 확장자명이 있을경우
        ext = '.'+extension
    else:   # 이미지 확장자명이 없을 경우
        ext = '.jpg'

    file_name = str(file_no)+'-'+SEARCH_KEYWORD+ext  # 저장할 파일 이름

    file_no += 1
    res = requests.get(url)
    with open(file_name, 'wb') as f:
        f.write(res.content)        # 파일 저장

driver.close()  # 열려있는 브라우저 닫기

last height: 3754, new height: 7632, scroll count: 1
last height: 7632, new height: 15388, scroll count: 2
last height: 15388, new height: 22902, scroll count: 3
last height: 22902, new height: 30416, scroll count: 4
last height: 30416, new height: 30497, scroll count: 5
last height: 30497, new height: 30497, scroll count: 6
결과 더보기 클릭
last height: 30497, new height: 37925, scroll count: 7
last height: 37925, new height: 39945, scroll count: 8
last height: 39945, new height: 39945, scroll count: 9
이미지 개수 522
[1].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSO-JC3X3fR_xJMo0Vhszmr4IjFbS-yrzNuhQ&usqp=CAU
[2].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQTgXZfqtTjepaHAOXphWVZieoZ1uyKKCLIng&usqp=CAU
[3].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQv9zaI2wHs1Pq7e-aPCzuv_xyQv5HDabKiAQ&usqp=CAU
[4].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQQTZifVj2sWvlKHXRRnyUygTXzT0_TB5CY7w&usqp=CAU
[5].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQb1XId3d1x0vv