# 셀리니움 사용하기

## #01. 개요

### selenium

웹 브라우저를 제어할 수 있는 파이썬 패키지

### chromedriver

selenium과 Google Chrome 브라우저를 연결하는 프로그램

크롬브라우저 버전에 따라 매번 새로 다운로드 받아야 하는 불편함이 있기 때문에 파이썬 스스로 현재 컴퓨터에 설치된 크롬 버전에 맞는 chromedriver를 내려받도록 하기 위해 `chromedriver_autoinstaller` 패키지가 필요함

>셀리니움이 크롬드라이버를 제어하고 크롬드라이버가 크롬을 제어함.

### 패키지 설치

`selenium`과 `chromedriver_autoinstaller` 패키지가 필요하다

## #02. 준비과정

### [1] 패키지 참조

In [30]:
# ChromeDriver 자동 설치 모듈
import chromedriver_autoinstaller
# Chrome을 제어하기 위한 객체
from selenium import webdriver
# Chrome이 웹 페이지 로딩을 완료 할 때까지 최대 n초간 대기하는 기능.
from selenium.webdriver.support.ui import WebDriverWait
# HTML 파서
from bs4 import BeautifulSoup
# 파이썬 프로그램에 지정된 시간동안 랙을 거는 기능을 위해 사용
import time
# HTML요소를 가져오는 방법을 지정하기 위한 구조체
from selenium.webdriver.common.by import By

### [2] 크롬 브라우저 가동

In [31]:
# 크롬드라이버 자동 설치
chromedriver_autoinstaller.install()

# 크롬드라이버를 통해 크롬을 실행시킴
# -> driver 객체는 Chrome 자체
driver = webdriver.Chrome()

# 크롬브라우저가 준비될 때 까지 최대 5초씩 대기
driver.implicitly_wait(5)

### [3] 수집할 페이지로 이동

In [32]:
driver.get("https://data.hossam.kr/py/image.html")

## #03. 셀리니움을 통한 크롬 브라우저 제어

### [1] 키보드 입력 전달하기

#### (1) 검색어를 입력할 수 있는 요소를 가져온다.

> 람다식 안의 1번째 인덱스에 있는 `#` 부분은 소스코드를 보고 필요한부분으로 변경하여 사용하되 그 외의 부분은 고정형식으로 복사해서 사용할 것 // 태그값은 개발자도구에 있는 태그값을 사용하여 불러온다

In [33]:
query = WebDriverWait(driver, 3).until(lambda x:x.find_element(By.CSS_SELECTOR,"#query") ) # driver객체를 3초동안 기다리게만든다.
# until : 조건이 거짓인경우 동작하는 루프

#### (2) 해당 요소에 문자열을 입력한다.

In [34]:
query.clear() # 기존 입력값 삭제, 해당 코드가 없을시 누적하여 key값 전달
query.send_keys('파이리')

### [2] 마우스 클릭 전달하기

#### (1) 검색 버튼을 가져온다.

> 람다식 안의 1번째 인덱스에 있는 `#` 부분은 소스코드를 보고 필요한부분으로 변경하여 사용하되 그 외의 부분은 고정형식으로 복사해서 사용할 것

In [35]:
button = WebDriverWait(driver, 3).until(lambda x:x.find_element(By.CSS_SELECTOR,"#searchForm button") )  # 태그값 어떤것이든 받아서 변수로 만들어준 후 클릭가능

#### (2) 검색 버튼을 클릭한다.

In [36]:
button.click()

### [3] 스크롤을 화면 맨 밑으로 이동한다.

크롬브라우저로 하여금 Javascript 코드를 실행하도록 처리

- Javascript: 웹 페이지 개발 언어

아래의 구문은 스크롤이 y축으로 화면 맨 아래까지 이동하는 Javascript 구문

```js
window.scrollTo(0, document.body.scrollHeight);
```
```python
driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")
# 다음 컨텐츠 로딩이 완료될 때 까지 시간적 지연이 필요
time.sleep(1)
```
> 위 python코드는 스크롤을 맨 아래로 내리는 코드로 복사해서 사용할것


In [37]:
for i in range(10): # 10번 반복
    driver.execute_script("window.scrollTo(0,document.body.scrollHeight);") # 크롬 브라우져로 Javascript 코드 실행
    # 다음 컨텐츠 로딩이 완료될 때 까지 시간적 지연이 필요
    time.sleep(1)


### [4] 브라우저상에 나타나는 소스코드 가져오기

이 코드는 크롬브라우저상의 개발자도구로 확인되는 내용과 동일하다.

#### (1) 소스코드 취득

In [38]:
myhtml = driver.page_source # 크롬브라우져 상의 개발자도구로 확인되는 내용을 긁어온다

#### (2) 브라우저 닫기

In [39]:
driver.close()

## #04. 원하는 내용 추출

### [1] 취득한 HTML코드를 bs4객체로 전환

In [41]:
soup = BeautifulSoup(myhtml)

### [2] bs4객체를 통해 수집하기를 원하는 요소 추출

In [44]:
img = soup.select('li > a > img')


### [3] 추출된 내용 활용하기

In [45]:
for i in img:
    print(i.attrs['src'])

https://search1.kakaocdn.net/argon/130x130_85_c/PsyhygjbtS
https://search2.kakaocdn.net/argon/130x130_85_c/Hf0Bazz0lbz
https://search2.kakaocdn.net/argon/130x130_85_c/KwUzdwQAVX1
https://search4.kakaocdn.net/argon/130x130_85_c/1Y9jmirTqig
https://search2.kakaocdn.net/argon/130x130_85_c/BpZZIjHmhyg
https://search2.kakaocdn.net/argon/130x130_85_c/9ukgAoRO5Tv
https://search2.kakaocdn.net/argon/130x130_85_c/Cj41eIZMg8M
https://search3.kakaocdn.net/argon/130x130_85_c/GoQaF1gmCoF
https://search1.kakaocdn.net/argon/130x130_85_c/L9Ho9Kt4lpP
https://search3.kakaocdn.net/argon/130x130_85_c/7LF3qPLyj7T
https://search1.kakaocdn.net/argon/130x130_85_c/JpTLaJQw2w8
https://search3.kakaocdn.net/argon/130x130_85_c/1zYcq2KGhGD
https://search1.kakaocdn.net/argon/130x130_85_c/BVCCinnEZ6Y
https://search1.kakaocdn.net/argon/130x130_85_c/Bzc80Tkj7QH
https://search3.kakaocdn.net/argon/130x130_85_c/GwQ0kWOv6zQ
https://search3.kakaocdn.net/argon/130x130_85_c/HF5fwL3EtBj
https://search2.kakaocdn.net/argon/130x13