## Selenium 개요


- "셀프 주유소는 정말 저렴할까?" 라는 답을 얻는 방법은 `데이터 분석`


- BeautifulSoup 만으로는 접근할 수 없는 인터넷 정보가 존재함 -> `Selenium 활용`


### Selenium

- **웹 브라우저의 자동화**를 가능하게 하고 지원하는 다양한 도구와 라이브러리를 포함한 프로젝트


- 웹 애플리케이션을 자동으로 테스트할 때 사용하는 프레임워크
    - Selenium을 이용하여 웹 애플리케이션이 잘 동작하는지 이것저것 작동시켜보는 자동화 프로그램을 만들 수 있음
    - Webdriver라는 것을 이용하여 브라우저를 사람이 이용하는 것과 비슷하게 제어할 수 있음
    
    
### JavaScript

- 최근에는 대부분의 웹사이트가 JavaScript 사용


- 자바스크립트(JavaScript) : 현재 가장 널리 쓰이는 스크립트 언어
    - 페이지에 새로운 HTML을 추가하거나 기존 HTML, 혹은 스타일 수정하기
    - 마우스 클릭이나 포인터의 움직임, 키보드 키 눌림 등과 같은 사용자 행동에 반응하기
    - 네트워크를 통해 원격 서버에 요청을 보내거나, 파일 다운로드, 업로드 하기 (AJAX, COMET과 같은 기술 사용)
    - 쿠키를 가져오거나 설정하기
    - 사용자에게 질문을 건네거나 메시지 보여주기
    - 클라이언트 측에 데이터 저장하기 (로컬 스토리지)
    

- JavaScript는 페이지 소스 코드에서 `<script>` 태그 부분에 들어있음


### JavaScript와 Selenium

- 웹 브라우저(클라이언트)와 서버 간의 통신
    - 보안을 위해 동기적(sync)으로만 가능했음
    - JS를 통해 비동기적(async)으로 가능 (Ajax: Asynchronous JavaScript And XML - 비동기 자바스크립트와 XML)
    - 서버와 통신하기 위해 XMLHttpRequest 객체를 사용
    

- **페이지 전체를 새로고침**하지 않고도 이벤트 발생 시에 비동기적으로 페이지 일부분만 업데이트 가능


- **사용자가 직접 동작시켜야만**(ex. 조회 버튼 클릭) 정보가 보이도록 설계


- *Selenium을 이용하여*
    - 사이트에서 이것저것 클릭하고, 콘텐츠를 열고 닫고 하면서 가져오는 정보들을 수집할 수 있도록 함
    - JavaScript가 동작하여 서버로부터 비동기적으로 가져오는 정보나 숨겨져 있는 콘텐츠를 열 수 있음
    - **브라우저에 보이는 그대로 웹 페이지 스크랩 가능!!**

---

## 1. Selenium 설치하기


* Selenium을 사용하기 위해 설치해야 하는 것
    1. 아나콘다에 selenium 설치하기: `pip install selenium`
    2. 크롬 웹 드라이버 설치하기


### (1) Anaconda 환경 설정

* **아나콘다 프롬프트**: 아나콘다의 환경설정이 적용된 터미널
    - 사용자의 필요에 따라, (가상)환경(env)을 설정할/만들 수 있음
    - *파이썬 버전, 모듈 설치 여부 및 모듈 버전* 등


* 가상머신(Virtual Machine): OS를 가상으로 올려 윈도우/리눅스 환경에서 개발
    - `conda env list` 혹은 `conda info --envs`
    - 현재 만들어져 있는 환경(env)들 확인 / envs 폴더 내에 생성
    
    
* 새로운 환경을 만들고 싶다면? `conda create -name 환경이름 python=버전`


* 환경을 나누는 이유: python 버전 관리 및 패키지/모듈 충돌 방지


* 예시

    conda create -n env1 python=3.7 <br>
    conda activate env1 <br>
    conda deactivate <br>
    numpy, pandas 등

### (2) 크롬 웹 드라이버 설치


* 구글에서 Chrome Driver 검색 후 다운로드


* 압축 파일(.zip) 해제 후 꼭 경로 확인
    - `webdriver.Chrome('chrome이 있는 경로명')`와 같이 사용
    - 예) webdriver.Chrome('../driver/chromedriver.exe') -> 상대경로: 현재 실행되는 코드 위치 기준으로 탐색
    - 예) webdriver.Chrome(r"C:\Users\phi49\Downloads\chromedriver_win32\chromedriver.exe") -> 절대 경로

## 2. Selenium 시작하기

1. Selenium에서 webdriver import


2. webdriver.Chrome() 이용
    - Windows의 경우, r을 앞에 붙이기 / \를 앞에 한 번 더 붙이기 / \을 /로 바꾸기
    - Linux, Max의 경우, `driver = webdriver.Chrome("/home/USER_NAME/FOLDER/chromedriver.exe`)


3. 아래의 셀 실행할 때, In[*]이 숫자로 바뀌면 새로운 크롬 창 등장


4. 네이버 접속 (새로 만들어진 크롬 창에서 네이버 접속)
    - 화면 상단에 'Chrome이 자동화된 테스트 소프트웨어에 의해 제어되고 있습니다'라고 써있음

In [1]:
from selenium import webdriver

In [2]:
driver = webdriver.Chrome(r"C:\Users\phi49\Downloads\chromedriver_win32\chromedriver.exe")

  driver = webdriver.Chrome(r"C:\Users\phi49\Downloads\chromedriver_win32\chromedriver.exe")


In [3]:
driver.get("https://www.naver.com")

5. 개발자 도구를 이용해 네이버 로그인해보기
    - F12 누르고, 태그 확인 -> Xpath 확인 (XML + JavaScript)
    - 개발자 도구로 아이디와 비밀번호 입력창 태그 확인
    - `<input type="text" id="id" name="id" placeholder="아이디" title="아이디" class="input_text" maxlength="41 value="">`

In [4]:
driver.get("https://nid.naver.com/nidlogin.login?url=http%3A%2F%2Fmail.naver.com%2F")

6. 아이디 입력하기: Selenium의 `find_element_by_id`를 이용하여 id 찾기


7. 개발자 도구로 아이디(id)와 비밀번호(pw) 입력창 태그 확인하기
    - HTML 소스코드: `<input type="password" id="pw" name="pw" placeholder="비밀번호" class="int" maxlength="16"`

In [6]:
login_id = driver.find_element("id", "id")   # ppt와 문법 다름 주의!!
login_id.clear()                             # 어떤 글자가 입력되어 있는 경우가 있을 수 있으므로 clear
login_id.send_keys("naver_id")               # 예시 아이디 (내 아이디 넣지 말기)

In [7]:
login_pw = driver.find_element("id", "pw")
login_pw.clear()
login_pw.send_keys("password1111")

8. 로그인 버튼 누르기
    - 개발자 도구 열고 -> 로그인 버튼 클릭 -> 하이라이트된 부분에 오른쪽 마우스 클릭 -> Copy -> Copy XPath 클릭
    - `//*[@id="log.login"]` : 웹 페이지의 모든 내용을 XPath로 접근 (XML 언어 형식, 로그인 버튼 위치를 알아냄)

In [8]:
login_button = '//*[@id="log.login"]'        # 문자열 따옴표 주의
click_button = driver.find_element("xpath", login_button)
click_button.click()

In [9]:
driver.close()