# Selenium Library

### 학습목표
- Selenium 라이브러리가 무엇인지 알 수 있다.
- Selenium 라이브러리를 설치하여 사용할 수 있다.
- Selenium 라이브러리를 활용하여 데이터를 수집할 수 있다.

In [None]:
!pip install selenium

### selenium 라이브러리
- selenium : 자동화 수집 도구 (브라우저 조작기능 존재)
- request : 페이지의 조작이 어려움

### selenium 라이브러리
- 자동화 수집 도구
- requests 라이브러리의 역할 : 브라우저를 대신하여 페이지의 정보를 요청, 응답
- requests 라이브러리가 가지는 한계인 브라우저 조작 기능을 해주는 라이브러리
- 클릭, 입력, 스크롤, 화면전환 등 사람이 하는 행동을 똑같이 가능하게 해줌
- 주의 : 코드 작성시 사람의 행동을 그대로 코드로 작성 (명령을 내리는 순서가 중요!)

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [6]:
# 라이브러리 불러오기
# 컴퓨터용 브라우저 -> 데이터를 요청하고 응답받는 역할
from selenium import webdriver as wb
# 컴퓨터용 키보드 (Enter, Del, End) : 컴퓨터에게 키보드를 전달하는 역할
from selenium.webdriver.common.keys import Keys
# 선택자를 구분할 때 사용하는 라이브러리 (필수) > 기준
from selenium.webdriver.common.by import By
# 자동화를 진행할 때 쉬는 시간을 주는 라이브러리 > 페이지가 로딩되는 것을 기다려줄 때 사용 # 사용법 time.sleep(2) : 2초간 멈춰!
import time

### 실습
- 네이버 메인페이지를 열어 검색어 결과 수집하기 (모든 프로세스를 생각해야함)

#### 코드 작성 순서
1. 브라우저 열기
2. 네이버 페이지로 이동하기
3. 검색창 클릭하기
4. 검색어 입력하기
5. 엔터

> 모든행동을 driver에게 명령 (where & how) : 어디에 무엇을 할건지를 명확하게 해줘야함! : `알고리즘`

In [8]:
# 1. 브라우저 열기 
driver = wb.Chrome()

In [9]:
# 2.  네이버 페이지로 이동
# driver 에게 요청 -> 크롬창이 열린 상태에서 명령
driver.get("https://www.naver.com/")

In [13]:
# 3. 검색어 입력하기 (keyword : 강아지)
# 검색창의 위치를 드라이버에게 공유
# requsts 할 때는 beautifulsoup을 해서 'lxml'로 parsing을 해줘야하는데 drvier는 웹페이지 자체이므로 바로 전달하면 됨
search = driver.find_element(By.ID,'query')
# find_element() = select_one() : 하나만 가져옴 >
# find_element() > 리스트 형태가 아님
# find_elements() > 가져오는 요소가 리스트 형태임.

```
driver.find_element(By.ID,'query')
```
-ID로 검색해옴. 검색창의 위치가 ID가 query인 곳에 지정 

In [14]:
# 4.검색어 입력
search.send_keys('강아지')

In [18]:
# 5. 엔터
search.send_keys(Keys.ENTER)

In [19]:
# 페이지에 있는 강아지 종류 수집 
driver.find_elements(By.CLASS_NAME, '_text')

[<selenium.webdriver.remote.webelement.WebElement (session="c43bbcc873f270ae5e5a886fa3d34bf9", element="f.68A818BE1DE6000502F3FC7F5ADE2EB2.d.FE54F29F33D2F5BFA280D68E5AD3D23D.e.11729")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c43bbcc873f270ae5e5a886fa3d34bf9", element="f.68A818BE1DE6000502F3FC7F5ADE2EB2.d.FE54F29F33D2F5BFA280D68E5AD3D23D.e.11752")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c43bbcc873f270ae5e5a886fa3d34bf9", element="f.68A818BE1DE6000502F3FC7F5ADE2EB2.d.FE54F29F33D2F5BFA280D68E5AD3D23D.e.11795")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c43bbcc873f270ae5e5a886fa3d34bf9", element="f.68A818BE1DE6000502F3FC7F5ADE2EB2.d.FE54F29F33D2F5BFA280D68E5AD3D23D.e.11867")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c43bbcc873f270ae5e5a886fa3d34bf9", element="f.68A818BE1DE6000502F3FC7F5ADE2EB2.d.FE54F29F33D2F5BFA280D68E5AD3D23D.e.11875")>,
 <selenium.webdriver.remote.webelement.WebElement (session="c43bbcc873

In [23]:
# content 가져오기 전 강아지 이름에 해당하는 태그 요소를 찾음.> content로 가져오는 건 .text를 통해서
dogs = driver.find_elements(By.CSS_SELECTOR, 'a._text')

- CSS_SELECTOR : 태그, 기호, 이름 / 전체적인 데이터를 가져올 때 CSS_SElector를 사용

In [24]:
# 페이지에 존재하는 모든 강아지 종을 출력 (content 가져오기)
for i in range(len(dogs)):
    print(dogs[i].text)

믹스견
프렌치 불도그
풍산개
푸들
포메라니안
펨브록 웰시 코기
페키니즈
퍼그
파피용
토이 푸들
코커 스패니얼
카바리에 킹 찰스 스파니엘
치와와
진돗개
제페니스 스피츠

















In [26]:
for lst in dogs:
    print(lst.text)

믹스견
프렌치 불도그
풍산개
푸들
포메라니안
펨브록 웰시 코기
페키니즈
퍼그
파피용
토이 푸들
코커 스패니얼
카바리에 킹 찰스 스파니엘
치와와
진돗개
제페니스 스피츠

















- 다시 메인페이지로 돌아가기 (뒤로가기)
- 뒤로가기 버튼은 html 구조에 미포함 > 웹브라우저의 기능 > driver에게 바로 요청 

In [27]:
# 메인페이지로 이동하기 위해서 뒤로가기
driver.back()

- 고양이 키워드 검색하여 종 이름 찾아오기

In [29]:
# driver에게 입력창의 위치 알려주기
search_cat = driver.find_element(By.ID, 'query')

In [30]:
# 검색창에 고양이 검색
search_cat.send_keys('고양이')

In [31]:
# 엔터키 입력
search_cat.send_keys(Keys.ENTER)

In [None]:
# 엔터키 입력과 똑같은 코드 >돋보기버튼을 누르는 코드
driver.find_elements(By.ID,'search-btn').click()

In [33]:
# 웹페이지에서 고양이 이름 가져와서 저장
cats = driver.find_elements(By.CSS_SELECTOR,'a._text')

In [34]:
for lst in cats:
    print(lst.text)

페르시안
터키시앙고라
코리안쇼트헤어
아비시니안
아메리칸쇼트헤어
스코티시폴드
샴(샤미즈)
뱅갈
먼치킨
러시안블루
노르웨이숲고양이


- 창닫기 > 창닫는 X버튼도 웹페이지의 요소가 아님

In [35]:
driver.quit()

> selenium은 페이지 정보가 새로고침 될 때마다 페이지에 대한 정보를 다시 줘야함!
>

> 차근차근 잘 나왔는지 실행필요 : 로딩해오는데 시간이 걸림

#### 코드합치기
- 페이지를 열고 검색 후 정보수집, 창닫기

In [37]:
driver = wb.Chrome()
driver.get("https://www.naver.com/")
#페이지 로딩 후 쉬는시간 주기
time.sleep(1) 
search = driver.find_element(By.ID,'query')
search.send_keys('강아지')
search.send_keys(Keys.ENTER)

time.sleep(2)
dogs = driver.find_elements(By.CSS_SELECTOR, 'a._text')
for i in range(len(dogs)):
    print(dogs[i].text)
driver.back()
driver.quit()

믹스견
프렌치 불도그
풍산개
푸들
포메라니안
펨브록 웰시 코기
페키니즈
퍼그
파피용
토이 푸들
코커 스패니얼
카바리에 킹 찰스 스파니엘
치와와
진돗개
제페니스 스피츠















