# Selenium
- 크롬이 아닌 크로미움 드라이버를 사용할 것
- 크롬은 사용자 편의 기능과 확장 기능등이 있음
- 크로미움은 웹 브라우저 본연의 기능만을 가지고 있음
- 브라우저를 조작, 컨트롤, 명령 할 수 있는 라이브러리

## Selenium 및 웹 드라이버 설치

In [25]:
!pip install Selenium
import sys



## 웹 드라이버 설정

In [30]:
from selenium import webdriver

In [31]:
chrome_optinons = webdriver.ChromeOptions()
chrome_optinons.add_argument('--headless')
chrome_optinons.add_argument('--no-sandbox')
chrome_optinons.add_argument('--disable-dev-shm-usage')

## 웹 드라이버 객체 생성
- 객체 생성시에 'chromedriver.exe'를 주피터 노트북 생성 경로와 일치 시켜야함

In [32]:
wd = webdriver.Chrome('chromedriver', options=chrome_optinons)

## Selenium 실행

In [34]:
wd.get('http://suanlab.com/')

In [38]:
wd.get_screenshot_as_file('suanlab.png')

True

- 여러개를 불러오므로 'elements'로 설정
- 반복문 설정
- label로 받아오는데 출력을 할 때 현재 label은 web drive에 객체 값임
- .text를 붙여 실질적인 텍스트 값 출력 가능
- _by ~

In [41]:
for label in wd.find_elements_by_tag_name('label'):
    print(label.text)

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


- 자주 쓰이는 용도로 css_selector를 볼 수 있음
- 상위 'label'에서 copy -> copy select를 통해서 css_selector를 가져옴
- 복사해 온 css_selector를 입력 시켜줌
- 주의 할 점은 첫 번째에 해당하는 label만 선택해서 
- #wrapper > section > div > div > div:nth-child(1) > div > div:nth-child(1) > label
- #wrapper > section > div > div > div > div > div > label
- 특정 부분을 선택하는 ":nth-child(1)" 지워줌

In [44]:
for label in wd.find_elements_by_css_selector('#wrapper > section > div > div > div > div > div > label'):
    print(label.text)

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


- xpath 이용
- 상위 'label'에서 copy -> copy xpath를 통해서 xpath를 가져옴
- 첫 번째 지정 요소 제외

In [46]:
for label in wd.find_elements_by_xpath('//*[@id="wrapper"]/section/div/div/div/div/div/label'):
    print(label.text)

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


- class
- 두 번 반복됨을 확인 가능 -> 클래스명이 중복되어 있기 때문
- css_selector로 미리 지정을 해둔 뒤 진행하면 중복 없이 출력 가능

In [53]:
toggle_class = wd.find_element_by_css_selector('#wrapper > section > div > div > div > div')
for label in toggle_class.find_elements_by_class_name('toggle'):
    print(label.text)
    
# for label in wd.find_elements_by_class_name('toggle'):
#     print(label.text)

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


- by_~ 상위 버전

In [55]:
from selenium.webdriver.common.by import By

In [56]:
for label in wd.find_elements(By.TAG_NAME,'label'):
    print(label.text)

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


In [57]:
for label in wd.find_elements(By.CSS_SELECTOR,'#wrapper > section > div > div > div > div > div > label'):
    print(label.text)

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


- 네이버 뉴스 스크래핑 해보기
- 재밌다

In [58]:
wd.get('https://news.naver.com/main/list.nhn?mode=LPOD&mid=sec&sid1=001&sid2=140&oid=001&isYeonhapFlash=Y')

In [60]:
ul = wd.find_element_by_css_selector('#main_content > div.list_body.newsflash_body > div > dl > dd > ul')
for li in ul.find_elements_by_tag_name('li'):
    print(li.text)

황선우, 자유형 100ｍ 아시아신기록 및 4위로 결승 진출연합뉴스2021.07.28 100+
자유형 100ｍ 아시아신기록 황선우 "전혀 예상치 못했어요"연합뉴스2021.07.28 50+
세계 1위 남자 사브르, 단체전 첫판서 이집트 격파…독일과 4강연합뉴스2021.07.28 10+
배드민턴 혼합복식 서승재-채유정, 8강서 중국에 패배연합뉴스2021.07.28
정영식, 세계 1위 판전둥 벽에 막혀 8강 탈락연합뉴스2021.07.28 30+


In [61]:
for ul in wd.find_elements_by_css_selector('#main_content > div.list_body.newsflash_body > div > dl > dd > ul'):
    print(ul.text)

황선우, 자유형 100ｍ 아시아신기록 및 4위로 결승 진출연합뉴스2021.07.28 100+
자유형 100ｍ 아시아신기록 황선우 "전혀 예상치 못했어요"연합뉴스2021.07.28 50+
세계 1위 남자 사브르, 단체전 첫판서 이집트 격파…독일과 4강연합뉴스2021.07.28 10+
배드민턴 혼합복식 서승재-채유정, 8강서 중국에 패배연합뉴스2021.07.28
정영식, 세계 1위 판전둥 벽에 막혀 8강 탈락연합뉴스2021.07.28 30+


In [63]:
for ul in wd.find_elements_by_xpath('//*[@id="main_content"]/div[2]/div/dl/dd/ul'):
    print(ul.text)

황선우, 자유형 100ｍ 아시아신기록 및 4위로 결승 진출연합뉴스2021.07.28 100+
자유형 100ｍ 아시아신기록 황선우 "전혀 예상치 못했어요"연합뉴스2021.07.28 50+
세계 1위 남자 사브르, 단체전 첫판서 이집트 격파…독일과 4강연합뉴스2021.07.28 10+
배드민턴 혼합복식 서승재-채유정, 8강서 중국에 패배연합뉴스2021.07.28
정영식, 세계 1위 판전둥 벽에 막혀 8강 탈락연합뉴스2021.07.28 30+
