## selenium 라이브러리 
1. 웹 어플리케이션을 테스트하기 위한 라이브러리 
2. python code를 이용하여 웹 브라우져를 제어 
3. 구글 크롬의 구버전을 사용 시 별도의 소프트웨어 필요

In [None]:
## 라이브러리 설치 
# !pip install selenium

In [None]:
from selenium import webdriver

In [None]:
# 웹 브라우져를 실행 
driver = webdriver.Chrome()

In [None]:
# 웹 브라우져에 주소를 입력 
driver.get("https://www.naver.com")

In [None]:
## selenium에서 특정 기능을 로드 
# By : 특정 태그를 찾을때 ID나 Class, ... 조건으로 검색
from selenium.webdriver.common.by import By
# Keys : 키보드의 이벤트를 발생 시키는 기능
from selenium.webdriver.common.keys import Keys

- find_element()
    - HTML문서에서 특정 태그를 검색 -> 첫번째 태그를 선택
    - bs4에서 find()와 같은 기능
- find_elements()
    - HTML문서에서 특정 태그와 같은 모든 태그를 검색
    - bs4에서 find_all()과 같은 기능

In [None]:
# 네이버 메인 화면에 있는 검색어를 입력하는 input 태그를 선택
element = driver.find_element(By.ID, 'query')

In [None]:
# 검색어를 입력 (특정 문자열을 보낸다.)
element.send_keys("토요일")

In [None]:
# element에서 키보드의 ENTER 이벤트를 발생 
element.send_keys(Keys.ENTER)

In [None]:
# class가 link_tit인 태그를 검색
len(driver.find_elements(By.CLASS_NAME, 'link_tit'))

In [None]:
links = driver.find_elements(By.CLASS_NAME, 'link_tit')

In [None]:
# 특정 태그를 클릭 이벤트 발생
links[0].click()

In [None]:
# 웹 브라우져에 있는 HTML 문서를 출력
driver.page_source  # 문자열

In [None]:
## BeatifulSoup을 로드 
from bs4 import BeautifulSoup as bs

In [None]:
## HTML 문서를 parsing
soup = bs(driver.page_source, 'html.parser')

In [None]:
soup.find('title')

In [None]:
## 웹 브라우져의 탭의 정보를 출력 
driver.window_handles

In [None]:
## driver에서 탭을 이동
driver.switch_to.window(driver.window_handles[1])

In [None]:
soup2 = bs(driver.page_source, 'html.parser')

In [None]:
soup2.find('title')

In [None]:
# soup2에서 div태그중 id가 'mw-content-text' 태그를 추출 
div_data = soup2.find('div', attrs={
    'id' : 'mw-content-text'
})

In [None]:
# div_data에서 p태그의 개수를 확인 
len(div_data.find_all('p'))

In [None]:
p_list = div_data.find_all('p')

In [40]:
p_list

[<p><span class="nowrap"></span>
 </p>,
 <p><b>토요일</b>(土曜日)은 금요일 뒤의 날, 일요일 앞의 날이다. 토요일은 대부분의 서방 국가에서 <a href="/wiki/%EC%A3%BC%EB%A7%90" title="주말">주말</a>의 일부로 취급한다.
 </p>,
 <p>일부 <a href="/wiki/%EA%B2%8C%EB%A5%B4%EB%A7%8C%EC%96%B4%ED%8C%8C" title="게르만어파">게르만어파</a> 언어에서 토요일은 '<a href="/wiki/%EC%82%AC%ED%88%AC%EB%A5%B4%EB%88%84%EC%8A%A4" title="사투르누스">사투르누스</a>의 날'(<span style="font-size: smaller;"><a href="/wiki/%EC%98%81%EC%96%B4" title="영어">영어</a>: </span><span lang="en">Saturday</span>, <span style="font-size: smaller;"><a href="/wiki/%EB%84%A4%EB%8D%9C%EB%9E%80%EB%93%9C%EC%96%B4" title="네덜란드어">네덜란드어</a>: </span><span lang="nl">Zaterdag</span>)을 어원으로 하고 있는데, 사투르누스는 <a href="/wiki/%ED%86%A0%EC%84%B1" title="토성">토성</a>을 상징하는 신이므로, <a href="/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD" title="대한민국">대한민국</a>과 <a href="/wiki/%EC%9D%BC%EB%B3%B8" title="일본">일본</a>에서는 '토요일'로 불린다. 나머지 대부분의 경우 <a class="mw-redirect" href="/wiki/%EB%B6%81%EA%B2%8C%EB%A5%B4%EB%A7%8C%EC%96%B4" title="북게르만어">북게르만어</

In [46]:
## p_list에서 각각의 원소에서 텍스트를 추출하여 새로운 리스트에 추가 
## 만약에 텍스트가 존재하지 않는다면 추가하지 않는다. 
_val = []

for p in p_list:
    # print(p.get_text(strip=True))
    data = p.get_text().strip()
    if len(data) != 0:
        _val.append(data)
        # print([data])
_val

['토요일(土曜日)은 금요일 뒤의 날, 일요일 앞의 날이다. 토요일은 대부분의 서방 국가에서 주말의 일부로 취급한다.']
["일부 게르만어파 언어에서 토요일은 '사투르누스의 날'(영어: Saturday, 네덜란드어: Zaterdag)을 어원으로 하고 있는데, 사투르누스는 토성을 상징하는 신이므로, 대한민국과 일본에서는 '토요일'로 불린다. 나머지 대부분의 경우 북게르만어 즉 노르만어 위주로는 lördag이라고 한다. 그러나 게르만어의 중심인 독일어는 Samstag[zámsta:k]라고 다르게 부른다. 잠(Sam)이라는 위인/신이 있는가 혹은 아래 라틴어파 sabato 특히 불어를 접해 들어온 것이 아닐까 하는 의견이 있다."]
["남부 유럽 언어 및 동남아 언어에서 '토요일'이란 낱말은 안식일(샤밭)을 어원으로 하고 있다. 그 예로는 그리스어 Σάββατο, 이탈리아어 sabato, 인도네시아어 sabtu 등이 있다."]


In [48]:
## div_data에서 ul 태그를 모두 찾는다. 
ul_list = div_data.find_all('ul')

In [50]:
len(ul_list)

5

In [53]:
# ul_list에서 3번째 데이터까지만 텍스트를 추출
for i in range(3):
    ul_data = ul_list[i]
    li_list = ul_data.find_all('li')
    print(len(li_list))
    for li in li_list:
        # print(li.get_text())
        _val.append(li.get_text())

1
1
6


In [54]:
_val

['토요일(土曜日)은 금요일 뒤의 날, 일요일 앞의 날이다. 토요일은 대부분의 서방 국가에서 주말의 일부로 취급한다.',
 "일부 게르만어파 언어에서 토요일은 '사투르누스의 날'(영어: Saturday, 네덜란드어: Zaterdag)을 어원으로 하고 있는데, 사투르누스는 토성을 상징하는 신이므로, 대한민국과 일본에서는 '토요일'로 불린다. 나머지 대부분의 경우 북게르만어 즉 노르만어 위주로는 lördag이라고 한다. 그러나 게르만어의 중심인 독일어는 Samstag[zámsta:k]라고 다르게 부른다. 잠(Sam)이라는 위인/신이 있는가 혹은 아래 라틴어파 sabato 특히 불어를 접해 들어온 것이 아닐까 하는 의견이 있다.",
 "남부 유럽 언어 및 동남아 언어에서 '토요일'이란 낱말은 안식일(샤밭)을 어원으로 하고 있다. 그 예로는 그리스어 Σάββατο, 이탈리아어 sabato, 인도네시아어 sabtu 등이 있다.",
 "중국에서는 토요일을 한 주의 여섯째 날이라는 의미로 '星期六'이라고 한다.",
 "이란에서는 일반적인 요일을 뜻하는 샴베(شنبه)라고 부른다. 이란은 이슬람교를 믿는 국가이므로, 토요일이 한 주의 첫번째 날이다. 당나라 대의 점성술 서적인 수요경에서는 토요일을 '흡삼물(翕森勿)'이라고 했다고 했는데, 이는 7번째 날이라는 것을 뜻한다.",
 '대한민국의 초·중·고등학교는 2012학년도부터 주5일제를 전면 실시하여 토요일에 등교를 하지 않게 되었다.',
 '대한민국의 기업체에서는 2005년 1월 1일부터 주5일제를 적용하면서 토요일에는 근무하지 않게 되었다. 공식적으로는 토요일에 휴무지만 일부 중소기업 등에서는 토요일에도 사실상 근무한다.',
 '일본에서는 1월 14일 이후 첫 토요일에 센터시험의 지리역사•공민, 국어, 외국어 시험을 본다.',
 '2009-10시즌부터 UEFA 챔피언스리그와 UEFA 유로파리그의 결승전이 토요일에 열린다.',
 '프리미어리그 등 프로 축구 리그는 대체로 토요일에 경기를 한다.',
 '중화인민공화국이나 헝가