## 5.4 동적크롤링

reference: https://selenium-python.readthedocs.io/index.html

In [8]:
!pip install selenium #selenium 설치

Defaulting to user installation because normal site-packages is not writeable


ERROR: Invalid requirement: '#selenium'


In [9]:
from selenium import webdriver

ModuleNotFoundError: No module named 'selenium'

### 5.4.1 설치 방법

```cmd
pip install selenium
```

Chrome Driver: https://chromedriver.chromium.org/downloads

In [None]:
# 크롬 설정에 들어가서 chrome 정보 확인 (버전정보를 보여줌)
# 해당정보로 win 32 zip 설정

### 5.4.2 사용법

기본적인 사용 방법은 아래와 같음
```python
from selenium import webdriver
 
driver = webdriver.Chrome(executable_path='chromedriver') # executable_path: chromedriver path
# driver = webdriver.Firefox()

driver.get(url="http://www.naver.com")

driver.close()
```

#### 5.4.2.1 Locating Elements

find_element: 조건에 해당하는 하나의 값 반환  
find_elements: 조건에 해당하는 다수의 값 반환

element를 찾는 method는 아래와 같음
- by_ID
- by_xpath
- by_link_text
- by_partial_link_text
- by_name
- by_tag_name
- by_class_name
- by_css_selector

```python
from selenium.webdriver.common.by import By
element = driver.find_element(By.XPATH, x_path)
element = driver.find_element_by_xpath(x_path)

element = driver.find_element(By.CSS_SELECTOR, css)
element = driver.find_element_by_css_selector(css)
```

해당 값을 못 찾은 경우 NoSuchElementException 발생

#### 5.4.2.2 Navigating

###### Send Keys
```python
driver.find_element_by_xpath(xpath).send_keys(id)
driver.find_element_by_xpath(xpath).send_keys(password)
driver.find_element_by_xpath(xpath).click()
```

외에도 Keys 내의 다양한 커맨드 입력 가능
```
from selenium.webdriver.common.keys import Keys
```
|Command          |Action |
|-----------------|-------|
|Keys.ENTER       |엔터    |
|Keys.RRETURN     |       |
|Keys.SPACE       |스페이스 |
|Keys.ARROW_UP    |화살표   |
|Keys.ARROW_DOWN  |       |
|Keys.ARROW_LEFT  |       |
|Keys.ARROW_RIGHT |       |
|Keys.BACK_SPACE  |지우기   |
|Keys.DELETE      |       |
|Keys.CONTROL     |Ctrl   |
|Keys.ALT         |Alt    |
|Keys.SHIFT       |Shift  |
|Keys.TAB         |Tab    |
|Keys.PAGE_UP     |Page-Up|
|Keys.PAGE_DOWN   |Page-Down|
|Keys.TAB         |Tab    |
|Keys.F1 ~ Keys.F9|F1~F9  |
|Keys.ESCAPE      |ESC    |
|Keys.HOME        |Home   |
|Keys.INSERT      |Insert |
|...              |...    |

##### Drag and Drop

```python
from selenium.webdriver import ActionChains

element = driver.find_element(By.NAME, "source")
target = driver.find_element(By.NAME, "target")

action_chains = ActionChains(driver)
action_chains.drag_and_drop(element, target).perform()
```

##### Moving between Windows
```python
previous_window = driver.window_handles[0]
new_window = driver.window_handles[1]
driver.switch_to.window(new_window)
```


##### Moving
```python
driver.forward()
driver.back()
```

#### 5.4.2.3 Waiting

Selenium은 실행 중인 driver를 이용하여 정보를 추출  
driver에 데이터 로딩이 완료되지 않을 경우 데이터 수집이 불가  
따라서 페이지 이동 등의 작업이 들어가면 다음 작업이 완료될 때까지 대기해야만 함

##### Time

가장 기본적인 방법으로 대기 시간을 time 모듈을 통해 명시

```python
import time
from selenium import webdriver


driver = webdriver.Chrome(executable_path='chromedriver')
driver.get(url="http://www.naver.com")
time.sleep(5)
driver.close()
```

##### Implicit Wait

위의 time에서는 2가지 문제가 존재
1. 모든 반응형 동작마다 time을 걸어 웹 로딩 대기
2. time을 5초로 설정했지만 실제 그보다 동작이 빨리 끝날 경우 불필요한 시간 대기

위의 문제를 해결하고자 implicit wait을 이용  
이는 driver의 옵션 설정으로 반응형 동작에서 최대 허용 대기 시간을 설정  
만약 허용 시간 이내에 로드가 완료될 경우 다음 작업을 바로 진행

```python
from selenium import webdriver


driver = webdriver.Chrome(executable_path='chromedriver')
driver.implicitly_wait(time_to_wait=5)
driver.get(url="http://www.naver.com")
driver.close()

```

##### Explicit Wait

implicit wait에서는 driver가 로딩을 대기하는 시간을 설정하여 5초를 설정하였어도 이전에 로드가 완료되면 다음 작업의 진행이 가능하였음  
하지만 위 경우도 문제가 있는데 5초가 지나도 내가 원하는 데이터가 로드가 안 되었을 경우 데이터를 수집할 수 없음  
따라서 특정 값이 로드될 때까지 기다렸다가 그 값이 로드되면 다음 작업을 진행할 필요성이 발생  
이 때 이용하는 게 explicit wait

```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome(executable_path='chromedriver') 
driver.get(url="http://www.naver.com")

try:
    element = WebDriverWait(driver, 5).until(
        EC.presence_of_element_located((By.CLASS_NAME , 'paging'))
    )
finally:
    driver.quit()

driver.close()

```

until: 조건이 False인 동안에 계속 실행  
not_until: 조건이 True인 동안에 계속 실행

#### 5.4.2.4 ActionChains

연속 동작을 수행하기 위함

ex) control + c
```python
ActionChains(driver).key_down(Keys.CONTROL).send_keys('c').key_up(Keys.CONTROL).perform()
```

##### Drag and Drop

```python
from selenium.webdriver import ActionChains

element = driver.find_element(By.NAME, "source")
target = driver.find_element(By.NAME, "target")

action_chains = ActionChains(driver)
action_chains.drag_and_drop(element, target).perform()
```

#### 5.4.2.5 Others

##### Options
```python
options = webdriver.ChromeOptions()
options.add_argument('window-size=1920,1080')

driver = webdriver.Chrome(executable_path, options=options)
```

##### Alert

경고창 발생 시 이에 수락, 거절 등의 행동을 취할 수 있음

```python
from selenium.webdriver.common.alert import Alert

Alert(driver).accept() # 수락
Alert(driver).dismiss() # 거절
Alert(driver).send_keys(keysToSend=key) # 특정 키를 보낼 수 있음
```

##### Scroll Down
페이지의 최하단으로 이동
```python
driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
```
<br>

특정 태그가 등장할 때까지 이동
```python
from selenium.webdriver import ActionChains

some_tag = driver.find_element_by_id('gorio')
ActionChains(driver).move_to_element(some_tag).perform()
```

##### Minimize/Maximize

```python
driver.minimize_window()
driver.maximize_window()
```

##### Screen Shot
```python
driver.save_screenshot('screenshot.png')
```

#### 실습

##### gmail log-in

In [11]:
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
import time


In [4]:

driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더
# driver = webdriver.Firefox()
driver.get(url="http://www.naver.com")

# driver.close()


NameError: name 'webdriver' is not defined

In [None]:
driver.close()

In [None]:
driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더
# driver = webdriver.Firefox()

driver.get(url="http://www.gmail.com")


  driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더


In [None]:

driver.find_element(By.XPATH, '/html/body/div[1]/div[1]/div[2]/div/div[2]/div/div/div[2]/div/div[1]/div/form/span/section/div/div/div[1]/div/div[1]/div/div[1]/input').send_keys('larryha89')



In [None]:
driver.find_element(By.XPATH, '/html/body/div[1]/div[1]/div[2]/div/div[2]/div/div/div[2]/div/div[2]/div/div[1]/div/div/button/span').click()

In [None]:
driver.close()

NameError: name 'driver' is not defined

##### naver log-in

In [None]:

driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더
# driver = webdriver.Firefox()

driver.get(url="http://www.naver.com")

# driver.close()


  driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더


In [None]:
driver.find_element(By.XPATH, '/html/body/div[2]/div[3]/div[3]/div/div[2]/a').click()

In [None]:
driver.find_element(By.XPATH, '/html/body/div[1]/div[2]/div/div[1]/form/ul/li/div/div[1]/div[1]/input').send_keys('qzom89')


In [None]:
driver.find_element(By.XPATH, '/html/body/div[1]/div[2]/div/div[1]/form/ul/li/div/div[1]/div[2]/input').send_keys('sjftkfkdgo')


In [None]:
driver.find_element(By.XPATH, '/html/body/div[1]/div[2]/div/div[1]/form/ul/li/div/div[7]/button').click()


### 5.4.3.2 기업집단 포털

#### 브라우저 내에 가져올수 없는 내역을 selenium을 통하셔 사용한다

In [None]:
https://www.egroup.go.kr/egps/wi/stat/kap/affltsAssetsTotamtList.do

In [None]:
driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더
driver.get(url="https://www.egroup.go.kr/egps/wi/stat/kap/affltsAssetsTotamtList.do")
time.sleep(4) #드라이버 로드까지 걸리는 초단위
bs = BeautifulSoup(driver.page_source, 'lxml')  #페이지에 있는 모든소스를 가져온다
driver.close()

  driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더


In [None]:
bs.select('div#resultListDiv')[0].select('tr') #selenium은 모든 페이지의 내용을 가져올수있다

[<tr>
 <th rowspan="2" scope="colgroup">구분</th>
 <th rowspan="2" scope="colgroup">기업집단명</th>
 <th rowspan="2" scope="colgroup">동일인</th>
 <th colspan="3" scope="colgroup">계열회사 수</th>
 <th colspan="3" scope="colgroup">자산총액</th>
 </tr>,
 <tr>
 <th scope="colgroup">202205</th>
 <th scope="colgroup">202105</th>
 <th scope="colgroup">증감</th>
 <th scope="colgroup">202205</th>
 <th scope="colgroup">202105</th>
 <th scope="colgroup">증감</th>
 </tr>,
 <tr>
 <td name="gbnTd" rowspan="68">계속지정집단</td>
 <td style="text-align: left;">DB</td>
 <td style="text-align: left;">김준기</td>
 <td name="sumA_target" style="text-align: right;">20</td>
 <td name="sumB_target" style="text-align: right;">21</td>
 <td name="sumC_target" style="text-align: right;">-1</td>
 <td style="text-align: right;">11,260</td>
 <td style="text-align: right;">10,366</td>
 <td style="text-align: right;">893</td>
 </tr>,
 <tr>
 <td style="text-align: left;">DL</td>
 <td style="text-align: left;">이준용</td>
 <td name="sumA_target" style

#### implicitly wait 사용하기 <br>
주의!) 거의사용하지 않음

In [7]:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [None]:

driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더
driver.implicitly_wait(time_to_wait=5) #반드시 제일 상단에 나와야햠 드라이버 모든상황에 사용 #화면 layout 기준이기에 잘설정해야함
driver.get(url="https://www.egroup.go.kr/egps/wi/stat/kap/affltsAssetsTotamtList.do")
bs = BeautifulSoup(driver.page_source, 'lxml')  #페이지에 있는 모든소스를 가져온다


  driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더


In [None]:
bs.select('div#resultListDiv')[0].select('tr') #selenium은 모든 페이지의 내용을 가져올수있다

[]

#### explicitly wait <br>
(자주사용함)

In [None]:
driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더
driver.get(url="https://www.egroup.go.kr/egps/wi/stat/kap/affltsAssetsTotamtList.do")
WebDriverWait(driver, 5).until(
        EC.element_to_be_clickable((By.XPATH , '/html/body/div[2]/div[3]/div[3]/div/form/div/div[2]/div/div/div/table/tbody/tr[1]/td[3]')))
bs = BeautifulSoup(driver.page_source, 'lxml') 


  driver = webdriver.Chrome(executable_path='./chromedriver.exe') # executable_path: chromedriver path #..바로 앞에 있는 폴더


In [None]:
bs.select('div#resultListDiv')[0].select('tr') #selenium은 모든 페이지의 내용을 가져올수있다

[<tr>
 <th rowspan="2" scope="colgroup">구분</th>
 <th rowspan="2" scope="colgroup">기업집단명</th>
 <th rowspan="2" scope="colgroup">동일인</th>
 <th colspan="3" scope="colgroup">계열회사 수</th>
 <th colspan="3" scope="colgroup">자산총액</th>
 </tr>,
 <tr>
 <th scope="colgroup">202205</th>
 <th scope="colgroup">202105</th>
 <th scope="colgroup">증감</th>
 <th scope="colgroup">202205</th>
 <th scope="colgroup">202105</th>
 <th scope="colgroup">증감</th>
 </tr>,
 <tr>
 <td name="gbnTd" rowspan="68">계속지정집단</td>
 <td style="text-align: left;">DB</td>
 <td style="text-align: left;">김준기</td>
 <td name="sumA_target" style="text-align: right;">20</td>
 <td name="sumB_target" style="text-align: right;">21</td>
 <td name="sumC_target" style="text-align: right;">-1</td>
 <td style="text-align: right;">11,260</td>
 <td style="text-align: right;">10,366</td>
 <td style="text-align: right;">893</td>
 </tr>,
 <tr>
 <td style="text-align: left;">DL</td>
 <td style="text-align: left;">이준용</td>
 <td name="sumA_target" style

##### 5.4.3.3 DART


##### Moving Between windows (Dart)

In [58]:
from selenium import webdriver
 
driver = webdriver.Chrome(executable_path='../chromedriver') # executable_path: chromedriver path
# driver = webdriver.Firefox()

driver.get(url="https://dart.fss.or.kr/")

## 검색하기 

search_xpath = '/html/body/div[2]/div[1]/div[3]/div/div[2]/form/div[1]/div[2]/span[2]/div/input'
click_xpath = '/html/body/div[2]/div[1]/div[3]/div/div[2]/form/div[1]/div[3]/a'
WebDriverWait(driver, 5).until(
        EC.element_to_be_clickable((By.XPATH , search_xpath)))

driver.find_element(By.XPATH, search_xpath).send_keys('삼성전자')
driver.find_element(By.XPATH, click_xpath).click()


#반기보고서 클릭하기 

bi_yearly_report = '/html/body/div[4]/div[2]/div[1]/div[2]/div[2]/form[3]/div/div[1]/table/tbody/tr[6]/td[3]/a'

WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.XPATH , bi_yearly_report)))

driver.find_element(By.XPATH, bi_yearly_report).click()

# 반기보고서에 있는 재무제표 내역 scraping

consol_financial = '/html/body/div[3]/div/div[2]/div[1]/div[2]/ul/ul/li[5]/ul/li[2]/a'
print(driver.window_handles)
driver.switch_to.window(driver.window_handles[1])
driver.find_element(By.XPATH,consol_financial ).click()




# driver.close()

  driver = webdriver.Chrome(executable_path='../chromedriver') # executable_path: chromedriver path


['CDwindow-AE741D4208E9C2953B33033415E67D37', 'CDwindow-738C4687E8AD676FEFD3783884E5F3BD']


In [59]:
#재무제표 내역 들고 오기



bs = BeautifulSoup(driver.page_source,'lxml') #현재 page의 내역을 보여준다
print(bs)
driver.close()
driver.switch_to.window(driver.window_handles[0]) 


# iframe을 이용하여 가져오기
# driver.switch_to.frame(iframes[1])
# bs.select('table')

# bs.select('/html/body/table[2]')


<html class="ext-strict" lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml"><head>
<title>
	삼성전자/반기보고서/2022.08.16
	</title>
<meta charset="utf-8"/>
<meta content="width=device-width, user-scaleable=no" name="viewport"/>
<meta content="ie=edge" http-equiv="X-UA-Compatible"/>
<script src="/resource/js/jquery-3.3.1.min.js" type="text/javascript"></script>
<link href="/js/jquery-ui/jquery-ui.min.css" rel="stylesheet"/>
<script src="/js/jquery-ui/jquery-ui.min.js" type="text/javascript"></script>
<!-- 2011.11.01 ext 2.3 -->
<!--[if lte IE 8]><link rel="stylesheet" type="text/css" href="/js/ext-main/resources/css/ext-all-ie8.css" /><![endif]-->
<script src="/js/ext-main/adapter/ext/ext-base.js" type="text/javascript"></script>
<script src="/js/ext-main/ext-all.js" type="text/javascript"></script>
<!-- x-xeries js libraries  -->
<script src="/js/xjs.js?ver=1.17" type="text/javascript"></script>
<!-- application js libraries -->
<script src="/js/jsval.js" type="text/javascript"></scr

#### 5.4.2.4 ActionChains

연속 동작을 수행하기 위함 
###### (actionchain은 연속으로 키를 누를때 사용한다 )

ex) control + c
```python
ActionChains(driver).key_down(Keys.CONTROL).send_keys('c').key_up(Keys.CONTROL).perform()
```

##### Drag and Drop

```python
from selenium.webdriver import ActionChains

element = driver.find_element(By.NAME, "source")
target = driver.find_element(By.NAME, "target")

action_chains = ActionChains(driver)
action_chains.drag_and_drop(element, target).perform()
```

##### Options
```python
options = webdriver.ChromeOptions()
options.add_argument('window-size=1920,1080')

driver = webdriver.Chrome(executable_path, options=options)
```

##### Alert

경고창 발생 시 이에 수락, 거절 등의 행동을 취할 수 있음

```python
from selenium.webdriver.common.alert import Alert

Alert(driver).accept() # 수락
Alert(driver).dismiss() # 거절
Alert(driver).send_keys(keysToSend=key) # 특정 키를 보낼 수 있음
```

##### Scroll Down
페이지의 최하단으로 이동
```python
driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
```
<br>

특정 태그가 등장할 때까지 이동
```python
from selenium.webdriver import ActionChains

some_tag = driver.find_element_by_id('gorio')
ActionChains(driver).move_to_element(some_tag).perform()
```