# 크롤링 종류
1. 정적 웹 페이지 크롤링(url 주소가 변경됨)  
> 정적 웹 페이지란 서버(Web Server)에 <u>미리 저장된 파일</u>이 그대로 전달되는 웹 페이지를 말합니다. 즉, 특정 웹페이지의 url 주소만 주소창에 입력하면 웹 브라우저로 HTML 정보를 마음대로 가져올 수 있습니다. 
- 장점
  - 요청에 대한 파일만 전송하면 되기 때문에 서버간 통신이 거의 없고 속도가 빠름
  - 단순한 문서들로만 이루어져 있어서 어떤 호스팅서버에서도 동작 가능하므로 구축하는데 드는 비용이 적음
- 단점
  - 저장된 정보만 보여주기 때문에 서비스가 한정적
  - 추가, 수정, 삭제 등의 작업을 서버에서 직접 다운받아 편집 후 업로드로 수정해줘야 하기 때문에 관리가 어려움
- 사용 라이브러리: requests / BeautifulSoup
2. 동적 웹 페이지 크롤링(url 주소가 변경되지 않음)
> 동적 웹 페이지란 입력, 클릭, 로그인 등 여러 이유로 [Ajax(비동기 통신)](https://sjparkk-dev1og.tistory.com/27) 형태로 서버(Was Server)와 데이터를 주고 받아 동적으로 제공하는 웹 페이지를 말합니다. 
- 장점
  - 다양한 정보를 조합하여 웹 페이지를 제공하기 때문에 서비스가 다양함
  - 추가, 수정, 삭제 등의 작업이 가능하기 때문에 관리가 편함
- 단점
  - 웹 페이지를 보여주기 위해서 여러번의 비동기 통신을 처리하기 때문에 상대적으로 속도가 느림
  - Web Server외에 Was Server가 추가로 필요함
- 사용 라이브러리: selenium, chromedriver

# [Selenium](https://www.selenium.dev/documentation/webdriver/)
- 참고 동영상: https://www.inflearn.com/course/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%ED%81%AC%EB%A1%A4%EB%A7%81-%EA%B8%B0%EC%B4%88/unit/93651?tab=curriculum
## Locating Elements
- https://selenium-python.readthedocs.io/locating-elements.html

## 설치
- selenium      
-  [브라우저별 selenium webdriver 설치](https://wikidocs.net/91474)    
    - [Google Chrome](https://chromedriver.chromium.org/downloads): 개발자는 무조건 크롬!!
    - [Microsoft Edge](https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/)

In [2]:
# !pip install selenium

In [34]:
# !pip install webdriver_manager

Collecting webdriver_manager
  Downloading webdriver_manager-3.8.3-py2.py3-none-any.whl (26 kB)
Collecting python-dotenv
  Downloading python_dotenv-0.20.0-py3-none-any.whl (17 kB)
Installing collected packages: python-dotenv, webdriver_manager
Successfully installed python-dotenv-0.20.0 webdriver_manager-3.8.3

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.1.2[0m[39;49m -> [0m[32;49m22.2.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m


## Import 라이브러리

In [1]:
import time
import pyautogui
import pyperclip 

import selenium
from selenium import webdriver
from selenium.webdriver import ActionChains 

from selenium.webdriver.common.keys import Keys 
from selenium.webdriver.common.by import By 

from selenium.webdriver.support import expected_conditions as EC 
from selenium.webdriver.support.ui import Select 
from selenium.webdriver.support.ui import WebDriverWait 

from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options 

# 크롬 드라이버 자동 업데이트
from webdriver_manager.chrome import ChromeDriverManager

Python-dotenv could not parse statement starting at line 1
Python-dotenv could not parse statement starting at line 2


## 사용법
### Driver & Web Load

In [2]:
# driver = webdriver.Chrome(executable_path='./chromedriver') # 드라이버 설치한 경우
chrome_options = Options()
chrome_options.add_experimental_option("detach", True) # 브라우저 꺼짐 방지

service = Service(executable_path=ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)
url = 'https://www.google.com'
driver.get(url) # 브라우저를 띄운다

print(f'current_url: {driver.current_url}')
driver.close() # 프라우저 닫는다.

current_url: https://www.google.com/


### [Wait till Load Webpage(로딩 대기)](https://selenium-python.readthedocs.io/waits.html)
> 정적 웹 페이지와는 다르게 동적 웹 페이지는 브라우저에서 해당 웹 페이지의 요소들을 로드하는 데 시간이 걸린다.        
    
#### Implicit Waits(암묵적 대기)
> 찾으려는 element가 로드될 때까지 지정한 시간만큼 대기할 수 있도록 설정한다.   
```python
from selenium import webdriver

driver = webdriver.Chrome(executable_path='./chromedriver')
driver.implicitly_wait(time_to_wait=5) # 단위는 초, Default값은 0초이다.
```        
    
#### Explicit Waits(명시적 대기)
> `time.sleep(secs)`와 같이 자바스크립트 함수를 사용하여 무조건 대기하는 방법이 있다. 사용하기는 편리하지만, 성능(효율)이 좋지 않기 때문에 지양하는게 좋다. 대신 `WebDriverWait`를 사용하는 것이 좋다.  
```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome(executable_path='./chromedriver')
url = 'https://www.google.com'
driver.get(url)
try:
    element = WebDriverWait(driver, 5).until(
        EC.presence_of_element_located((By.CLASS_NAME , '클래스명')) # 만약 5초 동안 클래스명을 찾을 수 없다면, False(찾는다면 True)
    ) 
finally:
    driver.quit()
```

In [13]:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

chrome_options = Options()
chrome_options.add_experimental_option("detach", True) # 브라우저 꺼짐 방지

service = Service(executable_path=ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)
driver.get("http://naver.com")
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "header"))
    )
finally:
    driver.quit()

  driver = webdriver.Chrome(executable_path='./chromedriver')


### [expected_conditions](https://selenium-python.readthedocs.io/waits.html#explicit-waits)  
> title_is, visibility_of 등 이미 만들어진 함수를 사용할 수도 있지만, 새로 만들 수도 있음.
```python
class element_has_css_class(object):
  """An expectation for checking that an element has a particular css class.

  locator - used to find the element
  returns the WebElement once it has the particular css class
  """
  def __init__(self, locator, css_class):
    self.locator = locator
    self.css_class = css_class

  def __call__(self, driver):
    element = driver.find_element(*self.locator)   # Finding the referenced element
    if self.css_class in element.get_attribute("class"):
        return element
    else:
        return False

# Wait until an element with id='myNewInput' has class 'myCSSClass'
wait = WebDriverWait(driver, 10)
element = wait.until(element_has_css_class((By.ID, 'myNewInput'), "myCSSClass"))
```