# 로봇 배제 표준 문서
- 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약
- 일반적으로 접근 제한에 대한 설명을 robots.txt 기술해 놓고 루트 디렉토리에 위치 시킨다. 
- 이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다.
- 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다

## 데이터 수집 시 주의 사항
- 로봇 배제 표준이 권고안이라도 불법으로 데이터를 수집하여 영업 혹은 저작권 침해에 해당된다면 법적 제재를 받을 수 있다.  
- https://ko.wikipedia.org/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80

# 셀레니움(Selenium)
- Selenium은 주로 웹앱을 테스트하는데 사용하는 프레임워크
- webdriver라는 API를 통해 운영체제에 설치된 크롬 등의 브라우저를 제어
- Selenium 모듈 설치 후 사용
- 사용자 브라우저(Chrome, Edge, ..)에 맞는 webdriver를 다운로드 후 사용 가능
- 다운로드 사이트에서 본인이 사용하는 브라우저의 버전등을 확인 후 다운로드
- 크롬: https://chromedriver.chromium.org/downloads
- Edge: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- 파이어폭스:https://github.com/mozilla/geckodriver/releases

__주의__
최근 없데이트되면서 문법 변경됨

## webdriver
- selenium의 webdriver는 웹 응용 프로그램들의 테스트를 단순화 및 가속화해주는 툴

### 크롬 드라이브 다운
1. 크롬 브라우저 버전을 확인한다.(크롬브라우저 점3개 클릭-도움말-정보)
2. 동일버전의 webdriver을 다운로드 [driver](https://chromedriver.chromium.org/downloads)
3. ./tools/chromedirver.exe

In [None]:
import selenium
from selenium import webdriver
import time

In [None]:
driver = webdriver.Chrome("chromedriver.exe")
driver.get("https://www.naver.com")
time.sleep(10)
driver.close()

### selenium 내장함수

#### 1. get()
- get() 함수는 입력한 url 주소로 접속하는 함수

```python
driver.get("url 주소")
```

#### 2. find_element(By.<location>, "")
- 정적크롤링의 find과 같은 역할로, 크롤링을 위해 HTML 요소를 찾는 함수
    
```python
from selenium.webdriver.common.by import By

find_element(By.ID, "id")
find_element(By.NAME, "name")
find_element(By.XPATH, "xpath")
find_element(By.LINK_TEXT, "link text")
find_element(By.PARTIAL_LINK_TEXT, "partial link text")
find_element(By.TAG_NAME, "tag name")
find_element(By.CLASS_NAME, "class name")
find_element(By.CSS_SELECTOR, "css selector")
```

__참고__ :  구버전의 find_element_by_ ?? 에서 변경되었다. 

예) find_element(By.CSS_SELECTOR, "css selector") 
- copy 목록의 copy selector를 통해 속성을 찾을 수 있다.
```python
driver.find_element(By.CSS_SELECTOR, "a#writeFormBtn")
```

    
예) find_element(By.ID, "id") & find_element(By.CLASS_NAME, "class name")
- id 속성 혹은 class 속성을 가지고 있는 경우 사용한다.

```python    
'글쓰기' 버튼 - <a href="#" id="writeFormBtn" class="btn_type1 post_write _rosRestrict" onclick="clickcr(this,'abt.wrtlist', '', '', event);">

driver.find_element(By.ID, "writeFormBtn")
driver.find_element(By.CLASS_NAME, "btn_type1.post_write._rosRestrict")
```

예) find_element(By.XPATH, "xpath")
- 적당한 id, class 속성이 없을 경우 xpath를 사용가능 
- XPATH란 xml 문서의 특정 부분의 위치를 의미한다.
- html 요소를 우클릭하고 copy 목록의 copy xpath를 클릭해 사용가능

```python
driver.find_element(By.XPATH, 'XPath 선택자')

# ex) '글쓰기' 버튼의 'Copy XPath'결과 - //*[@id="writeFormBtn"]
driver.find_element_by_xpath('//*[@id="writeFormBtn"]')
```

#### 3. find_elements_by_?? ()
- 정적 크롤링의 find_all과 같은 역할로, 입력한 태그 및 선택자에 해당하는 모든 html 요소를 찾는 함수이다. 
- element 뒤에 s가 붙는다. 



#### 4. click()
- html 요소를 클릭하는 함수이다.

```python
driver.find_element(By.???, "????").click()

ex) 글쓰기 버튼 클릭
driver.find_element(By.CSS_SELECTOR,"a#writeFormBtn").click()
```

#### 5. send_keys()
- html 요소에 직접 텍스트를 입력하는 함수이다.

```python
driver.find_element_by_??().send_keys("텍스트")

ex) 검색 칸에 파이썬 입력
driver.find_element_by_css_selector("input#query").send_keys("파이썬")
```



In [None]:
from selenium import webdriver
from bs4 import BeautifulSoup as BS
import time
import pandas as pd

# 브라우저를 통한 웹페이지 제어

In [None]:
!pip install pandas

In [None]:
import selenium

In [None]:
from selenium import webdriver
from bs4 import BeautifulSoup as BS
import time
import pandas as pd

In [None]:
selenium.__version__

In [None]:
from selenium.webdriver.common.by import By

In [None]:
driver = webdriver.Chrome("chromedriver.exe")
driver.get("https://www.naver.com")
driver.find_element(By.ID, "query").send_keys("오민엽")
time.sleep(5)
driver.find_element(By.ID, "search-btn").click()
# 검색 버튼을 누르게 해보세요 
time.sleep(10)
html = driver.page_source
driver.close()

In [None]:
driver = webdriver.Chrome("chromedriver.exe")
driver.get("https://www.naver.com")
driver.find_element(By.ID, "query").send_keys("펜타포트")
time.sleep(5)
driver.find_element(By.ID, "search-btn").click()
# 검색 버튼을 누르게 해보세요 
time.sleep(10)
html = driver.page_source
driver.close()

In [None]:
soup = BS(html, "html.parser")
type(soup)

In [None]:
for i in soup.find("div", {"class":"_panel"}).find_all("li"):
    print(i.find_all("a")[5].text)

# 파파고 번역기

In [None]:
# By.CSS_SELECTOR, #txtSource
driver = webdriver.Chrome("chromedriver.exe")
driver.get("https://papago.naver.com/")
question = input("번역할 문장을 입력하세요 : ")
driver.find_element(By.CSS_SELECTOR, "#txtSource").send_keys(question)
time.sleep(5)
output = driver.find_element(By.CSS_SELECTOR, "#targetEditArea").text
# 검색 버튼을 누르게 해보세요 
print(f"결과 : {output}")

# csv 에 추가된 내용을 읽어서

# 네이버 로그인

In [None]:
# 사람처럼 보이게 하는 방법
# gpu 가속 중지 option
# 가짜 플러그인 탑재 lang = "ko_KR"
# clipboard 를 이용해서 복사 붙여넣기 사용 

In [None]:
!pip install pyperclip
import getpass
import pyperclip
from selenium.webdriver.common.keys import Keys

In [None]:
driver = webdriver.Chrome("chromedriver.exe")
driver.get("https://www.naver.com/")
time.sleep(3)
driver.find_element(By.XPATH, '//*[@id="account"]/div/a').click()
user_id = getpass.getpass("id : ")
user_pw = getpass.getpass("pw : ")

# driver.find_element(By.CSS_SELECTOR, "#id").send_keys(user_id)
# driver.find_element(By.CSS_SELECTOR, "#pw").send_keys(user_pw)
pyperclip.copy(user_id) # id 복사 
driver.find_element(By.CSS_SELECTOR, "#id").click()
driver.find_element(By.CSS_SELECTOR, "#id").send_keys(Keys.CONTROL, "v")#붙여넣기

time.sleep(2)
pyperclip.copy(user_pw) # id 복사 
driver.find_element(By.CSS_SELECTOR, "#pw").click()
driver.find_element(By.CSS_SELECTOR, "#pw").send_keys(Keys.CONTROL, "v")#붙여넣기

time.sleep(2)
driver.find_element(By.XPATH, '//*[@id="log.login"]').click()

In [None]:
# 네이버에 서브계정을 하나 만드세요
# 로그인후 블로그에 글을 게시할수 있게 만들어 보세요
# from selenium.webdriver.common.action_chains import ActionChains 
# driver.find_element(By.CSS_SELECTOR, "#id").clear()

