# 로봇 배제 표준 문서
- 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약
- 일반적으로 접근 제한에 대한 설명을 robots.txt 기술해 놓고 루트 디렉토리에 위치 시킨다. 
- 이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다.
- 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다

## 데이터 수집 시 주의 사항
- 로봇 배제 표준이 권고안이라도 불법으로 데이터를 수집하여 영업 혹은 저작권 침해에 해당된다면 법적 제재를 받을 수 있다.  
- https://ko.wikipedia.org/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80

# 셀레니움(Selenium)
- Selenium은 주로 웹앱을 테스트하는데 사용하는 프레임워크
- webdriver라는 API를 통해 운영체제에 설치된 크롬 등의 브라우저를 제어
- Selenium 모듈 설치 후 사용
- 사용자 브라우저(Chrome, Edge, ..)에 맞는 webdriver를 다운로드 후 사용 가능
- 다운로드 사이트에서 본인이 사용하는 브라우저의 버전등을 확인 후 다운로드
- 크롬: https://chromedriver.chromium.org/downloads
- Edge: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- 파이어폭스:https://github.com/mozilla/geckodriver/releases

__주의__
최근 없데이트되면서 문법 변경됨

## webdriver
- selenium의 webdriver는 웹 응용 프로그램들의 테스트를 단순화 및 가속화해주는 툴

### 크롬 드라이브 다운
1. 크롬 브라우저 버전을 확인한다.(크롬브라우저 점3개 클릭-도움말-정보)
2. 동일버전의 webdriver을 다운로드 [driver](https://chromedriver.chromium.org/downloads)
3. ./tools/chromedirver.exe

In [2]:
from selenium import webdriver
import time

In [None]:
driver = webdriver.Chrome("./chromedriver.exe")
naver_url = "https://www.naver.com/"
driver.get(naver_url)

time.sleep(10)

### selenium 내장함수

#### 1. get()
- get() 함수는 입력한 url 주소로 접속하는 함수

```python
driver.get("url 주소")
```

#### 2. find_element(By.<location>, "")
- 정적크롤링의 find과 같은 역할로, 크롤링을 위해 HTML 요소를 찾는 함수
    
```python
from selenium.webdriver.common.by import By

find_element(By.ID, "id")
find_element(By.NAME, "name")
find_element(By.XPATH, "xpath")
find_element(By.LINK_TEXT, "link text")
find_element(By.PARTIAL_LINK_TEXT, "partial link text")
find_element(By.TAG_NAME, "tag name")
find_element(By.CLASS_NAME, "class name")
find_element(By.CSS_SELECTOR, "css selector")
```

__참고__ :  구버전의 find_element_by_ ?? 에서 변경되었다. 

예) find_element(By.CSS_SELECTOR, "css selector") 
- copy 목록의 copy selector를 통해 속성을 찾을 수 있다.
```python
driver.find_element(By.CSS_SELECTOR, "a#writeFormBtn")
```

    
예) find_element(By.ID, "id") & find_element(By.CLASS_NAME, "class name")
- id 속성 혹은 class 속성을 가지고 있는 경우 사용한다.

```python    
'글쓰기' 버튼 - <a href="#" id="writeFormBtn" class="btn_type1 post_write _rosRestrict" onclick="clickcr(this,'abt.wrtlist', '', '', event);">

driver.find_element(By.ID, "writeFormBtn")
driver.find_element(By.CLASS_NAME, "btn_type1.post_write._rosRestrict")
```

예) find_element(By.XPATH, "xpath")
- 적당한 id, class 속성이 없을 경우 xpath를 사용가능 
- XPATH란 xml 문서의 특정 부분의 위치를 의미한다.
- html 요소를 우클릭하고 copy 목록의 copy xpath를 클릭해 사용가능

```python
driver.find_element(By.XPATH, 'XPath 선택자')

# ex) '글쓰기' 버튼의 'Copy XPath'결과 - //*[@id="writeFormBtn"]
driver.find_element_by_xpath('//*[@id="writeFormBtn"]')
```

#### 3. find_elements_by_?? ()
- 정적 크롤링의 find_all과 같은 역할로, 입력한 태그 및 선택자에 해당하는 모든 html 요소를 찾는 함수이다. 
- element 뒤에 s가 붙는다. 



#### 4. click()
- html 요소를 클릭하는 함수이다.

```python
driver.find_element(By.???, "????").click()

ex) 글쓰기 버튼 클릭
driver.find_element(By.CSS_SELECTOR,"a#writeFormBtn").click()
```

#### 5. send_keys()
- html 요소에 직접 텍스트를 입력하는 함수이다.

```python
driver.find_element_by_??().send_keys("텍스트")

ex) 검색 칸에 파이썬 입력
driver.find_element_by_css_selector("input#query").send_keys("파이썬")
```



In [7]:
from selenium import webdriver
from bs4 import BeautifulSoup as BS
import time
import pandas as pd
from selenium.webdriver.common.by import By

In [9]:
driver = webdriver.Chrome("./chromedriver.exe")
naver_url = "https://www.naver.com/"

driver.get(naver_url)
time.sleep(1)
driver.find_element(By.CSS_SELECTOR,"input#query").send_keys("부산 맛집")
driver.find_element(By.CSS_SELECTOR,"button#search_btn").click()
time.sleep(1)
html = driver.page_source
soup = BS(html, "html.parser")
driver.close()

  driver = webdriver.Chrome("./chromedriver.exe")


In [13]:
soup.find_all("span", {"class":"place_bluelink TYaxT"})[0].text

'아수라'

In [16]:
#네이버에서 부산 국밥집 검색결과 가게 이름과 링크 df 저장
driver = webdriver.Chrome("./chromedriver.exe")
naver_url = "https://www.naver.com/"

driver.get(naver_url)
time.sleep(1)
driver.find_element(By.CSS_SELECTOR,"input#query").send_keys("부산 국밥집")
driver.find_element(By.CSS_SELECTOR,"button#search_btn").click()
time.sleep(1)
html = driver.page_source
soup = BS(html, "html.parser")

  driver = webdriver.Chrome("./chromedriver.exe")


In [35]:
find_all_CHC5F = soup.find_all("div",{"class":"CHC5F"})

df = []

for item in find_all_CHC5F:
    name = item.find_all("span", {"class" : "place_bluelink TYaxT"})[0].text
    gb_link = item.find("a")["href"]
    df.append([name, gb_link])


df=pd.DataFrame(df, columns=["가게이름", "가게링크"])
df


Unnamed: 0,가게이름,가게링크
0,해운대 오복돼지국밥,https://tivan.naver.com/d/He_y0q_D_tHJay-h4I50...
1,할매집,https://tivan.naver.com/d/Zsg72euNSEmVYpFwkqVI...
2,수변최고돼지국밥 민락본점,https://map.naver.com/v5/search/%EB%B6%80%EC%8...
3,본전돼지국밥,https://map.naver.com/v5/search/%EB%B6%80%EC%8...
4,합천일류돼지국밥,https://map.naver.com/v5/search/%EB%B6%80%EC%8...
5,영동밀면&돼지국밥,https://map.naver.com/v5/search/%EB%B6%80%EC%8...
6,자매국밥,https://map.naver.com/v5/search/%EB%B6%80%EC%8...
7,밀양순대돼지국밥 부산본점,https://map.naver.com/v5/search/%EB%B6%80%EC%8...


# 브라우저를 통한 웹페이지 제어

In [36]:
#네이버에서 부산 국밥집 검색결과 가게 이름과 링크 df 저장
driver = webdriver.Chrome("./chromedriver.exe")
naver_url = "https://www.naver.com/"

driver.get(naver_url)
time.sleep(1)
driver.find_element(By.CSS_SELECTOR,"input#query").send_keys("부산 국밥집")
driver.find_element(By.CSS_SELECTOR,"button#search_btn").click()
time.sleep(1)
html = driver.page_source
soup = BS(html, "html.parser")

find_all_CHC5F = soup.find_all("div",{"class":"CHC5F"})

df = []

for item in find_all_CHC5F:
    name = item.find_all("span", {"class" : "place_bluelink TYaxT"})[0].text
    gb_link = item.find("a")["href"]
    df.append([name, gb_link])


df=pd.DataFrame(df, columns=["가게이름", "가게링크"])
df


  driver = webdriver.Chrome("./chromedriver.exe")


ProtocolError: ('Connection aborted.', RemoteDisconnected('Remote end closed connection without response'))

# 파파고 번역기
1. 번역할 단어 입력
2. 파파고 접속
3. 파파고에 단어 입력
4. 출력된 단어 가져오기
5. print

In [59]:
driver = webdriver.Chrome("./chromedriver.exe")
papago_url = "https://papago.naver.com/?sk=auto&tk=en"

driver.get(papago_url)

papago_input = input("번역할 단어를 입력하세요")

driver.find_element(By.CSS_SELECTOR,"textarea#txtSource").send_keys(papago_input)
driver.find_element(By.CSS_SELECTOR,"button#btnTranslate").click()
time.sleep(1)
html = driver.page_source
soup = BS(html, "html.parser")
soup.find_all("div",{"id":"txtTarget"})[0].text

#추가 학습
#딕셔너리에 단어를 추가한 뒤 
# 1.원래 있는 단어면 번역된 단어를 갖고 온다
# 2.없는 단어면 papago에 접속해 단어를 번역하고 딕셔너리에 추가해 준다.


#추가 학습 2
# csv 파일을 읽어온 후 원래 있는~~

  driver = webdriver.Chrome("./chromedriver.exe")


"I don't want to work part-I don't want to work"

# csv 에 추가된 내용을 읽어서

# 네이버 로그인

In [60]:
pip install pyperclip

Collecting pyperclip
  Downloading pyperclip-1.8.2.tar.gz (20 kB)
Using legacy 'setup.py install' for pyperclip, since package 'wheel' is not installed.
Installing collected packages: pyperclip
    Running setup.py install for pyperclip ... [?25ldone
[?25hSuccessfully installed pyperclip-1.8.2
You should consider upgrading via the '/Users/heojeongyun/Desktop/lab/webcrawling/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [1]:
pip install pyautogui

Collecting pyautogui
  Downloading PyAutoGUI-0.9.53.tar.gz (59 kB)
[K     |████████████████████████████████| 59 kB 5.9 MB/s eta 0:00:011
[?25hCollecting pymsgbox
  Downloading PyMsgBox-1.0.9.tar.gz (18 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h    Preparing wheel metadata ... [?25ldone
[?25hCollecting PyTweening>=1.0.1
  Downloading pytweening-1.0.4.tar.gz (14 kB)
Collecting pyscreeze>=0.1.21
  Downloading PyScreeze-0.1.28.tar.gz (25 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h    Preparing wheel metadata ... [?25ldone
[?25hCollecting pygetwindow>=0.0.5
  Downloading PyGetWindow-0.0.9.tar.gz (9.7 kB)
Collecting mouseinfo
  Downloading MouseInfo-0.1.3.tar.gz (10 kB)
Collecting pyobjc-core
  Downloading pyobjc_core-9.0-cp39-cp39-macosx_10_9_universal2.whl (732 kB)
[K     |████████████████████████████████| 732 kB 4.9 MB/s eta 0:00:01
[?2

In [3]:
from selenium.webdriver.common.keys import Keys
from selenium import webdriver
import pyperclip
import time
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains

driver = webdriver.Chrome("./chromedriver.exe")

#내아이디랑비번등록
user_id = '---'
user_pw = '---'

#네이버이동
driver.get('http://naver.com')
time.sleep(2)

#로그인버튼누르기
login = driver.find_element(By.CLASS_NAME, "link_login")
login.click()

#아이디 비번 복붙
log_id = driver.find_element(By.ID, 'id')
time.sleep(1)
pyperclip.copy(user_id)
log_id.send_keys(Keys.COMMAND, 'v')
log_id.click()
time.sleep(1)

log_pw = driver.find_element(By.ID,'pw')
time.sleep(1)
log_pw.click()
pyperclip.copy(user_pw)
log_pw.send_keys(Keys.COMMAND, 'v')
time.sleep(1)

#로그인버튼클릭
driver.find_element(By.ID,'log.login').click()

#블로그글쓰기
driver.get("https://blog.naver.com/---?Redirect=Write")
time.sleep(1)

#시도하다가안된거
#driver.find_element(By.CLASS_NAME,"tab MY_TAB_BLOG").click()
#driver.find_element(By.CLASS_NAME,"func").click()

frame = driver.find_element(By.ID, "mainFrame") 
driver.switch_to.frame(frame)
time.sleep(2)

try:
    cancel = driver.find_element(By.CSS_SELECTOR, '.se-popup-button.se-popup-button-cancel')
    if cancel:
        cancel.click()
except:
    pass


title = driver.find_element(By.CSS_SELECTOR, '.se-placeholder.__se_placeholder.se-fs32')
action = ActionChains(driver)
postTitle = '크롬드라이버로 작성한 포스트'
action.move_to_element(title).pause(1).click().send_keys(postTitle).perform()
action.reset_actions()
print("제목 작성 완료")

description = driver.find_element(By.CSS_SELECTOR, '.se-component.se-text.se-l-default')
description.click()
action = ActionChains(driver)
postDescription = "블챌도 이걸로 업로드할걸"
action.send_keys(postDescription).pause(1).send_keys(Keys.ENTER).send_keys(Keys.ENTER).perform()
action.reset_actions()
time.sleep(.5)
print("내용 작성 완료")

cancle = driver.find_element(By.CSS_SELECTOR, '.se-help-panel-close-button')
cancle.click()

send = driver.find_element(By.CSS_SELECTOR, '.text__qXtkF')
send.click()

post = driver.find_elements(By.TAG_NAME, "button")[8]
post.click()


  driver = webdriver.Chrome("./chromedriver.exe")


제목 작성 완료
내용 작성 완료


In [2]:
import getpass
import pyperclip
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains

driver = webdriver.Chrome("./chromedriver.exe")
driver.get('https://naver.com')

time.sleep(3)
# 네이버 로그인 화면 이동
driver.find_element(By.XPATH, '//*[@id="account"]/a').click()

# 방법1 ip 보안 끄기
# 방법2 pyperclip 을 이용해 id 복사후 붙여넣기 pw 복사후 붙여넣기 

id_=getpass.getpass("id:")
pw_=getpass.getpass("Password:")

pyperclip.copy(id_)
driver.find_element(By.NAME,"id").clear()
driver.find_element(By.NAME, "id").click()
driver.find_element(By.NAME, "id").send_keys(Keys.COMMAND, "v")
#ActionChains(driver).key_down(Keys.CONTROL).send_keys("v").key_up(Keys.).perform()
time.sleep(2)

pyperclip.copy(pw_)
driver.find_element(By.NAME,"pw").clear()
driver.find_element(By.NAME, "pw").click()
driver.find_element(By.NAME, "pw").send_keys(Keys.COMMAND, "v")
#ActionChains(driver).key_down(Keys.CONTROL).send_keys("v").key_up(Keys.CONTROL).perform()
time.sleep(2)
driver.find_element(By.XPATH, '//*[@id="log.login"]').click()


driver.get("https://blog.naver.com/---?Redirect=Write")

time.sleep(1)
#driver.find_element(By.CLASS_NAME,"tab MY_TAB_BLOG").click()
#driver.find_element(By.CLASS_NAME,"func").click()


frame = driver.find_element(By.ID, "mainFrame") 
driver.switch_to.frame(frame)
time.sleep(2)

try:
    cancel = driver.find_element(By.CSS_SELECTOR, '.se-popup-button.se-popup-button-cancel')
    if cancel:
        cancel.click()
except:
    pass


title = driver.find_element(By.CSS_SELECTOR, '.se-placeholder.__se_placeholder.se-fs32')
action = ActionChains(driver)
postTitle = '제목'
action.move_to_element(title).pause(1).click().send_keys(postTitle).perform()
action.reset_actions()
print("제목 작성 완료")

description = driver.find_element(By.CSS_SELECTOR, '.se-component.se-text.se-l-default')
description.click()
action = ActionChains(driver)
postDescription = "내용"
action.send_keys(postDescription).pause(1).send_keys(Keys.ENTER).send_keys(Keys.ENTER).perform()
action.reset_actions()
time.sleep(.5)
print("내용 작성 완료")

cancle = driver.find_element(By.CSS_SELECTOR, '.se-help-panel-close-button')
cancle.click()

send = driver.find_element(By.CSS_SELECTOR, '.text__qXtkF')
send.click()

post = driver.find_elements(By.TAG_NAME, "button")[8]
post.click()


  driver = webdriver.Chrome("./chromedriver.exe")


Unexpected exception formatting exception. Falling back to standard exception


Traceback (most recent call last):
  File "/Users/heojeongyun/Desktop/lab/webcrawling/lib/python3.9/site-packages/IPython/core/interactiveshell.py", line 3433, in run_code
  File "/var/folders/c2/h79928n92258kzkwtzbxjbj80000gn/T/ipykernel_46443/3283954925.py", line 43, in <module>
    frame = driver.find_element(By.ID, "mainFrame")
  File "/Users/heojeongyun/Desktop/lab/webcrawling/lib/python3.9/site-packages/selenium/webdriver/remote/webdriver.py", line 861, in find_element
  File "/Users/heojeongyun/Desktop/lab/webcrawling/lib/python3.9/site-packages/selenium/webdriver/remote/webdriver.py", line 444, in execute
  File "/Users/heojeongyun/Desktop/lab/webcrawling/lib/python3.9/site-packages/selenium/webdriver/remote/errorhandler.py", line 249, in check_response
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"[id="mainFrame"]"}
  (Session info: chrome=108.0.5359.124)
Stacktrace:
0   chromedriver 