In [69]:
%autosave 3600

Autosaving every 3600 seconds


# Web Crawling Mini Project
## '네이버 중고나라에 게시되어 있는 중고 스노우보드 게시글 제목 크롤링'
- 네이버에 로그인 한 후 네이버 중고나라에 접속한다.
- 개인정보 보호를 위해 로그인은 1회만 실시, 해당 코드의 셀은 더 이상 실행하지 않고 아이디와 비밀번호는 지운다.(Github 공유)
- 해당 게시글의 제목, 작성자, 게시한 시간, 조회수 크롤링
- 스노우보드는 데크, 바인딩, 부츠로 나눠져 있는데, 데크를 판매중인 게시글만 크롤링한다.

### 0. 네이버 중고나라 페이지 탐색
- 중고 스노우보드 관련 게시글은 스포츠/레저의 하위 카테고리 스키/보드/의류에 게시된다.
- 카테고리, 페이지 번호가 넘어갈 때 URL이 바뀌지 않는다.(Selenium 이용)
- 스노우보드 뿐만 아니라 스키, 의류들도 같이 게시되어 있으므로 검색창을 활용한다.(검색어 : 스노우보드, 보드, 스노보드)

### 1. 네이버 로그인
1. 가끔 로그인에 실패했을 떄 다시 실시하면 ID가 겹치는 **오류**
2. 새로고침을 해도 ID와 PW가 clear되지 않는 **오류**

In [85]:
from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome('Chromedriver')
driver.get('https://naver.com') # 네이버 접속
driver.find_element_by_class_name('ico_local_login').click() # 로그인 페이지에 접속(tag : i)

driver.find_element_by_name('id').send_keys('------') # 아이디 입력
driver.find_element_by_name('pw').send_keys('------') # 비밀번호 입력
driver.find_element_by_class_name('btn_global').click() #tag : input

### 2. 중고나라 접속
- 중고나라 링크로 접속하면 새로운 Tab이 열려서 driver가 새로운 Tab에 대하여 작동하지 않는 **오류.**
    - driver.window_handles를 통해 Tab 선택
    - switch_to.window()로 해결

In [86]:
# 검색창에 중고나라 검색
driver.find_element_by_name('query').send_keys('중고나라') # 검색창에 '중고나라' 입력
driver.find_element_by_id('search_btn').click() # 검색 클릭
driver.implicitly_wait(5) # 페이지 로딩시간 대기

In [87]:
# 중고나라 접속
driver.find_element_by_id('web_layer_0') # '중고나라'링크가 포함되어 있는 HTML부분 찾기 
driver.find_element_by_class_name('title_link').click() # '중고나라'링크 클릭
driver.switch_to.window(driver.window_handles[1]) # 새로 열린 Tab으로 driver 변경

### 3. 스키/보드/의류 카테고리 접속
1. 누루고자 하는 카테고리(스키/보드/의류)의 element는 찾는데 click은 작동하지 않는 **오류**.
    - 여러 시험 끝에 스크롤이 해당 카테고리까지 내려가야 click이 작동된다는 사실을 알아냄.
    - 스크롤을 자동으로 내리는 코드를 작성

#### *스크롤 내리는 방법*
1. 단순히 window height 값을 넣어줘서 내리는 방법
    - driver.execute_script('window.scrollTo(0, 5700)')
2. 바닥까지 내리는 방법
    - driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
3. 내가 원하는 element까지만 내리는 방법
    - driver.find_element_by_id('menuLink435').location_once_scrolled_into_view

**참고https://stackoverflow.com/questions/20986631/how-can-i-scroll-a-web-page-using-selenium-webdriver-in-python**

In [None]:
# Scroll Method 3
driver.find_element_by_id('menuLink435').location_once_scrolled_into_view# 내가 원하는 element가 있는 곳까지만 Scroll 내리기

In [167]:
driver.find_element_by_id('menuLink435').click() # 카테고리(스키/보드/의류) 클릭

### 4. 검색창에 '스노우보드' 검색(검색유형 : 제목만)
1. 검색유형을 '제목만'으로 변경하는 과정에서 해당 element를 찾지 못하는 오류
<br>HTML에는 육안으로 보이지만 find_element로는 찾을 수 없음
    - 원인은 iframe으로 인해 찾지 못했던 것
    - switch_to_frame() 함수 이용하여 해결
    - Iframe에 대하여https://whatis.techtarget.com/definition/IFrame-Inline-Frame


In [147]:
# #document로 들어가기
iframe = driver.find_elements_by_id('cafe_main')[0] # tag : iframe이 여러개임으로 해당하는 iframe의 id를 이용
driver.switch_to_frame(iframe) # switch_to_frame() 이용하여 #document 속으로 이동

2. 검색유형을 (제목+내용)에서 (제목만)으로 변경이 안 되는 오류
    - 원인은 해당 [select] tagd에서 style attribute가 'Display:None'으로 설정되어 있어서 value 선택이 불가능했음
    - [select] tag에서 'Dispaly:None' 속성을 지우고 원하는 value(제목만)으로 변경
    - 해결하지 못해서 결국 질문함, 참고https://stackoverflow.com/questions/52262430/how-to-select-a-value-from-options-as-per-the-html-through-selenium-and-python/52262586?noredirect=1#comment91486848_52262586
    - xpath문법도 아직 익숙하지 않음, 아직 좋은 참고자료를 찾지 못함

In [160]:
# 검색유형 클릭한 후 (제목+내용)에서 (제목만)으로 변경하기
from selenium.webdriver.support.ui import Select
# other lines of code
driver.find_element_by_xpath('//span[@class="seljs_title"]').click()
element = driver.find_element_by_xpath("//select[@class='m-tcol-c' and @id='searchBy']")
driver.execute_script("arguments[0].removeAttribute('style')", element)
select = Select(driver.find_element_by_xpath("//select[@class='m-tcol-c' and @id='searchBy']"))
select.select_by_value('1')

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//span[@class="seljs_title"]"}
  (Session info: chrome=69.0.3497.81)
  (Driver info: chromedriver=2.41.578737 (49da6702b16031c40d63e5618de03a32ff6c197e),platform=Windows NT 10.0.17134 x86_64)


### 발생한 오류들
**1. 로그인에 실패했을 때 해당 페이지를 새로고침해도 ID와 PW에 적혀있는 부분이 없어지지 않음.**

**2. '중고나라'를 검색한 후 사이트를 클릭했을 때 새로운 Tab으로 열려서 다음 코드들이 적용되지 않음.**
- 현재 driver는 처음에 켜진 Tab을 다루고 있어서 새로운 Tab에 대한 권한이 없었다는게 원인.
- driver.window_handles : 현재 켜져있는 tab의 명단 출력(list).
- driver.switch_to.window(driver.window_handles[1])로 해결.

**3. HTML상에는 해당 tag, id, class가 있음에도 불구하고 find_element_by 함수가 적용되지 않음.**

- 중간에 #document 부분이 존재해서 HTML을 더 깊숙히 들어갈 수 없었음.(이유는 모르겠음..)
- 따라서 #document 상위 태그를 찾은 다음 switch_to_frame() 함수 이용하여 해결.

**4. 게시글 검색창 왼쪽에 있는 Dropdown 옵션을 바꿀 수 없음.**
    
- 해당 dropdown에 해당하는 element를 찾아 클릭하는 것 까진 했지만 다른 값으로 바꾸진 못했음.
- 결국 구글링에 실패해서 StackOverFlow에 질문했음 __[link text](https://stackoverflow.com/questions/52262430/how-to-select-a-value-from-options-as-per-the-html-through-selenium-and-python/52262586?noredirect=1#comment91486848_52262586)__
- 답변자가 알려준 방법은 HTML 안에서 내가 찾던 [select] 부분 안에 [style attribute] > Display:none 부분을 지움으로써 오류 해결
- 아마도 Dropdown의 options가 visible하지 않아 바꿀 수 없었던 것이 이유였던거 같음