# Web Crawling using Selenium in Python

## Practice 1
- Naver에 로그인하여 네이버페이에서 구매내역 크롤링하기

In [16]:
# Modules Import
from selenium import webdriver
from bs4 import BeautifulSoup

# Webdriver를 이용하여 브라우저 다루기
# 여기서는 Chrome 브라우저를 이용한다.
driver = webdriver.Chrome('chromedriver.exe')

# 브라우저가 로딩될 때까지 대기한다.(3초)
driver.implicitly_wait(3)

# driver를 통해 해당 페이지에 접속한다.(Naver 로그인 화면)
# 이후 로그인에 필요한 아이디와 비밀번호를 각각 입력시킨다.
# 로그인 버튼을 클릭한다.
# 로그인 버튼의 Tag가 접근하기 어려워 xpath를 이용하여 접근한다.
driver.get('https://nid.naver.com/nidlogin.login?mode=form&url=https%3A%2F%2Fwww.naver.com')
driver.find_element_by_name('id').send_keys('------')
driver.find_element_by_name('pw').send_keys('-----------')
driver.find_element_by_xpath('//*[@id="frmNIDLogin"]/fieldset/input').click()

# 네이버페이에 접속한다.
driver.get('https://order.pay.naver.com/home')

# 구매내역이 많으면 과거 내역들은 생략된다.
# 따라서 '더 보기'버튼을 클릭해줘야 한다.
driver.find_element_by_id('_moreButton').click()

# 해당 사이트의 HTML소스를 불러온다.
# 불러온 HTML소스를 Python으로 읽을 수 있도록 BeautifulSoup을 이용한다.
# 이후 구매내역의 이름이 적혀있는 Tag를 찾아 불러온다.
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
pay_list = soup.select('div.p_inr > div.p_info > a > span')

for name in pay_list:
    print(name.text.strip())

알라딘커뮤니케이션 핸즈온 머신러닝 포함 2종 외 1건
알라딘커뮤니케이션 밑바닥부터 시작하는 딥러닝
알라딘커뮤니케이션 블록과 함께 하는 파이썬 딥러닝 케라스 외 1건
알라딘커뮤니케이션 2018 사회조사분석사 2급 2차 실기 한권으로 끝내기
알라딘 넛지 외 1건
알라딘 [중고] 똑똑한 사람들의 멍청한 선택
알라딘 신경 끄기의 기술
알라딘 [중고] 부자들의 음모
알라딘 [중고] 괴짜경제학
알라딘 [중고] 모두의 데이터 과학 with 파이썬
알라딘 [중고] 경제학 콘서트 외 1건
알라딘 기억독서법
알라딘 프로이트의 의자
알라딘 파이썬을 이용한 빅데이터 수집, 분석과 시각화 외 1건
알라딘 맥킨지, 차트의 기술


## 오류 해결하기

### 1. 자동입력방지로 인하여 로그인이 안 되는 오류 해결
- 아이디와 비밀번호 입력속도를 줄였다.
- 위 문제로도 해결이 안 될 시 새로고침을 이용하였다.

### 2. 더 보기 버튼이 적용되지 않은 상태에서 크롤링되는 오류 해결
- 페이지가 로딩된 후 일정시간 대기
- 버튼이 적용 된 후 일정시간 대기

### 3. 구매내역 중 이름에 부가설명(강조)이 포함되어 있는 것 제거(ex.알라딘커뮤니티케이션)
- strong태그가 포함되어 있으므로 해당 태그 제거
- decompos() 함수 이용

In [15]:
from selenium import webdriver
from bs4 import BeautifulSoup
import time

driver = webdriver.Chrome('chromedriver.exe')

driver.implicitly_wait(3)
driver.get('https://nid.naver.com/nidlogin.login?mode=form&url=https%3A%2F%2Fwww.naver.com')

# ID와 PW 입력 속도 감소
# ID와 PW 각각을 한 글자씩 천천히 입력한다.(string으로 불러와 한 글자씩 입력)
id_input = driver.find_element_by_name('id')
my_id = '-------'
for word in my_id:
    id_input.send_keys(word)
    time.sleep(0.3)
pw_input = driver.find_element_by_name('pw')
my_pw = '-----------'
for word in my_pw:
    pw_input.send_keys(word)
    time.sleep(0.3)

driver.implicitly_wait(10)
driver.find_element_by_xpath('//*[@id="frmNIDLogin"]/fieldset/input').click()

# 새로고침
driver.refresh()

driver.get('https://order.pay.naver.com/home')
# 페이지가 로딩된 후 일정시간 대기
driver.implicitly_wait(10)
driver.find_element_by_id('_moreButton').click()
# 더 보기 버튼이 적용된 후 일정시간 대기
driver.implicitly_wait(100)

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
pay_list = soup.select('div.p_inr > div.p_info > a > span')

for name in pay_list:
    # 만약 strong태그가 존재하면 제거하라 
    if name.strong in name:
        name.strong.decompose()
    print(name.text.strip())

핸즈온 머신러닝 포함 2종 외 1건
밑바닥부터 시작하는 딥러닝
블록과 함께 하는 파이썬 딥러닝 케라스 외 1건
2018 사회조사분석사 2급 2차 실기 한권으로 끝내기
넛지 외 1건
[중고] 똑똑한 사람들의 멍청한 선택
신경 끄기의 기술
[중고] 부자들의 음모
[중고] 괴짜경제학
[중고] 모두의 데이터 과학 with 파이썬
[중고] 경제학 콘서트 외 1건
기억독서법
프로이트의 의자
파이썬을 이용한 빅데이터 수집, 분석과 시각화 외 1건
맥킨지, 차트의 기술
