# 4. Selenium을 활용한 웹크롤러 만들기

## Selenium이란 무엇일까요?

> Selenium은 보통 웹이나 앱을 테스트할 때 사용하는 프레임워크에요. 자동화 프로그램으로써 사용자가 따로 만지지 않아도 자동으로 탐색해주고 원하는 정보를 찾도록 도와줍니다. 일종의 매크로라고 생각하면 쉽겠죠? 이를 이용해서 웹페이지에 있는 내용을 자동으로 가져올꺼에요

그전에 잠깐! 본격적으로 들어가기 전에 몇가지 파이썬 기법들을 소개해드릴께요!

### 지능형 리스트(listcomp)

> 지능형 리스트를 사용하면 훨씬더 가독성 높은 코드를 작성할 수있어요. 형식은 아래와 같습니다.
```python
[변수 for 변수 in 반복가능한객체]
```
실제로 확인해볼까요?

In [2]:
# 평범한 리스트
리스트 = []
for value in range(10):
    리스트.append(value)
리스트

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [3]:
# 지능형 리스트
지능형리스트 = [x for x in range(10)]
지능형리스트

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

어때요? 훨씬 더 간결하고 읽기 쉬운 코드가 작성되지 않았나요? 조금 더 응용해봅시다

In [4]:
# 조건문 활용1
배수리스트 = [x for x in 리스트 if x%2==0]
배수리스트

[0, 2, 4, 6, 8]

In [5]:
# 조건문 활용2
짝수리스트 = [x for x in 리스트 if x%2==0 and x!=0]
짝수리스트

[2, 4, 6, 8]

In [6]:
# zip함수의 활용
인덱스리스트1 = [(x, y) for x, y in zip(range(4), ['첫째', '둘째', '셋째', '넷째'])]
인덱스리스트1

[(0, '첫째'), (1, '둘째'), (2, '셋째'), (3, '넷째')]

In [7]:
# enumerate 활용
인덱스리스트2 = [(i, x) for i,x in enumerate(['첫째', '둘째', '셋째', '넷째'])]
인덱스리스트2

[(0, '첫째'), (1, '둘째'), (2, '셋째'), (3, '넷째')]

In [8]:
# 반복문 두개 활용
인덱스리스트3 = [(x, y) for x in range(2) for y in ['첫째', '둘째', '셋째', '넷째']]
인덱스리스트3

[(0, '첫째'),
 (0, '둘째'),
 (0, '셋째'),
 (0, '넷째'),
 (1, '첫째'),
 (1, '둘째'),
 (1, '셋째'),
 (1, '넷째')]

[기초] 지능형리스트를 활용하여 1에서 20 사이의 2와 3의 공배수 리스트를 완성하세요

<출력>
<pre>
[6, 12, 18, 24, 30, 36, 42, 48]
</pre>

[기초] 지능형리스트를 활용해서 아래 주어진 리스트에서 타입이 숫자(정수, 실수)인것만 골라 새로운 리스트를 완성한 후 오름차순으로 정렬하세요.
```python
ori_list = [1, 3, '사자', 4, '2', 9, 10, '루피']
```
<출력>
<pre>
[0.32, 1, 3, 4, 9, 10, 11]
</pre>

### 람다(lambda, 익명함수)

> 간단한 기능을 가진 함수라면 굳이 이름짓는데 많은 시간을 들일 필요도 없을뿐만 아니라 가독성도 떨어질 수 있어요. 그런 고민을 해결해줄 이름없는 함수! 람다를 소개합니다. 형식은 아래와 같아요
```python
# 일반 문장
(lambda 매개변수... : 반환값)(인수...)
# 조건문 포함
(lambda 매개변수... : [조건이 참일때 반환값] if 조건 else [조건이 거짓일때 반환값])(인수...)
```
실제 예를 들어 볼까요?

In [9]:
# 덧셈
(lambda x, y: x+y)(1, 2)

3

In [24]:
# 조건문 포함
# 10보다 클때 0을 반환하는 코드
print((lambda x: 0 if x >= 10 else x)(3))
print((lambda x: 0 if x >= 10 else x)(15))

3
0


In [25]:
# 절대값 기준으로 리스트 정렬
리스트 = [1, -9, 2, 5, -3, 10]
리스트.sort(key=lambda x: abs(x))
리스트

[1, 2, -3, 5, -9, 10]

In [11]:
# Series에서의 활용
import pandas as pd

값 = pd.Series([3, 2, 1, 5, 3, 2])
제곱값 = 값.apply(lambda x: x*x)
제곱값

0     9
1     4
2     1
3    25
4     9
5     4
dtype: int64

[기초] 원소로 [-1, 10, -5, -6, 3, 2]로 이루어진 Series객체를 만들고 음수면 제곱하여 오름차순을 정렬하세요

**Tip**
```python
# Series의 선언
시리즈 = pd.Series([1, 3, '사자', 4, '2', 9, 10, '루피'])
# Series를 리스트(list)로 변환
리스트 = 시리즈.tolist()
```
<출력>
<pre>
[1, 2, 3, 10, 25, 36]
</pre>

In [19]:
리스트 = pd.Series([-1, 10, -5, -6, 3, 2])
리스트 = 리스트.apply(lambda x: x*x if x < 0 else x)
리스트 = 리스트.tolist()
리스트.sort()
리스트

[1, 2, 3, 10, 25, 36]

webdriver는 브라우저를 테스트하기위해 사용하는 툴이에요. webdriver를 가져오기 전에 os패키지를 잠깐 다뤄볼까요? os 패키지는 말그대로 os, 즉 운영체제와 관련된 함수들을 내장하고 있어요. 이 중에는 파일경로 탐색, 폴더 및 파일생성 등 여러 함수들이 있지만 오늘은 간단한 함수만 활용을 해볼께요

In [10]:
import os # 이젠 익숙하죠? 패키지를 가져옵니다

In [11]:
# getcwd 함수를 이용하면 연재 디렉토리의 위치를 알 수 있어요
현재위치 = os.getcwd()
현재위치

'/Users/kwon/PycharmProjects/Cab_Python/수업자료'

In [12]:
# os.path.join을 이용하면 두개의 경로를 합칠수 있어요
다음위치 = os.path.join(현재위치, 'data')
다음위치

'/Users/kwon/PycharmProjects/Cab_Python/수업자료/data'

자 그럼 본격적으로 시작해볼까요?

### Selenium을 이용한 네이버블로그 크롤링

* URL에 접근하는 api,
    * get(‘http://url.com’)
* 페이지의 단일 element에 접근하는 api,
    * find_element_by_name(‘HTML_name’)
    * find_element_by_id(‘HTML_id’)
    * find_element_by_xpath(‘/html/body/some/xpath’)
* 페이지의 여러 elements에 접근하는 api
    * find_element_by_css_selector(‘#css > div.selector’)
    * find_element_by_class_name(‘some_class_name’)
    * find_element_by_tag_name(‘h1’)

In [13]:
# webdriver 경로 가져오기
DRIVER_PATH = os.path.join(os.getcwd(), 'chromedriver')

In [14]:
from selenium import webdriver

driver = webdriver.Chrome(executable_path=DRIVER_PATH)
# 일반적으로 다 로드 될때까지 3초정도 기다려줍니다
driver.implicitly_wait(3)

In [15]:
# url 접근
driver.get('https://www.naver.com')

In [16]:
# id값은 유일값이므로 바로 접근할 수 있어요
driver.find_element_by_css_selector('#query').send_keys('춘천맛집') # 검색창
driver.find_element_by_css_selector('#search_btn').click() # 검색버튼

![banner_example1](../image/7-1.jpg)

In [17]:
# 리뷰 더보기 버튼 클릭
driver.find_element_by_css_selector('#main_pack > div.sp_review.section._prs_rvw > div.section_more > a').click()

![banner_example1](../image/7-2.jpg)

In [18]:
href_list = [] # 하이퍼링크 리스트
for i in range(1, 11):
    href_list.append(driver.find_element_by_css_selector('#main_pack > div.sp_review.section._prs_rvw > ul > \
    li:nth-child({}) > div.review_content > a'.format(i)).get_attribute('href'))

In [19]:
title_list = []
for href in href_list:
    print(href)
    driver.get(href)
    print(driver.title)
    title_list.append(driver.title)
driver.quit() # 크롤링 종료

https://blog.naver.com/maya_lee/221395543171
춘천 맛집 게랑 회를 동시에 맛보다! : 네이버 블로그
https://blog.naver.com/maum0577/221395692852
춘천 맛집 세대가 함께 가라지 : 네이버 블로그
https://blog.naver.com/cowqkr2/221396320154
춘천 닭갈비 맛집 역시 닭갈비는 샘밭! : 네이버 블로그
https://blog.naver.com/safari17/221383285692
춘천 맛집 쫄깃한 큰집한우! : 네이버 블로그
https://blog.naver.com/chibi04/221390425901
춘천 맛집 기가막힘~ : 네이버 블로그
http://cafe.naver.com/nawayo/1240849
춘천 맛집 풍족하다! : 네이버 카페
http://cafe.naver.com/mjann/2196859
춘천 맛집 반해버림! : 네이버 카페
https://blog.naver.com/sheila_lee/221389090732
춘천 닭갈비 맛집은 역시 봄고을이 짱!! : 네이버 블로그
http://cafe.naver.com/esyori/2460598
춘천 맛집 해온닭갈비 맛도 좋고 양도 푸짐해요 : 네이버 카페
https://blog.naver.com/river0703/221393703393
춘천 맛집 가을이 느껴지는 고급 한상 : 네이버 블로그


In [20]:
import pandas as pd

dataset = pd.DataFrame({'title':title_list, 'href':href_list})
dataset.head(5)

Unnamed: 0,href,title
0,https://blog.naver.com/maya_lee/221395543171,춘천 맛집 게랑 회를 동시에 맛보다! : 네이버 블로그
1,https://blog.naver.com/maum0577/221395692852,춘천 맛집 세대가 함께 가라지 : 네이버 블로그
2,https://blog.naver.com/cowqkr2/221396320154,춘천 닭갈비 맛집 역시 닭갈비는 샘밭! : 네이버 블로그
3,https://blog.naver.com/safari17/221383285692,춘천 맛집 쫄깃한 큰집한우! : 네이버 블로그
4,https://blog.naver.com/chibi04/221390425901,춘천 맛집 기가막힘~ : 네이버 블로그


In [21]:
# 데이터 전처리 (: 네이버 블로그 삭제)
dataset['title'] = dataset['title'].apply(lambda x: x.replace(': 네이버 블로그', ''))
dataset.head(5)

Unnamed: 0,href,title
0,https://blog.naver.com/maya_lee/221395543171,춘천 맛집 게랑 회를 동시에 맛보다!
1,https://blog.naver.com/maum0577/221395692852,춘천 맛집 세대가 함께 가라지
2,https://blog.naver.com/cowqkr2/221396320154,춘천 닭갈비 맛집 역시 닭갈비는 샘밭!
3,https://blog.naver.com/safari17/221383285692,춘천 맛집 쫄깃한 큰집한우!
4,https://blog.naver.com/chibi04/221390425901,춘천 맛집 기가막힘~


In [23]:
# 엑셀파일로 저장
writer = pd.ExcelWriter('output.xlsx')
dataset.to_excel(writer,'Sheet1')
writer.save()

***
### 예제

자유롭게 웹페이지를 정하고 크롤링을 통해 데이터를 확보하여 엑셀파일로 파싱(parsing)해보세요

셀레니움을 이용해서 자동으로 이미지를 다운로드 할 수도 있어요

<참고사이트>
* [Python Tutorial: Selenium get images](https://pythonspot.com/selenium-get-images/)
* [파이썬을 이용한 구글 이미지 다운로더 만들기 | Making Image Downloader from google image by using Python](http://creativeworks.tistory.com/entry/%ED%8C%8C%EC%9D%B4%EC%8D%AC%EC%9D%84-%EC%9D%B4%EC%9A%A9%ED%95%9C-%EA%B5%AC%EA%B8%80-%EC%9D%B4%EB%AF%B8%EC%A7%80-%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%8D%94-%EB%A7%8C%EB%93%A4%EA%B8%B0-Making-Image-Downloader-from-google-image-by-using-Python)

***