# 크롤러 도구들

- ###  - HTTP 통신을 위해 사용하는 라이브러리
    - HTTP: URL에 어떤 것을 검색하면 웹서버에 요청(request)이 되어 답(response)이 오는 것
- ###  - 크롤러 프레임워크
    - 다양하고 복잡한 크롤링을 할 때 사용, 개인 용도로 부적합(다른 도구를 더 추천)
![](http://gabrielelanaro.github.io/public/post_resources/part1_scraping/spider.png)
- ###  - HTML Parser(구문 분석) 라이브러리
    - HTML을 파이썬이 이해할 수 있는 구조로 변환
- ##  - 웹개발 테스팅 도구 
    - 개발한 것들이 어떤 환경(여러 웹브라우저, 여러 운영체제)에서도 잘 돌아가는지 테스팅 

![](https://d1sr4ybm5bj1wl.cloudfront.net/img/2017-01-25-HowToMakeWebCrawler-With-Selenium/selenium1.jpg)
![](https://blog.coderifleman.com/assets/img/2016/e2e-test-and-nightwatch/e2e_and_nightwatch.02.png)


> ## "어떤 것을 써도 상관없지만 저는 Selenium을 씁니다."

# 왜 Selenium인가?

[직방 리뷰](https://www.zigbang.com/apt/complex/5942)
- 리뷰를 가져오려는데 HTML이 변경되지 않는다.

[스타벅스 매장위치](https://www.istarbucks.co.kr/store/store_map.do)

- 메뉴(퀵 검색, 지역 검색, My매장)를 아무리 눌러봐도 HTML이 변경되지 않는다.

----
## webpage 구성 요소

#### HTML
- ``, 기본적인 구조를 설계

#### CSS
- ``, Cascading Style Sheet약자로 웹 스타일 설정하는 언어

#### JavaScript
- ``, 웹 페이지의 동작을 사용하기 위한 언어
----

# Selenium

### 장점
- 많은 홈페이지들이 자바스크립트를 사용
> requests같은 라이브러리는 자바스크립트를 분석해야 한다.(검사에서 네트워크로 가서 JS파일들을 보자)

> ## "부장님이 빨리 결과 달라는데 어느세월에 WEB을 공부하나...난 웹 프로그래머가 아니다."

- 웹 브라우저를 제어 가능
> Selenium을 사용하면 우리 눈으로 보는 것처럼 제어가 가능하다.(클릭, 키보드 타이핑 등)

[중고생도 ‘매크로’ 암표 사재기](https://www.youtube.com/watch?v=Mo_rwWTB5Dk)


### 단점
- 속도가 느리다
> 다른 도구 쓸 때 sleep(시간 대기)생각하면 그 놈이 그 놈, `빠른 것 + sleep(100) = 느린 것` 결국 시간은 같아짐

- parser의 기능이 부족하다
> 왠만한 건 다 되지만 아주 극히 드문 케이스로 BeautifulSoup을 써야하는 경우가 있음

# 크롤링 순서(코드 관점)

1. 사용할 도구 설치
2. 모듈 
3. 웹 드라이버 실행
4. 크롤링할 웹 페이지를 로드
5. 가져올 정보의 웹 구조를 파악
6. 를 이용하여 정보를 획득
7. 정보를 사용할 수 있게 정제
8. 정보를 저장소(DB/파일)에 저장
9. 자동화가 필요하면 

## 1. 사용할 도구 설치

### 요구 사항

- [크롬 브라우저](https://www.google.co.kr/chrome/index.html)
- [크롬 드라이버](http://chromedriver.chromium.org/downloads)
> 다른 부라우저를 사용해도 가능하지만 크롬으로 진행

크롬 -> 설정 -> chrome 정보에 버전과 동일한 크롬 드라이버 버전을 받아야 함

 셀레니움(` install selenium`) *오류 발생(permission error)시, 명령 프롬프트 관리자 권한으로 실행

## 2. 모듈 임포트

In [3]:
from selenium import webdriver

## 3. 웹 드라이버 실행

- 다운 받은 크롬 드라이버를 현재 작업 디렉토리(CWD)에 넣어주자

In [4]:
import os
os.getcwd()

'D:\\SBA'

In [8]:
driver = webdriver.Chrome('./chromedriver.exe')
#driver = webdriver.Firefox()

In [7]:
driver.close()

## 4. 크롤링할 웹 페이지를 로드

In [10]:
driver.get(r"D:/SBA/my_html.html")

In [12]:
driver.get('https://new.www.naver.com/')
driver.implicitly_wait(2) # 브라우저가 HTML 띄우는데 시간이 소요됨 - 기다려주자

In [13]:
driver.get(r"D:/SBA/my_html.html")

In [14]:
driver.save_screenshot("./my_html_screenshot.png")

True

> 우리가 만든 웹의 내용들을 가져와 보자

## 5. 가져올 정보의 웹 구조를 파악

## 6. 선택자를 이용하여 정보를 획득

| 서식        | 설명                 |
| --------- | ------------------ |
| *         | 모든 요소를 선택합니다       |
| <태그이름>    | 태그 이름을 기반으로 선택합니다  |
| **.**<클래스 이름> | 클래스 이름을 기반으로 선택합니다 |
| **#**<id 이름>  | id 속성을 기반으로 선택합니다  |

- css selector를 이용
> 제 이름은 p 태그입니다를 가져와보자


In [16]:
print(driver.find_element_by_css_selector("div.seconddiv > p").text)

제 이름은
p태그입니다


- xpath를 이용
> 링크의 이름과 링크를 가져와보자

In [17]:
driver.find_element_by_xpath("/html//div[2]/a").text

'XX신님의 링크'

In [21]:
driver.find_element_by_xpath("/html/body/div[2]/a").get_attribute("href")

'https://google.com/'

In [22]:
driver.find_element_by_link_text("XX신님의 링크").get_attribute("href")

'https://google.com/'

- 클래스를 이용
> h1태그의 글씨 그기를 가져와보자

In [23]:
driver.find_element_by_class_name("r").text

'h1태그의 글씨 크기'

> 유투브를 클릭하게 하자

In [24]:
driver.find_element_by_xpath("/html/body/div[2]/center/iframe[2]").click()

- id 속성을 이용
> 강남역을 가져와보자

In [28]:
driver.find_element_by_xpath("/html/body/div[1]/ul/li[1]").text

'강남역'

> 젤 아래 표의 컬럼명을 가져와보자

In [41]:
my_col_temp = driver.find_elements_by_css_selector("table > tbody > tr:nth-child(1) > th")

my_col = []
for i in my_col_temp:
    my_col.append(i.text)
    
my_col

['이름', '나이', '점수']

## 7. 정보를 사용할 수 있게 정제

## 8. 정보를 저장소(DB/파일)에 저장

In [8]:
import pandas as pd
from sqlalchemy import create_engine

> pymysql도 많이 쓰이지만 sqlalchemy가 더 편해요.

```python
params = {
    'user': 'abc@abc',
    'pass': '!)29dp4ㄹㅇdj55dlㄹㅇ',
    'host': 'abc-db.mysql.database.azure.com',
    'port': '1234',
    'schema': 'abc_db?charset=utf8',
}
engine = create_engine('mysql+mysqldb://{user}:{pass}@{host}:{port}/{schema}'.format(**params), echo=False)
.
.
.
# <<<<<<<< your code >>>>>>>>>
.
.

.
contents = pd.DataFrame(contents,columns=['contents',])

final_df = new_df.join(contents, how='left')
final_df.to_sql('tb_fn',con=engine, if_exists='append', index=False)
```

In [42]:
driver.close() #드라이버 종료

## 9. 자동화가 필요하면 자동화
![](./KakaoTalk_20180620_173211072.png)

- 데이터 수집 실행 기간에 따라 주기적으로 해야할 경우 사용
- 윈도우 ``
- Linux계열 `b`
### 장점
 1. 정기적인 크롤링 실행
 2. 로그를 저장하여 제대로 동작하는지 판별
