###### 2020-10-07 화요일

# Selenoum 시작하기 / Json 다루기

#### 동적 크롤링을 위한 필수 라이브러리

#### 1. Selenium : 브라우저 동작을 자동화 해주는 프로그램
> - '브라우저를 동작시킨다'는 의미는 javascript가 동작하면서 비동기적으로 서버로 부터 콘텐츠를 가져오는 의미에여
> - `anaconda prompt`에서 conda install -c conda-forge selenium 또는 pip install selenium를 입력해서 설치해요



### 목차

> ### 1. Selenium 시작하기
> ### 2. Json 다루기



## 1. Selenium 시작하기
> - 앞 시간에 url을 `base_url`과 `key_word` 두 부분으로 나누어 동적 스크랩을 진행한 적이 있습니다. 
> - 하지만, 각 페이지마다 뽑고자하는 데이터의 `tag`와 `class`가 다르게 지정된 경우 안정적인 형태의 데이터를 불러올 수 없습니다.
> - 그런 경우 `selenium`과 정규표현식인 `re`를 이용한 동적 크롤링이 필요합니다.
> - 그래서 `selenium`을 설치해 보아요

In [1]:
from selenium import webdriver

In [6]:
path='./driver/chromedriver.exe'
driver = webdriver.Chrome(path)
driver

## 크롬 드라이브는 현재 자신이 사용하는 크롬의 버전의 크롬드라이브를 사용해야합니다.


<selenium.webdriver.chrome.webdriver.WebDriver (session="48589cfe7b6400122729c7e5491c2e46")>

In [8]:
driver.get("https://www.google.com") # selenium으로 크롬 구글 홈페이지를 틀어줘~

In [9]:
driver.close() # selenium으로 실행한 크롬 홈페이지를 꺼줘~

## 2. json 다루기
    동적으로 페이지를 바꿔가면 스크랩하고자하는 데이터의 html class의 값이 바뀌거나 일치하지 않는 경우가 종종 있어요
    그러므로 re패키지를 이용한 정규표현식을 사용하여 스크랩을 시행하는 거에요 ㅎㅎ

In [10]:
import json, re
from urllib.request import urlopen
from html import unescape

In [13]:
# 웹 페이지 읽어오기

request = urlopen("http://www.hanbit.co.kr/store/books/full_book_list.html")
encoding = request.info().get_content_charset("UTF-8")
html = request.read().decode(encoding)
html



'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>한빛출판네트워크</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="한빛출판네트워크"/>\r\n<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀"/>\r\n<meta property="og:image" content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" />\r\n<meta property="og:url" content="https://www.hanbit.co.kr/store/books/full_book_list.html"/>\r\n<link rel="canonical" href="https://www.hanbit.co.kr/store/books/full_book_list.html" />\r\n<meta name="keywords" content="한빛미디어,한빛아카데미,한빛비즈,한빛라이프,한빛에듀,리얼타임,대관서비스,책,출판사,IT전문서,IT활용서,대학교재,경제경영,어린이/유아,실용/여행,전자책,자격증,교육,세미나,강의

##### json 함수!
- json.dumps() : 데이터를 json형태로 인코딩 해주는 함수(문자열)
- json.dump() : 데이터를 json형태로 인코딩하여 파일에 출력(파일)
- ensure_ascii = False : 한글을 아스키코드 형태로 변환하지 않고 출력
- [{key : value}, {key : value}] indent=size

### 정규표현식
- . : 모든문자
- * : 0번이상 반복
- ? : 있어도 되고 없어도 되는것
- `<a href="(.*?)">` - 이런식으로 `<a>` 테그를 뽑아낼 수 있어요
- `<td class="left"><a.*?</td>` - 이런식으로 `<td>`테그 역시 뽑아낼 수 있어요

# json 파일 생성

뷰티풀솝으로 홈페이지를 스크랩할 수 있는경우 그렇게 진행해도 됩니다! 굳이 json형식으로 하지 않아도 되지만 교육 받는 입장이기에 한번해봅시다

In [43]:
with open('./data/booklist_json.json', mode='w', encoding='utf-8') as file:
    data = []
    for partial_html in re.findall(r'<td class="left"><a.*?</td>', html):
        search = re.search(r'<a href="(.*?)">', partial_html).group(1)
        url = 'https://www.hanbit.co.kr' + search
        
        title = re.sub(r'<.*?>', '', partial_html) ## [ r'<.*?>' ] <- 이조건에 만족되는 문자들을 빈칸으로 대체 
        
        data.append({'bookName' : title, 'link' : url})
        print(json.dumps(data, ensure_ascii = False, indent=2))
    json.dump(data, file, ensure_ascii=False, indent=2)

[
  {
    "bookName": "나는 꼭 필요한 것만 남기기로 했다",
    "link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B7269609529"
  }
]
[
  {
    "bookName": "나는 꼭 필요한 것만 남기기로 했다",
    "link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B7269609529"
  },
  {
    "bookName": "파이썬과 대스크를 활용한 고성능 데이터 분석",
    "link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B4595034178"
  }
]
[
  {
    "bookName": "나는 꼭 필요한 것만 남기기로 했다",
    "link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B7269609529"
  },
  {
    "bookName": "파이썬과 대스크를 활용한 고성능 데이터 분석",
    "link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B4595034178"
  },
  {
    "bookName": "웹어셈블리 인 액션",
    "link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B5654500071"
  }
]
[
  {
    "bookName": "나는 꼭 필요한 것만 남기기로 했다",
    "link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B7269609529"
  },
  {
    "bookName": "파이썬과 대스크를 활용한 고성능 데이터 분석",
    "link": "https://www.hanbit.co.kr/store/books/l

In [44]:
## 위에서 만든 json 파일을 불러들여 보자

import json

In [61]:
with open('./data/booklist_json.json', mode='r', encoding='UTF-8') as file :
    json_data = json.load(file) # json을 dict로 바꿔줌
    

In [64]:
temp = json.dumps(json_data, ensure_ascii=False, indent='\t') # dict를 json으로 바꿔줌

[
	{
		"bookName": "나는 꼭 필요한 것만 남기기로 했다",
		"link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B7269609529"
	},
	{
		"bookName": "파이썬과 대스크를 활용한 고성능 데이터 분석",
		"link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B4595034178"
	},
	{
		"bookName": "웹어셈블리 인 액션",
		"link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B5654500071"
	},
	{
		"bookName": "쉽게 배워 바로 써먹는 디자인 패턴",
		"link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B9696096335"
	},
	{
		"bookName": "부의 원칙",
		"link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B1303121763"
	},
	{
		"bookName": "만들면서 배우는 픽셀 아트",
		"link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B8144473464"
	},
	{
		"bookName": "초보자를 위한 언리얼 엔진 4 입문",
		"link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B4792640793"
	},
	{
		"bookName": "분산원장 기술",
		"link": "https://www.hanbit.co.kr/store/books/look.php?p_code=B2916452728"
	},
	{
		"bookName": "회사에서 바로 통하는 3ds Max + V-Ray",
		"link": "https:

In [66]:
## json의 첫번째 bookName 뽑기
json_data[0]['bookName']

'나는 꼭 필요한 것만 남기기로 했다'