## Selenium 시작하기

In [2]:
from selenium import webdriver

In [7]:
path = './driver/chromedriver.exe'
driver = webdriver.Chrome(path)
driver

<selenium.webdriver.chrome.webdriver.WebDriver (session="3fabcaca224a431cffa7218b2a54e8d4")>

In [4]:
driver.get('https://www.google.com')

In [5]:
driver.close()

## json 형식의 파일 크롤링

In [9]:
import json, re
from urllib.request import urlopen
from html import unescape

In [50]:
# 웹 페이지 읽어오기
request = urlopen('https://www.hanbit.co.kr/store/books/full_book_list.html')
encoding = request.info().get_content_charset('utf-8')

# decode 가 없으면 한글깨짐현상이 발생한다.
html = request.read().decode(encoding)
# html

### json 함수
- json.dumps() : 데이터를 json 형태로 인코딩(출력) (문자열)
- json.dump() : 데이터를 json 형태로 인코딩하여 파일에 출력 (파일)
- ensure_ascii = False : \xxxxx 형태로 이스케이프하지 않고 정상적으로 한글 출력
- [{key : value}, {key : value}] 출력 형식일 경우 -> indent = size 옵션 -> 간격을 줘서 가독성을 높일 수 있다. 

### 정규표현식
- . : 모든 문자
- \* : 0번 이상 반복
- ? : 있어도 되고 없어도 된다.
- < a href="(.*?)" > : 이런 형식의 태그를 검색
- < td class='left' ><a.*?< /td > : class 가 left 인 td 태그의 하위태그에 < a > 가 있는 태그를 검색

## json 파일 생성

In [70]:
with open('./data/booklist_json.json', mode = 'w', encoding = 'utf-8') as file :
    data = []
    
    # re.find_all() : 정규 표현식을 사용하겠다는 것
    # <td class="left"><a.*?</td> : 태그 형식이 이렇게 되어있는 것들을 추출
    for partial_html in re.findall(r'<td class="left"><a.*?</td>', html) :
        # print(partial_html)
        
        # group() : 매칭되는 태그만 가져온다.
        # group(1) : 매칭되는 태그의 내용을 가져온다. 
        search = re.search(r'<a href="(.*?)">', partial_html).group(1)
        url = 'http://www.hanbit.co.kr' + search
        
        title = re.sub(r'<.*?>', '', partial_html)
        # print(title)
        data.append({'bookName' : title, 'link' : url})
        # json.dumps(data, ensure_ascii = False, indent = 2)
    
    json.dump(data, file, ensure_ascii = False, indent = 2)

In [71]:
import json

In [72]:
# json 파일 읽기
with open('./data/booklist_json.json', mode = 'r', encoding = 'utf-8') as file :
    json_data = json.load(file)

In [75]:
print(len(json_data))

# 5개만 출력
print(json.dumps(json_data[:5], ensure_ascii = False, indent = 2))

50
[
  {
    "bookName": "나는 꼭 필요한 것만 남기기로 했다",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B7269609529"
  },
  {
    "bookName": "파이썬과 대스크를 활용한 고성능 데이터 분석",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B4595034178"
  },
  {
    "bookName": "웹어셈블리 인 액션",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B5654500071"
  },
  {
    "bookName": "쉽게 배워 바로 써먹는 디자인 패턴",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B9696096335"
  },
  {
    "bookName": "부의 원칙",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B1303121763"
  }
]


In [76]:
# json 데이터에 대한 접근
json_data[0]['bookName']

'나는 꼭 필요한 것만 남기기로 했다'