## Selenium 시작하기

In [3]:
from selenium import webdriver

In [4]:
path = './driver/chromedriver.exe'
driver = webdriver.Chrome(path)
driver

<selenium.webdriver.chrome.webdriver.WebDriver (session="25c0b37efb20b3533e97c64867633b8d")>

In [5]:
driver.get('https://www.google.com')

In [6]:
driver.close()

## json 형식의 파일 크롤링

In [9]:
import json, re
from urllib.request import urlopen
from html import unescape

In [50]:
# 웹 페이지 읽어오기
request = urlopen('https://www.hanbit.co.kr/store/books/full_book_list.html')
encoding = request.info().get_content_charset('utf-8')

# decode 가 없으면 한글깨짐현상이 발생한다.
html = request.read().decode(encoding)
# html

### json 함수
- json.dumps() : 데이터를 json 형태로 인코딩(출력) (문자열)
- json.dump() : 데이터를 json 형태로 인코딩하여 파일에 출력 (파일)
- ensure_ascii = False : \xxxxx 형태로 이스케이프하지 않고 정상적으로 한글 출력
- [{key : value}, {key : value}] 출력 형식일 경우 -> indent = size 옵션 -> 간격을 줘서 가독성을 높일 수 있다. 

### 정규표현식
- . : 모든 문자
- \* : 0번 이상 반복
- ? : 있어도 되고 없어도 된다.
- < a href="(.*?)" > : 이런 형식의 태그를 검색
- < td class='left' ><a.*?< /td > : class 가 left 인 td 태그의 하위태그에 < a > 가 있는 태그를 검색

## json 파일 생성

In [70]:
with open('./data/booklist_json.json', mode = 'w', encoding = 'utf-8') as file :
    data = []
    
    # re.find_all() : 정규 표현식을 사용하겠다는 것
    # <td class="left"><a.*?</td> : 태그 형식이 이렇게 되어있는 것들을 추출
    for partial_html in re.findall(r'<td class="left"><a.*?</td>', html) :
        # print(partial_html)
        
        # group() : 매칭되는 태그만 가져온다.
        # group(1) : 매칭되는 태그의 내용을 가져온다. 
        search = re.search(r'<a href="(.*?)">', partial_html).group(1)
        url = 'http://www.hanbit.co.kr' + search
        
        title = re.sub(r'<.*?>', '', partial_html)
        # print(title)
        data.append({'bookName' : title, 'link' : url})
        # json.dumps(data, ensure_ascii = False, indent = 2)
    
    json.dump(data, file, ensure_ascii = False, indent = 2)

In [71]:
import json

In [72]:
# json 파일 읽기
with open('./data/booklist_json.json', mode = 'r', encoding = 'utf-8') as file :
    json_data = json.load(file)

In [75]:
print(len(json_data))

# 5개만 출력
print(json.dumps(json_data[:5], ensure_ascii = False, indent = 2))

50
[
  {
    "bookName": "나는 꼭 필요한 것만 남기기로 했다",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B7269609529"
  },
  {
    "bookName": "파이썬과 대스크를 활용한 고성능 데이터 분석",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B4595034178"
  },
  {
    "bookName": "웹어셈블리 인 액션",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B5654500071"
  },
  {
    "bookName": "쉽게 배워 바로 써먹는 디자인 패턴",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B9696096335"
  },
  {
    "bookName": "부의 원칙",
    "link": "http://www.hanbit.co.kr/store/books/look.php?p_code=B1303121763"
  }
]


In [76]:
# json 데이터에 대한 접근
json_data[0]['bookName']

'나는 꼭 필요한 것만 남기기로 했다'

### Selenium 특정 요소를 찾는 함수
- find_element_*()
- find_elements_*()
- find_element_by_id()
- find_element_by_name()
- find_element_by_css_selector()
- find_element_by_tag_name()

- return 시켜주는 타입 WebElement 객체를 리턴 -> text 

In [110]:
from selenium import webdriver
import time

path = './driver/chromedriver.exe'
driver = webdriver.Chrome(path)
driver

<selenium.webdriver.chrome.webdriver.WebDriver (session="46232ce206830400ddebf71b4c3d40e6")>

In [111]:
driver.get('https://python.org')

In [112]:
menus = driver.find_elements_by_css_selector('#top ul.menu li')
# menus

In [113]:
click_menu = None
for menu in menus :
    # print(menu.text)
    if menu.text == 'Python' :
        click_menu = menu

# 메뉴 클릭 수행
click_menu.click()
time.sleep(5)

driver.close()

In [114]:
path = './driver/chromedriver.exe'
driver = webdriver.Chrome(path)
driver

<selenium.webdriver.chrome.webdriver.WebDriver (session="2a7391e5a91a7dedaf485c4b15648395")>

In [115]:
driver.get('https://datalab.naver.com/shoppingInsight/sCategory.naver')

In [116]:
tagNames = driver.find_element_by_css_selector('.rank_top1000_list')
print(tagNames)

<selenium.webdriver.remote.webelement.WebElement (session="2a7391e5a91a7dedaf485c4b15648395", element="b8d7c9bc-b5f1-439e-b9ae-252432cad1b4")>


In [118]:
li_tag_list = tagNames.find_elements_by_tag_name('li')

for li in li_tag_list :
    print(li.text.split('\n'))

driver.close()

['1', '원피스']
['2', '나이키맨투맨']
['3', '나이키바람막이']
['4', '맨투맨']
['5', '바람막이']
['6', '후드집업']
['7', '나이키후드티']
['8', '트위드자켓']
['9', '해리슨캐시미어코트']
['10', '트렌치코트']
['11', '나이키후드집업']
['12', '후리스']
['13', '가디건']
['14', '잠옷']
['15', '가을원피스']
['16', '후드티']
['17', '써스데이아일랜드원피스']
['18', '니트원피스']
['19', '라코스테가디건']
['20', '블라우스']


In [119]:
path = './driver/chromedriver.exe'
driver = webdriver.Chrome(path)
driver.get('https://auto.naver.com/bike/mainList.nhn')

In [120]:
# 바이크 제조사 전체 페이지 클릭 구현
bikeElementBtn = driver.find_element_by_css_selector('#container > div.spot_main > div.spot_aside > div.tit > a')
# bikeElementBtn = driver.find_element_by_css_selector('.detail_more')
# print(all_manu.text)
bikeElementBtn.click()

In [121]:
# 바이크 제조사 1페이지 바이크 리스트 추출
bikeElements = driver.find_elements_by_css_selector('#_vendor_select_layer > div > div.maker_group > div.emblem_area > ul > li')
# print(bikeElements)

# bikeElements = driver.find_elements_by_css_selector('.emblem_area > ul > li')
# print(bikeElements)

for bike_li in bikeElements:
    companyName = bike_li.find_element_by_tag_name('span').text
    
    if (companyName != '') :
        # print(companyName)
        
        # get_attribute : 태그의 속성을 가져온다.
        img = bike_li.find_element_by_tag_name('img').get_attribute('src')
        # print(img)

        link = bike_li.find_element_by_tag_name('a').get_attribute('href')
        # print(link)

time.sleep(3)

In [122]:
# 제조사 리스트 버튼을 클릭하는 부분을 찾아보기
nextBtn = driver.find_element_by_css_selector('#_vendor_select_layer > div > div.maker_group > div.rolling_btn > button.next')
isFlag = nextBtn.is_enabled()
print(isFlag)

True


In [123]:
# 다음 페이지로 이동
if isFlag == True :
    print('next page exist')
    nextBtn.click()
    
    bikeElementBtn = driver.find_element_by_css_selector('#container > div.spot_main > div.spot_aside > div.tit > a')
    
    for bike_li in bikeElements:
        companyName = bike_li.find_element_by_tag_name('span').text

        if (companyName != '') :
            # print(companyName)

            # get_attribute : 태그의 속성을 가져온다.
            img = bike_li.find_element_by_tag_name('img').get_attribute('src')
            # print(img)

            link = bike_li.find_element_by_tag_name('a').get_attribute('href')
            # print(link)

driver.close()

next page exist
