# T아카데미 : Python을 활용한 웹 크롤러 만들기

In [2]:
# 인터파크 투어 사이트에서 여행지를 입력 후 검색 ->  잠시 후 -> 결과
# 로그인 시 PC 웹 사이트에서 처리가 어려울 경우(보안이 빡세서) -> 모바일 로그인 진입

# 모듈 가져오기
# pip install selenium
from selenium import webdriver as dr
from selenium.webdriver.common.by import By
# 명시적 대기를 위해
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

import time

# 사전에 필요한 정보를 로드 -> 디비 or 쉘, 베치 파일에서 인자로 받아서 세팅
# (어떻게 무엇을 검색해라)
main_url = 'http://tour.interpark.com/'
keyword = '로마'

# 드라이버 로드
driver = dr.Chrome(executable_path = 'chromedriver.exe')

# 옵션 부여 -> 프록시, 에이전트 조작(몇 개씩 바꿔가면서 해야함, 모바일 앱은 또 디스플레이가 다름), 이미지를 배제(배너 제외, 속도 향상)
# 크롤링을 오래 돌리면 -> 임시파일들이 쌓인다!! -> 템프 파일 삭제

# 사이트 접속(get 방식)
driver.get(main_url)

# 검색창을 찾아서 검색어 입력
# 처음은 고유값 id, 그 다음은 class, 다음은 부모 자식 관계
# id : SearchGNBText
driver.find_element_by_id('SearchGNBText').send_keys(keyword)
# 수정할 경우 - > 뒤에 내용이 누적된다. -> .clear() -> send_keys('수정사항')

In [3]:
# 검색 버튼 클릭
# 검색 버튼 찾고 click 이벤트 실행
driver.find_element_by_css_selector('.search-btn').click()
# url로 하로 가는것이 빠르지만 리스크가 크다.(바뀔 수 있다)

In [4]:
# 잠시 대기 -> 페이지가 로드되고 나서 즉각적으로 데이터를 획득하는 행위는
# 명시적 대기(explicit wait) -> 특정 요소가 located될 때 까지(발견될 때 까지) 대기
# 암묵적 대기(Implicit wait) -> Dom이 다 로드 될때가지 대가히고 먼저 로드되면 바로 진행
# 절대적 대기 - > time.sleep() -> 클라우드 페어(디도스 방지 솔루션)

# 명시적 대기
try:
    element = WebDriverWait(driver, 10).until( 
        # 지정한 한 개의 요소가 로드되면 wait 종료
        EC.presence_of_element_located((By.CLASS_NAME, 'oTravelBox'))
    
    )
except Exception as e:
    print('오류발생', e)
    
# 암묵적 대기
# 요소를 찾을 특정 시간 동안 dom 플링을 지시 예를 들어 10초 이내라도
# 발견되면 실행
driver.implicitly_wait(10) 
#  explicit wait : 특정 요소가 로드될 때 가지 - 페이지와 페이지 사이 무조건 들어가야 하는 코드
# implicit wait : 그냥 기다리는 것(뭔가)

# 기다리지 않고 자제 -> 사이트 속도가 천차만별 + 장비, pc 천차만별, 찾고자 하는 요소를 만날때까지 기다려야함
# 페이지가 변경되면 기다린다. 기다리는 방법(묵시적으로, 암묵적으로, 명시적으로)
# 특정한 요소가 발견될 때까지 기다리느냐, 아니면 그냥 주냐, 아예 코드적으로 sleep

# 더 보기 누루기 -> 게시판으로 진입
driver.find_element_by_css_selector('.oTravelBox .boxList .moreBtnWrap .moreBtn').click()

In [None]:
# tour라는 class를 만들어서 input요소로 만들고 for구문 돌려서
# 하는 방법
# 1. 먼저 링크 정보와 메타정보를 다 긁어온다.
# 2. 로그인하는거면 섹션이 끝긴다.

In [45]:
# 게시판에서 데이터를 가져올 때
# 데이터가 많으면 세션(혹시 로그인을 해서 접근되는 사이트일 경우) 관리 필요
# 특정 단위별로 로그아웃 로그인 계속 시도
# 특정 게시물이 사라질 경우 -> 팝업 발생(없는 ...) -> 팝업 처리 검토
# 게시판 스캔 시 -> 임계점을 모름!!(어디가 끝이냐...)
# 게시판 스캔 -> 메타 정보 획득 -> loop 를 돌려서 일괄적으로 접근처리(방문) - 개별페이지 방문

# script로 접근한다.(클릭 할 필요 없고)
# searchModule.SetCategoryList(1, '') 스크립트 실행
# 끝 페이지가 어딘지 확인
# 16은 임시값, 게시물을 넘어갔을 때 현상을 확인 차

# 상품 정보를 담는 리스트(Tour 리스트)
tour_list = []

from Tour import TourInfo
import time

for page in range(1,2):
    try:
        # 자바스크립트 구동하기
        driver.execute_script("searchModule.SetCategoryList(%s, '')" % page)
        time.sleep(2)
        print("%s 페이지 이동", page)
        #################
        # 여러 사이트에서 정보를 수집할 경우 공통 정보 정의 단계 필요
        # 상품명, 코멘트, 기간1, 기간2, 가격, 평점, 썸네일, 링크(상품상세정보)
        boxItems = driver.find_elements_by_css_selector('.oTravelBox > .boxList > li')
        # 상품 하나 하나 접근
        for li in boxItems:
            # 이미지를 링크값을 사용할 것인가? 직접 다운로드 해서 우리 서버에 업로드(ftp)할 것인가.?
            print('썸네일 : ', li.find_element_by_css_selector('img').get_attribute('src'))
            print('링크 : ', li.find_element_by_css_selector('a').get_attribute('onclick'))
            print( '상품명 : ',li.find_element_by_css_selector('h5.proTit').text)
            print( '코멘트 : ',li.find_element_by_css_selector('.proSub').text)
            print( '가격 : ',li.find_element_by_css_selector('.proPrice').text)
            for info in li.find_elements_by_css_selector('.info-row .proInfo'):
                print( info.text)
            print('='* 100)
            # 데이터 모음
            obj = TourInfo(
                li.find_element_by_css_selector('h5.proTit').text,
                li.find_element_by_css_selector('.proPrice').text,
                li.find_elements_by_css_selector('.info-row .proInfo')[1].text, # 문제가 발생할 확률이 큼....
                li.find_element_by_css_selector('a').get_attribute('onclick'),
                li.find_element_by_css_selector('img').get_attribute('src')
            )
            tour_list.append(obj)
    except Exception as e1:
        print('오류', e1)
        
print(tour_list, len(tour_list))

# 수집한 정보 개수를 loop -> 페이지 방문 -> 콘텐츠 획득(상품상제정보) -> DB

%s 페이지 이동 1
썸네일 :  http://tourimage.interpark.com/product/tour/00161/J30/280/J3010242_2_413.jpg
링크 :  searchModule.OnClickDetail('http://tour.interpark.com/goods/detail/?BaseGoodsCd=J3010242','')
상품명 :  「hello」 로마 바티칸 하이패스투어
코멘트 :  
가격 :  35,000 원~
여행 기간 : 0박1일바티칸
출발 가능 기간 : 2018.11.02~2019.03.30
평점 7.4
9개의 상품평
썸네일 :  http://tourimage.interpark.com/product/tour/00161/J30/280/J3010242_2_413.jpg
링크 :  searchModule.OnClickDetail('http://tour.interpark.com/goods/detail/?BaseGoodsCd=J3010242','http://cc.toast.com/cc?a=kw8LaYJ2TBEepMn&m=0&sid=xlm52qmir1nwtxwyd3fyjteg&pgid=6e532d2bea93afb7&query=%EB%A1%9C%EB%A7%88&platform=tour:nx:pc&adid=&sub_service=tourR&u=http%3a%2f%2fmtour.interpark.com%2ftour%2fGoods.aspx%3fbaseGoodsCD%3dJ3010242&area=main&c=TourGoods:RJJ3010242&q=%eb%a1%9c%eb%a7%88')
상품명 :  「hello」 로마 바티칸 하이패스투어
코멘트 :  
가격 :  35,000 원~
여행 기간 : 0박1일바티칸
출발 가능 기간 : 2018.11.12~2019.03.30
평점 7.4
9개의 상품평
썸네일 :  http://tourimage.interpark.com/product/tour/00161/J30/280/J3010390_1_883.jpg
링크 :

In [41]:
%%writefile Tour.py
# 상품 정보를 담는 클래스
# DB에 넣는 플랫폼까지 고려
class TourInfo:
    # 멤버변수(실제 컬럼보다는 작게 셋팅)
    title = ''
    price = ''
    area = ''
    link = ''
    img = ''
    # 생성자
    def __init__(self, title, price, date, link, img):
        self.title = title
        self.price = price
        self.date = date
        self.link = link
        self.img = img

Writing Tour.py
