In [1]:
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from dateutil.parser import parse
import pandas as pd
import numpy as np
import time

In [2]:
class lost112Crawler:
    def __init__(self, startDate, endDate, loc):
        self.startDate = startDate
        self.endDate = endDate
        self.loc = loc
        self.sleepMin = 2
        self.sleepMax = 5
        
        self.getDriver()
        self.getStPage()
        self.sleep()
        self.initSetting()
        self.sleep()
        self.pageNum = int(self.getPageNum())
        self.sleep()
        
    def run(self):
        print('데이터 수집 시작')
        self.data = self.getData()
        print('데이터 수집 완료')
        
    def initSetting(self):
        print('초기화 시작')
        self.setDate(self.startDate, self.endDate)
        self.setLocation(self.loc)
        self.driver.find_element_by_id('searchMain').click()
        print('초기화 완료')
        
    def getDriver(self):
        print('드라이버 가져오기 시작')
        options = webdriver.ChromeOptions()
        #options.add_argument('headless')
        #options.add_argument('disable-gpu')
        self.driver = webdriver.Chrome('chromedriver.exe', options=options)
        print('드라이버 가져오기 완료')
        
    def sleep(self):
        return time.sleep(np.random.uniform(self.sleepMin, self.sleepMax))
        
    def getStPage(self):
        print('페이지 접근 시작')
        url = 'https://www.lost112.go.kr/find/findList.do'
        self.driver.get(url)
        print('페이지 접근 완료')

    def setDate(self, startDate, endDate):
        start_date = parse(startDate)
        end_date = parse(endDate)    
        self.driver.execute_script("showCalendar(this,'#CalendarControl', 'startYmdInput',70,30)")
        self.driver.execute_script('setCalendarControlDate({},{},{})'.format(start_date.year, start_date.month, start_date.day))
        self.driver.execute_script("showCalendar(this,'#CalendarControl', 'endYmdInput',70,30)")
        self.driver.execute_script('setCalendarControlDate({},{},{})'.format(end_date.year, end_date.month, end_date.day))

    def setLocation(self, loc):
        locList = ['서울특별시','강원도','경기도','경상남도','경상북도','광주광역시',
                   '대구광역시','대전광역시','부산광역시','울산광역시','인천광역시',
                   '전라남도','전라북도','충청남도','충청북도','제주도','세종특별자치시',
                   '해외','기타']
        if(loc not in locList):
            print('습득지역을 올바르게 입력해주세요')
            return None
        wb = self.driver.find_element_by_id('fdLctCd')
        slt = Select(wb)
        slt.select_by_visible_text(loc)

    def getTable(self):
        wb = self.driver.find_element_by_css_selector('table.type01')
        tableHtml = wb.get_attribute('outerHTML')
        df = pd.read_html(tableHtml)[0]
        return df

    def getPageNum(self):
        print('페이지 수 수집 시작')
        wb = self.driver.find_element_by_id('paging')
        wb = wb.find_element_by_class_name('last')
        wb.click()
        self.sleep()
        wb = self.driver.find_element_by_id('paging')
        wb = wb.find_element_by_class_name('on')
        lastPg = wb.text
        print('페이지 수 수집 완료(총 페이지 수 : {})'.format(lastPg))

        return lastPg

    def goTo(self, page):
        self.driver.execute_script('fn_find_link_page({})'.format(page))

    def getData(self):
        lastPg = self.pageNum
        rstList = []
        for page in range(lastPg):
            self.goTo(page+1)
            self.sleep()
            rst = self.getTable()
            rstList.append(rst)
            print('{:6} 페이지 데이터 수집'.format(page+1))
            
        df = pd.concat(rstList)
        return df
    
    def close(self):
        lc.driver.close()

In [None]:
startDate = '20181201'
endDate = '20181231'
loc = '서울특별시'

lc = lost112Crawler(startDate, endDate, loc)
lc.run()

드라이버 가져오기 시작
드라이버 가져오기 완료
페이지 접근 시작
페이지 접근 완료
초기화 시작
초기화 완료
페이지 수 수집 시작
페이지 수 수집 완료(총 페이지 수 : 1035)
데이터 수집 시작
     1 페이지 데이터 수집
     2 페이지 데이터 수집
     3 페이지 데이터 수집
     4 페이지 데이터 수집
     5 페이지 데이터 수집
     6 페이지 데이터 수집
     7 페이지 데이터 수집
     8 페이지 데이터 수집
     9 페이지 데이터 수집
    10 페이지 데이터 수집
    11 페이지 데이터 수집
    12 페이지 데이터 수집
    13 페이지 데이터 수집
    14 페이지 데이터 수집
    15 페이지 데이터 수집
    16 페이지 데이터 수집
    17 페이지 데이터 수집
    18 페이지 데이터 수집
    19 페이지 데이터 수집
    20 페이지 데이터 수집
    21 페이지 데이터 수집
    22 페이지 데이터 수집
    23 페이지 데이터 수집
    24 페이지 데이터 수집
    25 페이지 데이터 수집
    26 페이지 데이터 수집
    27 페이지 데이터 수집
    28 페이지 데이터 수집
    29 페이지 데이터 수집
    30 페이지 데이터 수집
    31 페이지 데이터 수집
    32 페이지 데이터 수집
    33 페이지 데이터 수집
    34 페이지 데이터 수집
    35 페이지 데이터 수집
    36 페이지 데이터 수집
    37 페이지 데이터 수집
    38 페이지 데이터 수집
    39 페이지 데이터 수집
    40 페이지 데이터 수집
    41 페이지 데이터 수집
    42 페이지 데이터 수집
    43 페이지 데이터 수집
    44 페이지 데이터 수집
    45 페이지 데이터 수집
    46 페이지 데이터 수집
    47 페이지 데이터 수집
    48 페이지 데이터 수집
    49 페이지 데이터 수집
    50 페

In [None]:
startDate = '20181201'
endDate = '20181231'
loc = '서울특별시'

lc = lost112Crawler(startDate, endDate, loc)
lc.run()