## selenium을 이용하여 새올 전자민원 창구의 민원 데이터를 자동화 크롤링 하기

In [1]:
#셀레니움 설치
!pip install selenium



In [2]:
# 웹드라이버매니저 설치
!pip install webdriver_manager

Collecting webdriver_manager
  Downloading webdriver_manager-3.8.6-py2.py3-none-any.whl (27 kB)
Collecting python-dotenv
  Downloading python_dotenv-1.0.0-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv, webdriver_manager
Successfully installed python-dotenv-1.0.0 webdriver_manager-3.8.6


In [32]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 별도의 크롬 드라이버 설치 없이 크롬을 실행하는 방법
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options

# 크롬 옵션 설정
options = Options()
options.add_experimental_option('detach', True) # 브라우저 바로 닫힘 방지
options.add_experimental_option('excludeSwitches', ['enable-logging']) # 불필요한 메시지 제거

# 서식민원 처리 공개 북구 url
url = 'https://eminwon.buk.daegu.kr/emwp/gov/mogaha/ntis/web/emwp/cmmpotal/action/EmwpMainMgtAction.do'

#크롬 드라이버 객체 생성 후 크롬으로 해당 url 오픈
# driver = webdriver.Chrome('C:/Users/User/Desktop/경현/프로젝트/민원/chromedriver_win32/chromedriver.exe')
chrome_driver = ChromeDriverManager().install()
driver = webdriver.Chrome(chrome_driver, options=options)
driver.get(url)

In [33]:
#우리가 찾으려는 메뉴는 마우스 hover를 해야지 열리는 메뉴이기 때문에 ActionChains을 이용
# ActionChains 객체를 생성
action = ActionChains(driver)

# 행정정보 공개
main_menu_selector = '#header > div.gnbmiddle > div > div.topmenu > ul > li:nth-child(2) > a'

# 메뉴를 가리키는 요소를 찾아서 마우스를 올리기
menu = driver.find_element(By.CSS_SELECTOR, main_menu_selector)
action.move_to_element(menu).perform()

In [34]:
# 서브 메뉴가 나타나면 서브 메뉴 클릭
sub_menu_selector = '#allmenu > div > div:nth-child(2) > div:nth-child(3) > ul > li:nth-child(1) > a'
driver.find_element(By.CSS_SELECTOR, sub_menu_selector).click()

In [35]:
# 캘린더 선택, search
# 시작 년도, 월, 일
# 캘린더 선택, 날짜 설정 6개월 단위로 가능하므로 1~6 / 7~12 나눠서 진행
date_selector = '#DivSearch22 > img:nth-child(4)'
driver.find_element(By.CSS_SELECTOR, date_selector).click()

# 년도 선택 칸 클릭
year_selector = '#ui-datepicker-div > div > div > select.ui-datepicker-year'
driver.find_element(By.CSS_SELECTOR, year_selector).click()

# 작년 선택 (년도를 클릭 할때마다 전, 후 5년으로 list가 바뀜, 전년도는 option:nth-child(5) 고정)
# css 는 안먹고 xpath 는 먹는다
# last_year_selector = '#ui-datepicker-div > div > div > select.ui-datepicker-year > option:nth-child(5)'
last_year_selector =  '//*[@id="ui-datepicker-div"]/div/div/select[1]/option[5]'
driver.find_element(By.XPATH, last_year_selector).click()

# 월 선택 칸 클릭
month_selector = '#ui-datepicker-div > div > div > select.ui-datepicker-month'
driver.find_element(By.CSS_SELECTOR, month_selector).click()


# 1월 선택 
jan_month_selector = '//*[@id="ui-datepicker-div"]/div/div/select[2]/option[1]'
driver.find_element(By.XPATH, jan_month_selector).click()

# 1일 선택
## 년도가 달라지면 selector 가 달라지는 듯? 오류남
### --> 년도 마다 각 월의 달력 모양새가 다름. 몇주로 이루어져 있는지, 무슨 요일로 시작해 무슨 요일로 끝나는지
# first_day_selector = '#ui-datepicker-div > table > tbody > tr:nth-child(1) > td:nth-child(7) > a'
first_day_selector = '#ui-datepicker-div > table > tbody > tr:first-child > td[data-handler]:first-of-type'
#first_day_selector = '#ui-datepicker-div > table > tbody td.ui-datepicker-week-end:first-of-type' 
driver.find_element(By.CSS_SELECTOR, first_day_selector).click()



# 끝 년도, 월, 일
# 캘린더 선택, 날짜 설정 6개월 단위로 가능하므로 1~6 / 7~12 나눠서 진행
date_selector = '#DivSearch22 > img:nth-child(8)'
driver.find_element(By.CSS_SELECTOR, date_selector).click()

# 년도 선택 칸 클릭
year_selector = '#ui-datepicker-div > div > div > select.ui-datepicker-year'
driver.find_element(By.CSS_SELECTOR, year_selector).click()

# 작년 선택 (년도를 클릭 할때마다 전, 후 5년으로 list가 바뀜, 전년도는 option:nth-child(5) 고정)
# css 는 안먹고 xpath 는 먹는다
# last_year_selector = '#ui-datepicker-div > div > div > select.ui-datepicker-year > option:nth-child(5)'
last_year_selector =  '//*[@id="ui-datepicker-div"]/div/div/select[1]/option[5]'
driver.find_element(By.XPATH, last_year_selector).click()

# 월 선택 칸 클릭
month_selector = '#ui-datepicker-div > div > div > select.ui-datepicker-month'
driver.find_element(By.CSS_SELECTOR, month_selector).click()

# 6월 선택 
jan_month_selector = '//*[@id="ui-datepicker-div"]/div/div/select[2]/option[6]'
driver.find_element(By.XPATH, jan_month_selector).click()

# 31일 선택
#first_day_selector = '#ui-datepicker-div > table > tbody > tr:nth-child(5) > td:nth-child(5) > a'
first_day_selector = '#ui-datepicker-div > table > tbody  > tr:last-child > td[data-handler]:last-of-type'
driver.find_element(By.CSS_SELECTOR, first_day_selector).click()



# 페이지당 자료 수 - 50 개로 설정
page_selector = '#pageSize2'
driver.find_element(By.CSS_SELECTOR, page_selector).click()

# 50 개 선택
fifty_selector = '//*[@id="pageSize2"]/option[5]'
driver.find_element(By.XPATH, fifty_selector).click()



# 조회
search_selector = '#searchBtn'
driver.find_element(By.CSS_SELECTOR, search_selector).click()

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"#ui-datepicker-div > table > tbody > tr:first-child > td[data-handler]:first-of-type"}
  (Session info: chrome=112.0.5615.138)


In [129]:
# 게시글 개수 가져오기
num_selector = 'body > main > div > div.content-explain > div'
total_num = driver.find_element(By.CSS_SELECTOR, num_selector).text

# 총 N 건 -> split
print(total_num)
total_num = int(total_num.split(' ')[1])
print(total_num)

총 4839 건
4839


In [None]:
# 게시글 목록이 있는 테이블을 찾기
table_selector = '#dataSetTb > table'
table = driver.find_element(By.CSS_SELECTOR, table_selector)

In [132]:
# 크롤링한 정보를 담는 리스트
dept_list = [] # 부서 리스트
content_list = [] # 민원사무명 리스트

# 다음 페이지 셀렉터
next_selector = '#navigator > a.navi.navi-arrow.navi-arrow-single-right'

# 마지막 페이지에서는 tatal_num % 50
row_no = 50
for i in range(row_no):
    # row_selector = f'#dataSetTb > table > tbody > tr:nth-child({i+1})'
    
    # 민원사무명
    content_selector = f'#dataSetTb > table > tbody > tr:nth-child({i+1}) > td.td-list > a'
    content = driver.find_element(By.CSS_SELECTOR, content_selector).text
    content_list.append(content)
    
    # 부서
    dept_selector = f'#dataSetTb > table > tbody > tr:nth-child({i+1}) > td:nth-child(6)'
    dept = driver.find_element(By.CSS_SELECTOR, dept_selector).text
    dept_list.append(dept)
    

# # 페이지 수 만큼 반복
# for i in range(total_num // 50 + 1):
print(content_list)
print(dept_list)

['화물자동차 운송사업 변경허가', '건설기계조종사면허증 (발급, 재발급) 신청', '옥외광고물 등의 표시허가(신고)', '대기배출시설 변경신고', '공중위생영업 변경신고', '옥외광고물 등의 표시허가(신고)', '도로점용허가 (공작물설치)', '사고마약류 폐기신청', '토지(임야)이동신청', '출판사 (변경)신고', '공중위생영업 변경신고', '도로점용허가 (공작물설치)', '이용사 및 미용사 면허발급 신청', '옥외광고물 등의 표시기간 연장허가(신고)', '옥외광고물 등의 표시기간 연장허가(신고)', '옥외광고물 등의 표시기간 연장허가(신고)', '사고마약류 폐기신청', '도로점용허가 (공작물설치)', '옥외광고물 등의 표시기간 연장허가(신고)', '공중위생영업신고', '옥외광고업변경등록', '오수처리시설 및 정화조 폐쇄신고', '축산물운반업(축산물판매업,식육즉석판매가공업) 영업신고', '자가용자동차 유상운송허가', '통신판매업 변경신고', '장애인 등록 신청', '이용사 및 미용사 면허발급 신청', '장애인 등록 신청', '통신판매업 휴업·폐업·영업재개 신고', '사고마약류 폐기신청', '옥외광고물 등의 표시허가(신고)', '장애인 등록 신청', '장애인 등록 신청', '임대사업자 등록사항 변경신고', '축산물운반업(축산물판매업,식육즉석판매가공업) 영업신고', '개발행위허가 (토지형질변경·토석채취·공작물설치·토지분할·물건적치)', '개인택시운송사업 양도·양수인가', '건설기계조종사면허증 (발급, 재발급) 신청', '이용사 및 미용사 면허발급 신청', '노래연습장업 변경등록', '여객자동차운송사업, 자동차대여사업, 여객자동차운송가맹사업 휴업 ·폐업 허가(신고)', '화물자동차 운송사업허가', '장애인 등록 신청', '장애인 등록 신청', '건설기계조종사면허증 (발급, 재발급) 신청', '장애인 등록 신청', '장애인 등록 신청', '장애인 등록 신청', '권리·의무의 승계신고', '옥외광고물 등의 표시기간 연장허가(신고)']
['도시국 교통과', '도시국 

In [12]:

# 게시글 분류 셀렉터
classify_selector = 'body > main > div > table > tbody > tr:nth-child(1) > td:nth-child(2)'
# 게시글 본문 셀렉터
content_selector = 'body > main > div > fieldset > table > tbody > tr:nth-child(4) > td'


#페이지 수 지정
page_no = 153


#페이지 수 만큼 반복
for _ in range(page_no):
    #row 수 만큼 반복
    for i in range(1, len(rows)+1):
        # i 번째 row 선택
        row = driver.find_element(By.CSS_SELECTOR, f'#dataSetTb > table > tbody > tr:nth-child({i})')

        # 답변여부 선택
        completion = row.find_element(By.CSS_SELECTOR, 'td.td-answer')

        # 답변완료일 경우
        if completion.text == '답변완료':

            # 각 행에서 게시글 제목을 클릭
            title = row.find_element(By.CSS_SELECTOR, title_selector)
            
            # 삭제된 게시글이나 이동괸 게시글이 아니라면
            if title.text != '[관리자에 의해 삭제되었습니다.]' and title.text != '[관리자에 의해 이동된 게시물입니다.]':
                # 게시글 클릭
                title.click()
                
                #제목 가져오기 
                css_selector = 'body > main > div > fieldset > table > tbody > tr:nth-child(1) > td:nth-child(4)'
                element = driver.find_element_by_css_selector(css_selector)
                title_list.append(element.text)
                
                # 해당 게시글 분류 정보를 가져옴
                classify = driver.find_element(By.CSS_SELECTOR, classify_selector)
                dept_list.append(classify.text)

                # 게시글 내용을 가져옴
                post = driver.find_element(By.CSS_SELECTOR, content_selector)
                content_list.append(post.text)

                # 이전 페이지로 돌아감
                driver.back()

                # 대기 조건 설정
                wait = WebDriverWait(driver, 100)
                element = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'td.td-answer')))

    #한 페이지의 게시글을 다 순회 했다면 다음 페이지로 이동
    driver.find_element(By.CSS_SELECTOR, next_selector).click()     

#모두 순회했다면 driver 종료
driver.quit()

In [14]:
import pandas as pd

#수집한 정보를 데이터 프레임으로 저장
df = pd.DataFrame({'title' : title_list,
                   'content': content_list,
                   'dept': dept_list,
                  })

df.to_csv('complain_DalSeongGun.csv', index = False)

In [15]:
pd.read_csv('complain_DalSeongGun.csv')

Unnamed: 0,title,content,dept
0,다사 금호 어울림 옥외등,다사 금호어울림 아파트 옥외등 불빛이 너무 많이 밝습니다\n맞은편에 사는 이편한 세...,건설도시국 건축과
1,미진이지비아 옆 옹벽 데크경사로 오토바이진입금지 팻말설치요청,안녕하세요.\n미진이지비아 입주민입니다.\n며칠 전 산책 가는중에 배달 오토바이가 ...,건설도시국 안전총괄과
2,이정표 전도,이정표 전도(부목)\n\n※ 첨부파일 :\nScreenshot_20230413_16...,문화관광국 공원녹지과
3,인도블럭에 무성한 잡초 및 땅으로 뻗어있는 가로수 가지등을 정비해 주실것을 요청.,위치 : 대구 달성군 구지면 달성2차동3로 99\n\n구지면 달성2차동3로 99 구...,건설도시국 건설과
4,구지 국가산단 46길 주차장소 교통장애,국지국가 산단 46길 32길 교차로 부근 인도 통행로 주차와\n46길 교차로에서 서...,경제환경국 교통과
...,...,...,...
2759,북죽곡삼정그린코아더베스트 통합관리요청!,안녕하십니까? 추운날씨에 수고가 많으십니다.\n저는 3월에 북죽곡삼정그린코아더베스트...,건설도시국 건축과
2760,북죽곡 삼정 그린코아 단지통합 요청합니다.,안녕하세요 추운날씨에 고생이 많으십니다\n\n저는 3월에 북죽곡 삼정그린코아 입주로...,건설도시국 건축과
2761,북죽곡 삼정 그린코아 단지 통합 관련건,안녕하세요. 추운데 고생이 많으십니다.\n3월에 입주하는 북죽곡 삼정그린코아 입주민...,건설도시국 건축과
2762,북죽곡 삼정 그린코아 입주자 입니다 !!!,저는 3월에 북죽곡 삼정그린코아 입주로 대구시 북구 구민이었다가 이번에 달성 군민이...,건설도시국 건축과


In [8]:
# driver.quit()