# 서울특별시 다산콜센터(☎120)의 주요 민원
* 서울특별시 다산콜센터(☎120)의 주요 민원(자주 묻는 질문)에 대한 답변정보
* https://opengov.seoul.go.kr/civilappeal/list

In [1]:
# 필요한 도구를 불러온다.
# 파이썬에서 사용할 수 있는 엑셀과 유사한 데이터분석 도구
# 매우 작은 브라우저로 웹사이트의 내용과 정보를 불러옴
# request로 가져온 웹사이트의 html 태그를 찾기위해 사용
# 간격을 두고 가져오기 위해 사용
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np

In [2]:
# 120 다산 콜센터의 첫 페이지를 먼저 불러와 크롤링할 내용을 봅니다.
base_url = "https://opengov.seoul.go.kr/civilappeal/list?items_per_page=10&page=2"
print(base_url)

https://opengov.seoul.go.kr/civilappeal/list?items_per_page=10&page=2


In [3]:
# pd.read_html 을 통해 해당 URL의 table 정보를 읽어옵니다.
table = pd.read_html(base_url, encoding = "UTF-8")
table[0]

Unnamed: 0,번호,제목,생산일,조회수
0,2460,아름다운청년 전태일기념관,2019-03-20,1402
1,2459,자동배차콜택시(웨이고 블루)/여성전용예약콜택시(웨이고 레이디),2019-02-26,852
2,2458,등록된 법인의 지점이나 사업소는 별도로 등록해야 시공이 가능한가요 ?,2018-11-22,789
3,2457,광진환경백서는 몇년 주기로 발간됩니까?,2018-11-22,650
4,2456,건설업도 비영리법인 등록이 가능한가요?,2018-11-22,1125
5,2455,ESCO사업이란 뭔가요?,2018-11-22,1752
6,2454,ESCO사업의 주요 사업분야에는 어떤게 있나요?,2018-11-22,561
7,2453,ESCO(에너지절약전문기업)사업의 장점은?,2018-11-22,674
8,2452,2018년 은평 꽃 피는 장날,2018-09-05,795
9,2451,[농업기술센터]도시청년 이동식 플라워마켓 창업지원(플라워트럭),2018-09-04,547


In [4]:
len(table)

1

## 상세정보를 위한 링크정보 수집
* get : 필요한 데이터를 Query String 에 담아 전송
* post : 전송할 데이터를 HTTP 메시지의 Body의 Form Data에 담아 전송

* get 과 post 여부는 브라우저의 네트워크 탭의 Headers > Request Method 를 통해 확인

In [5]:
# 웹페이지의 결과를 받아옵니다.
# response
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'}
response = requests.get(base_url, headers = headers)
response

<Response [200]>

In [6]:
# status_code를 통한 응답코드 확인 200 == OK
response.status_code

200


## BeautifulSoup 을 통해 html 페이지를 읽기 쉽게 만들기

In [7]:
# html 태그를 파싱해 올 수 있도록 합니다.
html = bs(response.text, 'lxml')
html

<!-- THEME DEBUG --><!-- THEME HOOK: 'html' --><!-- FILE NAME SUGGESTIONS:
   * html--node--2672712.html.twig
   * html--node--%.html.twig
   * html--node.html.twig
   x html.html.twig
--><!-- BEGIN OUTPUT from 'themes/web/templates/layout/html.html.twig' --><!DOCTYPE html>
<html lang="ko">
<head>
<!-- <meta charset="UTF-8"> -->
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>목록 &gt; 120주요질문 &gt; 시민소통 &gt; 정보소통광장</title>
<meta content="목록" name="description"/>
<meta content="website" property="og:type"/>
<meta content="목록 &gt; 120주요질문 &gt; 시민소통 &gt; 정보소통광장" property="og:title"/>
<meta content="목록" property="og:description"/>
<meta content="://opengov.seoul.go.kr/opengov.jpg" property="og:image"/>
<meta content="://opengov.seoul.go.kr/civilappeal/list" property="og:url"/>
<meta content="summary_large_image" name="twitter:card"/>
<meta content="목록 &gt; 120주요질문 &gt; 시민소통 &gt; 정보소통광장" name="twitter:title"

## 상세 정보 수집을 위한 링크 정보 찾기

In [26]:
# BeautifulSoup 의 select 기능을 통한 링크 태그 찾기
# a 태그 안의 상세 페이지 접근을 위한 링크 번호 수집
# a_list
# a_link_no
# #content > div > div.view-content > div > table > tbody > tr:nth-child(1) > td.data-title.aLeft > a
html.select("#content > div > div.view-content > div > table > tbody > tr > td > a")

[<a href="/civilappeal/17505766">아름다운청년 전태일기념관</a>,
 <a href="/civilappeal/19717325">자동배차콜택시(웨이고 블루)/여성전용예약콜택시(웨이고 레이디)</a>,
 <a href="/civilappeal/16610518">등록된 법인의 지점이나 사업소는 별도로 등록해야 시공이 가능한가요 ?</a>,
 <a href="/civilappeal/16610517">광진환경백서는 몇년 주기로 발간됩니까?</a>,
 <a href="/civilappeal/16610516">건설업도 비영리법인 등록이 가능한가요?</a>,
 <a href="/civilappeal/16610515">ESCO사업이란 뭔가요?</a>,
 <a href="/civilappeal/16610514">ESCO사업의 주요 사업분야에는 어떤게 있나요?</a>,
 <a href="/civilappeal/16610513">ESCO(에너지절약전문기업)사업의 장점은?</a>,
 <a href="/civilappeal/16041433">2018년 은평 꽃 피는 장날</a>,
 <a href="/civilappeal/17829312">[농업기술센터]도시청년 이동식 플라워마켓 창업지원(플라워트럭)</a>]

In [9]:
a_list = html.table.select("a")
a_list

[<a href="/civilappeal/17505766">아름다운청년 전태일기념관</a>,
 <a href="/civilappeal/19717325">자동배차콜택시(웨이고 블루)/여성전용예약콜택시(웨이고 레이디)</a>,
 <a href="/civilappeal/16610518">등록된 법인의 지점이나 사업소는 별도로 등록해야 시공이 가능한가요 ?</a>,
 <a href="/civilappeal/16610517">광진환경백서는 몇년 주기로 발간됩니까?</a>,
 <a href="/civilappeal/16610516">건설업도 비영리법인 등록이 가능한가요?</a>,
 <a href="/civilappeal/16610515">ESCO사업이란 뭔가요?</a>,
 <a href="/civilappeal/16610514">ESCO사업의 주요 사업분야에는 어떤게 있나요?</a>,
 <a href="/civilappeal/16610513">ESCO(에너지절약전문기업)사업의 장점은?</a>,
 <a href="/civilappeal/16041433">2018년 은평 꽃 피는 장날</a>,
 <a href="/civilappeal/17829312">[농업기술센터]도시청년 이동식 플라워마켓 창업지원(플라워트럭)</a>]

In [10]:
html.select("#content > div > div.view-content > div > table > tbody > tr > td > a") == html.table.select("a")

True

In [11]:
a_list[0].attrs

{'href': '/civilappeal/17505766'}

In [12]:
str(a_list[0])[22:30]

'17505766'

In [13]:
# a_list 에서 번호 다 뽑아보기

for i in a_list:
    print(str(i).split('/')[2].split('"')[0])

17505766
19717325
16610518
16610517
16610516
16610515
16610514
16610513
16041433
17829312


In [14]:
# a_list 에서 번호 다 뽑아보기_2
for i in a_list:
    print(i["href"].split('/')[-1]) # bs에서 제공하는 기능!!

17505766
19717325
16610518
16610517
16610516
16610515
16610514
16610513
16041433
17829312


In [15]:
a_link_no = [i["href"].split('/')[-1] for i in a_list]
a_link_no[:5]

['17505766', '19717325', '16610518', '16610517', '16610516']

In [16]:
df_table = table[0]
df_table

Unnamed: 0,번호,제목,생산일,조회수
0,2460,아름다운청년 전태일기념관,2019-03-20,1402
1,2459,자동배차콜택시(웨이고 블루)/여성전용예약콜택시(웨이고 레이디),2019-02-26,852
2,2458,등록된 법인의 지점이나 사업소는 별도로 등록해야 시공이 가능한가요 ?,2018-11-22,789
3,2457,광진환경백서는 몇년 주기로 발간됩니까?,2018-11-22,650
4,2456,건설업도 비영리법인 등록이 가능한가요?,2018-11-22,1125
5,2455,ESCO사업이란 뭔가요?,2018-11-22,1752
6,2454,ESCO사업의 주요 사업분야에는 어떤게 있나요?,2018-11-22,561
7,2453,ESCO(에너지절약전문기업)사업의 장점은?,2018-11-22,674
8,2452,2018년 은평 꽃 피는 장날,2018-09-05,795
9,2451,[농업기술센터]도시청년 이동식 플라워마켓 창업지원(플라워트럭),2018-09-04,547


In [17]:
# a_link_no 를 "내용번호" 컬럼을 생성해서 넣어줍니다.
# table["내용번호"]
df_table["내용번호"] = a_link_no
df_table

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2460,아름다운청년 전태일기념관,2019-03-20,1402,17505766
1,2459,자동배차콜택시(웨이고 블루)/여성전용예약콜택시(웨이고 레이디),2019-02-26,852,19717325
2,2458,등록된 법인의 지점이나 사업소는 별도로 등록해야 시공이 가능한가요 ?,2018-11-22,789,16610518
3,2457,광진환경백서는 몇년 주기로 발간됩니까?,2018-11-22,650,16610517
4,2456,건설업도 비영리법인 등록이 가능한가요?,2018-11-22,1125,16610516
5,2455,ESCO사업이란 뭔가요?,2018-11-22,1752,16610515
6,2454,ESCO사업의 주요 사업분야에는 어떤게 있나요?,2018-11-22,561,16610514
7,2453,ESCO(에너지절약전문기업)사업의 장점은?,2018-11-22,674,16610513
8,2452,2018년 은평 꽃 피는 장날,2018-09-05,795,16041433
9,2451,[농업기술센터]도시청년 이동식 플라워마켓 창업지원(플라워트럭),2018-09-04,547,17829312


## 특정 페이지를 수집하는 함수 만들기

In [18]:
def get_one_page(page_no):
    """
    120 주요질문의 특정 페이지 목록을 수집
    """
    try:
        headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.3'}
        # url을 f-string 으로 만듬
        base_url = f"https://opengov.seoul.go.kr/civilappeal/list?items_per_page=100&page={page_no}"
        # requests 를 통해 HTTP 통신으로 url에 요청을 보내서 결과 값을 받아옵니다.
        response = requests.get(base_url, headers = headers)
        
        #위에서 받은 결과값을 재사용함.
        # 테이블을 데이터 프레임으로 만든거 준다.
        df_table = pd.read_html(response.text)[0]
        
        # 링크 번호 수집을 위해 bs으로 html 태그를 감싸주니다.
        html = bs(response.text,'lxml')
        
        # 테이블안의 a태그를 찾습니다.
        a_list = html.table.select("a")
        # 전처리
        a_link_no = [i["href"].split('/')[-1] for i in a_list]
        
        # 데이터프레임에 내용링크 번호를 넣어준다.
        df_table["내용번호"] = a_link_no
    except:
        return f"{page_no} 페이지를 찾을 수 없습니다."
    
    return df_table
    

In [19]:
# 함수가 잘 동작하는지 확인
get_one_page(2)

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2370,서울특별시 장애인인권센터,2014-02-18,6298,2898250
1,2369,아이조아 서울 맞춤 컨설팅 사업,2014-02-03,1584,2898589
2,2368,"독거노인(일반, 장애인)지원은 무엇이 있나요",2014-01-27,2440,2896612
3,2367,공립 어린이집 시간 연장 비용은 이용자가 부담하나요?,2014-01-27,4090,2896123
4,2366,서울시-자치구 공동 청소년 금주 캠페인(2019년 시행 미정),2013-12-09,991,2898318
...,...,...,...,...,...
95,2275,노원독립영화감상회 상영작 안내,2011-11-25,555,2898511
96,2274,서울교육문화센터,2011-11-22,10062,2895777
97,2273,관광숙박업 헬프데스크(구.관광호텔 건립 지원센터),2011-11-22,1646,2898153
98,2272,[농업기술센터] 가족과 함께 사랑을 가꾸는 텃밭(주말)농원,2011-11-07,348,2898051


In [20]:
# 없는 페이지도 확인
get_one_page(10)

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,1570,은평구 전산정보과에서는 사무용품을 어떻게 구매하시나요?,2009-10-16,148,2896770
1,1569,중랑구보건소 홈페이지를 통한 온라인서비스에는 어떤 것들이 있나요?,2009-10-16,1551,2895542
2,1568,"접수문서 선람 중 담당자가 잘못 지정되었다거나 결재자(팀장, 과장님 등)선에서 반려...",2009-10-16,2322,2895814
3,1567,문서보안시스템(DRM) 재설치하면 해결되는 사례들,2009-10-16,249,2895813
4,1566,건축물에너지절약 설계기준 적용대상은?,2009-10-16,1865,2897019
...,...,...,...,...,...
95,1475,송파e뉴스레터는 어떻게 구성되어 있습니까?,2009-10-15,173,2897554
96,1474,입주자대표회의가 하자 판정을 의뢰하고 그 비용을 장충금으로 지불할 수 있는지?,2009-10-15,149,2897339
97,1473,"관리비등은 금융기관에 예치하여야 하는데.우체국, 농협 등에 예치가 가능한지?",2009-10-15,526,2897338
98,1472,임차인대표회의 동대표 선출방법,2009-10-14,1010,2897337


## 반복문을 통한 여러 페이지 수집하기

* 게시물이 없을 때까지 수집하기

In [21]:
# time.sleep을 통해 일정 간격 쉬었다가 가져옵니다.
# 게시물이 없으면 멈춥니다.
import time

page_no = 1
table_list = []
while True:
    d = get_one_page(page_no)
    if len(d)==0:
        print('끗!')
        break
    else:
        table_list.append(d)
        print(page_no,end = ' ')
        time.sleep(0.01)
    page_no += 1
    
print(f'table_list 크기 : {len(table_list)}')
        


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 끗!
table_list 크기 : 25


## 데이터 병합하기

In [22]:
# 여러 페이지의 내용을 하나로 병합합니다.
df = pd.concat(table_list)
df

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2470,다자녀가정 실내 바닥매트 지원,2021-08-17,223,25670204
1,2469,[서울산업진흥원] 서울메이드란?,2021-06-29,1576,23194045
2,2468,"광진맘택시 운영(임산부,영아 양육가정 전용 택시)",2021-05-13,751,22904492
3,2467,마포 뇌병변장애인 비전센터,2021-03-12,869,22477798
4,2466,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1184,21212235
...,...,...,...,...,...
65,5,이미 지정된 재정비촉진지구의 인접지를 추가 확장하고 싶은데 어떻게 해야 하나요?,2007-01-07,374,2894353
66,4,수돗물의 톤당 원가는?,2007-01-07,344,19353862
67,3,출산휴가후 집근처에 안심하고 맡길 수 있는 어린이집이 있는지?,2007-01-07,326,19699584
68,2,자동차검사장을 지정받고자 하는데 어떻게 해야 하나요?,2007-01-07,292,2898293


## 데이터 파일로 저장하기

In [23]:
# 저장할 파일명
file_name = "seoul-120-list.csv"

In [24]:
# CSV 파일로 저장하기
df.to_csv(file_name, index = False)

In [25]:
# 저장한 파일 확인
pd.read_csv(file_name)

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2470,다자녀가정 실내 바닥매트 지원,2021-08-17,223,25670204
1,2469,[서울산업진흥원] 서울메이드란?,2021-06-29,1576,23194045
2,2468,"광진맘택시 운영(임산부,영아 양육가정 전용 택시)",2021-05-13,751,22904492
3,2467,마포 뇌병변장애인 비전센터,2021-03-12,869,22477798
4,2466,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1184,21212235
...,...,...,...,...,...
2465,5,이미 지정된 재정비촉진지구의 인접지를 추가 확장하고 싶은데 어떻게 해야 하나요?,2007-01-07,374,2894353
2466,4,수돗물의 톤당 원가는?,2007-01-07,344,19353862
2467,3,출산휴가후 집근처에 안심하고 맡길 수 있는 어린이집이 있는지?,2007-01-07,326,19699584
2468,2,자동차검사장을 지정받고자 하는데 어떻게 해야 하나요?,2007-01-07,292,2898293
