## 서울특별시 다산콜센터(☎120)의 주요 민원
* 서울특별시 다산콜센터(☎120)의 주요 민원(자주 묻는 질문)에 대한 답변정보
* https://opengov.seoul.go.kr/civilappeal/list

In [1]:
# 필요한 라이브러리들을 불러옵니다.
# pandas : 파이썬에서 사용할 수 있는 엑셀과 유사한 데이터분석 도구입니다.
# requests : 매우 작은 브라우저로 웹사이트의 내용과 정보를 불러옵니다.
# BeautifulSoup : request로 가져온 웹사이트의 html 태그를 찾기 위해 사용합니다.
# time : 한 번에 많은 양의 데이터를 가져오게 되면 서버에서 부담을주기 때문에 시간 간격을 두고 가져오기 위해 사용합니다.
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup as bs
import requests
import time

In [2]:
# 수집해온 파일("seoul-120-list.csv")을 읽어옵니다.
df = pd.read_csv("seoul-120-list.csv")
df

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2470,다자녀가정 실내 바닥매트 지원,2021-08-17,223,25670204
1,2469,[서울산업진흥원] 서울메이드란?,2021-06-29,1576,23194045
2,2468,"광진맘택시 운영(임산부,영아 양육가정 전용 택시)",2021-05-13,751,22904492
3,2467,마포 뇌병변장애인 비전센터,2021-03-12,869,22477798
4,2466,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1184,21212235
...,...,...,...,...,...
2465,5,이미 지정된 재정비촉진지구의 인접지를 추가 확장하고 싶은데 어떻게 해야 하나요?,2007-01-07,374,2894353
2466,4,수돗물의 톤당 원가는?,2007-01-07,344,19353862
2467,3,출산휴가후 집근처에 안심하고 맡길 수 있는 어린이집이 있는지?,2007-01-07,326,19699584
2468,2,자동차검사장을 지정받고자 하는데 어떻게 해야 하나요?,2007-01-07,292,2898293


## 일부 데이터를 우선 수집
* 현업에서는 모든 데이터를 수집해야 하지만 모든 데이터 수집시 서버에 부담이 될 수 있으며 오래 걸립니다.
* 또 동작하지 않거나 잘못 수집을 했다면 처음부터 다시 수집해야 하기 때문에 일부 데이터만을 통해 먼저 수집해 보는 것을 추천합니다.
* 일부 데이터를 먼저 수집해 보고 데이터가 필요할 때 전체를 수집해 봅니다.

In [3]:
# head 로 일부 데이터만 가져와서 먼저 수집해 봅니다.
df = df.head(10)
df

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2470,다자녀가정 실내 바닥매트 지원,2021-08-17,223,25670204
1,2469,[서울산업진흥원] 서울메이드란?,2021-06-29,1576,23194045
2,2468,"광진맘택시 운영(임산부,영아 양육가정 전용 택시)",2021-05-13,751,22904492
3,2467,마포 뇌병변장애인 비전센터,2021-03-12,869,22477798
4,2466,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1184,21212235
5,2465,"[성동구] 반려동물 ""무료상담실"" 운영 안내",2020-08-31,911,21095911
6,2464,서울시 '우리동네꼼꼼육아정보' 책자,2019-10-23,1576,18955676
7,2463,서울시 사회서비스원은 무엇을 하는 곳인가요?,2019-07-22,1653,18300944
8,2462,"[종료사업] S-Taxi 앱 (에스택시, 서울택시승차앱) 시범운영",2019-06-03,1638,17949033
9,2461,장기요양 이동지원서비스(모두타 돌봄택시),2019-05-27,2149,17896364


## 특정 내용 읽어오기
* 내용의 URL을 확인합니다.
* requests를 통해 내용에 접근합니다.
* BeautifulSoup의 select를 사용해 내용이 있는 태그를 찾습니다.


In [4]:
# 내용 페이지의 주소를 url 변수에 담아줍니다.
# 웹페이지의 결과를 받아옵니다.
# BeautifulSoup을 통해 lxml로 파싱해 올 수 있도록 합니다.
# html 태그에서 "div.line-all"의 0번째 값을 선택(select)하여 text를 확인합니다. 

url = "https://opengov.seoul.go.kr/civilappeal/view/?nid=23194045"
print(url)
# response
response = requests.get(url)
html = bs(response.text)
html
# content
# #content > div > div.view-content.view-content-article > div:nth-child(2)
content = html.select("#content > div > div.view-content.view-content-article > div:nth-child(2)")[0].get_text()
content

https://opengov.seoul.go.kr/civilappeal/view/?nid=23194045


'\n문서 본문\n\n\xa0서울의 감성을 담은 다양하고 새로운 경험을 제공하기 위해 만들어진 라이프스타일 플랫폼 브랜드로 서울이 만들고 세계가 함께 쓰는 브랜드 입니다.\xa0 \xa0 - 서울의 감성을 담은 기업과 협업하여 브랜드 상품을 발굴. \xa0 -\xa0사용을 원하는 중소기업에게 서울메이드 브랜드 제공 등 \xa0 -\xa0 관련홈페이지 :\xa0서울메이드 (https://seoulmade.com/) \xa0※ 상세문의사항 :\xa0서울산업진흥원\xa0브랜드전략팀 02-2222-3764 \n'

In [51]:
# 문서정보
#content > div > div.view-content.view-content-article > div:nth-child(3) > div > table

tables = html.select("table")
tables

[<table>
 <colgroup>
 <col style="width:3%;"/>
 <col/>
 </colgroup>
 <tr>
 <td style="vertical-align: top;font-size: 14px;">○</td>
 <td style="font-size:14px;word-break: keep-all;">HWPX 파일은 공공 및 민간 분야 문서에 대한 개방성 확보를 위해 ㈜한글과컴퓨터에서 만든 XML 기반의 개방형 파일 형식이며, 서울시 결재문서는 개방형 파일인 hwpx로 생산되고 있습니다.</td>
 </tr>
 <tr>
 <td style="vertical-align: top;font-size:14px;border-top:none;">○</td>
 <td style="font-size:14px;border-top:none;word-break: keep-all;">서울정보소통광장에서 결재문서 열람 시 HWPX 파일이 열리지 않는 경우, 한컴오피스 다운로드 페이지에서 사용 프로그램 버전에 따라 해당 제품을 업데이트 하거나, 프로그램이 없는 경우 뷰어 프로그램을 설치하여 열람하시기 바랍니다.</td>
 </tr>
 </table>,
 <table class="table table-response">
 <caption>[서울산업진흥원] 서울메이드란? - 문서정보 : 원본시스템, 제공부서, 작성자(책임자), 생산일, 관리번호, 분류</caption>
 <colgroup>
 <col style="width:15%"/>
 <col style="width:35%"/>
 <col style="width:15%"/>
 <col style="width:35%"/>
 </colgroup>
 <tbody>
 <tr>
 <th itemprop="accountablePerson" scope="row">원본시스템</th>
 <td>다산콜센터</td>
 <th class="tline" itemprop="dateCreated" scope="row">
 										

In [9]:
table = pd.read_html(response.text)[-1]
table

Unnamed: 0,0,1,2,3
0,원본시스템,다산콜센터,제공부서,서울산업진흥원
1,작성자(책임자),120다산콜재단,생산일,2021-06-29
2,관리번호,D0000042894548,분류,경제


In [6]:
t01 = table[[0, 1]].set_index(0).T
t01

Unnamed: 0,원본시스템,작성자(책임자),관리번호
1,다산콜센터,120다산콜재단,D0000042894548


In [12]:
t02 = table[[2, 3]].set_index(2).T
t02.index = t01.index # 인덱스 값이 안맞으면 어긋난다.
t02

2,제공부서,생산일,분류
1,서울산업진흥원,2021-06-29,경제


In [8]:
pd.concat([t01,t02], axis = 1) # 1이기 때문에 행 인덱스가 같아야함

Unnamed: 0,원본시스템,작성자(책임자),관리번호,제공부서,생산일,분류
1,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제


In [25]:
# 해당 문의가 어떤 분류에 해당되는지 알기 위해 분류를 수집합니다.
def get_desc(response):
    """ 분류 수집하기 """
    table = pd.read_html(response.text)[-1] # 
    
    t01 = table[[0, 1]].set_index(0).T
    t02 = table[[2, 3]].set_index(2).T
    
    t02.index = t01.index
    
    return pd.concat([t01,t02], axis = 1)
    
    

In [98]:
response = requests.get(url)
get_desc(response)

Unnamed: 0,원본시스템,작성자(책임자),관리번호,제공부서,생산일,분류
1,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제


## 내용 수집 함수 만들기

In [17]:
# 위의 전체 과정을 함수로 만들어 봅니다.

def get_view_page(view_no):
    url = f"https://opengov.seoul.go.kr/civilappeal/view/?nid={view_no}"
    reponse = requests.get(url)
    html = bs(reponse.text, "lxml")
    time.sleep(0.1)
    try:
        content = html.select("div.line-all")[0].get_text()
        df_desc = get_desc(html)
        df_desc["내용"] = content
        df_desc["내용번호"] = view_no
        return df_desc
    except:
        print(view_no)
        return pd.DataFrame()

In [52]:
# 위의 전체 과정을 함수로 만들어 봅니다.

def get_view_page(view_no):
    url = f"https://opengov.seoul.go.kr/civilappeal/view/?nid={view_no}"
    reponse = requests.get(url)
    html = bs(reponse.text, "lxml")
    content = html.select("#content > div > div.view-content.view-content-article > div:nth-child(2)")[0].get_text()
    df_desc = get_desc(response)
    
    df_desc["내용"] = content
    df_desc["내용번호"] = view_no
    time.sleep(0.01)
    return df_desc

In [53]:
# 없는 데이터를 불러왔을 때 오류가 나는지 확인
# view_no가 22904492 인 것을 get_view_page()로 확인해 봅니다.
get_view_page(22904492)

Unnamed: 0,원본시스템,작성자(책임자),관리번호,제공부서,생산일,분류,내용,내용번호
1,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 업무개요 교통약자인 임산부와 영아가정 주민이 병원 진료...,22904492


## 전체 내용 가져오기
* <font color="red">실습을 위해 위에서 일부 데이터만 가져왔습니다.</font>
* 전체 데이터 수집시에서 전체 수집한 데이터로 수집을 진행하면 됩니다.
* 전체 데이터 수집시에는 서버에 부담이 가지 않도록 time.sleep()을 통해 간격을 두고 수집해 주세요.

In [54]:
# tqdm.notebook 의 tqdm 을 통해 수집 진행상태를 확인합니다.
# progress_apply 를 사용하면 진행상태를 확인하며 데이터를 가져올 수 있습니다.
from tqdm.notebook import tqdm
tqdm.pandas()
view = df["내용번호"].progress_map(get_view_page)


  0%|          | 0/10 [00:00<?, ?it/s]

## 수집한 내용 확인하기

In [55]:
# 일부 데이터만 슬라이싱하여 살펴봅니다.
view

0       원본시스템  작성자(책임자)            관리번호     제공부서   ...
1       원본시스템  작성자(책임자)            관리번호     제공부서   ...
2       원본시스템  작성자(책임자)            관리번호     제공부서   ...
3       원본시스템  작성자(책임자)            관리번호     제공부서   ...
4       원본시스템  작성자(책임자)            관리번호     제공부서   ...
5       원본시스템  작성자(책임자)            관리번호     제공부서   ...
6       원본시스템  작성자(책임자)            관리번호     제공부서   ...
7       원본시스템  작성자(책임자)            관리번호     제공부서   ...
8       원본시스템  작성자(책임자)            관리번호     제공부서   ...
9       원본시스템  작성자(책임자)            관리번호     제공부서   ...
Name: 내용번호, dtype: object

In [56]:
# 하나만 가져오면 데이터프레임 형태로 되어 있음을 확인합니다.
view[1]

Unnamed: 0,원본시스템,작성자(책임자),관리번호,제공부서,생산일,분류,내용,내용번호
1,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 서울의 감성을 담은 다양하고 새로운 경험을 제공하기 위해 만들...,23194045


In [39]:
view.tolist()

[   원본시스템  작성자(책임자)            관리번호     제공부서         생산일  분류  \
 1  다산콜센터  120다산콜재단  D0000042894548  서울산업진흥원  2021-06-29  경제   
 
                                                   내용  
 1  \n문서 본문\n\n      업무개요   다자녀가정 아이들의 안전한 실내 활동과 ...  ,
    원본시스템  작성자(책임자)            관리번호     제공부서         생산일  분류  \
 1  다산콜센터  120다산콜재단  D0000042894548  서울산업진흥원  2021-06-29  경제   
 
                                                   내용  
 1  \n문서 본문\n\n 서울의 감성을 담은 다양하고 새로운 경험을 제공하기 위해 만들...  ,
    원본시스템  작성자(책임자)            관리번호     제공부서         생산일  분류  \
 1  다산콜센터  120다산콜재단  D0000042894548  서울산업진흥원  2021-06-29  경제   
 
                                                   내용  
 1  \n문서 본문\n\n    업무개요  교통약자인 임산부와 영아가정 주민이 병원 진료...  ,
    원본시스템  작성자(책임자)            관리번호     제공부서         생산일  분류  \
 1  다산콜센터  120다산콜재단  D0000042894548  서울산업진흥원  2021-06-29  경제   
 
                                                   내용  
 1  \n문서 본문\n\n ▣ 마포뇌병변장애인 비전센터 운영     구분  내용    목...  ,
    원본시스템  작성자(책임자)         

## 하나로 병합하기

In [70]:
# 수집한 내용을 tolist() 를 통해 리스트로 변환 후 concat 으로 병합합니다.
# df_view
df_view = pd.concat(view.tolist())
df_view.head()

Unnamed: 0,원본시스템,작성자(책임자),관리번호,제공부서,생산일,분류,내용,내용번호
1,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 업무개요 다자녀가정 아이들의 안전한 실내 활동과 ...,25670204
1,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 서울의 감성을 담은 다양하고 새로운 경험을 제공하기 위해 만들...,23194045
1,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 업무개요 교통약자인 임산부와 영아가정 주민이 병원 진료...,22904492
1,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n ▣ 마포뇌병변장애인 비전센터 운영 구분 내용 목...,22477798
1,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 업무개요 직장 내 성희롱 지원체계 사각지대에 있는 서...,21212235


In [81]:
# 기존 데이터와 병합하여 내용이 함께 수집된 것을 확인합니다.
# df_detail
# del df["내용"]
df_detail = df.merge(df_view, how = "left", on = "내용번호")
df_detail

Unnamed: 0,번호,제목,생산일_x,조회수,내용번호,원본시스템,작성자(책임자),관리번호,제공부서,생산일_y,분류,내용
0,2470,다자녀가정 실내 바닥매트 지원,2021-08-17,223,25670204,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 업무개요 다자녀가정 아이들의 안전한 실내 활동과 ...
1,2469,[서울산업진흥원] 서울메이드란?,2021-06-29,1576,23194045,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 서울의 감성을 담은 다양하고 새로운 경험을 제공하기 위해 만들...
2,2468,"광진맘택시 운영(임산부,영아 양육가정 전용 택시)",2021-05-13,751,22904492,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 업무개요 교통약자인 임산부와 영아가정 주민이 병원 진료...
3,2467,마포 뇌병변장애인 비전센터,2021-03-12,869,22477798,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n ▣ 마포뇌병변장애인 비전센터 운영 구분 내용 목...
4,2466,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1184,21212235,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 업무개요 직장 내 성희롱 지원체계 사각지대에 있는 서...
5,2465,"[성동구] 반려동물 ""무료상담실"" 운영 안내",2020-08-31,911,21095911,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,"\n문서 본문\n\n▣ 반려동물 무료상담실_""무엇이든 물어보시개?"" 운영 안내 ..."
6,2464,서울시 '우리동네꼼꼼육아정보' 책자,2019-10-23,1576,18955676,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n서울시와 서울시육아종합지원센터는 140여 명의 우리동네 보육반장...
7,2463,서울시 사회서비스원은 무엇을 하는 곳인가요?,2019-07-22,1653,18300944,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\r\n\t\t\t\t\t\t\t○ 사회서비스 분야에서 공공부문의 ...
8,2462,"[종료사업] S-Taxi 앱 (에스택시, 서울택시승차앱) 시범운영",2019-06-03,1638,17949033,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\r\n\t\t\t\t\t\t\t업무개요\n\n '빈차를 보고 택시...
9,2461,장기요양 이동지원서비스(모두타 돌봄택시),2019-05-27,2149,17896364,다산콜센터,120다산콜재단,D0000042894548,서울산업진흥원,2021-06-29,경제,\n문서 본문\n\n 업무개요 보건복지부와 서울시택시운송사업조합의 민관협...


## 사용할 컬럼만 남기기

In [74]:
# 제목 뒤에 문서가 보이도록 컬럼의 순서를 조정합니다.
# 사용할 컬럼만 인덱싱 합니다.
# 다음의 순서가 되게 합니다. '번호', '분류', '제목', '내용', '내용번호'
df_detail = df_detail.loc[:,['번호', '분류', '제목', '내용', '내용번호']]
df_detail

Unnamed: 0,번호,분류,제목,내용,내용번호
0,2470,경제,다자녀가정 실내 바닥매트 지원,\n문서 본문\n\n 업무개요 다자녀가정 아이들의 안전한 실내 활동과 ...,25670204
1,2469,경제,[서울산업진흥원] 서울메이드란?,\n문서 본문\n\n 서울의 감성을 담은 다양하고 새로운 경험을 제공하기 위해 만들...,23194045
2,2468,경제,"광진맘택시 운영(임산부,영아 양육가정 전용 택시)",\n문서 본문\n\n 업무개요 교통약자인 임산부와 영아가정 주민이 병원 진료...,22904492
3,2467,경제,마포 뇌병변장애인 비전센터,\n문서 본문\n\n ▣ 마포뇌병변장애인 비전센터 운영 구분 내용 목...,22477798
4,2466,경제,위드유 서울 직장 성희롱.성폭력 예방센터,\n문서 본문\n\n 업무개요 직장 내 성희롱 지원체계 사각지대에 있는 서...,21212235
5,2465,경제,"[성동구] 반려동물 ""무료상담실"" 운영 안내","\n문서 본문\n\n▣ 반려동물 무료상담실_""무엇이든 물어보시개?"" 운영 안내 ...",21095911
6,2464,경제,서울시 '우리동네꼼꼼육아정보' 책자,\n문서 본문\n\n서울시와 서울시육아종합지원센터는 140여 명의 우리동네 보육반장...,18955676
7,2463,경제,서울시 사회서비스원은 무엇을 하는 곳인가요?,\n문서 본문\n\r\n\t\t\t\t\t\t\t○ 사회서비스 분야에서 공공부문의 ...,18300944
8,2462,경제,"[종료사업] S-Taxi 앱 (에스택시, 서울택시승차앱) 시범운영",\n문서 본문\n\r\n\t\t\t\t\t\t\t업무개요\n\n '빈차를 보고 택시...,17949033
9,2461,경제,장기요양 이동지원서비스(모두타 돌봄택시),\n문서 본문\n\n 업무개요 보건복지부와 서울시택시운송사업조합의 민관협...,17896364


## 파일로 저장하고 확인하기

<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

In [77]:
# 저장할 파일명을 "seoul-120-sample.csv" 로 설정해 줍니다.
file_name = "seoul-120-sample.csv"

In [78]:
# csv 파일로 저장합니다.
df.to_csv(file_name, index = False)

In [79]:
# 저장이 잘 되었는지 csv 파일로 읽어옵니다.
pd.read_csv(file_name)

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2470,다자녀가정 실내 바닥매트 지원,2021-08-17,223,25670204
1,2469,[서울산업진흥원] 서울메이드란?,2021-06-29,1576,23194045
2,2468,"광진맘택시 운영(임산부,영아 양육가정 전용 택시)",2021-05-13,751,22904492
3,2467,마포 뇌병변장애인 비전센터,2021-03-12,869,22477798
4,2466,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1184,21212235
5,2465,"[성동구] 반려동물 ""무료상담실"" 운영 안내",2020-08-31,911,21095911
6,2464,서울시 '우리동네꼼꼼육아정보' 책자,2019-10-23,1576,18955676
7,2463,서울시 사회서비스원은 무엇을 하는 곳인가요?,2019-07-22,1653,18300944
8,2462,"[종료사업] S-Taxi 앱 (에스택시, 서울택시승차앱) 시범운영",2019-06-03,1638,17949033
9,2461,장기요양 이동지원서비스(모두타 돌봄택시),2019-05-27,2149,17896364
