# 서울특별시 다산콜센터(☎120)의 주요 민원
* "120주요질문"은 서울특별시 다산콜센터(☎120)의 주요 민원(자주 묻는 질문)에 대한 답변정보이다.
* https://opengov.seoul.go.kr/civilappeal

In [1]:
# 필요한 도구를 불러온다.
# 파이썬에서 사용할 수 있는 엑셀과 유사한 데이터분석 도구
import pandas as pd
# 매우 작은 브라우저로 웹사이트의 내용과 정보를 불러올 수 있다.
import requests
# request로 가져온 웹사이트의 html 태그를 파싱하는데 사용한다.
from bs4 import BeautifulSoup as bs
# 랜덤숫자를 생성한다.
import random
import time
# 대량 데이터 처리시 진행 상황을 표시한다.
from tqdm import tqdm, trange
# 정규표현식
import re

In [2]:
# 120 다산 콜센터의 첫 페이지를 먼저 불러와 크롤링할 내용을 본다.
base_url = "https://opengov.seoul.go.kr/civilappeal"
# 웹페이지의 결과를 받아온다.
page_source = requests.get( base_url )
# html 태그를 파싱해 올 수 있도록 한다.
page_soup = bs(page_source.text, 'html.parser')

In [3]:
# bs를 통해 특정 태그를 가져온다. 
div_row = page_soup.select("div#accordion")[0]
# h4 태그를 모두 가져온다.
h4 = div_row.find_all("h4")
h4

[<h4><a href="#civilapeal-2897888">[ 복지 ] 여성복지상담소 어디에 있나요?</a></h4>,
 <h4><a href="#civilapeal-2897889">[ 복지 ] 여성복지상담소는 모든 상담이 무료인가요?</a></h4>,
 <h4><a href="#civilapeal-2895764">[ 행정ㆍ기타 ] 진정민원 제출시 증빙서류를 받을수 있나요?</a></h4>,
 <h4><a href="#civilapeal-2898246">[ 재정ㆍ세금 ] 은평구에는 어떤종류의 하천이 있습니까 예를 들면 국가하천,지방하천 등</a></h4>,
 <h4><a href="#civilapeal-2897030">[ 행정ㆍ기타 ] [정보통신] 통신관련 민원처리기관과 통신사업자 민원처리 안내번호</a></h4>,
 <h4><a href="#civilapeal-2896772">[ 경제 ] 성동구치소 이전 ?</a></h4>,
 <h4><a href="#civilapeal-13865831">[ 문화ㆍ관광 ] [한강사업본부] 서울함 공원 (구.한강 함상공원)</a></h4>,
 <h4><a href="#civilapeal-2894946">[ 행정ㆍ기타 ] 국유지 매각기준을 보고 싶은데 어디서 볼수 있는지요?</a></h4>,
 <h4><a href="#civilapeal-2897733">[ 안전 ] 재해경보의 종류는?</a></h4>,
 <h4><a href="#civilapeal-2896853">[ 행정ㆍ기타 ] 시비 재배정사업 중 조경분야 서울시(계약심사과) 심사요청 대상은?</a></h4>,
 <h4><a href="#civilapeal-2895491">[ 경제 ] 창문에 썬팅을 하려고하는데 괜찮은가요?</a></h4>,
 <h4><a href="#civilapeal-2896850">[ 행정ㆍ기타 ] 계약심사 대상금액이란?</a></h4>,
 <h4><a href="#civilapeal-2896860">[ 행정ㆍ기타 ] 건축공사분야 실적공사비 적용 대상

In [4]:
# 내용은 div 태그의 content-step1 클래스에 있다. 여기에서 .은 html의 클래스를 의미한다.
# 가져온 내용은 []안에 리스트 형태로 담겨져 있다. 리스트 0번째 인덱스를 읽어오면 리스트 안에 있는 내용을 가져오게 된다.
content_step1 = div_row.select("div.content-step1")[0]
content_step1

<div class="content-step1" id="civilappeal-2897888">
<p>- 여성복지상담소는    독산1동 289-7번지 한빛빌딩 4층 자원봉사센터 내에 있습니다.     근무시간은 9시30분~17시30분까지이며,    854-1366, 890-2419로 미리 전화로 예약 후 방문하시면 됩니다.</p>
<div class="list-tag">
<p class="tag"><em class="element-invisible">관련태그 :</em>사회보장과복지,여성복지,벧엘케어상담소</p>
<a class="link-orange" href="/civilappeal/2897888">상세보기  &gt;</a>
</div>
</div>

In [5]:
# 내용 가져오기
# 가져온 결과에서 p태그의 내용을 가져온다. find로 찾으면 첫번째 태그의 내용을 가져온다.
content_step1.find('p').get_text(strip=True)

'- 여성복지상담소는    독산1동 289-7번지 한빛빌딩 4층 자원봉사센터 내에 있습니다.     근무시간은 9시30분~17시30분까지이며,    854-1366, 890-2419로 미리 전화로 예약 후 방문하시면 됩니다.'

In [6]:
# 태그 가져오기
# 크롬의 Inspect 기능을 활용해서 "태그"항목의 html tag를 가져온다.
# strip=True 옵션으로 앞뒤 공백을 제거하고 가져온다.
tag = page_soup.select("div.content-step1 > div.list-tag")[1].find('p').get_text(strip=True)
tag

'관련태그 :사회보장과복지,여성복지,벧엘케어상담소'

In [7]:
# "관련태그 :사회보장과복지,여성복지,벧엘케어상담소" 라고 표시되는 부분에서 "관련태그 :"는 제외하고 가져온다.
tag = re.sub("관련태그 :", "", tag)
tag

'사회보장과복지,여성복지,벧엘케어상담소'

In [8]:
# 파이썬에서 해당 기능의 사용법이 궁금할 때는 ?를 통해 문서를 읽어본다.
re.search?

[0;31mSignature:[0m [0mre[0m[0;34m.[0m[0msearch[0m[0;34m([0m[0mpattern[0m[0;34m,[0m [0mstring[0m[0;34m,[0m [0mflags[0m[0;34m=[0m[0;36m0[0m[0;34m)[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Scan through string looking for a match to the pattern, returning
a match object, or None if no match was found.
[0;31mFile:[0m      /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/re.py
[0;31mType:[0m      function


In [9]:
# 제목에서 카테고리만을 추출해 오기 위해 정규표현식을 사용한다.
# 카테고리는 각 하나씩 갖고 있으며 뒤에 있는 [정보통신]은 말머리다.
subject = "[ 행정ㆍ기타 ] [정보통신] 통신관련 민원처리기관과 통신사업자 민원처리 안내번호"
# 다음의 정규표현식에서 ^는 문서의 시작임을 뜻한다.
# \는 특수문자를 문자 그대로 쓰기 위해 사용한다.
# .은 모든 문자를 의미하며 *은 0부터 무한대로 반복할 수 있음을 의미한다.
category = re.search("^\[ .*\ ]", subject)[0]
category

'[ 행정ㆍ기타 ]'

In [10]:
# 다른 문자열로 대체할 때 사용한다.
re.sub?

[0;31mSignature:[0m [0mre[0m[0;34m.[0m[0msub[0m[0;34m([0m[0mpattern[0m[0;34m,[0m [0mrepl[0m[0;34m,[0m [0mstring[0m[0;34m,[0m [0mcount[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m [0mflags[0m[0;34m=[0m[0;36m0[0m[0;34m)[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Return the string obtained by replacing the leftmost
non-overlapping occurrences of the pattern in string by the
replacement repl.  repl can be either a string or a callable;
if a string, backslash escapes in it are processed.  If it is
a callable, it's passed the match object and must return
a replacement string to be used.
[0;31mFile:[0m      /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/re.py
[0;31mType:[0m      function


In [11]:
# []안에 매치될 문자를 써준다. [를 문자 그대로 인식하게 하기 위해 \를 쓰고 [를 써주었다.
# \[\]를 빈문자로 대체하는 코드이다.
category = re.sub("[\[\]]", "", category).strip()
category

'행정ㆍ기타'

In [12]:
# 이제 위에서 추출한 카테고리를 제목에서 제거해 준다.
# 제거 해 주기 위해 제목이 어떻게 생겼는지 다시 출력해 본다.
subject

'[ 행정ㆍ기타 ] [정보통신] 통신관련 민원처리기관과 통신사업자 민원처리 안내번호'

In [13]:
# 제목에서 위에서 추출한 카테고리를 빈문자로 대체해 준다.
# [정보통신]은 제목에 포함되어 있는 말머리다.
subject = re.sub("\[ "+category+" \]", "", subject).strip()
subject

'[정보통신] 통신관련 민원처리기관과 통신사업자 민원처리 안내번호'

In [14]:
# 제목을 추출하는 함수를 만든다.
def get_subject(category, subject):  
    subject = re.sub("\[ "+category+" \]", "", subject).strip()
    return subject

In [15]:
# 위의 결과를 바탕으로 카테고리를 추출하는 함수를 만든다.
def get_category(subject):
    category = re.search("^\[ .*\ ]", subject)[0]
    category = re.sub("[\[\]]", "", category).strip()
    return category

In [16]:
civilappeal = []
page_list = []
def get_page(start, end):
    base_url = "https://opengov.seoul.go.kr/civilappeal?page="
    for num in trange(start, end+1):
        page_source = requests.get( base_url + str(num))
        # html 태그를 파싱해 올 수 있도록 한다.
        soup = bs(page_source.text, 'html.parser')
        civilappeal = get_content(soup)
    time.sleep(random.randint(1,2))
    return civilappeal

In [17]:
# 제목, 내용, 태그를 담아줄 빈 리스트를 생성한다.
def get_content(soup):
    h4 = soup.select("h4")

    for i, row in enumerate(h4):
        article = []
        no = row.find('a')['href'].split("-")[1]
        raw_subject = row.find('a').get_text(strip=True)
        category = get_category(raw_subject)
        subject = get_subject(category, raw_subject)
        content = soup.select("div.content-step1")[i].find('p').get_text(strip=True)
        tag = soup.select("div.content-step1 > div.list-tag")[i].find('p').get_text(strip=True)
        tag = tag.split("관련태그 :")[1]

        article.append(no)
        article.append(category)
        article.append(subject)
        article.append(content)
        article.append(tag)
        page_list.append(article)
    return page_list

In [18]:
civilappeal = get_page(1, 197)

100%|██████████| 197/197 [06:23<00:00,  1.95s/it]


In [19]:
df_civilappeal = pd.DataFrame(civilappeal)
print(df_civilappeal.shape)
df_civilappeal.head()

(2954, 5)


Unnamed: 0,0,1,2,3,4
0,2897888,복지,여성복지상담소 어디에 있나요?,- 여성복지상담소는 독산1동 289-7번지 한빛빌딩 4층 자원봉사센터 내에 있...,"사회보장과복지,여성복지,벧엘케어상담소"
1,2897889,복지,여성복지상담소는 모든 상담이 무료인가요?,- 네. 그렇습니다. 여성복지상담소는 금천구에서 직영하는 상담소로서 모든...,"사회보장과복지,여성복지,벧엘케어상담소"
2,2895764,행정ㆍ기타,진정민원 제출시 증빙서류를 받을수 있나요?,- 진정민원 제출시 민원복지동 1층 민원여권과에서 접수증을 발부하여 드리고 있습니다.,"구정일반,민원관리,통합민원실안내"
3,2898246,재정ㆍ세금,"은평구에는 어떤종류의 하천이 있습니까 예를 들면 국가하천,지방하천 등","- 은평구는 국가하천은 없습니다. 지방하천으로 불광천,녹번천이 있고, 소하천으로 ...","세금과재정,재정,일상경비관리"
4,2897030,행정ㆍ기타,[정보통신] 통신관련 민원처리기관과 통신사업자 민원처리 안내번호,- 업무개요 통신관련 민원 전화번호 정리 업무내용 ▣ 통신관...,"통신,정보자원관리,시스템및정보보호"


In [20]:
df_civilappeal.columns = ["번호", "카테고리", "제목", "내용", "태그"]
df_civilappeal.tail()

Unnamed: 0,번호,카테고리,제목,내용,태그
2949,2894120,행정ㆍ기타,우리 동네 이름을 바꿀 수 있는 방법은?,"- 법정동은 개인의 권리, 의무 행사에 있어 법률상의 주소로 사용되기 때문에 명칭변...","일반공공행정,총무,행정구역조정및명칭변경"
2950,2894111,행정ㆍ기타,대한민국 훈장의 종류와 정의,- ▲건국훈장 대한민국 건국에 공헌하거나 국기를 공고히 하는데 기여한 사람이 대상...,"일반공공행정,과공통일반사무,일반서무"
2951,2894109,행정ㆍ기타,임목등록원부(임목대장)를 받고 싶어요,- 임목등록원부란 개인의 땅에 재산가치를 따지기 위해 임목(나무)을 자치구청에 서류...,"일반공공행정,과공통일반사무,일반서무"
2952,2894112,행정ㆍ기타,신분증 분실에 의한 정보 도용 피해는 어떻게 되나요?,- 분실한 신분증을 위?변조하여 본인 명의로 한 타인의 불법행위는 본인에게 책임을 ...,"일반공공행정,과공통일반사무,일반서무"
2953,2894110,행정ㆍ기타,조례제개정청구를 주민이 할 수 있나요?,- 네 청구 할 수 있습니다. 요건은 선거권자의 50분의 1 이상이 연서로 할 수 ...,"일반공공행정,과공통일반사무,일반서무"


In [21]:
df_civilappeal.to_csv("civilappeal.csv", index=False)

In [22]:
%ls civilappeal.csv

civilappeal.csv


In [23]:
df_civilappeal["카테고리"].value_counts()

행정ㆍ기타      1179
경제          907
복지          226
환경          144
주택ㆍ도시계획     121
문화ㆍ관광       118
교통ㆍ건설        81
안전           63
건강ㆍ식품        54
재정ㆍ세금        48
여성ㆍ가족        13
Name: 카테고리, dtype: int64