In [1]:
# 라이브러리 로드
# tqdm은 사용하기 어렵다 while문을 사용할텐데 끝이 어디인지 알 수 없기 때문
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
import requests
import time

In [4]:
# 크롤링할 url
base_url = "https://opengov.seoul.go.kr/civilappeal/list?items_per_page=50&page=1"
print(base_url)

https://opengov.seoul.go.kr/civilappeal/list?items_per_page=50&page=1


In [10]:
# table 정보 읽어오기
# read_html(url) : table 태그가 있다면 table 태그만 가져옴
# 한글 깨짐 해결 encoding="cp949" or encoding="utf-8"
table = pd.read_html(base_url, encoding="utf-8")
table[0]

Unnamed: 0,번호,제목,생산일,조회수
0,2304,하반기 농부의 시장 일정은 어떻게 되나요?,2022-08-29,90
1,2303,다자녀가정 실내 바닥매트 지원,2021-08-17,890
2,2302,[서울산업진흥원] 서울메이드란?,2021-06-29,5228
3,2301,마포 뇌병변장애인 비전센터,2021-03-12,1310
4,2300,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1626
5,2299,"[성동구] 반려동물 ""무료상담실"" 운영 안내",2020-08-31,1351
6,2298,서울시 [우리동네꼼꼼육아정보] 책자 발간,2019-10-23,1997
7,2297,"[종료사업] S-Taxi 앱 (에스택시, 서울택시승차앱) 시범운영",2019-06-03,2049
8,2296,장기요양 이동지원서비스(모두타 돌봄택시),2019-05-27,2799
9,2295,아름다운청년 전태일기념관,2019-03-20,1632


# 상세정보를 위한 링크 수집
* 글 제목 a태그에서 상세정보 url을 수집

In [12]:
response = requests.get(base_url)

In [14]:
response.status_code

200

In [16]:
# html 파싱
html = bs(response.text)

In [41]:
# 모든 a태그 찾기
# html.find_all("a")

# copy.selector
# content > div > div.view-content > div > table > tbody > tr:nth-child(1) > td.data-title.aLeft > a
# 모두 가져올 필요는 없음, 뒤에서 두 개 정도만 가져와도 인식
a_list = html.select("td.data-title.aLeft > a")
a_list[:3]

[<a href="/civilappeal/26695536">하반기 농부의 시장 일정은 어떻게 되나요?</a>,
 <a href="/civilappeal/25670204">다자녀가정 실내 바닥매트 지원</a>,
 <a href="/civilappeal/23194045">[서울산업진흥원] 서울메이드란?</a>]

In [42]:
# 링크 정보
a_list[1]["href"]

'/civilappeal/25670204'

In [43]:
a_list[1]["href"].split('/')

['', 'civilappeal', '25670204']

In [44]:
a_list[1]["href"].split('/')[-1]

'25670204'

In [49]:
a_link_no = []
for a_tag in a_list:
    a_link_no.append(a_tag["href"].split("/")[-1])

In [50]:
# table에 추가
table[0]["내용번호"] = a_link_no

In [114]:
table[0].head()

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2304,하반기 농부의 시장 일정은 어떻게 되나요?,2022-08-29,90,26695536
1,2303,다자녀가정 실내 바닥매트 지원,2021-08-17,890,25670204
2,2302,[서울산업진흥원] 서울메이드란?,2021-06-29,5228,23194045
3,2301,마포 뇌병변장애인 비전센터,2021-03-12,1310,22477798
4,2300,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1626,21212235


# 특정 페이지 수집하는 함수

In [115]:
def get_one_page(page_no):
    """
    1) page_no 마다 url이 변경되게 f-string을 사용해서 만든다.
    2) requests 를 사용해서 요청을 보내 응답을 받는다.
    3) pd.read_html 을 사용해서 table tag 를 읽어온다.
    4) 3번 결과에서 0번 인덱스를 가져와 df 로 목록의 내용을 만든다.
    5) html tag 를 parsing 할 수 있게 bs 형태로 만든다.
    6) 목록 안에 있는 a tag 를 찾는다.
    7) a tag 안에서 string 을 분리해서 내용번호만 list 형태로 만든다.
    8) 4)의 결과에 "내용번호" 라는 컬럼을 만들고  a tag 의 list를 추가한다.
    """
    # 1
    url = f"https://opengov.seoul.go.kr/civilappeal/list?items_per_page=50&page={page_no}"
    # 2
    response = requests.get(url)
    # 3, 4
    df = pd.read_html(response.text, encoding="utf-8")[0]
    # 5
    html = bs(response.text)
    # 6
    a_tag_list = html.select("td.data-title.aLeft > a")
    
    # 7
    content_num_list = []
    for a_tag in a_tag_list:
        content_num = a_tag["href"].split("/")[-1]
        content_num_list.append(content_num)
    
    # 8
    df["내용번호"] = content_num_list    
    
    return df

# 없는 페이지 error 처리

In [99]:
# 없는 페이지에 대한 error
# try 문을 활용하여 예외 처리
get_one_page(400)

ValueError: Length of values (0) does not match length of index (1)

```python
try:
    pass
except:
    raise Exception("print")
```

In [105]:
def get_one_page(page_no):
    url = f"https://opengov.seoul.go.kr/civilappeal/list?items_per_page=50&page={page_no}"
    response = requests.get(url)
    df = pd.read_html(response.text, encoding="utf-8")[0]
    try:
        html = bs(response.text)
        a_tag_list = html.select("td.data-title.aLeft > a")

        content_num_list = []
        for a_tag in a_tag_list:
            content_num = a_tag["href"].split("/")[-1]
            content_num_list.append(content_num)

        df["내용번호"] = content_num_list    
    
    except:
        # 오류 발생 X, 메세지만 출력
        # return f"{page_no} 페이지를 찾을 수 없습니다."
        
        # 오류가 발생, 메세지 출력
        raise Exception(f"{page_no} 페이지를 찾을 수 없습니다.")
    return df

In [107]:
get_one_page(500)

Exception: 500 페이지를 찾을 수 없습니다.

# 200 page 까지는 빈 테이블이 출력 됨

In [116]:
get_one_page(200)

Unnamed: 0,번호,제목,생산일,조회수,내용번호


In [120]:
def get_one_page(page_no):
    url = f"https://opengov.seoul.go.kr/civilappeal/list?items_per_page=50&page={page_no}"
    response = requests.get(url)
    df = pd.read_html(response.text, encoding="utf-8")[0]
    
    # 함수가 200 page 까지는 에러 없이 빈 table 출력
    # 빈 table 도 걸러내는 if 구문
    if df.shape[0] == 0:
        return f"{page_no} 페이지를 찾을 수 없습니다."
    
    try:
        html = bs(response.text)
        a_tag_list = html.select("td.data-title.aLeft > a")

        content_num_list = []
        for a_tag in a_tag_list:
            content_num = a_tag["href"].split("/")[-1]
            content_num_list.append(content_num)

        df["내용번호"] = content_num_list    
    
    except:
        # 오류 발생 X, 메세지만 출력
        # return f"{page_no} 페이지를 찾을 수 없습니다."
        
        # 오류가 발생, 메세지 출력
        raise Exception(f"{page_no} 페이지를 찾을 수 없습니다.")
    return df

In [113]:
get_one_page(100)

'100 페이지를 찾을 수 없습니다.'

# 반복문으로 여러 페이지 수집

In [125]:
page_no = 1
table_list = []
while True:
    df_temp = get_one_page(page_no)
    if type(df_temp) == str:
        print("수집이 완료되었습니다")
        break
    print(page_no, end=', ')
    table_list.append(df_temp)
    page_no += 1
    time.sleep(0.01)

table_list

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 수집이 완료되었습니다


[      번호                                      제목         생산일   조회수      내용번호
 0   2304                 하반기 농부의 시장 일정은 어떻게 되나요?  2022-08-29   126  26695536
 1   2303                        다자녀가정 실내 바닥매트 지원  2021-08-17   894  25670204
 2   2302                       [서울산업진흥원] 서울메이드란?  2021-06-29  5230  23194045
 3   2301                          마포 뇌병변장애인 비전센터  2021-03-12  1310  22477798
 4   2300                  위드유 서울 직장 성희롱.성폭력 예방센터  2020-09-16  1626  21212235
 5   2299                [성동구] 반려동물 "무료상담실" 운영 안내  2020-08-31  1351  21095911
 6   2298                  서울시 [우리동네꼼꼼육아정보] 책자 발간  2019-10-23  1997  18955676
 7   2297    [종료사업] S-Taxi 앱 (에스택시, 서울택시승차앱) 시범운영  2019-06-03  2049  17949033
 8   2296                  장기요양 이동지원서비스(모두타 돌봄택시)  2019-05-27  2800  17896364
 9   2295                           아름다운청년 전태일기념관  2019-03-20  1632  17505766
 10  2294      자동배차콜택시(웨이고 블루)/여성전용예약콜택시(웨이고 레이디)  2019-02-26  1078  19717325
 11  2293  등록된 법인의 지점이나 사업소는 별도로 등록해야 시공이 가능한가요 ?  2018-11-22   

# 데이터 병합

In [128]:
df = pd.concat(table_list)
df

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2304,하반기 농부의 시장 일정은 어떻게 되나요?,2022-08-29,126,26695536
1,2303,다자녀가정 실내 바닥매트 지원,2021-08-17,894,25670204
2,2302,[서울산업진흥원] 서울메이드란?,2021-06-29,5230,23194045
3,2301,마포 뇌병변장애인 비전센터,2021-03-12,1310,22477798
4,2300,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1626,21212235
...,...,...,...,...,...
49,5,일반인도 공무원교육원의 식당을 이용할 수 있나요?,2007-01-07,481,2896343
0,4,수돗물의 톤당 원가는?,2007-01-07,451,19353862
1,3,출산휴가후 집근처에 안심하고 맡길 수 있는 어린이집이 있는지?,2007-01-07,436,19699584
2,2,자동차검사장을 지정받고자 하는데 어떻게 해야 하나요?,2007-01-07,407,2898293


# 파일로 저장

In [129]:
file_name = "seoul_120_list.csv"
df.to_csv(file_name, index=False)

# 파일 확인

In [131]:
test = pd.read_csv(file_name)
test

Unnamed: 0,번호,제목,생산일,조회수,내용번호
0,2304,하반기 농부의 시장 일정은 어떻게 되나요?,2022-08-29,126,26695536
1,2303,다자녀가정 실내 바닥매트 지원,2021-08-17,894,25670204
2,2302,[서울산업진흥원] 서울메이드란?,2021-06-29,5230,23194045
3,2301,마포 뇌병변장애인 비전센터,2021-03-12,1310,22477798
4,2300,위드유 서울 직장 성희롱.성폭력 예방센터,2020-09-16,1626,21212235
...,...,...,...,...,...
2299,5,일반인도 공무원교육원의 식당을 이용할 수 있나요?,2007-01-07,481,2896343
2300,4,수돗물의 톤당 원가는?,2007-01-07,451,19353862
2301,3,출산휴가후 집근처에 안심하고 맡길 수 있는 어린이집이 있는지?,2007-01-07,436,19699584
2302,2,자동차검사장을 지정받고자 하는데 어떻게 해야 하나요?,2007-01-07,407,2898293
