# <center> Web Cralwing - Static Crawling <center>
---
## <div style="text-align: right"> E-비즈니스학과 서창덕 </div>

## 1. urllib
- 파이썬은 웹 사이트에 있는 데이터를 추출하기 위해 urllib 라이브러리 사용
- 이를 이용해 HTTP 또는 FTP를 사용해 데이터 다운로드 가능
- urllib은 URL을 다루는 모듈을 모아 놓은 패키지
- urllib.request 모듈은 웹 사이트에 있는 데이터에 접근하는 기능 제공, 또한 인증, 리다렉트, 쿠키처럼 인터넷을 이용한 다양한 요청과 처리가 가능

In [1]:
from urllib import request

## 1.1. urllib.request를 이용한 다운로드
- urllib.request 모듈에 있는 urlretrieve() 함수 이용
- 다음의 코드는 PNG 파일을 test.png 라는 이름의 파일로 저장하는 예제임

In [2]:
from urllib import request

url="http://uta.pw/shodou/img/28/214.png"
savename="test.png"

request.urlretrieve(url, savename) # PNG파일의 url을 'test.png'라는 이름의 파일로 저장
print("저장되었습니다")

저장되었습니다


## 1.2. urlopen으로 파일에 저장하는 방법
- request.urlopen()은 메모리에 데이터를 올린 후 파일에 저장하게 된다.

In [3]:
# URL과 저장할 이름 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"

# 다운로드
mem = request.urlopen(url).read() # .read() = nbyte의 데이터를 바이트 문자열로 읽음 

# 파일로 저장하기, mode에서 wb = write/binary
#  with문으로 파일을 열고 닫는 것을 자동으로 처리

with open(savename, mode="wb") as f: 
    #  with 블록을 벗어나는 순간 열린 파일 객체 f가 자동으로 close
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


## 1.3. API 사용하기
### **클라이언트 접속 정보 출력 (기본)**
- API는 사용자의 요청에 따라 정보를 반환하는 프로그램
- IP 주소, UserAgent 등 클라이언트 접속정보 출력하는 "IP 확인 API" 접근해서 정보를 추출하는 프로그램

In [4]:
# 데이터 읽어오기
url="http://api.aoikujira.com/ip/ini"
res=request.urlopen(url)
data=res.read() 

# binary를 문자열로 변환하기
text=data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=175.207.54.218
REMOTE_HOST=175.207.54.218
REMOTE_PORT=59612
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.7
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 2. BeautifulSoup
- 스크레이핑(Scraping or Crawling)이란 웹 사이트에서 데이터를 추출하고, 원하는 정보를 추출하는 것을 의미
- BeautifulSoup란 파이썬으로 스크레이핑할 때 사용되는 라이브러리로서 **HTML/XML에서 정보를 추출**할 수 있도록 도와줌. **그러나 다운로드 기능은 없음.**
- 파이썬 라이브러리는 pip 명령어를 이용해 설치 가능. Python Package Index(PyPI)에 있는 패키지 명령어를 한줄로 설치 가능
    - URL (http://pypi.python.org/pypi)

In [5]:
from bs4 import BeautifulSoup

html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

## 2.1. 기본 사용
- 다음은 Beautifulsoup를 이용하여 웹사이트로부터 HTML을 가져와 문자열로 만들어 이용하는 예제임

- h1 태그를 접근하기 위해 html-body-h1 구조를 사용하여 soup.html.body.h1 이런식으로 이용하게 됨.

- p 태그는 두개가 있어 soup.html.body.p 한 후 next_sibling을 두번 이용하여 다음 p를 추출. 한번만 하면 그 다음 공백이 추출됨.
- HTML 태그가 복잡한 경우 이런 방식으로 계속 진행하기는 적합하지 않음.

### 1) HTML 분석하기

In [6]:
soup = BeautifulSoup(html, 'html.parser') 
# 분석 용이하게 파싱
# html.parser =  html로 이해하는 관점
# 단순한 텍스트가 아니라 html 의 관점에서 이 문자열을 이해  

soup


<html><body>
<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body></html>

### 2) 원하는 부분 추출하기

In [7]:
h1 = soup.html.body.h1   # body의 h1
p1 = soup.html.body.p   # body의 p
p2 = p1.next_sibling.next_sibling # next_sibling -> 그 다음 태그에 접근

print(h1)
print(p1) 
print(p2)

<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>


### 3) 요소의 글자 출력하기

In [8]:
print(f"h1 = {h1.string}") # string -> 태그 제거
print(f"p  = {p1.string}")
print(f"p  = {p2.string}")

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


## 2.2. 요소를 찾는 method
### **단일 element 추출:** ``` find() ``` <br>
BeautifulSoup는 루트부터 하나하나 요소를 찾는 방법 말고도 find()라는 메소드를 제공함

In [9]:
soup = BeautifulSoup(html, 'html.parser')
soup


<html><body>
<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body></html>

### 1) find() 메서드로 원하는 부분 추출하기

In [10]:
title = soup.find("h1") # h1요소 추출 title에 할당
body  = soup.find("p")  # p요소 추출 body에 할당
print(title)
print(body)

<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>


### 2) text 부분 출력하기

In [11]:
print(f"#title = {title.string}" ) # title 
print(f"#body = {body.string}")    # body 

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


### **복수 elements 추출:*** ```find_all()```<br>
여러개의 태그를 한번에 추출하고자 할때 사용함. 다음의 예제에서는 여러개의 태그를 추출하는 법을 보여주고 있음

In [12]:
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
soup


<html><body>
<ul>
<li><a href="http://www.naver.com">naver</a></li>
<li><a href="http://www.daum.net">daum</a></li>
</ul>
</body></html>

### 1) find_all() 메서드로 추출하기

In [13]:
links = soup.find_all("a") # find_all() -> 복수 추출
print(links, len(links)) 

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


### 2) 링크 목록 출력하기

In [14]:
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string  # 태그 제거
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


## 3. Css Selector
- Css Selector란, 웹상의 요소에 css를 적용하기 위한 문법으로, 즉 요소를 선택하기 위한 패턴입니다.

출처: https://www.w3schools.com/cssref/css_selectors.asp

앞서 간단하게 태그를 사용하여 데이터를 추출하는 방법에 대해서 살펴보았습니다.

하지만 복잡하게 구조화된 웹 사이트에서 자신이 원하는 데이터를 가져오기 위해서는 Css Selector에 대한 이해가 필요합니다.

서식 | 설명
---|---|
*|모든 요소를 선택|
<요소 이름> |요소 이름을 기반으로 선택|
.<클래스 이름> |클래스 이름을 기반으로 선택|
#<id 이름> |id 속성을 기반으로 선택|

### **BeautifulSoup에서 Css Selector 사용하기**
BeautifulSoup에서는 Css Selector로 값을 가져올 수 있도록 find와는 다른 다음과 같은 메서드를 제공합니다.

메서드 | 설명
---|---|
soup.select_one(선택자)|CSS 선택자로 요소 **하나**를 추출|
soup.select(선택자)|CSS 선택자로 요소 **여러 개** 리스트를 추출|

In [15]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')
soup


<html><body>
<div id="meigen">
<h1>위키북스 도서</h1>
<ul class="items">
<li>유니티 게임 이펙트 입문</li>
<li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
<li>모던 웹사이트 디자인의 정석</li>
</ul>
</div>
</body></html>

In [16]:
# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string
# div id = 'meigen' -> h1 부분 선택 추출
# 실행할 때마다 새로운 정보 반영 string 붙이면 순수한 값만 추출됨
# .string -> 태그를 제외한 결과

print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li")
# div id = 'meigen' -> ul class = 'items' -> li 부분 선택 추출

for li in li_list:
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


### 4. 활용 예제
앞서 배운 urllib과 BeautifulSoup를 조합하면, 웹스크레이핑 및 API 요청 작업을 쉽게 수행하실 수 있습니다.

1. URL을 이용하여 웹으로부터 html을 읽어들임 (urllib)
2. html 분석 및 원하는 데이터를 추출 (BeautifulSoup)

In [17]:
from bs4 import BeautifulSoup
from urllib import request, parse

## 4.1. 네이버 금융 - 환율 정보
- 다양한 금융 정보가 공개돼 있는 "네이버 금융"에서 원/달러 환율 정보를 추출해보자!
- 네이버 금융의 시장 지표 페이지 https://finance.naver.com/marketindex/
- 다음은 원/달러 환율 정보를 추출하는 프로그램임

### 1) HTML 가져오기

In [18]:
url = "https://finance.naver.com/marketindex/"
res = request.urlopen(url)

### 2) HTML 분석하기

In [19]:
soup = BeautifulSoup(res, "html.parser")
soup


<script language="javascript" src="/template/head_js.nhn?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<script language="JavaScript" src="/js/flashObject.js?20200917142109"></script>
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_up">
<span class="value">1,175.00</span>
<span class="txt_krw"><span class="blind">원</span></span>


### 3) 원하는 데이터 추출하기

In [20]:
price = soup.select_one("div.head_info > span.value").string
# css selector -> div class = 'head_info' -> span calss = 'value' 부분 선택 추출
print("usd/krw =", price)

usd/krw = 1,175.00


## 4.2. 기상청 RSS
- 기상청 RSS에서 특정 내용을 추출하는 예제
- 기상청 RSS에서 XML 데이터를 추출하고 XML 내용을 출력
- 기상청의 RSS 서비스에 지역 번호를 지정하여 데이터 요청해보기 http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp
    - 참고: 기상청 RSS http://www.kma.go.kr/weather/lifenindustry/service_rss.jsp

매개변수 | 의미
---|---|
stnId|기상 정보를 알고 싶은 지역을 지정|


- 참고: 지역번호

지역 | 지역번호|지역|지역번호|
---|---|---|---|
전국|108|전라북도|146|
서울/경기도|109|전라남도|156|
강원도|105|경상북도|143|
충청북도|131|경상남도|159|
충청남도|133|제주특별자치도|184|



- 파이썬으로 요청 전용 매개변수를 만들 때는 urllib.parse 모듈의 urlencode() 함수를 사용해 매개변수를 URL로 인코딩한다.

### 1) HTML 가져오기

In [21]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnId':'109'  # 위 지역코드 참고: 109(서울/경기도)
}

params = parse.urlencode(values)
# dictionary({'stnId': '109'})로 되어 있는 values를 urlencode에 넘겨 문자열화

url += "?" + params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


### 2) HTML 분석하기

In [22]:
soup = BeautifulSoup(res, "html.parser")
soup

<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubdate>2020년 09월 26일 (토)요일 18:00</pubdate>
<item>
<author>기상청</author>
<category>육상중기예보</category>
<title>서울,경기도 육상 중기예보 - 2020년 09월 26일 (토)요일 18:00 발표</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp
<guid>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</guid>
<description>
<header>
<title>서울,경기도 육상중기예보</title>
<tm>202009261800</tm>
<wf><![CDATA[○ (강수) 10월 1일(목) 오후~2일(금) 오전에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 낮 기온은 20~25도로 오늘(26일, 24~26도)보다 낮겠고, 아침 기온은 9~17도로 선선하겠습니다.<br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.]]></wf>
</header>
<body>
<location wl_ver="3">
<province>서울ㆍ인천ㆍ경기도</province>
<city>서울</city>
<data>
<mode>A02</mode>
<tmef>2020-09-29 00:00</tmef>
<wf>구름많음</

### 3) 원하는 데이터 추출하기

In [23]:
header = soup.find("header")

title = header.find("title").text # title 태그 추출
wf = header.find("wf").text # wf 태그 추출

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 10월 1일(목) 오후~2일(금) 오전에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 낮 기온은 20~25도로 오늘(26일, 24~26도)보다 낮겠고, 아침 기온은 9~17도로 선선하겠습니다.<br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


- **css selector 기반**

In [24]:
title = soup.select_one("header > title").text
wf = header.select_one("wf").text

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 10월 1일(목) 오후~2일(금) 오전에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 낮 기온은 20~25도로 오늘(26일, 24~26도)보다 낮겠고, 아침 기온은 9~17도로 선선하겠습니다.<br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


### 4.3. 윤동주 작가의 작품 목록
- 위키문헌 (https://ko.wikisource.org/wiki) 에 공개되어 있는 윤동주의 작품목록을 가져오기
- 윤동주 위키 (https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC)
- 하늘과 바람과 시 부분을 선택한 후 오른쪽 마우스 이용해 copy selector로 카피하면 다음의 CSS 선택자가 카피됨<br>

    - ```#mw-content-text > div > ul:nth-child(6) > li > b > a```
<br>
<br>
- nth-child(n) 은 n 번째 요소를 의미 즉 6번째 요소를 의미, ```#mw-content-text``` 내부에 있는 url 태그는 모두 작품과 관련된 태그. 따라서 따로 구분할 필요는 없으며 생략해도 됨. BeautifulSoup는 nth-child 지원하지 않음
    - Recall PR7 Problem1

In [25]:
url

'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109'

In [26]:
# 뒤의 인코딩 부분은 "저자:윤동주"라는 의미입니다.
# 따로 입력하지 말고 위키 문헌 홈페이지에 들어간 뒤에 주소를 복사해서 사용하세요.

url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래 -> li 태그 아래 -> a 태그를 모두 선택
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


### 4.4 네이버 뉴스 헤드라인
배운 내용을 바탕으로 네이버 뉴스(https://news.naver.com/)에서 헤드라인 뉴스의 제목을 추출해보고자 합니다.

**Q**: 다음의 코드에 css selector를 추가하여 최신 기사의 헤드라인을 스크레이핑하는 코드를 완성하시오.

- **HTTPError: HTTP Error 500: Internal Server Error**<br>
(내부 서버 오류, Internal Server Error) 발생<br>
<br>
- urlopen이 아닌 **requests** 사용으로 에러 해결



In [27]:
from urllib.request import HTTPError, urlopen
import requests 

url = "https://news.naver.com/"

res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")

selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_tit > a"

for a in soup.select(selector):
    title = a.text
    print(title)


                                        후쿠시마 찾은 스가… 122만t 오염수 방류하나[이슈픽]
                                    

                                        유시민 '계몽군주' 발언에 野 "민간인 사살…국민정서 눈 감아"(종합)
                                    

                                        피살 공무원 탄 어업지도선, 목포 출발...해경, 군 협조 요청
                                    

                                        불법 드론 때문에…인천 오던 항공기 5대 김포로 기수 돌려
                                    

                                        보수단체, 개천절 앞두고 서울 내 '차량행진' 집회
                                    


### 4.5 시민의 소리 게시판
다음은 서울시 대공원의 시민의 소리 게시판 입니다.

https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgList.do?pgno=1

해당 페이지에 나타난 게시글들의 제목을 수집하고자 합니다.

**Q**: 다음의 코드에 css selector를 추가하여 해당 페이지에서 게시글의 제목을 스크레이핑하는 코드를 완성하시오. 또한 과제 제출시 하단의 추가 내용을 참고하여 수집한 데이터를 csv 형태로 저장하여 해당 csv 파일도 함께 제출하시오.

In [28]:
url_head = "https://www.sisul.or.kr"

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"



res = request.urlopen(url_board)
soup = BeautifulSoup(res, "html.parser")

# selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
titles = []
links = []
for a in soup.select(selector):
    titles.append(a.text) # titles에 제목 append
    links.append(url_head + a.attrs["href"])
    
print(titles, links)

['관리인 마스크', '어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청 ', '마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.', '공원 내 마스크 착용', '청춘핫도그 점장님과 직원분께 감사드립니다', '카드결제를 거부하는 매점을 신고합니다', '참얼굴만큼예쁘고맘씨좋은 여직원을 만나 고마워서 글을남깁니다.', '놀이동산에서 불쾌함을 겪었습니다', '서문 플래카드', '간만에 친절한 아가씨를 만났어요.(놀이동산)'] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=47RcOiS427gHXFWYU5602YjlUgZYEq0WCQHJah2jHEFtKZVcVhqwbVjBqBHlw5Ny.etisw2_servlet_user?qnaid=QNAS20200917000010&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=47RcOiS427gHXFWYU5602YjlUgZYEq0WCQHJah2jHEFtKZVcVhqwbVjBqBHlw5Ny.etisw2_servlet_user?qnaid=QNAS20200902000003&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=47RcOiS427gHXFWYU5602YjlUgZYEq0WCQHJah2jHEFtKZVcVhqwbVjBqBHlw5Ny.etisw2_servlet_user?qnaid=QNAS20200826000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=47RcOiS427gHXFWYU5602YjlUgZYEq0WCQHJah2jHEFtKZVcVhqwbVjBqBHlw5Ny.etisw2

- **수집된 자료 -> 데이터 프레임 -> csv 저장**

In [29]:
import pandas as pd

board_df = pd.DataFrame({"title": titles, "link": links}) 
# title -> 'title' 컬럼으로, links -> 'link' 컬럼으로
board_df.head()

Unnamed: 0,title,link
0,관리인 마스크,https://www.sisul.or.kr/open_content/childrenp...
1,어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청,https://www.sisul.or.kr/open_content/childrenp...
2,"마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.",https://www.sisul.or.kr/open_content/childrenp...
3,공원 내 마스크 착용,https://www.sisul.or.kr/open_content/childrenp...
4,청춘핫도그 점장님과 직원분께 감사드립니다,https://www.sisul.or.kr/open_content/childrenp...


In [30]:
board_df.to_csv("board.csv", index=False)