# 텍스트마이닝과 웹크롤링
----

# 1. 텍스트 마이닝의 이해
### 1. 정의
- 텍스트 마이닝이란? 텍스트로 양질의 정보를 뽑아내는 것.
- 통계적인 패턴 학습을 통해 패턴과 트렌드를 찾는다. (대표적으로 회귀분석) 
- 비정형 데이터를 분석 가능한 정형 데이터로 바꾸는 것이 목표
- 텍스트를 데이터로 변환 (자연어 처리방법)-> 패턴이나 트렌드를 찾는다-> 유용한 정보

### 2. 단계
 #### 2.1. 문서
 - tokenize: 단어를 쪼개는 것
 - normalize: 변형된 단어를 원형으로 돌리는 것      
   
     
     
 #### 2.2. 순서가 의미가 있는 단어들의 시퀀스
 - Fixed size vector without sequence info
 - Fixed size vector with sequence info
 - Series of Word Embedding with sequence info

### 3. 적용분야
 - **Document classification**: Sentiment analysis, Classification  
 - **Document generation**: Q&A, Summarization, Translation  
 - **Keyword extraction**: Tagging/Annotation      
 - **Topic modeling**: LSA, LDA
 


# 2. 텍스트 마이닝 방법론
- 목적: document, sentence 등을 sparse vector로 변환 (word들의 sequence. 중복o 순서o)  
  
### 1. Tokenize
- Document를 Sentence의 집합으로 분리
- Sentence를 Word의 집합으로 분리
- 의미 없는 문자 등을 걸러 냄

### 2. Text Normalization
- 동일한 의미의 단어가 다른 형태를 갖는 것을 보완
- Stemming (어간 추출): 단어의 다양한 변형을 하나로 통일. 규칙에 의한 변환
- Lemmatization (표제어 추출): 사전을 이용하여 단어의 원형을 추출. 품사 고려

### 3. POS-tagging
- 토큰화와 정규화 작업을 통해 나누어진 형태소에 대해 품사를 결정하여 할당
- 품사 결정 위해 문맥을 파악해야 함  

### 4. Chunking
- Chunk: 말모듬.  주어와 동사가 없는 두 단어 이상의 집합인 구(phrase)를 의미
- 주어진 텍스트에서 이와 같은 chunk를 찾는 과정. 각 형태소들을 서로 겹치지 않으면서 의미가 있는 구로 묶어나가는 과정  

### 4. BOW (Bag of Words)
- Vector Space Model: 단어가 쓰여진 순서는 무시, 한번 이상 나타난 단어들에 대해 유(1)/무(0) 로 문서를 표현
- Count vector: 유/무 대신 단어가 문서에 나타난 횟수로 표현  

### 5. TFIDF(Term Frequency - Inverse Document Frequency)
- 단어의 count를 단어가 나타난 문서의 수로 나눠서 자주 등장하지 않는 단어의 weight를 올림
- Count vector의 문제점 보완 


# 3. 텍스트 마이닝 문제점
### 1. 차원의 저주(Curse of Dimensionality)
- Extremely sparse data
- 각 데이터 간의 거리가 너무 멀게 위치.  

### 2. 단어 빈도의 불균형
- Zipf's law(멱법칙): 극히 소수의 데이터가 결정적인 영향을 미치게 됨  

### 3. 단어가 쓰인 순서정보의 손실
- 통계에 의한 의미 파악 
- Loss of sequence information: context가 중요


# 4. 텍스트 마이닝 해결방안 
### 1. Feature Extraction
 #### 1.1. 주성분 분석(PCA)
 - 데이터의 분산을 최대한 보존하는 새로운 축을 찾아 변환함으로써 차원을 축소
 - 선형결합  
 
 
 #### 1.2. LSA(SVD)
 - 의미가 가까운 단어는 비슷한 곳에 위치
 - 주어진 dtm(document term matrix, A)을 A=UΣVT의 형태로 분해
 - 잠재의미분석: 문서 간의 유사도, 단어 간의 유사도

### 2. Topic Modeling
- 문서는 topic들로 구성. 각 토픽은 word들로 구성되며 그 가중치가 있다.


### 3. Word Embedding
> "단어들을 어떻게 컴퓨터 안에서 표현하고 다룰까?"  

- one-hot-encoding: 각 단어를 모든 문서에서 사용된 단어들의 수 길이의 벡터로 표현. 자기 위치에만 (하나만) 1인 벡터로 인코딩. 길이가 매우 길어짐. 
- one-hot-enconding으로 표현된 단어를 dense vector로 변환. (길이가 어느정도인지 상관없이 일정한 길이로 인코딩해줌). 
- 최종목적에 맞게 **학습**에 의해 vector가 결정됨
- document: 제한된 maxlen개의 word sequence
- word: one-hot-vector에서 embedding된 dense vector 

#### 3.1.Word2Vec
 - 문장에 나타난 단어들의 순서를 이용해 word embedding 수행.
 - 단어의 위치에 기반하여 의미를 내포하는 vector 생성. (비슷한 위치에 나타나는 단어들은 비슷한 vector 가짐)
 - fixed embedding
 - CBOW: 주변단어들을 이용해 다음단어 예측
 - Skip-gram: 한 단어의 주변단어들을 예측 

#### 3.2. ELMo
 - 동일한 단어가 문맥에 따라 전혀 다른 의미를 가지는 것을 반영하기 위해 개발된 워드 임베딩 기법.
 - biLSTM 사용. 정방향 문맥과 역방향 문맥을 다 사용. 

#### 3.3. Document Embedding
- Word2Vec 모형 기반 + documet 고유 vector 학습 -> dense vctor 생성 -> 매칭, 분류 작업 수행 
- fixed하고 denseg한 vector로 documet를 embedding 하고자함.

### 4. RBM
- 차원을 변경하면서 원래의 정보량을 최대한 유지하는 것이 목적

### 5. Autoencoder
- 차원을 축소하고 다시 복원했을때, Input 정보와 Output 정보가 최대한 동일하도록. 
 

### 6.N-gram
- 문장을 한 단위로 쪼개지 않고 두개 이상(N개) 단위로 쪼개는 것 

### 7.RNN
- 뒷 단어에 대한 hidden node가 앞 단어의 hidden node 값에도 영향을 받도록 함(앞에서의 문맥 정보가 축적되어감)
- 뒤로 갈수록 앞쪽의 정보는 소실된다는 문제점.

### 8.LSTM
- 직통 통로 만들어 RNN의 정보소실 문제 해결

### 9.Bi-LSTM
- 양방향으로 LSTM 구성하여 두 결과를 합침.

### 10.CNN 
- 원래는 이미지 처리를 위해 개발되었으나, 주변 정보를 학습한다는 점을 이용하여 텍스트의 문맥을 학습. 문서 분류하는 연구 진행.

### 11.Sequence-to-sequence
- 입력과 출력 모두 sequence. 번역 위해 개발
- 번역, chat-bot, summarize 등에 활용

### 12.Attention 
- 입력의 단어들로부터 출력 단어에 **직접 링크**를 만듦
- econder에 대해서 직접적으로 attention weights값을 구해 연결.

### 13.Transformer(Self-attention)
- ecnoder와 decoder
- 입력 단어들끼리도 상호 연관성이 있는 것에서 착안
- 입력->출력의 atteontion **+** 입력 단어들 간의 attention **+** 입력+출력->출력의 attention

### 14.BERT
- 양방향 transformer encoder 사용
- segment, position embedding 사용



----
# 실습코드 

# 5. 웹 크롤링1 - Static Crawling

## 1. urllib
- 파이썬은 웹 사이트에 있는 데이터를 추출하기 위해 urllib 라이브러리 사용
- 이를 이용해 HTTP 또는 FTP를 사용해 데이터 다운로드 가능
- **urllib**은 URL을 다루는 모듈을 모아 놓은 패키지
- **urllib.request** 모듈은 웹 사이트에 있는 데이터에 접근하는 기능 제공, 또한 인증, 다렉트, 쿠키처럼 인터넷을 이용한 다양한 요청과 처리가 가능

In [1]:
from urllib import request

### 1.1. urllib.request를 이용한 다운로드
- urllib.request 모듈에 있는 urlretrieve() 함수 이용
- 다음의 코드는 PNG 파일을 test.png 라는 이름의 파일로 저장하는 예제임

In [2]:
# 라이브러리 읽어들이기 
from urllib import request

url="http://uta.pw/shodou/img/28/214.png"
savename="test.png" # 저장명

request.urlretrieve(url, savename)
print("저장되었습니다")

저장되었습니다


### 1.2. urlopen으로 파일에 저장하는 방법
- request.urlopen()은 메모리에 데이터를 올린 후 파일에 저장하게 된다.

In [3]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png" 
#다운로드
mem = request.urlopen(url).read()
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


### 1.3. API 사용하기
### 클라이언트 접속 정보 출력 (기본)
- API는 사용자의 요청에 따라 정보를 반환하는 프로그램
- IP 주소, UserAgent 등 클라이언트 접속정보 출력하는 "IP 확인 API" 접근해서 정보를 추출하는 프로그램

In [4]:
#데이터 읽어들이기
url="http://api.aoikujira.com/ip/ini"
res=request.urlopen(url)
data=res.read()

#바이너리를 문자열로 변환하기
text=data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=114.108.24.51
REMOTE_HOST=114.108.24.51
REMOTE_PORT=39294
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 2. BeautifulSoup
- 스크레이핑(Scraping or Crawling)이란 웹 사이트에서 데이터를 추출하고, 원하는 정보를 추출하는 것을 의미
- **BeautifulSoup**란 파이썬으로 스크레이핑할 때 사용되는 라이브러리로서 HTML/XML에서 정보를 추출할 수 있도록 도와줌. 그러나 다운로드 기능은 없음.
- 파이썬 라이브러리는 pip 명령어를 이용해 설치 가능. Python Package Index(PyPI)에 있는 패키지 명령어를 한줄로 설치 가능
 - URL (http://pypi.python.org/pypi)
 
## 패키지 import 및 예제 HTML

In [5]:
from bs4 import BeautifulSoup

In [6]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

### 2.1. 기본 사용
- 다음은 Beautifulsoup를 이용하여 웹사이트로부터 HTML을 가져와 문자열로 만들어 이용하는 예제임
- h1 태그를 접근하기 위해 html-body-h1 구조를 사용하여 soup.html.body.h1 이런식으로 이용하게 됨.
- p 태그는 두개가 있어 soup.html.body.p 한 후 next_sibling을 두번 이용하여 다음 p를 추출. 한번만 하면 그 다음 공백이 추출됨.
- HTML 태그가 복잡한 경우 이런 방식으로 계속 진행하기는 적합하지 않음.
 ### 2) HTML 분석하기

In [7]:
soup = BeautifulSoup(html, 'html.parser')

 ### 3) 원하는 부분 추출하기

In [8]:
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

 ### 4) 요소의 글자 출력하기

In [9]:
print(f"h1 = {h1.string}")
print(f"p  = {p1.string}")
print(f"p  = {p2.string}")

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


### 2.2. 요소를 찾는 method

### 단일 element 추출: find()
BeautifulSoup는 루트부터 하나하나 요소를 찾는 방법 말고도 find()라는 메소드를 제공함

In [10]:
soup = BeautifulSoup(html, 'html.parser')

# find() 메서드로 원하는 부분 추출
title = soup.find("h1")
body  = soup.find("p")
print(title)

# 텍스트 부분 출력
print(f"#title = {title.string}" )
print(f"#body = {body.string}")

<h1>스크레이핑이란?</h1>
#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


 ### 복수 elements 추출: find_all()
 여러개의 태그를 한번에 추출하고자 할때 사용함. 다음의 예제에서는 여러개의 태그를 추출하는 법을 보여주고 있음

In [11]:
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

# find_all() 메서드로 추출
links = soup.find_all("a")
print(links, len(links))

# 링크 목록 출력
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string 
    print(text, ">", href)

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2
naver > http://www.naver.com
daum > http://www.daum.net


## 3. Css Selector
> Css Selector란, 웹상의 요소에 css를 적용하기 위한 문법으로, 즉 요소를 선택하기 위한 패턴입니다.  
출처: https://www.w3schools.com/cssref/css_selectors.asp  

앞서 간단하게 태그를 사용하여 데이터를 추출하는 방법에 대해서 살펴보았습니다.

하지만 복잡하게 구조화된 웹 사이트에서 자신이 원하는 데이터를 가져오기 위해서는 Css Selector에 대한 이해가 필요합니다.

## BeautifulSoup에서 Css Selector 사용하기
BeautifulSoup에서는 Css Selector로 값을 가져올 수 있도록 find와는 다른 메서드를 제공합니다.


In [12]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

# 필요한 부분을 CSS 쿼리로 추출하기
# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string # soup.select_one(선택자): CSS 선택자로 요소 하나를 추출
print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li") # soup.select(선택자): CSS 선택자로 요소 여러 개를 리스트를 추출
for li in li_list:
  print(f"li = {li.string}")


h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


## 4. 활용 예제
앞서 배운 **urllib**과 **BeautifulSoup**를 조합하면, 웹스크레이핑 및 API 요청 작업을 쉽게 수행하실 수 있습니다.
 1. URL을 이용하여 웹으로부터 html을 읽어들임 (**urllib**)
 2. html 분석 및 원하는 데이터를 추출 (**BeautifulSoup**)

In [13]:
from bs4 import BeautifulSoup
from urllib import request, parse

### 4.1. 네이버 금융 - 환율 정보
- 다양한 금융 정보가 공개돼 있는 "네이버 금융"에서 원/달러 환율 정보를 추출해보자!
- 네이버 금융의 시장 지표 페이지 https://finance.naver.com/marketindex/
- 다음은 원/달러 환율 정보를 추출하는 프로그램임

In [14]:
# HTML 가져오기
url = "https://finance.naver.com/marketindex/"
res = request.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")

# 원하는 데이터 추출
price = soup.select_one("div.head_info > span.value").string # CSS 선택자로 요소 하나 추출
print("usd/krw =", price)

usd/krw = 1,175.00


### 4.2. 기상청 RSS
- 기상청 RSS에서 특정 내용을 추출하는 예제
- 기상청 RSS에서 XML 데이터를 추출하고 XML 내용을 출력
- 기상청의 RSS 서비스에 지역 번호를 지정하여 데이터 요청해보기
http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp
 - 참고: 기상청 RSS http://www.kma.go.kr/weather/lifenindustry/service_rss.jsp
- 파이썬으로 요청 전용 매개변수를 만들 때는 **urllib.parse** 모듈의 **urlencode()** 함수를 사용해 매개변수를 URL로 인코딩한다.

In [15]:
# HTML 가져오기
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnId':'109'
}

params=parse.urlencode(values)
url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")

# 원하는 데이터 추출
header = soup.find("header") 

title = header.find("title").text
wf = header.find("wf").text

print(title)
print(wf)

# CSS selector 기반
title = soup.select_one("header > title").text
wf = header.select_one("header wf").text

print(title)
print(wf)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109
서울,경기도 육상중기예보
○ (강수) 1일(목) 오후~2일(금) 오전에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 낮 기온은 20~25도로 오늘(25일, 24~27도)과 비슷하거나 조금 낮겠고, 아침 기온은 9~17도로 선선하겠습니다.<br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.
서울,경기도 육상중기예보
○ (강수) 1일(목) 오후~2일(금) 오전에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 낮 기온은 20~25도로 오늘(25일, 24~27도)과 비슷하거나 조금 낮겠고, 아침 기온은 9~17도로 선선하겠습니다.<br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


### 4.3. 윤동주 작가의 작품 목록
- 위키문헌 (https://ko.wikisource.org/wiki) 에 공개되어 있는 윤동주의 작품목록을 가져오기
- 윤동주 위키 (https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC)
- 하늘과 바람과 시 부분을 선택한 후 오른쪽 마우스 이용해 copy selector로 카피하면 다음의 CSS 선택자가 카피됨
 - #mw-content-text > div > ul:nth-child(6) > li > b > a
- nth-child(n) 은 n 번째 요소를 의미 즉 6번째 요소를 의미, #mw-content-text 내부에 있는 url 태그는 모두 작품과 관련된 태그. 따라서 따로 구분할 필요는 없으며 생략해도 됨. BeautifulSoup는 nth-child 지원하지 않음
 - Recall PR7 Problem1

In [16]:
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택합니다.
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


# 일반문제
---


In [17]:
from bs4 import BeautifulSoup
from urllib import request

# 1. 네이버 뉴스 헤드라인
배운 내용을 바탕으로 네이버 뉴스(https://news.naver.com/)에서 헤드라인 뉴스의 제목을 추출해보고자 합니다.
> Q: 다음의 코드에 css selector를 추가하여 최신 기사의 헤드라인을 스크레이핑하는 코드를 완성하시오.

In [18]:
## NAVER 뉴스가 오류나서 DAUM 으로 대체. 
url = "https://news.daum.net/" # html 가져오기

res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser") # html 분석

selector = "#mArticle > div.box_headline > ul > li > strong.tit_g > a" # selector 설정

for a in soup.select(selector):  # CSS 선택자로 요소 여러개를 추출 
    title = a.text
    print(title)

재난지원금 200만 원이라더니..'오락가락 행정'에 또 한 번 '분통'
日스가, 中시진핑과 전화회담..시진핑 방일 논의 없었다
법무부 "조두순 재범위험성 있다"..음주제한 등 청구 방침
피격 하루 만에 김정은 사과..북한의 의도는?
윤건영 "목함지뢰 때 朴은 강강술래..野, 아카펠라 공연 운운 자격 있나"
푸틴 "韓과 유익한 협력경험 축적..상호호혜 관계 계속 발전"
도쿄올림픽 '입촌식' 없다..선수단도 10-15% 감축
"진접선 개통, 내년 말로 연기"..남양주시장 입장문 발표
트럼프 잇따른 '대선 불복' 시사에 美 민주주의 뿌리째 흔들린다
푸틴, 미국에 '선거·내정 등 간섭 금지 협약 맺자' 제안
민간인 속에 숨은 알카에다..미군은 '닌자 미사일'로 제거했다
165Hz, 커브드 지원 본격 게이밍 모니터, 루컴즈 스펙트럼 M3202DQ


In [19]:
#url = "https://news.naver.com/" # html 가져오기

#res = request.urlopen(url)
#soup = BeautifulSoup(res, "html.parser") # html 분석

#selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_tit > a" # selector 설정

#for a in soup.select(selector):  # CSS 선택자로 요소 여러개를 추출 
    #title = a.text
    #print(title)

# 2. 시민의 소리 게시판
다음은 서울시 대공원의 시민의 소리 게시판 입니다.
https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgList.do?pgno=1

해당 페이지에 나타난 게시글들의 제목을 수집하고자 합니다.
> Q: 다음의 코드에 css selector를 추가하여 해당 페이지에서 게시글의 제목을 스크레이핑하는 코드를 완성하시오. 또한 과제 제출시 하단의 **추가 내용**을 참고하여 수집한 데이터를 csv 형태로 저장하여 해당 csv 파일도 함께 제출하시오.


In [20]:
url_head = "https://www.sisul.or.kr"

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"



res = request.urlopen(url_board)
soup = BeautifulSoup(res, "html.parser")


selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
titles = []
links = []
for a in soup.select(selector):  # CSS 선택자로 요소 여러개를 추출
    titles.append(a.text)
    links.append(url_head + a.attrs["href"])
    
print(titles, links)


['관리인 마스크', '어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청 ', '마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.', '공원 내 마스크 착용', '청춘핫도그 점장님과 직원분께 감사드립니다', '카드결제를 거부하는 매점을 신고합니다', '참얼굴만큼예쁘고맘씨좋은 여직원을 만나 고마워서 글을남깁니다.', '놀이동산에서 불쾌함을 겪었습니다', '서문 플래카드', '간만에 친절한 아가씨를 만났어요.(놀이동산)'] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=yq3mQv5mfa1zvLB2Fr1blDb7ydxdLZCkLdwA2g6dJwv9JzrHVMj1SR6PUx5Fso8z.etisw1_servlet_user?qnaid=QNAS20200917000010&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=yq3mQv5mfa1zvLB2Fr1blDb7ydxdLZCkLdwA2g6dJwv9JzrHVMj1SR6PUx5Fso8z.etisw1_servlet_user?qnaid=QNAS20200902000003&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=yq3mQv5mfa1zvLB2Fr1blDb7ydxdLZCkLdwA2g6dJwv9JzrHVMj1SR6PUx5Fso8z.etisw1_servlet_user?qnaid=QNAS20200826000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=yq3mQv5mfa1zvLB2Fr1blDb7ydxdLZCkLdwA2g6dJwv9JzrHVMj1SR6PUx5Fso8z.etisw1

## 추가 내용
수집된 자료를 데이터프레임으로 만들어 csv로 저장하는 것이 일반적입니다.

In [21]:
import pandas as pd


board_df = pd.DataFrame({"title": titles, "link": links}) # 데이터프레임으로
board_df.head() 

Unnamed: 0,title,link
0,관리인 마스크,https://www.sisul.or.kr/open_content/childrenp...
1,어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청,https://www.sisul.or.kr/open_content/childrenp...
2,"마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.",https://www.sisul.or.kr/open_content/childrenp...
3,공원 내 마스크 착용,https://www.sisul.or.kr/open_content/childrenp...
4,청춘핫도그 점장님과 직원분께 감사드립니다,https://www.sisul.or.kr/open_content/childrenp...
