# 텍스트 마이닝의 이론과 실제

## 1. 텍스트 마이닝의 이해
### 텍스트 마이닝(Text Mining)이란?
* 위키피디아 : 텍스트로부터 양질의 정보를 뽑아내는 과정
* 양질의 정보는 통계적인 패턴 학습을 통해 텍스트 안에 숨어있는 패턴이나 경향으로부터 추출
* 목표는 비정형 데이터를 분석이 가능한 정형 데이터로 변형하는 것
* 일정한 길이의 vector로 변환 -> 변환된 vector에 머신러닝(딥러닝) 기법을 적용

### 텍스트 마이닝의 이해를 위한 기본요구지식
* 자연어 처리
* 통계학 & 선형대수
* 머신러닝
* 딥러닝

### 텍스트 마이닝 방법
* NLP(Natural Language Processing) 기본도구 : Tokenize, stemming, lemmatize, Chunking, BOW, TFIDF
* 머신러닝(딥러닝) : Logistic egression, Embedding

### 텍스트 마이닝 단계
* Documnet -> "tokenize, normalize" -> Sequence of normalized words
  + Fixed size vector without sequence info. ex) BOW, TFIDF
  + Fixed size vector with sequence info. ex) Doc2Vec
  + Series of Word Embedding with sequence info.
 
### 텍스트 마이닝 적용분야
* Document classification
* Document generation
* Keyword extraction
* Topic odelinga

### 텍스트 마이닝 도구 - 파이썬
* NLTK : NLP 라이브러리
* Scikit Learn : 머신러닝 라이브러리
* Gensim : Word2Vec으로 유명
* Keras : 딥러닝 위주의 라이브러리 제공

## 2. 텍스트 마이닝 방법론
* 목적 : documnet, sentence 등을 sparse vector로 변환

### 1) Tokenize
* Documnet를 Sentence의 집합으로 분리
* Sentence를 Word의 집합으로 분리

### 2) Text Normalization
* 최소 단위를 표준화
* Stemming (어간 추출) : 규칙에 의한 변환
* Lemmatization (표제어 추출) : 사전을 이용하여 단어의 원형 추출

### 3) POS-tagging
* 최소 의미단위로 나누어진 대상에 대해 품사 부착
* 각 단어에 대해 올바른 발음을 하기 위해 품사 태깅 이용

### 4) Chunking
* POS-tagging의 결과를 말모듬으로 다시 합치는 과정
* 형태소들을 서로 겹치지 않으면서 의미가 있는 구로 묶어나가는 과정
* 텍스트로부터 Information Extraction(정보추출)을 하기 위한 전단계 혹은 포함
  + 개체명 인식(Named Entitiy Recognition, NER) : 텍스트로부터 의미 있는 정보를 추출하기 위한 방법으로 사용

### 5) BOW (Bag of Words)
* Vecotr Space Model : 모든 문서에서 한 번 이상 나타난 단어들에 대해 유(1)/무(0)로 표현
* Count vector : 단어가 문서에 나타난 횟수로 표현

### 6) TFIDF (Term Frequency - Inverse Document Frequency)
* 단어의 count를 단어가 나타난 문서의 수로 나눠서 자주 등장하지 않는 단어의 weight를 올림
* TFIDF를 이용한 유사도 계산
  + TFIDF Matching score : TFIDF vector의 내적 이용
  + Cosine Similarity : vector의 방향에 대한 유사도

### 7) Text Classification with BOW/TFIDF
* Naive Bayes : text categorization에 많이 사용
* Ridge and Lasso Regression
  + 릿지 회귀(Ridge regression)
  + 라쏘 회귀(Lasso regression)

### 8) 문서분류의 활용 - Sentiment Analysis
* 소비자의 감성과 관련된 텍스트 정보를 자동으로 추출하는 텍스트 마이닝 기술의 한 영역
* 한글 감성분석
  + 예: label이 0이면 부정, 1이면 긍정
  + 리뷰를 BOW로 변환 후 input으로, label을 target으로하여 학습
  + 새로운 리뷰에 대해 긍정/부정 예측

## 3. 텍스트 마이닝의 문제
### 1) Curse of Dimensionality 
* 차원의 저주 : 각 데이터 간의 거리가 너무 멀게 위치
* 해결방안 : 더 많은 데이터, 차원 축소

### 2) 단어 빈도의 불균형
* Zipf's law(멱법칙) : 극히 소수의 데이터가 결정적인 영향을 미침
* 해결방안
  + feature selection : 빈도 높은 단어 삭제
  + Boolean BOW 사용 : 유/무만 사용 

### 3) 단어가 쓰인 순서정보의 손실
* 단어들의 순서 - context가 중요
* 해결방안
  + n-gram : classification 문제에서 유용
  + Deep Learning

## 4. 문제의 해결 방안
### Dimentionality Reduction (차원 축소)
* Feature selection
* Feature extraction
  + PCA(Principal Component Analysis, 주성분 분석) : 데이터의 분산을 초대한 보존하는 새로운 축을 찾아 변환함으로써 차원을 축소
  + LSA(Latent Semantic Analysis, 잠재 의미 분석) : 문서간의 유사도, 단어간의 유사도 측정 활용
    + SVD(Singular Vector Decomposition, 특이값 분해)
* Embedding
* Deep Learning

#### RBM (Restricted Boltzmann Machine)
* 차원을 변경하면서 원래의 정보량 최대한 유지하는 것이 목적
* 사전학습을 통한 차원 축소에서 사용 가능

#### Autoencoder
* RBM과 유사한 개념 : encoder로 차원을 축소하고 decoder로 다시 복원했을 때, 원래의 X와 복원한 X’이 최대한 동일하도록 학습
* 작동방식은 PCA와 유사

### Topic Modeling
* 토픽은 주제를 의미하는 용어 사용되며, 각 문서들이 특정한 주제에 속할 확률분포와 특정 단어들이 파생되어 나올 확률분포가 주어졌을 때, 이 두 확률분포를 조합하여 각 문서들에 들어가는 단어들의 확률분포를 계산

### Word Embedding
* 단어에 대한 vector의 dimension reduction이 목표
* one-hot-encoding으로 표현된 단어를 dense vector로 변환
  + one-hot-encoding : 각 단어를 모든 문서에서 사용된 단어들의 수 길이의 벡터로 표현
* 변환된 vector를 이용하여 학습
* 최종목적에 맞게 학습에 의해 vector 결정
* 학습목적 관점에서의 단어의 의미를 내포
* Word Embedding을 이용한 문서 분류
  + Documnet : 제한된 maxlen개의 word sequence(앞이나 뒤를 잘라냄), (maxlen, reduced_dim)dml 2차원 행렬로 표현
  + Word : one-hot-vector에서 저차원으로 embedding된 dense vector
  + 단순한 분류모형(sequence 무시)

#### Word2Vec
* 문장에 나타난 단어들의 순서를 이용해 word embedding을 수행
  + CBOW : 주변단어들을 이용해 다음 단어를 예측
  + Skip-gram : 한 단어의 주변단어들을 예측
* 의미 : 단어의 위치에 기반하여 의미를 내포하는 vector 생성
  + 비슷한 위치에 나타나는 단어들은 비슷한 vector를 가지게 됨
  + 단어 간의 유사성을 이용하여 연산 가능

#### ELMo (Embeddings from Language Model)
* 사전 훈련된 언어 모델을 사용하는 워드 임베딩 방법론
* 문맥을 반영하기 위해 개발된 워드 임베딩 기법
* 문맥의 파악을 위해 biLSTM으로 학습된 모형 이용

### Transfer Learning(전이 학습)
* feature level: 단어에 대한 dense vector(word embedding)를 새로 학습하지 않고 학습된 vector를 그대로 가져다 씀
* model level: word embedding과 모형 전체를 가져다 학습

### Document Embedding
* Word2Vec 모형에서 주변단어들에 더하여 document의 고유한 vector를 함께 학습함으로써 document에 대한 dense vector를 생성
* 이 dense vector를 이용해 매칭, 분류 등의 작업 수행

### Context(sequence)의 파악
* N-gram
  + bi-gram, tri-gram 등
  + 대상이 되는 문자열을 하나의 단어 단위가 아닌, 두개 이상의 단위로 잘라서 처리
* 딥러닝 - RNN
  + 문장을 단어들의 sequence 혹은 series로 처리
  + 뒷 단어에 대한 hidden node가 앞 단어의 hidden node 값에도 영향을 받도록 함
  
### LSTM (Long Short Term Memory)
* RNN의 문제 : 문장이 길수록 층이 깊은 형태를 갖게 됨 -> 경사가 소실되는 문제 발생 -> 앞부분의 단어 정보가 학습되지 않음
* LSTM : 직통 통로를 만들어 RNN의 문제 해결
* Bi-LSTM
  + 양방향으로 LSTM을 구성하여 두 결과를 합침
  + 양방향 순서를 모두 학습

### 합성곱 신경망 (Convolutional Neural Networks, CNN)
* CNN은 원래 이미지 처리를 위해 개발된 신경망으로, 현재는 인간의 이미지 인식보다 더 나은 인식 성능을 보이고 있음
* CNN은 합성곱층(conolution layer)와 풀링층(pooling)으로 구성되며, 합성곱층은 2차원 이미지에서 특정 영역의특징을 추출하는 역할을 하는데, 이는 연속된 단어들의 특징을 추출하는 것과 유사한 특성이 있음
* CNN을 이용한 문서 분류 : 단어 시퀀스에 대해 CNN의 필터는 1차원으로만 적용됨

### Sequence-to-sequence
* 번역, chat-bot, summarize등은 입력과 출력 모두 sequence가 되어야 함
* encoder, decoder의 구조를 가짐

#### Attention
* 출력에 나온 어떤 단어는 입력에 있는 특정 단어들에 민감한 것에 착안
* 입력의 단어들로부터 출력 단어에 직접 링크를 만듦

#### Transfomer (Self-Attention)
* 입력 단어들끼리도 상호연관성이 있는 것에 착안
  + 입력 -> 출력으로의 attention 외에 입력 단어들 간의 attention, 입력+출력 -> 출력으로의 attention 추가
* encoder와 decoder가 서로 다른 attention 구조 사용

#### BERT (Bidirectional Encoder Representations form Transformer)
* 양방향 transformer 인코더 사용
* transfer learning에서 feature+model을 함께 transfer하고 fine tuning을 통해서 적용하는 방식 선택
* segment, position embedding 사용
* 다양한 text mining task에 전이학습을 이용해 적용 가능한 구조 제안

# 웹 크롤링1 - Static Crwling
---

## 1. urllib
* 파이썬은 웹 사이트에 있는 데이터를 추출하기 위해 urllib 라이브러리 사용
* 이를 이용해 HTTP 또는 FTP를 사용해 데이터 다운로드 가능
* urllib은 URL을 다루는 모듈을 모아 놓은 패키지
* urllib.request 모듈은 웹 사이트에 있는 데이터에 접근하는 기능 제공, 또한 인증, 리다렉트, 쿠키처럼 인터넷을 이용한 다양한 요청과 처리가 가능


In [1]:
from urllib import request

### 1.1. urllib.request를 이용한 다운로드
* urllib.request 모듈에 있는 urlretrieve() 함수 이용
* 다음의 코드는 PNG 파일을 test.png 라는 이름의 파일로 저장하는 예제임

In [2]:
# 라이브러리 읽어들이기 
from urllib import request

# URL과 저장경로 지정하기
url="http://uta.pw/shodou/img/28/214.png"
savename="test.png"

request.urlretrieve(url, savename)  # urlretrieve 함수를 통해 test.png에 자료 입력하여 파일에 직접 저장
print("저장되었습니다")

저장되었습니다


### 1.2. urlopen으로 파일에 저장하는 방법
* request.urlopen()은 메모리에 데이터를 올린 후 파일에 저장하게 된다.

In [3]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"
#다운로드
mem = request.urlopen(url).read()  # 읽어온 데이터를 임의의 변수 mem에 저장
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


### 1.3. API 사용하기
#### 클라이언트 접속 정보 출력 (기본)
* API는 사용자의 요청에 따라 정보를 반환하는 프로그램
* IP 주소, UserAgent 등 클라이언트 접속정보 출력하는 "IP 확인 API" 접근해서 정보를 추출하는 프로그램

In [4]:
#데이터 읽어들이기
url="http://api.aoikujira.com/ip/ini"
res=request.urlopen(url)  # 데이터를 res 변수에 저장
data=res.read()  # 데이터 읽어옴

#바이너리를 문자열로 변환하기
text=data.decode("utf-8")  # decode()를 이용해 바이너리를 문자열로 변환
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=221.141.50.136
REMOTE_HOST=221.141.50.136
REMOTE_PORT=33376
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 2. BeautifulSoup
* 스크레이핑(Scraping or Crawling)이란 웹 사이트에서 데이터를 추출하고, 원하는 정보를 추출하는 것을 의미
* BeautifulSoup란 파이썬으로 스크레이핑할 때 사용되는 라이브러리로서 HTML/XML에서 정보를 추출할 수 있도록 도와줌. 그러나 다운로드 기능은 없음.
* 파이썬 라이브러리는 pip 명령어를 이용해 설치 가능. Python Package Index(PyPI)에 있는 패키지 명령어를 한줄로 설치 가능
  + URL (http://pypi.python.org/pypi)  

pip install beautifulsoup4

* 예제 HTML
```python
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
```

#### 패키지 import 및 예제 HTML

In [5]:
from bs4 import BeautifulSoup  # 라이브러리 불러오기

In [6]:
# html 소스 입력하기
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

### 2.1. 기본 사용
* 다음은 Beautifulsoup를 이용하여 웹사이트로부터 HTML을 가져와 문자열로 만들어 이용하는 예제임
* h1 태그를 접근하기 위해 html-body-h1 구조를 사용하여 soup.html.body.h1 이런식으로 이용하게 됨.
* p 태그는 두개가 있어 soup.html.body.p 한 후 next_sibling을 두번 이용하여 다음 p를 추출. 한번만 하면 그 다음 공백이 추출됨.
* HTML 태그가 복잡한 경우 이런 방식으로 계속 진행하기는 적합하지 않음.

#### 2) HTML 분석하기

In [7]:
# 파이썬 내장 html.parser를 이용하여 html을 파이썬 객체로 변환
soup = BeautifulSoup(html, 'html.parser')  

#### 3) 원하는 부분 추출하기

In [8]:
h1 = soup.html.body.h1  # html -> body -> h1 태그 출력
p1 = soup.html.body.p  # html -> body -> p 태그 출력
p2 = p1.next_sibling.next_sibling  # p1 다음 문자열 출력

#### 4) 요소의 글자 출력하기

In [9]:
# 추출한 것을 문자열로 출력
print(f"h1 = {h1.string}")
print(f"p  = {p1.string}")
print(f"p  = {p2.string}")

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


### 2.2. 요소를 찾는 method
#### 단일 element 추출: find()
BeautifulSoup는 루트부터 하나하나 요소를 찾는 방법 말고도 find()라는 메소드를 제공함

In [10]:
soup = BeautifulSoup(html, 'html.parser')

* 1) find() 메서드로 원하는 부분 추출하기

In [11]:
title = soup.find("h1")  # h1 태그를 찾아 추출
body  = soup.find("p")  # p 태그를 찾아 추출
print(title)

<h1>스크레이핑이란?</h1>


* 2) 텍스트 부분 출력하기

In [12]:
# 문자열로 출력
print(f"#title = {title.string}" )
print(f"#body = {body.string}")

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


#### 복수 elements 추출: find_all()
여러개의 태그를 한번에 추출하고자 할때 사용함. 다음의 예제에서는 여러개의 태그를 추출하는 법을 보여주고 있음

In [13]:
# html 소스 입력하기
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

# 파이썬 내장 html.parser를 이용하여 html을 파이썬 객체로 변환
soup = BeautifulSoup(html, 'html.parser')

* 1) find_all() 메서드로 추출하기

In [14]:
links = soup.find_all("a")  # a 태그 문자열 모두 추출
print(links, len(links))  # 찾은 문자열과 개수 출력

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


* 2) 링크 목록 출력하기

In [15]:
for a in links:
    href = a.attrs['href'] # a 태그의 href의 속성에 있는 속성값을 추출
    text = a.string # a 태그의 문장 추출
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


## 3. Css Selector

Css Selector란, 웹상의 요소에 css를 적용하기 위한 문법으로, 즉 요소를 선택하기 위한 패턴입니다.

서식         |설명
-------------|---------------
*            |모든 요소를 선택
<요소 이름>  |요소 이름을 기반으로 선택
<클래스 이름>|클래스 이름을 기반으로 선택
#<id 이름>   |id 속성을 기반으로 선택

### BeautifulSoup에서 Css Selector 사용하기
BeautifulSoup에서는 Css Selector로 값을 가져올 수 있도록 find와는 다른 다음과 같은 메서드를 제공합니다.

메서드                 |설명
-----------------------|-----
soup.select_one(선택자)|CSS 선택자로 요소 하나를 추출합니다.
soup.select(선택자)    |CSS 선택자로 요소 여러 개를 리스트를 추출합니다.

In [16]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

* 필요한 부분을 CSS 쿼리로 추출하기

In [17]:
# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string
print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


## 4. 활용 예제
앞서 배운 urllib과 BeautifulSoup를 조합하면, 웹스크레이핑 및 API 요청 작업을 쉽게 수행하실 수 있습니다.

1. URL을 이용하여 웹으로부터 html을 읽어들임 (urllib)
2. html 분석 및 원하는 데이터를 추출 (BeautifulSoup)

In [18]:
from bs4 import BeautifulSoup
from urllib import request, parse

### 4.1. 네이버 금융 - 환율 정보
* 다양한 금융 정보가 공개돼 있는 "네이버 금융"에서 원/달러 환율 정보를 추출해보자!
* 네이버 금융의 시장 지표 페이지 https://finance.naver.com/marketindex/
* 다음은 원/달러 환율 정보를 추출하는 프로그램임

#### 1) HTML 가져오기

In [19]:
url = "https://finance.naver.com/marketindex/"
res = request.urlopen(url)  # 파일에 저장

#### 2) HTML 분석하기

In [20]:
soup = BeautifulSoup(res, "html.parser")

#### 3) 원하는 데이터 추출하기¶

In [21]:
price = soup.select_one("div.head_info > span.value").string
print("usd/krw =", price)

usd/krw = 1,178.00


### 4.2. 기상청 RSS
* 기상청 RSS에서 특정 내용을 추출하는 예제
* 기상청 RSS에서 XML 데이터를 추출하고 XML 내용을 출력
* 기상청의 RSS 서비스에 지역 번호를 지정하여 데이터 요청해보기 http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp
  + 참고: 기상청 RSS http://www.kma.go.kr/weather/lifenindustry/service_rss.jsp
  
매개변수    |의미
------------|-----
stnid       |기상정보를 알고 싶은 지역을 지정

* 지역 번호는 다음과 같음

지역       |지역번호|지역          |지역번호
-----------|--------|--------------|--------
전국       |108     |전라북도      |146
서울/경기도|109     |전라남도      |156
강원도     |105     |경상북도      |143
충청북도   |131     |경상남도      |159
충청남도   |133     |제주특별자치도|184

* 파이썬으로 요청 전용 매개변수를 만들 때는 urllib.parse 모듈의 urlencode() 함수를 사용해 매개변수를 URL로 인코딩한다.

#### 1) HTML 가져오기

In [22]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnId':'109'
}

params=parse.urlencode(values)
url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


#### 2) HTML 분석하기

In [23]:
soup = BeautifulSoup(res, "html.parser")

#### 3) 원하는 데이터 추출하기

In [24]:
header = soup.find("header")  # header 태그 찾아 추출

title = header.find("title").text  # header의 title 텍스트로 추출
wf = header.find("wf").text  # header의 wf 테스트로 추출

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 29일(수)은 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 13~19도로 오늘(25일, 아침최저기온 15~20도)과 비슷하거나 조금 낮겠고, <br />          낮최고기온은 23~28도로 오늘(25일, 낮최고기온 23~24도)보다 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 1.0~2.0m로 일겠습니다.


* css selector 기반

In [25]:
title = soup.select_one("header > title").text  # 타이틀 부분 추출
wf = header.select_one("header wf").text  # wf 부분 추출

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 29일(수)은 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 13~19도로 오늘(25일, 아침최저기온 15~20도)과 비슷하거나 조금 낮겠고, <br />          낮최고기온은 23~28도로 오늘(25일, 낮최고기온 23~24도)보다 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 1.0~2.0m로 일겠습니다.


### 4.3. 윤동주 작가의 작품 목록
* 위키문헌 (https://ko.wikisource.org/wiki) 에 공개되어 있는 윤동주의 작품목록을 가져오기
* 윤동주 위키 (https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC)
* 하늘과 바람과 시 부분을 선택한 후 오른쪽 마우스 이용해 copy selector로 카피하면 다음의 CSS 선택자가 카피됨
  + #mw-content-text > div > ul:nth-child(6) > li > b > a
* nth-child(n) 은 n 번째 요소를 의미 즉 6번째 요소를 의미, #mw-content-text 내부에 있는 url 태그는 모두 작품과 관련된 태그. 따라서 따로 구분할 필요는 없으며 생략해도 됨. BeautifulSoup는 nth-child 지원하지 않음
  + Recall PR7 Problem1

In [26]:
# html 가져오기
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
# html 분석하기
soup = BeautifulSoup(res, "html.parser")

# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택합니다.
a_list = soup.select("#mw-content-text   ul > li  a")  # css.selector 이용하여 추출
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


## 일반문제

In [27]:
from bs4 import BeautifulSoup
from urllib import request

### 1. 네이버 뉴스 헤드라인
배운 내용을 바탕으로 네이버 뉴스(https://news.naver.com/)에서 헤드라인 뉴스의 제목을 추출해보고자 합니다.

Q: 다음의 코드에 css selector를 추가하여 최신 기사의 헤드라인을 스크레이핑하는 코드를 완성하시오.

In [28]:
url = "https://news.naver.com/"

res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #today_main_news 바로 아래에 있는
# ul 태그 바로 아래에 있는
# li 태그 바로 아래에 있는
# a 태그 모두 선택
selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_tit > a"  # # css.selector 이용하여 추출

for a in soup.select(selector):
    title = a.text
    print(title)


                                        정은경 “확진자 더 늘 수 있어…2주간 사적모임 취소해달라”
                                    

                                        [단독] 檢, '생태탕집 모자' 소환...오세훈 내곡동 사건 곧 결론
                                    

                                        신규확진 3273명…전국적 대확산 초비상
                                    

                                        코인 거래소 '빅4' 재편...미신고 거래소 인출 서둘러야
                                    

                                        호남권 개표 앞두고... 이재명 "본선경쟁력" 이낙연 "호남대통령" 강조
                                    


### 2. 시민의 소리 게시판
다음은 서울시 대공원의 시민의 소리 게시판 입니다.

https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgList.do?pgno=1

해당 페이지에 나타난 게시글들의 제목을 수집하고자 합니다.

Q: 다음의 코드에 css selector를 추가하여 해당 페이지에서 게시글의 제목을 스크레이핑하는 코드를 완성하시오. 또한 과제 제출시 하단의 추가 내용을 참고하여 수집한 데이터를 csv 형태로 저장하여 해당 csv 파일도 함께 제출하시오.

In [29]:
url_head = "https://www.sisul.or.kr"
url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"

res = request.urlopen(url_board)
soup = BeautifulSoup(res, "html.parser")

selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
titles = []  # 타이틀 리스트 생성
links = []  # 링크 리스트 생성
for a in soup.select(selector):  # css.selector 이용하여 추출
    titles.append(a.text)  # 타이틀 리스트에 텍스트 추가
    links.append(url_head + a.attrs["href"])  # 링크 리스트에 a태그의 href값 추가
    
print(titles, links)

['어린이대공원 매점 냉장고 점검 부탁드립니다.', '어린이를 위한 공원내 식당에 아기를 위한 시설 부족(아기의자가 왜 없죠?)', '강창수 해설사님 ', '동물해설사님 칭찬', '강창수 동물 해설사님', '놀이동산 푸드코트 김치가 중국산인 이유는?', '주슨트 설명 최고예요!!', '강창수 주슨트님 최고 !!', 'ZOOCENT 스케줄표?', '호주동물 호주설명 '] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=iH1wOevijC4sqsuSLwqNzzLgwdA7HYzne2xmGvkrzRtrsDEwpR4BzbKWl9mlPdCG.etisw2_servlet_user?qnaid=QNAS20210925000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=iH1wOevijC4sqsuSLwqNzzLgwdA7HYzne2xmGvkrzRtrsDEwpR4BzbKWl9mlPdCG.etisw2_servlet_user?qnaid=QNAS20210923000005&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=iH1wOevijC4sqsuSLwqNzzLgwdA7HYzne2xmGvkrzRtrsDEwpR4BzbKWl9mlPdCG.etisw2_servlet_user?qnaid=QNAS20210920000001&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=iH1wOevijC4sqsuSLwqNzzLgwdA7HYzne2xmGvkrzRtrsDEwpR4BzbKWl9mlPdCG.etisw2_servlet_user?qnaid=QNAS20210919000

### 추가 내용
수집된 자료를 데이터프레임으로 만들어 csv로 저장하는 것이 일반적입니다.

In [30]:
import pandas as pd

board_df = pd.DataFrame({"title": titles, "link": links})  # 데이터프레임 생성
board_df.head()

Unnamed: 0,title,link
0,어린이대공원 매점 냉장고 점검 부탁드립니다.,https://www.sisul.or.kr/open_content/childrenp...
1,어린이를 위한 공원내 식당에 아기를 위한 시설 부족(아기의자가 왜 없죠?),https://www.sisul.or.kr/open_content/childrenp...
2,강창수 해설사님,https://www.sisul.or.kr/open_content/childrenp...
3,동물해설사님 칭찬,https://www.sisul.or.kr/open_content/childrenp...
4,강창수 동물 해설사님,https://www.sisul.or.kr/open_content/childrenp...


In [31]:
board_df.to_csv("board.csv", index=False)  # csv로 저장

# (Optional) 웹 크롤링2 - Dynamic Crawling

## 0. 라이브러리

In [32]:
pip install selenium

Note: you may need to restart the kernel to use updated packages.


In [33]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import pandas as pd
from pandas import DataFrame
import time

## 1. Selenium 기초
자신의 크롬 버전을 확인하고 크롬 웹드라이버를 다운받아놓아야합니다.

### 1.1. Simple Text Crawling
멜론 사이트에서 노래 제목을 크롤링해보자

URL: https://www.melon.com/chart/index.htm

In [34]:
DRIVER_PATH = 'C:/Users/USER/chromedriver.exe'

In [35]:
 # chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH) 
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# title crawling
title = WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.CSS_SELECTOR, "#frm > div > table > tbody > tr:nth-child(1) > td:nth-child(6) > div > div")))

# print("Title: {}".format(title.text))

title.text

'STAY\nThe Kid LAROI, Justin Bieber'

In [36]:
# 2번째 제목 크롤링
WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.XPATH, "//*[@id='frm']/div/table/tbody/tr[2]/td[6]/div/div"))).text

'My Universe\nColdplay, 방탄소년단'

### 1.2. Text Crawling with for loop
위에서 찾은 Xpath의 규칙을 바탕으로 for loop 만들자

In [37]:
# chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH)
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []

# title crawling (TOP 50)
for i in range(1, 51):
    title = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, f"//*[@id='frm']/div/table/tbody/tr[{i}]/td[6]/div/div")))
    title_list.append(title.text)
    
print(title_list)

['STAY\nThe Kid LAROI, Justin Bieber', 'My Universe\nColdplay, 방탄소년단', '신호등\n이무진', 'Permission to Dance\n방탄소년단', 'OHAYO MY NIGHT\n디핵 (D-Hack), PATEKO (파테코)', 'Next Level\naespa', 'Butter\n방탄소년단', '바라만 본다\nMSG워너비(M.O.M)', '낙하 (with 아이유)\nAKMU (악뮤)', 'Weekend\n태연 (TAEYEON)', 'Dynamite\n방탄소년단', 'Queendom\nRed Velvet (레드벨벳)', '이제 나만 믿어요\n임영웅', '좋아좋아\n조정석', '시간을 거슬러 (낮에 뜨는 달 X 케이윌)\n케이윌', 'DUMB DUMB\n전소미', 'Peaches (Feat. Daniel Caesar & Giveon)\nJustin Bieber', '다정히 내 이름을 부르면\n경서예지, 전건호', 'Bad Habits\nEd Sheeran', 'Sticker\nNCT 127', '가을 타나 봐\n이무진', '헤픈 우연\n헤이즈 (Heize)', '별빛 같은 나의 사랑아\n임영웅', '그대라는 사치\n임영웅', 'HERO\n임영웅', '비와 당신\n이무진', '다시 사랑한다면 (김필 Ver.)\n임영웅', 'Lemonade\nNCT 127', 'Savage Love (Laxed - Siren Beat) (BTS Remix)\nJawsh 685, Jason Derulo, 방탄소년단', '고백\n멜로망스', '작은 것들을 위한 시 (Boy With Luv) (Feat. Halsey)\n방탄소년단', '끝사랑\n임영웅', 'Dun Dun Dance\n오마이걸 (OH MY GIRL)', 'Bk Love\n임영웅', "롤린 (Rollin')\n브레이브걸스", '잊었니\n임영웅', '라일락\n아이유', 'ASAP\nSTAYC(스테이씨)', '색안경 (STEREOTYPE)\nSTAYC(스테이씨)', '봄날\

### 1.3. Text Crawling (Click & Back)
클릭하고 나오기 -> 동적 크롤링 가능 (가사 크롤링 가능)

노래 제목에 링크가 걸려있기 때문에, 해당 링크까지의 XPath를 추가한다.

In [38]:
# chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH)
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 1번째 click하기
click_element = WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.XPATH, '//*[@id="frm"]/div/table/tbody/tr[1]/td[5]/div/a')))
click_element.click()    

# back
driver.back()


# 2번째 click하기
click_element = WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.XPATH, '//*[@id="frm"]/div/table/tbody/tr[2]/td[5]/div/a')))
click_element.click()    

# back
driver.back()

### 1.4. Text Crawling including contents
* 1.2처럼 for문과 함께 써보자! (첫 페이지 5개의 글에 대해 title, artist, heart(하트 갯수), lyrics(가사)를 크롤링

* 1.3에서 사용한 click & back을 활용하자

In [39]:
# chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH)
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []
artist_list = []
heart_list = []
lyrics_list = []

# crawling (TOP 5)
for i in range(1, 6):
    # click
    click_element = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, f'//*[@id="frm"]/div/table/tbody/tr[{i}]/td[5]/div/a')))
    click_element.click()

    # title crawling
    title = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#downloadfrm > div > div > div.entry > div.info > div.song_name")))
    title_list.append(title.text)

    # artist crawling
    artist = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#downloadfrm > div > div > div.entry > div.info > div.artist > a > span:nth-child(1)")))
    artist_list.append(artist.text)
    
    # heart crawling
    heart = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#d_like_count")))
    heart_list.append(heart.text)

    # lyrics crawling
    lyrics = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#d_video_summary")))
    lyrics_list.append(lyrics.text)
    
    # back
    driver.back()
    
print(title_list)
print(artist_list)
print(heart_list)
print(lyrics_list)

['STAY', 'My Universe', '신호등', 'Permission to Dance', 'OHAYO MY NIGHT']
['The Kid LAROI', 'Coldplay', '이무진', '방탄소년단', '디핵 (D-Hack)']
['151,399', '63,179', '214,621', '175,985', '132,719']
["I do the same thing I told you\nthat I never would\nI told you I'd change\neven when I knew I never could\nI know that I can't find\nnobody else\nas good as you\nI need you to stay\nneed you to stay hey Oh\nI get drunk wake up\nI'm wasted still\nI realize the time\nthat I wasted here\nI feel like you can't\nfeel the way I feel\nOh I'll be fucked up\nif you can't be right here\nOh ooh-woah\nOh ooh-woah ooh-woah\nOh ooh-woah\nOh ooh-woah ooh-woah\nOh ooh-woah\nOh ooh-woah ooh-woah\nOh I'll be fucked up\nif you can't be right here\nI do the same thing I told you\nthat I never would\nI told you I'd change\neven when I knew I never could\nI know that I can't find\nnobody else\nas good as you\nI need you to stay\nneed you to stay hey\nI do the same thing I told you\nthat I never would\nI told you I'd chan

### TIP: 보통은 결과값을 데이터프레임 형태로 저장한다

In [40]:
# 결과 변수
raw_result = {'title': title_list,
              'artist': artist_list,
              'heart': heart_list,
          'lyrics': lyrics_list}

result = pd.DataFrame(raw_result)

# # csv 파일로 save
# result.to_csv("MelonTop5", mode='w')

# driver 종료
driver.quit()

In [41]:
result

Unnamed: 0,title,artist,heart,lyrics
0,STAY,The Kid LAROI,151399,I do the same thing I told you\nthat I never w...
1,My Universe,Coldplay,63179,"You, you are my universe and\nI just want to p..."
2,신호등,이무진,214621,이제야 목적지를 정했지만\n가려한 날 막아서네 난 갈 길이 먼데\n새빨간 얼굴로 화...
3,Permission to Dance,방탄소년단,175985,It’s the thought of being young\nWhen your hea...
4,OHAYO MY NIGHT,디핵 (D-Hack),132719,너를 사랑하고 있어\n너를 사랑하고 있어\n자기야 날 사랑해주면 안 될까\n말처럼 ...


## 2. Image Crawling
이미지 크롤링하기

#### STEP1. URL Crawling

In [42]:
# chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH)
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
link_list = []

# # img crawling (TOP 50)
for i in range(1, 51):
    
    img = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.CSS_SELECTOR, f"#frm > div > table > tbody > tr:nth-child({i}) > td:nth-child(4) > div > a > img")))

    link_list.append(img.get_attribute('src'))

print(link_list)

['https://cdnimg.melon.co.kr/cm2/album/images/106/46/395/10646395_20210707141710_500.jpg/melon/resize/120/quality/80/optimize', 'https://cdnimg.melon.co.kr/cm2/album/images/107/20/913/10720913_20210923173742_500.jpg/melon/resize/120/quality/80/optimize', 'https://cdnimg.melon.co.kr/cm2/album/images/106/07/796/10607796_20210513201807_500.jpg/melon/resize/120/quality/80/optimize', 'https://cdnimg.melon.co.kr/cm2/album/images/106/48/182/10648182_20210709104950_500.jpg/melon/resize/120/quality/80/optimize', 'https://cdnimg.melon.co.kr/cm2/album/images/104/47/520/10447520_20200619123343_500.jpg/melon/resize/120/quality/80/optimize', 'https://cdnimg.melon.co.kr/cm2/album/images/106/09/232/10609232_20210517155130_500.jpg/melon/resize/120/quality/80/optimize', 'https://cdnimg.melon.co.kr/cm2/album/images/106/12/483/10612483_20210521111412_500.jpg/melon/resize/120/quality/80/optimize', 'https://cdnimg.melon.co.kr/cm2/album/images/106/38/275/10638275_20210625172521_500.jpg/melon/resize/120/quali

#### STEP2. Download images using URLs
자신의 디렉토리에 img 폴더 생성하고 실행

In [47]:
import urllib.request

count = 0
for link in link_list:
    count += 1
    urllib.request.urlretrieve(link, 'C:/Users/USER/img' + str(count) + '.jpg')