# 텍스트 마이닝
- 일정한 길이의 vector로 변환
- 변환된 vector에 머신러닝(딥러닝) 기법을 적용
- 텍스트를 fixed length vector로 변환

## 1. 텍스트 마이닝의 이해

* 텍스트 마이닝 도구 - 파이썬
    * NLTK : 가장 많이 알려진 NLP 라이브러리
    * Skikit Learn : 머신러닝 라이브러리, 기본적인 NLP
    * Gensim : Word2Vec으로 유명
    * Keras : 딥러닝 위주의 라이브러리 제공
    * PyTorch

## 2. 텍스트 마이닝 방법론
### 2.1 도구 및 원리의 이해

기본 도구(NLP) - document, sentence 등을 sparse vector로 변환 위함
   
* Tokenize :
    - 대상이 되는 문서/문장을 최소 단위로 쪼갬(Document->Senctence->Word)
    - 한글보다는 영어의 tokenize(split)가 비교적 쉬움
    
* Text normalization : 
    - 최소 단위를 표준화
    - stemming(어간 추출) : 단어의 규칙에 의한 변환으로 하나로 통일, but 이상한 단어로 변환
    - lemmatization(표제어 추출) : 사전을 이용하고 품사 고려해 단어의 원형 추출
            
* POS-tagging :
    - 최소 의미단위로 나누어진 대상에 대해 품사 부착
    - 위의 과정을 통해 나눠진 형태소에 대해 품사를 결정하여 할당하는 작업
    - 문맥 파악 또한 필요
     
* Chunking :
    - 각 형태소들을 서로 겹치지 않으면서 의미가 있는 구로 묶어나가는 과정
    - 그 과정에서의 information extraction (정보추출) 의 대표적 사례 : 개체명 인식(NER), 텍스트로부터 의미 있는 정보를 추출하기 위한 방법으로 사용
     
* BOW, TFIDF :
    - tokenized 결과를 이용하여 문서를 vector로 표현
    - Vector Space Model : 모든 문서에 한번 이상 나타난 단어들 유(1)/무(0)로 표현
    - count vector : 유/무 대신 단어 횟수 표시, but 공통적으로 많이 나타나는 단어는 중요성이 떨어질 가능성 큼
        
        => TFIDF : 단어의 count를 단어가 나타난 문서의 수로 나눠서 자주 등장하지 않는 단어의 weight를 올림
        - tf(d,t) : 문서 d에 단어 t가 나타난 횟수
        - df(t) : 전체 문서 중에서 단어 t를 포함하는 문서의 수
        
      => TFIDF 이용한 유사도 계산
        - TFIDF Matching score : TFIDF vector의 내적을 이용
        - Cosine Similarity : vector의 방향에 대한 유사도

## 3. 텍스트 마이닝의 문제점
Curse of Dimensionality (차원의 저주)
- 각 데이터 간의 거리가 너무 멀게 위치
    -> 더 많은 데이터, 차원 축소
    
Zipf's law (멱법칙, 단어 빈도의 불균형)
- 극히 소수의 데이터가 결정적인 영향을 미치게 됨
    -> feature selection, Boolean BOW 사용, log등의 함수 이용해 weight 변경
    
단어가 쓰인 순서 정보의 손실
- 통계에 의한 의미 파악 vs 순서에 의한 의미 파악
    -> n-gram, deep learning 

## 4. 문제 해결을 위한 방안
### 4.1 기존의 방법
#### 차원축소
Feature Extraction : 정보 손실 있는 데이터 축소
* PCA : 다른 축들에서 분산되어 있는 데이터들을 최대한 보존하는 새로운 축을 찾아 변환
* LSA : SVD (특이값 분해) 사용 => 문서간의 유사도, 단어간의 유사도 파악 가능

Word Embedding : 텍스트에서 사용되는 단어들을 컴퓨터 안에서 어떻게 사용하고 다루느냐
* one-hot-encoding : 모든 단어의 vector가 다 같지만 길이가 너무 김

-> word embedding은 one-hot-encodig으로 표현된 단어를 dense vector로 변환

* Word2Vec : 문장에 나타난 단어들의 순서를 이용해 word embedding
    * 단어 간의 유사성 이용해 연산 가능
    * CBOW : 주변 단어들을 이용해 다음 단어를 예측
    * Skip-gram : 한 단어의 주변단어들을 예측

* ELMo : 문맥 파악을 위해 개발된 임베딩 기법 (Word2Vec이나 GloVe등은 X)

Topic Modeling : 많은 문서 분석하는 방법, Latent Dirichlet Allocation 사용
* 드라마 시청률 변화 <-> 소셜미디어 토픽 변화


### 4.2 딥러닝에 의한 방법
RBM : 차원을 변경하면서 원래의 정보량을 최대한 유지하기 위함
* Autoencoder : RBM와 유사 개념

#### Context (sequence) 파악
N-gram
* 문맥 파악 위한 전통적 방법
* 대상이 되는 문자열을 두개 이상의 단위로 잘라서 처리
* 문맥 파악에 유리하지만, dimension 증가

딥러닝 - RNN
* 문장을 단어들의 sequence/series로 처리
* 문장이 길수록 앞부분의 단어 정보가 학습되지 않음

-> LSTM : 직통 통로를 만들어 RNN의 문제 해결
-> Bi-LSTM : 한 방향 학습만 되는 LSTM의 문제 해결, 양방향 가능

### Sequence-to-sequence
입력과 출력 모두 sequence -> encoder, decoder의 구조

### Attention
앞의 문장에서 뒤에 단어를 예측할 때 직접적인 링크를 만드는 것

### Transformer (Self-attention)
앞의 입력 단어들끼리도 상호연관성을 맺는 것
* encoder와 decoder가 서로 다른 attention 구조 사용

#### BERT
양방향 transformer encoder 사용
거의 모든 분야에서 top score 차지

---

# 웹 크롤링1 - Static Crawling

# 1. urllib
* 파이썬은 웹 사이트에 있는 데이터를 추출하기 위해 urllib 라이브러리 사용
* 이를 이용해 HTTP 또는 FTP를 사용해 데이터 다운로드 가능
* urllib은 URL을 다루는 모듈을 모아 놓은 패키지
* urllib.request 모듈은 웹 사이트에 있는 데이터에 접근하는 기능 제공, 또한 인증, 리다렉트, 쿠키처럼 인터넷을 이용한 다양한 요청과 처리가 가능

In [1]:
from urllib import request

## 1.1 urllib.request를 이용한 다운로드
* urllib.request 모듈에 있는 urlretrieve() 함수 이용
* 다음의 코드는 PNG 파일을 test.png 라는 이름의 파일로 저장하는 예제임

In [2]:
# 라이브러리 읽어들이기 
from urllib import request

url="http://uta.pw/shodou/img/28/214.png"
savename="test.png"

request.urlretrieve(url, savename)
print("저장되었습니다")

저장되었습니다


## 1.2. urlopen으로 파일에 저장하는 방법
* request.urlopen()은 메모리에 데이터를 올린 후 파일에 저장하게 된다.

In [3]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"
#다운로드
mem = request.urlopen(url).read()
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


## 1.3. API 사용하기
### 클라이언트 접속 정보 출력 (기본)
* API는 사용자의 요청에 따라 정보를 반환하는 프로그램
* IP 주소, UserAgent 등 클라이언트 접속정보 출력하는 "IP 확인 API" 접근해서 정보를 추출하는 프로그램

In [4]:
#데이터 읽어들이기
url="http://api.aoikujira.com/ip/ini"
res=request.urlopen(url)
data=res.read()

#바이너리를 문자열로 변환하기
text=data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=58.225.45.142
REMOTE_HOST=58.225.45.142
REMOTE_PORT=57098
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.7
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




# 2. BeautifulSoup
* 스크레이핑(Scraping or Crawling)이란 웹 사이트에서 데이터를 추출하고, 원하는 정보를 추출하는 것을 의미
* BeautifulSoup란 파이썬으로 스크레이핑할 때 사용되는 라이브러리로서 HTML/XML에서 정보를 추출할 수 있도록 도와줌. 그러나 다운로드 기능은 없음.
* 파이썬 라이브러리는 pip 명령어를 이용해 설치 가능. Python Package Index(PyPI)에 있는 패키지 명령어를 한줄로 설치 가능
    * URL (http://pypi.python.org/pypi)
    
 pip install beautifulsoup4
 
* 예제 HTML
```
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
```
### 패키지 import 및 예제 HTML

In [6]:
from bs4 import BeautifulSoup

In [7]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

## 2.1. 기본 사용
* 다음은 Beautifulsoup를 이용하여 웹사이트로부터 HTML을 가져와 문자열로 만들어 이용하는 예제임

* h1 태그를 접근하기 위해 html-body-h1 구조를 사용하여 soup.html.body.h1 이런식으로 이용하게 됨.

* p 태그는 두개가 있어 soup.html.body.p 한 후 next_sibling을 두번 이용하여 다음 p를 추출. 한번만 하면 그 다음 공백이 추출됨.
* HTML 태그가 복잡한 경우 이런 방식으로 계속 진행하기는 적합하지 않음.

### 2) HTML 분석하기

In [8]:
soup = BeautifulSoup(html, 'html.parser')

### 3) 원하는 부분 추출하기

In [9]:
h1 = soup.html.body.h1  # h1 태그 접근
p1 = soup.html.body.p  # p는 태그가 2개이므로 두번 추출
p2 = p1.next_sibling.next_sibling

### 4) 요소의 글자 추출하기

In [10]:
print(f"h1 = {h1.string}")
print(f"p  = {p1.string}")
print(f"p  = {p2.string}")

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


## 2.2. 요소를 찾는 method
### 단일 element 추출 : find()
BeautifulSoup는 루트부터 하나하나 요소를 찾는 방법 말고도 find()라는 메소드를 제공함

In [11]:
soup = BeautifulSoup(html, 'html.parser')  # 위와 같은 시작

* 1) find() 메서드로 원하는 부분 추출하기

In [12]:
title = soup.find("h1")
body  = soup.find("p")
print(title)

<h1>스크레이핑이란?</h1>


* 2) 텍스트 부분 출력하기

In [13]:
print(f"#title = {title.string}" )
print(f"#body = {body.string}")

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


### 복수 elements 추출 : find_all()
여러개의 태그를 한번에 추출하고자 할때 사용함. 다음의 예제에서는 여러개의 태그를 추출하는 법을 보여주고 있음

In [14]:
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""
# html 지정 후  같은 방법으로 html 먼저 가져오기
soup = BeautifulSoup(html, 'html.parser')

* 1) fild_all() 메서드로 추출하기

In [15]:
links = soup.find_all("a")
print(links, len(links))

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


* 2) 링크 목록 출력하기 

In [16]:
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string 
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


# 3. Css Selector
> Css Selector란, 웹상의 요소에 css를 적용하기 위한 문법으로, 즉 요소를 선택하기 위한 패턴입니다.

> 출처: https://www.w3schools.com/cssref/css_selectors.asp

앞서 간단하게 태그를 사용하여 데이터를 추출하는 방법에 대해서 살펴보았습니다.

하지만 복잡하게 구조화된 웹 사이트에서 자신이 원하는 데이터를 가져오기 위해서는 Css Selector에 대한 이해가 필요합니다.

서식 | 설명
--- | ---
* | 모든 요소를 선택
<요소 이름> | 요소 이름을 기반으로 선택
<클래스 이름> | 클래스 이름을 기반으로 선택
#<id 이름> | id 속성을 기반으로 선택

# BeautifulSoup에서 Css selector 사용하기
BeautifulSoup에서는 Css Selector로 값을 가져올 수 있도록 find와는 다른 다음과 같은 메서드를 제공합니다.

메서드 | 설명
--- | ---
soup.select_one(선택자) | CSS 선택자로 요소 하나를 추출합니다.
soup.select(선택자) | CSS 선택자로 요소 여러 개를 리스트를 추출합니다.

In [17]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

* 필요한 부분을 CSS 쿼리로 추출하기

In [18]:
# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string
print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


# 4. 활용 예제
앞서 배운 urllib과 BeautifulSoup를 조합하면, 웹스크레이핑 및 API 요청 작업을 쉽게 수행하실 수 있습니다.
1. URL을 이용하여 웹으로부터 html을 읽어들임 (urllib)
2. html 분석 및 원하는 데이터를 추출 (BeautifulSoup)

In [19]:
from bs4 import BeautifulSoup
from urllib import request, parse

## 4.1. 네이버 금융 - 환율 정보
* 다양한 금융 정보가 공개돼 있는 "네이버 금융"에서 원/달러 환율 정보를 추출해보자!
* 네이버 금융의 시장 지표 페이지 https://finance.naver.com/marketindex/
* 다음은 원/달러 환율 정보를 추출하는 프로그램임

### 1) HTML 가져오기

In [20]:
url = "https://finance.naver.com/marketindex/"
res = request.urlopen(url)

### 2) HTML 분석하기

In [21]:
soup = BeautifulSoup(res, "html.parser")

### 3) 원하는 데이터 추출하기

In [22]:
price = soup.select_one("div.head_info > span.value").string
print("usd/krw =", price)

usd/krw = 1,178.00


## 4.2. 기상청 RSS
* 기상청 RSS에서 특정 내용을 추출하는 예제
* 기상청 RSS에서 XML 데이터를 추출하고 XML 내용을 출력
* 기상청의 RSS 서비스에 지역 번호를 지정하여 데이터 요청해보기 http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp
    * 참고: 기상청 RSS http://www.kma.go.kr/weather/lifenindustry/service_rss.jsp

매개변수 | 의미
--- | ---
stnid | 기상정보를 알고 싶은 지역을 지정

* 지역번호는 다음과 같음

지역 | 지역번호 | 지역 |지역번호
--- | --- | --- | ---
전국 | 108 | 전라북도 | 146
서울/경기도 | 109 | 전라남도 | 156
강원도 | 105 | 경상북도 | 143
충청북도 | 131 | 경상남도 | 159
충청남도 | 133 | 제주특별자치도 | 184

* 파이썬으로 요청 전용 매개변수를 만들 때는 urllib.parse 모듈의 urlencode() 함수를 사용해 매개변수를 URL로 인코딩한다.

### 1) HTML 가져오기

In [23]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnId':'109'
}

params=parse.urlencode(values)
url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


### 2) HTML 분석하기

In [24]:
soup = BeautifulSoup(res, "html.parser")

### 3) 원하는 데이터 추출하기

In [25]:
header = soup.find("header")

title = header.find("title").text
wf = header.find("wf").text

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 10월 6일(수)은 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 13~19도, 낮최고기온은 23~28도로 오늘(26일, 아침최저기온 16~20도, 낮최고기온 26~27도)과 비슷하거나 조금 낮겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


* css selector 기반

In [26]:
title = soup.select_one("header > title").text
wf = header.select_one("header wf").text

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 10월 6일(수)은 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 13~19도, 낮최고기온은 23~28도로 오늘(26일, 아침최저기온 16~20도, 낮최고기온 26~27도)과 비슷하거나 조금 낮겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


## 4.3. 윤동주 작가의 작품 목록
* 위키문헌 (https://ko.wikisource.org/wiki) 에 공개되어 있는 윤동주의 작품목록을 가져오기
* 윤동주 위키 (https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC)
* 하늘과 바람과 시 부분을 선택한 후 오른쪽 마우스 이용해 copy selector로 카피하면 다음의 CSS 선택자가 카피됨
    * #mw-content-text > div > ul:nth-child(6) > li > b > a
* nth-child(n) 은 n 번째 요소를 의미 즉 6번째 요소를 의미, #mw-content-text 내부에 있는 url 태그는 모두 작품과 관련된 태그. 따라서 따로 구분할 필요는 없으며 생략해도 됨. BeautifulSoup는 nth-child 지원하지 않음
    * Recall PR7 Problem1

In [27]:
# 뒤의 인코딩 부분은 "저자:윤동주"라는 의미입니다.
# 따로 입력하지 말고 위키 문헌 홈페이지에 들어간 뒤에 주소를 복사해서 사용하세요.

url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택합니다.
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시
