# 텍스트 마이닝의 이론과 실제

## - 텍스트마이닝이란? 
: 텍스트로부터 하이퀄리티의 정보를 뽑아내는 과정 <br>
: 텍스트(비정형 데이터)를 분석이 가능한 정형데이터로 변환하는 과정 -> NLP 등 분석방법을 사용 <br>
: 정형 데이터로 패턴이나 트렌드를 찾아서 유용한 정보로 만들어 내는것

## - 텍스트 마이닝 단계
: **문서** -> **Tokenize**(단어 단위로 쪼개는 작업)<br>
-> **normalize**(표준화, 단어 원형으로 바꾸는 작업, 동음이의어 처리, 단수/복수 처리 등) <br>
-> **POS-tagging**(품사태깅 or 형태소 분석 / 최소 의미단위로 나누어진 대상에 대해 품사를 부착) <br>
-> **Chunking**(전 단계의 결과를 명사구, 형용사구, 분사구 등과 같은 말모듬으로 다시 합치는 과정) <br>
-> **BOW** (문서를 벡터로 표현, 순서는 무시하고 문장에 어떤 단어가 있는가 확인하는, 단어가 몇번 들어가있는지 count하는 과정)  <br>
-> **TFIDF** (단어의 count를 단어가 나타난 문서의 수로 나눠서 자주 등장하지 않는 단어의 weight를 올림  )

## - 텍스트 마이닝 방법론 
- 나이브 베이즈 분류 : text categorization, 단어집합으로 이루어진 문서가 분류 C에 속할 확률 <br>
ex) 스팸메일과 일반메일을 분류 <br>
- 로지스틱 회귀분석 : 종속변수와 독립변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 활용 <br>
- 감성분석 : 텍스트에 들어있는 의견이나 감성, 평가, 태도 등의 주관적인 정보를 컴퓨터를 통해 분석하는 과정

## - 텍스트 마이닝의 문제
- 차원의 저주 : 각 데이터 간의 거리가 너무 멀게 위치, 문서에서 단어수를 카운트하면 한번만(적은 횟수) 나오는 단어가 많아서 발생하게 됨 
- 해결방법 : 데이터를 많이 활용, 차원 축소의 방법
- 단어 빈도의 불균형 : (Zif's law) 빈도수를 그래프로 나타내면 많이쓰이는 단어는 많이쓰이고 잘 안쓰이는 단어는 계속 안쓰임 -> 다수에 의해 결정되는 경향 -> 빈도가 높은 단어를 삭제
- 단어가 쓰인 순서정보의 손실 <br>
     -> 통계에 의한 의미 파악(문맥정보가 사라짐) vs 순서에 의한 의미 파악
     [해결방안]
     * Word2Vec : 문장에 나타난 단어들의 순서를 이용해 word embedding을 수행
          - CBOW : 주변 단어들을 이용해 다음 단어를 예측
          - Skip-Ngram : 한 단어의 주변단어들을 예측

## - 문제의 해결방안 

- ELMO : 사전 훈련된 언어 모델을 사용하는 워드 임베딩 방법론
    Word2vec이나 GloVe는 고정된 벡터로 임베딩<br>
    ex) 한국어로 '배' 라고 하면 그냥 ship으로 인식할수도 있는데, ELMO는 배(pear)과 배(ship)을 문맥을 파악하고 단어를 구분해줌
    
- Document Embedding : Word2Vec 모형에서 주변단어들에 더하여 document의 고유한 vector를 함께 학습함으로써 document에 대한 dense vector을 생성
- RBM : 사전학습 목적으로 개발되었고, 사전학습을 통한 차원 축소에 사용 가능

    

# # 웹 크롤링1 - Static Crawling

##  1. urllib

In [1]:
from urllib import request 

#파이썬은 웹 사이트에 있는 데이터를 추출하기 위해 urllib 라이브러리 사용
#urllib은 URL을 다루는 모듈을 모아 놓은 패키지
#urllib.request 모듈은 웹 사이트에 있는 데이터에 접근하는 기능 제공, 또한 인증, 리다렉트, 쿠키처럼 인터넷을 이용한 다양한 요청과 처리가 가능

###     1.1. urllib.request를 이용한 다운로드

In [2]:
# 라이브러리 읽어들이기 
from urllib import request

url="http://uta.pw/shodou/img/28/214.png"
savename="test.png"

request.urlretrieve(url, savename)
print("저장되었습니다")

저장되었습니다


### 1.2. urlopen으로 파일에 저장하는 방법

In [3]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"
#다운로드
mem = request.urlopen(url).read()
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


### 1.3. API 사용하기

In [4]:
#데이터 읽어들이기
url="http://api.aoikujira.com/ip/ini"
res=request.urlopen(url)
data=res.read()

#바이너리를 문자열로 변환하기
text=data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=211.49.64.155
REMOTE_HOST=211.49.64.155
REMOTE_PORT=36814
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 2. BeautifulSoup

In [5]:
from bs4 import BeautifulSoup
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

### 2.1. 기본 사용

In [6]:
soup = BeautifulSoup(html, 'html.parser') #HTML 분석하기

#원하는 부분 추출하기
h1 = soup.html.body.h1  #h1 태그를 접근하기 위해 html-body-h1 구조를 사용하여 soup.html.body.h1 이런식으로 이용
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling #p 태그는 두개가 있어 soup.html.body.p 한 후 next_sibling을 두번 이용하여 다음 p를 추출. 한번만 하면 그 다음 공백이 추출


In [7]:
#요소의 글자 출력하기

print(f"h1 = {h1.string}")
print(f"p  = {p1.string}")
print(f"p  = {p2.string}")

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


### 2.2 요소를 찾는 method <br>
단일 element 추출 : find()

In [8]:
soup = BeautifulSoup(html, 'html.parser')

- 1) find() 메서드로 원하는 부분 추출하기

In [9]:
#BeautifulSoup는 루트부터 하나하나 요소를 찾는 방법 말고도 find()라는 메소드를 제공
title = soup.find("h1") 
body  = soup.find("p")
print(title)

<h1>스크레이핑이란?</h1>


- 2) 텍스트 부분 출력하기

In [10]:
print(f"#title = {title.string}" )
print(f"#body = {body.string}")

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


복수 elements 추출: find_all()

In [11]:
#여러개의 태그를 한번에 추출하고자 할때 사용함.
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

- 1) find_all() 메서드로 추출하기

In [12]:
links = soup.find_all("a")
print(links, len(links))

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


- 2) 링크 목록 출력하기

In [13]:
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string 
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


## 3. Css Selector

Css Selector란, 웹상의 요소에 css를 적용하기 위한 문법으로, 즉 요소를 선택하기 위한 패턴

- BeautifulSoup에서 Css Selector 사용하기

In [14]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

필요한 부분을 CSS 쿼리로 추출

In [15]:
# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string #div id가 meigen인 곳에서 h1을 가져와라
print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li") #태그 안으로 점점 들어가는것! div태그/meigen/ui/items/li 가져와라
for li in li_list:
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


## 4. 활용 예제

- URL을 이용하여 웹으로부터 html을 읽어들임 (urllib)
- html 분석 및 원하는 데이터를 추출 (BeautifulSoup)

In [16]:
from bs4 import BeautifulSoup
from urllib import request, parse

### 4.1. 네이버 금융 - 환율 정보

In [17]:
#1) HTML 가져오기
url = "https://finance.naver.com/marketindex/"
res = request.urlopen(url)

#2) HTML 분석하기
soup = BeautifulSoup(res, "html.parser")

#3) 원하는 데이터 추출하기
price = soup.select_one("div.head_info > span.value").string
    ##div태그 안 span.value값을 price라는 변수에 저장
print("usd/krw =", price)

usd/krw = 1,178.00


### 4.2 기상청 RSS

In [18]:
#1) HTML 가져오기
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnId':'109'
}

params=parse.urlencode(values)
url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)


#2) HTML 분석하기
soup = BeautifulSoup(res, "html.parser")

#3) 원하는 데이터 추출하기
header = soup.find("header")

title = header.find("title").text
wf = header.find("wf").text

print(title)
print(wf)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109
서울,경기도 육상중기예보
○ (강수) 29일(수)과 10월 6일(수)은 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 12~19도로 어제(25일, 아침최저기온 15~20도)와 비슷하거나 조금 낮겠고, <br />          낮최고기온은 23~28도로 어제(25일, 낮최고기온 23~24도)보다 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 1.0~2.0m로 일겠습니다.


### 4.3. 윤동주 작가의 작품 목록

In [19]:
# 뒤의 인코딩 부분은 "저자:윤동주"라는 의미입니다.
# 따로 입력하지 말고 위키 문헌 홈페이지에 들어간 뒤에 주소를 복사해서 사용하세요.

url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택합니다.
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


## 일반문제

### 1. 네이버 뉴스 헤드라인

In [20]:
url = "https://news.naver.com/"

res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

selector = "#today_main_news > div.hdline_news > ul"
for a in soup.select(selector):
    title = a.text
    print(title)
                     





                                        엔카, 보배드림, KB차차차, 케이카 '부당 환불제한' 조항 없어진다
                                    



관련기사 개수
15






                                        中, 돌아온 멍완저우 ‘영웅대접’…대미외교 승리로 평가
                                    



관련기사 개수
69






                                        버스에 대변 누고 달아난 승객... 기사 "급하면 세워드렸을 텐데"
                                    



관련기사 개수
15






                                        이재명 측 "곽상도 아들 50억 원, 뇌물죄 수사해야"
                                    



관련기사 개수
82






                                        대학생단체 “노엘 불구속은 아빠 찬스”…장제원 “참담한 마음”
                                    



관련기사 개수
51






### 2. 시민의 소리 게시판

In [21]:
url_head = "https://www.sisul.or.kr"

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"



res = request.urlopen(url_board)
soup = BeautifulSoup(res, "html.parser")

# selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
titles = []
links = []
for a in soup.select(selector):
    titles.append(a.text)
    links.append(url_head + a.attrs["href"])
    
print(titles, links)

['그늘막 텐트 문의', '감사 인사 드립니다.', '어린이대공원 매점 냉장고 점검 부탁드립니다.', '어린이를 위한 공원내 식당에 아기를 위한 시설 부족(아기의자가 왜 없죠?)', '강창수 해설사님 ', '동물해설사님 칭찬', '강창수 동물 해설사님', '놀이동산 푸드코트 김치가 중국산인 이유는?', '주슨트 설명 최고예요!!', '강창수 주슨트님 최고 !!'] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=SuiBEfuiPxM3hHKusDNgq37Ia0evXTSfszh87koyKqz5JP3Tpre4muSrqmAQj1Tl.etisw1_servlet_user?qnaid=QNAS20210926000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=SuiBEfuiPxM3hHKusDNgq37Ia0evXTSfszh87koyKqz5JP3Tpre4muSrqmAQj1Tl.etisw1_servlet_user?qnaid=QNAS20210926000001&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=SuiBEfuiPxM3hHKusDNgq37Ia0evXTSfszh87koyKqz5JP3Tpre4muSrqmAQj1Tl.etisw1_servlet_user?qnaid=QNAS20210925000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=SuiBEfuiPxM3hHKusDNgq37Ia0evXTSfszh87koyKqz5JP3Tpre4muSrqmAQj1Tl.etisw1_servlet_user?qnaid=QNAS20210923000005

### 추가내용

In [22]:
#수집된 자료를 데이터프레임으로 만들어 csv로 저장

import pandas as pd


board_df = pd.DataFrame({"title": titles, "link": links})
board_df.head()

Unnamed: 0,title,link
0,그늘막 텐트 문의,https://www.sisul.or.kr/open_content/childrenp...
1,감사 인사 드립니다.,https://www.sisul.or.kr/open_content/childrenp...
2,어린이대공원 매점 냉장고 점검 부탁드립니다.,https://www.sisul.or.kr/open_content/childrenp...
3,어린이를 위한 공원내 식당에 아기를 위한 시설 부족(아기의자가 왜 없죠?),https://www.sisul.or.kr/open_content/childrenp...
4,강창수 해설사님,https://www.sisul.or.kr/open_content/childrenp...


In [23]:
board_df.to_csv("HW3_board.csv", index=False) #데이터를 csv 파일로 저장