## 텍스트 마이닝 기본도구 (NLP 기준)
- 목적: word들의 sequence 즉, document를 sparse vector(값을 가진애가 몇개 안되는 vector)로 변환
- tokenize: 영어는 .split()쓰면 공백 기준으로 쉽게 tokenize가능. 한글은 구조상 형태소 분석이 필요(morpheme)
- text normalization: went를 원형 의미인 go로 변환시켜주는 것. stemming(어간추출): -ing,-s 같은 의미가 아닌 패턴을 보고 변환. lemmatization(표제어추출): 사전을 이용해 단어의 원형을 추출(의미를 봄)
- pos tagging(품사태깅): 노멀라이제이션한 최소단위의 품사를 결정하여 할당하는 작업.(한글은 토큰화를 하려면 품사를 알아야하는 경우가 많음) (형태소분석은 토큰화,정규화, tagging이 모두 이루어진 것)
- chunking: 형태소 분석의 결과인 각 형태소들을 서로 겹치지 않으면서 의미가 있는 구로 묶어나가는 과전
- 개체명인식(NER): James는 사람, london은 지역, disney는 organization임을 알아내는 작업. -> 관계인식: in을 통해 디즈니는 런던에 위치하고 있다는 관계 추출
- BOW(bag of words): 벡터로 만드는 과정. 순서 없다고 생각함.-> count vector의 문제점: 공통으로 많이 나타난 단어들은 중요성이 떨어지는 단어일 가능성 많음 eg) the, a..-> TFIDF: 단어의 count를 단어가 나타난 문서의 수로 나눠서 자주 등장하지 않는 단어의 weight를 올림
- 비정형텍스트 (document) 를 fixed 즉, 길이가 일정한 vector로 바꾸는 것
- TFIDF를 이용한 유사도 계산: 어떤 문서들끼리 유사한지 알아보는 것. ->cosine similarity: vector의 방향에대한 유사도를 본다.(둘사이의 각도를 잼)
- naive bayes: "fun, furious, fast" 문서는 어디로 분류 될까? 구하고자하는 확률: 문서가 코미디일 확률  P(comedy|fun, furious, fast), P(comedy|fun, furious, fast)랑 P(action|fun, furious, fast)를 구해서 확률이 더 큰쪽으로 결정


## 텍스트 마이닝의 문제
- 차원의 저주 ->feature 추출: 원래 만개가 있으면 더 적게 줄이는 것
- zipf's law(멱법칙): 극히 소수의 데이터가 결정적인 영향을 미치게 됨 -> feature selection: 빈도높은 단어를 삭제. 심하면 50%삭제 boolean bow사용: 1이상이면 1로 변환
- bow의 문제: 순서 정보의 손실 즉, 문맥에 대한 정보 상실 ->deep learning: 근본적인 해결방법

## 문제의 해결방안
- 단어에 대한 vector의 차원축소가 목표(딥러닝)(순서를 그대로 가지고 가고싶은 것임)->1. one-hot encoding 2. word embedding(dense vector로 변환)
- word2Vec:문장에 나타난 단어들의 순서를 이용해 word embedding 수행. CBOW:주변단어들을 이용해 다음단어를 예측. skip-gram: 한 단어의 주변단어들을예측
- ELMo: 대표적인 임베딩기법인 word2Vec이랑 글로브는 fixed 임베딩임 ex. 배->하나의뜻. 엘모는 문맥을 반영하기 위해 개발된 워드 임베딩 기법
- 차원의 저주 극복하는 해결방안(딥러닝 기준): RBM(딥러닝의 문을 열어준), Autoencoder
- seq2seq: 번역, chatbot에 쓰임

In [1]:
from urllib import request #urllib 패키지 설치

url = 'http://uta.pw/shodou/img/28/214.png'
savename = 'test.png' 

request.urlretrieve(url, savename) # urllib.request 모듈에 있는 urlretrieve() 함수이용해서 PNG파일을 'test.png'라는 이름의 파일로 저장
print('저장되었습니다')

저장되었습니다


In [2]:
mem = request.urlopen(url).read() #request.urlopen()로 메모리에 데이터 올리기
with open(savename, mode="wb") as f:
    f.write(mem) #파일로 저장하기,wb는 쓰기와 바이너리모드
    print("저장되었습니다..")

저장되었습니다..


In [3]:
url="http://api.aoikujira.com/ip/ini"
res=request.urlopen(url)#request.urlopen()로 메모리에 데이터 올리기
data=res.read() #데이터 읽기

text=data.decode("utf-8") #바이트 열을 유니코드로 변환
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=125.132.168.96
REMOTE_HOST=125.132.168.96
REMOTE_PORT=59916
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




In [4]:
pip install beautifulsoup4 #pip 명령어를 이용해 라이브러리 설치

Note: you may need to restart the kernel to use updated packages.


ERROR: Invalid requirement: '#pip'


In [5]:
from bs4 import BeautifulSoup #beautifulsoup4 설치

html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

In [6]:
soup = BeautifulSoup(html, 'html.parser') #HTML 분석

In [7]:
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling #원하는 부분 추출하기

In [8]:
print(f"h1 = {h1.string}")
print(f"p  = {p1.string}")
print(f"p  = {p2.string}") #요소의 글자 출력하기

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


In [9]:
title = soup.find("h1")
body  = soup.find("p")
print(title) #find() 메서드로 원하는 부분 추출

<h1>스크레이핑이란?</h1>


In [10]:
print(f"#title = {title.string}" )
print(f"#body = {body.string}") #텍스트 부분 출력

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


In [11]:
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

In [12]:
links = soup.find_all("a")
print(links, len(links)) #find_all()메서드로 복수의 elements 추출

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


In [13]:
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string 
    print(text, ">", href) #링크 목록 출력하기

naver > http://www.naver.com
daum > http://www.daum.net


In [14]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

In [15]:
# 타이틀 부분 추출
h1 = soup.select_one("div#meigen > h1").string #요소 하나를 추출
print(f"h1 = {h1}") 

# 목록 부분 추출
li_list = soup.select("div#meigen > ul.items > li") #요소 여러개를 추출
for li in li_list:
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


In [16]:
from bs4 import BeautifulSoup
from urllib import request, parse

In [17]:
url = "https://finance.naver.com/marketindex/"
res = request.urlopen(url) #네이버금융 HTML 가져오기 

In [18]:
soup = BeautifulSoup(res, "html.parser") #HTML 분석
soup


<script language="javascript" src="/template/head_js.nhn?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<script language="JavaScript" src="/js/flashObject.js?20200917142109"></script>
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_up">
<span class="value">1,175.00</span>
<span class="txt_krw"><span class="blind">원</span></span>


In [19]:
price = soup.select_one("div.head_info > span.value").string #원하는 요소 하나를 추출
print("usd/krw =", price)

usd/krw = 1,175.00


In [20]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

values = {
    'stnId':'109'
} 
params=parse.urlencode(values) #매개변수를 URL로 인코딩

url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


In [21]:
soup = BeautifulSoup(res, "html.parser")

header = soup.find("header") 

title = header.find("title").text
wf = header.find("wf").text #find()메서드로 원하는 부분 추출 

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 10월 2일(금)에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 낮 기온은 19~25도로 오늘(27일, 24~27도)보다 낮겠고, 아침 기온은 6~17도로 선선하겠습니다.<br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


In [22]:
title = soup.select_one("header > title").text
wf = header.select_one("header wf").text #css selector로 원하는 요소 하나 추출

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 10월 2일(금)에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 낮 기온은 19~25도로 오늘(27일, 24~27도)보다 낮겠고, 아침 기온은 6~17도로 선선하겠습니다.<br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


In [23]:

url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser") #HTML 분석

# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


In [32]:
url = "https://news.daum.net/"

res = request.urlopen(url) #request.urlopen()로 메모리에 데이터 올리기
soup = BeautifulSoup(res, "html.parser") #HTML 분석

selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_tit > a" #최신 기사의 헤드라인을 스크레이핑

for a in soup.select(selector):
    title = a.text
print(title) 

서울,경기도 육상중기예보


In [26]:
url_head = "https://www.sisul.or.kr"

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"

res = request.urlopen(url_board) #request.urlopen()로 메모리에 데이터 올리기
soup = BeautifulSoup(res, "html.parser") #HTML 분석

selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
titles = []
links = [] #빈 리스트 만들기 
for a in soup.select(selector):
    titles.append(a.text)
    links.append(url_head + a.attrs["href"])
    
print(titles, links)


['관리인 마스크', '어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청 ', '마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.', '공원 내 마스크 착용', '청춘핫도그 점장님과 직원분께 감사드립니다', '카드결제를 거부하는 매점을 신고합니다', '참얼굴만큼예쁘고맘씨좋은 여직원을 만나 고마워서 글을남깁니다.', '놀이동산에서 불쾌함을 겪었습니다', '서문 플래카드', '간만에 친절한 아가씨를 만났어요.(놀이동산)'] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=XPYOcUIrxbYpLaESwCjXZ19ARHCsrJWKoOLKDMHFaIaTN5AcVGX7avve9BIBWARK.etisw1_servlet_user?qnaid=QNAS20200917000010&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=XPYOcUIrxbYpLaESwCjXZ19ARHCsrJWKoOLKDMHFaIaTN5AcVGX7avve9BIBWARK.etisw1_servlet_user?qnaid=QNAS20200902000003&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=XPYOcUIrxbYpLaESwCjXZ19ARHCsrJWKoOLKDMHFaIaTN5AcVGX7avve9BIBWARK.etisw1_servlet_user?qnaid=QNAS20200826000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=XPYOcUIrxbYpLaESwCjXZ19ARHCsrJWKoOLKDMHFaIaTN5AcVGX7avve9BIBWARK.etisw1

In [27]:
import pandas as pd


board_df = pd.DataFrame({"title": titles, "link": links}) #데이터 프레임으로 정리하기
board_df.head()

Unnamed: 0,title,link
0,관리인 마스크,https://www.sisul.or.kr/open_content/childrenp...
1,어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청,https://www.sisul.or.kr/open_content/childrenp...
2,"마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.",https://www.sisul.or.kr/open_content/childrenp...
3,공원 내 마스크 착용,https://www.sisul.or.kr/open_content/childrenp...
4,청춘핫도그 점장님과 직원분께 감사드립니다,https://www.sisul.or.kr/open_content/childrenp...


In [28]:
board_df.to_csv("board.csv", index=False)