### 형태소 : 의미를 가지는 요소로서는 더 이상 분석할 수 없는 가장 작은 말의 단위
### KoNLPy는 시중에 공개된 hannanum, kkma, okt, komoran, mecab 다섯개 형태소 분석기를 한꺼번에 묶어서 편리하게 사용할 수 있도록 한 패키지
### okt
- morphs(phrase, norm=False, stem=False)\
  Parse phrase to morphemes.
- nouns(phrase)  
- phrases(phrase)  
- pos(phrase, norm=False, stem=False, join=False)\
  매개 변수:\
  norm -- If True, normalize tokens.\
  stem -- If True, stem tokens.\
  join -- If True, returns joined sets of morph and tag
 
- 파싱(Parsing)
 - 일련의 문자열을 의미있는 token(어휘 분석의 단위)으로 분해하고 그것들로 이루어진 Parse tree를 만드는 과정
 - 어떤 문장을 분석하거나 문법적 관계를 해석하는 행위
 - 프로그램을  compile하는 과정에서 특정 프로그래밍 언어가 제시하는 문법을 잘 지켜서 작성하였는지 compiler가 검사하는 것

In [None]:
# KoNLPy 설치
# Java 환경 세팅, JPype1 다운로드 받고 설치(conda -c conda-forge jpype1)
# pip install konlpy

In [1]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
Collecting lxml>=4.1.0
  Downloading lxml-4.5.0-cp37-cp37m-win_amd64.whl (3.7 MB)
Collecting JPype1>=0.7.0
  Downloading JPype1-0.7.2-cp37-cp37m-win_amd64.whl (1.3 MB)
Collecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
Collecting tweepy>=3.7.0
  Downloading tweepy-3.8.0-py2.py3-none-any.whl (28 kB)
Installing collected packages: lxml, JPype1, beautifulsoup4, tweepy, konlpy
Successfully installed JPype1-0.7.2 beautifulsoup4-4.6.0 konlpy-0.5.2 lxml-4.5.0 tweepy-3.8.0


In [23]:
# 형태소 분석으로 문장을 단어로 분할
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs('단독입찰보다 복수입찰의 경우'))
print()
print(okt.nouns('유일하게 항공기 체계 종합개발 경험을 갖고 있는 KAI는'))
print()
print(okt.phrases('날카로운 분석과 신뢰감 있는 진행으로'))
print()
print(okt.pos('이것도 되나욬ㅋㅋ'))
print()
# norm 옵션 : '되나욬' 처럼 작성시 '되나요'로 변환
print(okt.pos('이것도 되나욬ㅋㅋ', norm=True))
print()
# stem 옵션 : '되나욬' 처럼 작성시 '되다'로 원형을 찾아줌
print(okt.pos('이것도 되나욬ㅋㅋ', norm=True, stem=True))
print()
# join 옵션 : joined sets of morph and tag
print(okt.pos('이것도 되나욬ㅋㅋ', norm=True, stem=True, join=True))

['단독', '입찰', '보다', '복수', '입찰', '의', '경우']

['항공기', '체계', '종합', '개발', '경험']

['날카로운 분석', '날카로운 분석과 신뢰감', '날카로운 분석과 신뢰감 있는 진행', '분석', '신뢰', '진행']

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나욬', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나요', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]

['이/Determiner', '것/Noun', '도/Josa', '되다/Verb', 'ㅋㅋ/KoreanParticle']


#### Q. 아래 문장을 적절한 Okt 옵션을 사용해서 형태소 분석 하세요.
Okt 옵션 : morphs, nouns, phrases, normalize, pos(norm, stem, join)

- '나는 오늘 방콕에 가고싶다.' (명사만 추출)
- '나는 오늘 방콕에 갔다.' (원형만 추출)
- '친절한 코치와 재미있는 친구들이 있는 도장에 가고 싶다.' (형태소 추출)
- '나는 오늘도 장에 가고싶다.' (형태소/태그 추출) 
- '나는 오늘 장에 가고싶을깤ㅋㅋ?' (정규화, 원형 추출)

In [2]:
# okt.morphs, okt.pos
from konlpy.tag import Okt
okt = Okt()
malist1 = okt.nouns('나는 오늘 방콕에 가고싶다.')
malist2 = okt.pos('나는 오늘 방콕에 갔다.', norm=True, stem=True)
malist3 = okt.morphs('친절한 코치와 재미있는 친구들이 있는 도장에 가고 싶다.')
malist4 = okt.pos('나는 오늘도 장에 가고싶다.', norm=True, stem=True, join=True)
malist5 = okt.pos('나는 오늘 장에 가고싶을깤ㅋㅋ?', norm=True, stem=True)
print('명사')
print(malist1)
print('원형')
print(malist2)
print('형태소')
print(malist3)
print('형태소/태그')
print(malist4)
print('정규화, 원형')
print(malist5)

명사
['나', '오늘', '방콕']
원형
[('나', 'Noun'), ('는', 'Josa'), ('오늘', 'Noun'), ('방콕', 'Noun'), ('에', 'Josa'), ('가다', 'Verb'), ('.', 'Punctuation')]
형태소
['친절한', '코치', '와', '재미있는', '친구', '들', '이', '있는', '도장', '에', '가고', '싶다', '.']
형태소/태그
['나/Noun', '는/Josa', '오늘/Noun', '도/Josa', '장/Noun', '에/Josa', '가다/Verb', './Punctuation']
정규화, 원형
[('나', 'Noun'), ('는', 'Josa'), ('오늘', 'Noun'), ('장', 'Noun'), ('에', 'Josa'), ('가다', 'Verb'), ('ㅋㅋ', 'KoreanParticle'), ('?', 'Punctuation')]


In [20]:
# beautifulsoup4 : 파이썬으로 스크레이핑할 때 필요한 라이브러리
# 간단하게 HTML과 XML에서 정보를 추출. 다운로드 기능은 없음
# !pip install beautifulsoup4

# BeautifulSoup 기본 사용법
from bs4 import BeautifulSoup
# 분석하고 싶은 HTML 
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""
# HTML 분석하기 (분석기 종류 : html.parser)
soup = BeautifulSoup(html, 'html.parser')
# 원하는 부분 추출하기 
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling
# 요소의 글자 출력하기 
print("h1 = " + h1.string)
print("p  = " + p1.string)
print("p  = " + p2.string)

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


In [21]:
# id로 요소를 찾는 방법
from bs4 import BeautifulSoup

html = """
<html><body>
  <h1 id="title">스크레이핑이란?</h1>
  <p id="body">웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

# HTML 분석하기
soup = BeautifulSoup(html, 'html.parser')

# find() 메서드로 원하는 부분 추출하기 
# id를 지정해 요소 추출
title = soup.find(id="title")
body = soup.find(id="body")

# 텍스트 부분 출력하기
print("#title=" + title.string)
print("#body=" + body.string)

#title=스크레이핑이란?
#body=웹 페이지를 분석하는 것


In [22]:
# 여러개의 요소 추출하기
from bs4 import BeautifulSoup 
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""
# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')
# find_all() 메서드로 추출하기 
links = soup.find_all("a")
# 링크 목록 출력하기 
for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


In [31]:
# { k : v} dict 사전 - 정렬(sort)
# 사전에서 제공되는 items() method를 사용하여 튜플(tuple) 항목들로 이뤄진 목록을
# 정렬하면 사전의 key로 정렬한 것과 동일

fruits = { 'apple': 2, 'banana' : 1, 'melon' : 0, 'pear' : 3, 'plum' : 1}
print(sorted(fruits)) # 키를 기준으로 정렬
print(sorted(fruits.keys()))
print()
print(sorted(fruits, key=lambda k : fruits[k])) # 값을 기준
print(sorted(fruits, key=lambda k : fruits[k], reverse=True))
print()
print(fruits.items())
print(sorted(fruits.items()))
# lambda 함수에 t와 t[1]을 사용. t는 fruits.items()에서 얻은 항목을 의미
# t 항목은 ('key', value) 튜플. t[1]은 정렬하는 키를 value로 하라는 의미

print(sorted(fruits.items(), key=lambda t : t[1]))

['apple', 'banana', 'melon', 'pear', 'plum']
['apple', 'banana', 'melon', 'pear', 'plum']

['melon', 'banana', 'plum', 'apple', 'pear']
['pear', 'apple', 'banana', 'plum', 'melon']

dict_items([('apple', 2), ('banana', 1), ('melon', 0), ('pear', 3), ('plum', 1)])
[('apple', 2), ('banana', 1), ('melon', 0), ('pear', 3), ('plum', 1)]
[('melon', 0), ('banana', 1), ('plum', 1), ('apple', 2), ('pear', 3)]


In [32]:
# UTF(Unicode Transformation Format)는 몇 비트단위로사용해서 index를 나타내는가를 의미
# UTF-8은 8bit씩 UTF-16은 16bit씩 index를 나타냄
# 모든 영어는 1byte만 있으면 256개를 표현할 수 있기 때문에 UTF-16을 쓰면 손해. UTF-8 유리
# UTF-8, UTF-16는 모두 unicode의 문자 index를 나타내는 방법이므로 상호 변환 가능
import codecs
from bs4 import BeautifulSoup
from konlpy.tag import Okt
# utf-16 인코딩으로 파일을 열고 글자를 출력하기 (BEXX0003 작업폴더 복사)
fp = codecs.open("./dataset/BEXX0003.txt", "r", encoding="utf-16")
soup = BeautifulSoup(fp, "html.parser")
body = soup.select_one("body > text")
text = body.getText()
text
# 텍스트를 한 줄씩 처리하기 --- (※2)
okt = Okt()
word_dic = {}
lines = text.split("\n")
for line in lines:
    malist = okt.pos(line)
    for word in malist:
        if word[1] == "Noun": #  명사 확인하기 --- (※3)
            if not (word[0] in word_dic):
                word_dic[word[0]] = 0
            word_dic[word[0]] += 1 # 카운트하기
# 많이 사용된 명사 출력하기 --- (※4)
keys = sorted(word_dic.items(), key=lambda x:x[1], reverse=True)
for word, count in keys[:50]:
    print("{0}({1}) ".format(word, count), end="")

것(644) 그(554) 말(485) 안(304) 소리(196) 길(194) 용이(193) 눈(188) 놈(180) 내(174) 사람(167) 봉(165) 치수(160) 평산(160) 얼굴(156) 거(152) 네(151) 일(149) 이(148) 못(147) 댁(141) 생각(141) 때(139) 강청댁(137) 수(134) 서방(131) 집(131) 나(122) 더(120) 서희(119) 머(116) 어디(112) 마을(111) 최(110) 년(109) 김(99) 칠성(97) 구천이(96) 니(96) 뒤(91) 제(90) 날(90) 아이(88) 하나(84) 녀(83) 두(83) 참판(82) 월(82) 손(81) 임(79) 

### 문장을 벡터로 변환하기
- 단계 
 - 코퍼스 생성 : 데이터 내려받기 - XML을 일반 텍스트로 변환 - 형태소 분석, 단어로 구분
 - 코퍼스를 이용하여 Word2Vec로 모델 생성하며 단어를 벡터로 변환하고 모델 저장\
   매개변수 : sg 알고리즘 선택(1=Skip-gram, 0=CBOW), size (벡터의 차원 설정), window (학습할 단어를 연관시킬 앞뒤의 단어 수)
 - 모델을 읽어 들여 계산에 사용
- Word2Vec : 구글의 토머스 미코로프가 만든 방법으로 딥러닝 기술을 사용하여 단어를 벡터로 만드는 방법으로 대량의 문장을 기반으로 학습하고 단어를 벡터로 변환
 - 단어는 그 주변의 단어들과 관계가 있다.
 - 특정 단어의 유의어, 반의어를 추출할 수 있다.
 - 단어를 선형으로 나타낼 수 있다.
 - 자연 언어 처리에 활용할 수 있다.
 - 추천 분류 시스템에 다양하게 사용될 수 있다.
- Word2Vec 알고리즘
 - Skip-gram
 - CBOW 
 
※ 코퍼스(Corpus) : 모델을 만들기 위한 대량의 띄어쓰기로 구분한 데이터를 포함. 컴퓨터로 검색이 가능한 대량의 언어 데이터\
※ Word2Vec는 띄어쓰기로 구분된 단어를 학습시키는 이론. 형태소 분석을 사용해 단어들을 정규화해서 추출하고 이를 기반으로 띄어쓰기로 구분한 데이터를 준비 

In [None]:
# Gensim 설치 : 자연 언어 처리를 위한 라이브러리로 Word2Vec 기능 포함
# !pip install gensim

In [4]:
import codecs
from bs4 import BeautifulSoup
from konlpy.tag import Okt
from gensim.models import word2vec
# utf-16 인코딩으로 파일을 열고 글자를 출력하기
fp = codecs.open("./dataset/BEXX0003.txt", "r", encoding="utf-16")
soup = BeautifulSoup(fp, "html.parser")
body = soup.select_one("body > text")
text = body.getText()
# 텍스트를 한 줄씩 처리하기
okt = Okt()
results = []
lines = text.split("\r\n")
for line in lines:
    # 형태소 분석하기
    # 단어의 기본형 사용
    malist = okt.pos(line, norm=True, stem=True)
    r = []
    for word in malist:
        # 어미/조사/구두점 등은 대상에서 제외 
        if not word[1] in ["Josa", "Eomi", "Punctuation"]:
            r.append(word[0])
        # join(리스트)는 구분자 문자열과 문자열 리스트의 요소를 연결
        # strip()은 문자열에서 양쪽에 있는 연속된 모든 공백을 삭제    
    rl = (" ".join(r)).strip()
    results.append(rl)
#     print(rl)
# 파일로 출력하기 
wakati_file = './dataset/toji.wakati'
with open(wakati_file, 'w', encoding='utf-8') as fp:
    fp.write("\n".join(results))
# Word2Vec 모델 만들기 
data = word2vec.LineSentence(wakati_file)
# size : Dimensionality of the word vectors.
# window : Maximum distance between the current and predicted word within a sentence
# min_count : Ignores all words with total frequency lower than this
# sg : 1 for skip-gram; otherwise CBOW
# hs=1 : hierarchical softmax will be used for model training
model = word2vec.Word2Vec(data, 
    size=200, window=10, hs=1, min_count=2, sg=1)

model.save("./dataset/toji.model")
print("ok")

ok


In [1]:
from gensim.models import word2vec

model = word2vec.Word2Vec.load('./dataset/toji.model')

In [2]:
# most_similar() : 유사한 단어 추출
model.wv.most_similar(positive=['땅'])

[('꾼', 0.9090118408203125),
 ('골골', 0.8798800110816956),
 ('벼슬길', 0.8707199692726135),
 ('단명', 0.8679108619689941),
 ('봇짐', 0.8655251264572144),
 ('석', 0.8653677701950073),
 ('우쩌겄소', 0.8651825785636902),
 ('기생', 0.8646311163902283),
 ('커서', 0.8580085039138794),
 ('대가', 0.8565864562988281)]

In [3]:
model.wv.most_similar(positive=['집'])

[('제', 0.8321410417556763),
 ('구석', 0.7668663263320923),
 ('날', 0.7535632252693176),
 ('매', 0.7471103668212891),
 ('열', 0.746376633644104),
 ('말짱', 0.745918869972229),
 ('이지마', 0.7413662075996399),
 ('점심', 0.7408493757247925),
 ('그까짓', 0.7381689548492432),
 ('돌아가다', 0.7366471290588379)]