In [1]:
# KoNLPy 설치
# 설치 전에 자바 환경 세팅되어 있어야 함
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
Collecting JPype1>=0.7.0
  Downloading JPype1-0.7.2-cp37-cp37m-win_amd64.whl (1.3 MB)
Collecting tweepy>=3.7.0
  Downloading tweepy-3.8.0-py2.py3-none-any.whl (28 kB)
Collecting lxml>=4.1.0
  Downloading lxml-4.5.0-cp37-cp37m-win_amd64.whl (3.7 MB)
Collecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
Installing collected packages: JPype1, tweepy, lxml, beautifulsoup4, konlpy
Successfully installed JPype1-0.7.2 beautifulsoup4-4.6.0 konlpy-0.5.2 lxml-4.5.0 tweepy-3.8.0


In [9]:
# 형태소 분석으로 문장을 단어로 분할
from konlpy.tag import Okt
okt = Okt()

print(okt.morphs('단독입찰보다 복수입찰의 경우'))
print() #['단독', '입찰', '보다', '복수', '입찰', '의', '경우']

print(okt.nouns('유일하게 항공기 체계 종합개발 경험을 갖고 있는 KAL는'))
print() #['항공기', '체계', '종합', '개발', '경험']

print(okt.phrases('날카로운 분석과 신뢰감 있는 진행으로'))
print() #['날카로운 분석', '날카로운 분석과 신뢰감', '날카로운 분석과 신뢰감 있는 진행', '분석', '신뢰', '진행'

print(okt.pos('이것도 되나욬ㅋㅋ'))
print()

# norm 옵션: '되나욬'처럼 작성 시 '되나요'로 변환
print(okt.pos('이것도 되나욬ㅋㅋ', norm=True))
print()

# stem 옵션: '되나욬'처럼 작성 시 '되다'로 원형을 찾아줌
print(okt.pos('이것도 되나욬ㅋㅋ', norm=True, stem=True))
print() #[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]

print(okt.pos('이것도 되나욬ㅋㅋ', norm=False, stem=True))
print() #[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나욬', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]

# join 옵션: joined sets of morphs and tag
print(okt.pos('이것도 되나욬ㅋㅋ', norm=True, stem=True, join=True))
print() #['이/Determiner', '것/Noun', '도/Josa', '되다/Verb', 'ㅋㅋ/KoreanParticle']

['단독', '입찰', '보다', '복수', '입찰', '의', '경우']

['항공기', '체계', '종합', '개발', '경험']

['날카로운 분석', '날카로운 분석과 신뢰감', '날카로운 분석과 신뢰감 있는 진행', '분석', '신뢰', '진행']

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나욬', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나요', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나욬', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]

['이/Determiner', '것/Noun', '도/Josa', '되다/Verb', 'ㅋㅋ/KoreanParticle']



### Q. 아래 문장을 적절한 Okt 옵션을 사용하여 형태소 분석

Okt 옵션: morphs, nouns, phrases, normalize, pos(norm, stem, join)

- 명사만 추출
'나는 오늘 방콕에 가고 싶다.'

- 원형만 추출
'나는 오늘 방콕에 갔다.'

- 형태소 추출
'친절한 코치와 재미있는 친구들이 있는 도장에 가고 싶다.'

- 형태소/태그 추출
'나는 오늘도 장에 가고싶다.'

- 정규화, 원형 추출
'나는 오늘도 장에 가고싶을깤ㅋㅋ?'

In [24]:
# 명사만 추출
from konlpy.tag import Okt
okt = Okt()

print(okt.nouns('나는 오늘 방콕에 가고싶다.'))

['나', '오늘', '방콕']


In [25]:
# 원형만 추출
print(okt.pos('나는 오늘 방콕에 갔다.', norm=True, stem=True))

[('나', 'Noun'), ('는', 'Josa'), ('오늘', 'Noun'), ('방콕', 'Noun'), ('에', 'Josa'), ('가다', 'Verb'), ('.', 'Punctuation')]


In [26]:
# 형태소 추출(어폐가 있음)
print(okt.morphs('친절한 코치와 재미있는 친구들이 있는 도장에 가고 싶다.'))
print()
#print(okt.pos('친절한 코치와 재미있는 친구들이 있는 도장에 가고 싶다.'))

['친절한', '코치', '와', '재미있는', '친구', '들', '이', '있는', '도장', '에', '가고', '싶다', '.']



In [16]:
# 형태소/태그 추출
print(okt.pos('나는 오늘도 장에 가고싶다.', norm=True, stem=True, join=True))

['나/Noun', '는/Josa', '오늘/Noun', '도/Josa', '장/Noun', '에/Josa', '가다/Verb', './Punctuation']


In [19]:
#  정규화, 원형 추출
print(okt.pos('나는 오늘도 장에 가고싶을깤ㅋㅋ?', norm=True, stem=True))

[('나', 'Noun'), ('는', 'Josa'), ('오늘', 'Noun'), ('도', 'Josa'), ('장', 'Noun'), ('에', 'Josa'), ('가다', 'Verb'), ('ㅋㅋ', 'KoreanParticle'), ('?', 'Punctuation')]


In [28]:
import os
os.getcwd()

'C:\\Users\\admin\\workspace'

In [34]:
# UTF-8은 몇 비트단위로 사용해서 index를 나타내는가를 의미
# UTF-8은 8비트씩 UTF-16은16비트씩 index를 나타냄
# 모든 영어는 1byte만 있으면 256개를 표현 가능, UTF-16 쓰면 손해
# UTF-8, UTF-16은 모두 unicode 문자 index를 나타내는 바법이므로 상호 변환 가능

import codecs
from bs4 import BeautifulSoup
from konlpy.tag import Okt

# utf-16 인코딩으로 파일을 열고 글자를 출력하기 (BEXX0003 작업폴더 복사)
# 박경리 토지
fp = codecs.open("./dataset/BEXX0003.txt", "r", encoding = "utf-16")
soup = BeautifulSoup(fp, "html.parser")
body = soup.select_one("body > text")
text = body.getText()


# 텍스트를 한 줄씩 처리하기 --- (※2)
okt = Okt()
word_dic = {}
lines = text.split("\n")

# word 1이 품사, word 0이 단어
for line in lines:
    malist = okt.pos(line)
    for word in malist:
        #  명사 확인하기 --- (※3)
        if word[1] == "Noun":
            if not (word[0] in word_dic):
                # 처음 나오는 단어면 0을 주고
                word_dic[word[0]] = 0
                #print(word_dic)
            # 이후 다시 나오면 개수만큼 카운트하기
            word_dic[word[0]] += 1

# 많이 사용된 명사 출력하기 --- (※4)
keys = sorted(word_dic.items(), key=lambda x:x[1], reverse=True)
for word, count in keys[:50]:
    print("{0}({1}) ".format(word, count), end = "")

것(644) 그(554) 말(485) 안(304) 소리(196) 길(194) 용이(193) 눈(188) 놈(180) 내(174) 사람(167) 봉(165) 치수(160) 평산(160) 얼굴(156) 거(152) 네(151) 일(149) 이(148) 못(147) 댁(141) 생각(141) 때(139) 강청댁(137) 수(134) 서방(131) 집(131) 나(122) 더(120) 서희(119) 머(116) 어디(112) 마을(111) 최(110) 년(109) 김(99) 칠성(97) 구천이(96) 니(96) 뒤(91) 제(90) 날(90) 아이(88) 하나(84) 녀(83) 두(83) 참판(82) 월(82) 손(81) 임(79) 

### 문장을 벡터로 변환하기
- 단계 
 - corpus (말뭉치) 생성 : 데이터 내려받기 - XML을 일반 텍스트로 변환 - 형태소 분석, 단어로 구분
 - 코퍼스를 이용하여 Word2Vec 로 모델 생성하며 단어를 벡터로 변환하고 모델 저장\
   매개변수 : sg 알고리즘 선택(1=Skip-gram, 0=CBOW)(#1이면~, 아니면~), size (벡터의 차원 설정), window (학습할 단어를 연관시킬 앞뒤의 단어 수)
 - 모델을 읽어 들여 계산에 사용
 
- Word2Vec : 구글의 토머스 미코로프가 만든 방법으로 딥러닝 기술을 사용하여 단어를 벡터로 만드는 방법으로 대량의 문장을 기반으로 학습하고 단어를 벡터로 변환
 - 단어는 단독으로 존재하지 않고 그 주변의 단어들과 관계가 있다.
 - 특정 단어의 유의어, 반의어를 추출할 수 있다.
 - 단어를 선형으로 나타낼 수 있다.
 - 자연 언어 처리에 활용할 수 있다.
 - 추천 분류 시스템에 다양하게 사용될 수 있다.
 
- Word2Vec 알고리즘
 - Skip-gram
 - CBOW 
 
※ 코퍼스(Corpus) : 모델을 만들기 위한 대량의 띄어쓰기로 구분한 데이터를 포함. 컴퓨터로 검색이 가능한 대량의 언어 데이터

※ Word2Vec는 띄어쓰기로 구분된 단어를 학습시키는 이론. 형태소 분석을 사용해 단어들을 정규화해서 추출하고 이를 기반으로 띄어쓰기로 구분한 데이터를 준비

In [36]:
# Gensim 설치(Gensin에서 Word2Vec 기능 제공)
!pip install gensim



In [None]:
import codecs
from bs4 import BeautifulSoup
from konlpy.tag import Okt
from gensim.models import word2vec

# utf-16 인코딩으로 파일을 열고 글자를 출력하기 (BEXX0003 작업폴더 복사)
# 박경리 토지
fp = codecs.open("./dataset/BEXX0003.txt", "r", encoding = "utf-16")
soup = BeautifulSoup(fp, "html.parser")
body = soup.select_one("body > text")
text = body.getText()


# 텍스트를 한 줄씩 처리하기
okt = Okt()
results = []
lines = text.split("\r\n")

for line in lines:
    # 형태소 분석하기
    # 단어의 기본형 사용
    malist = okt.pos(line, norm=True, stem=True)
    r= []
    for word in malist:
        # 어미/조사/구두점 등은 대상에서 제외(불용어 제외)
        # word 1은 품사, 0은 단어
        if not word[1] in ["Josa", "Eomi", "Punctuation"]:
            r.append(word[0])
        # join(리스트)는 구분자 문자열과 문자열 리스트의 요소를 연결
        # strip()은 문자열에서 양쪽에 있는 연속된 모든 공백을 삭제    
    rl = (" ".join(r)).strip()
    results.append(rl)
    #print(rl)

# 파일로 출력하기
wakati_file = './dataset/toji.wakati'
with open(wakati_file, 'w', encoding='utf-8') as fp:
    fp.write("\n".join(results))

# Word2Vec 모델 만들기
data = word2vec.LineSentence(wakati_file)

model = word2vec.Word2Vec(data, size=200, window=10, hs=1, min_count=2, sg=1)
# size : Dimensionality of the word vectors.
# window : Maximum distance between the current and predicted word within a sentence
# min_count : Ignores all words with total frequency lower than this
# sg : 1 for skip-gram; otherwise CBOW
# hs=1 : hierarchical softmax will be used for model training

model.save('./dataset/toji.model')
print('ok')

In [9]:
from gensim.models import word2vec

model = word2vec.Word2Vec.load('./dataset/toji.model')

In [10]:
# most_similar() : 유사한 단어 추출
model.wv.most_similar(positive=['땅'])

[('꾼', 0.910788893699646),
 ('굶주리다', 0.8900405764579773),
 ('벼슬길', 0.8882701992988586),
 ('원귀', 0.8862684369087219),
 ('장차', 0.8854167461395264),
 ('봇짐', 0.8836709856987),
 ('기생', 0.8834049701690674),
 ('일가', 0.883205771446228),
 ('대가', 0.8825960755348206),
 ('된장', 0.8803859949111938)]

In [11]:
model.wv.most_similar(positive=['집'])

[('구석', 0.8157641887664795),
 ('제', 0.8012774586677551),
 ('이지마', 0.7581266164779663),
 ('말짱', 0.7578853368759155),
 ('남정', 0.7545551061630249),
 ('해', 0.751640796661377),
 ('점심', 0.7484650611877441),
 ('돌아가다', 0.7378664612770081),
 ('날', 0.7354258298873901),
 ('나선', 0.7350877523422241)]

In [12]:
model.wv.most_similar(positive=['부자'])

[('빈말', 0.9727845191955566),
 ('본', 0.9721720814704895),
 ('셋', 0.9719869494438171),
 ('쓰겄', 0.970746636390686),
 ('일색', 0.9689548015594482),
 ('어찌', 0.9688628315925598),
 ('부동', 0.9687970280647278),
 ('보이', 0.9685132503509521),
 ('딱하다', 0.9680392742156982),
 ('고향', 0.9672443866729736)]