In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:86% !important;}
div.cell.code_cell.rendered{width:100%;}
div.CodeMirror {font-family:Consolas; font-size:12pt;}
div.output {font-size:15pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:12pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:12pt;padding:5px;}
table.dataframe{font-size:15px;}
</style>
"""))

**<font size="4" color="red">ch2. 한글 형태소 분석</font>**
# 1. 자연어처리
- 자연어 : 일상적인 언어
- 자연어 처리 분야 : 
    * 자연어 이해 : 형태소 분석 -> postagging -> 의미 분석, 시각화
    * 자연어 생성 : RNN, LSTM, GRU, ... , encoder-decoder알고리즘 -> 트랜스포머알고리즘
- 활용분야 : 트랜드분석, 탐색적 분석, 맞춤법검사, 번역기, 챗봇, ...      

# 2. 자연어 이해 처리 절차
- 전처리 : 단어, 어절 추출
- 분석 후보 생성 : 형태소 분리, 품사태깅(pos tagging)
- 제약조건(불용어 처리) : 규칙 확인
- 분석 : 시각화(워드클라우드), 연관분석, RNN, LSTM, GRU, ...

# 3. 한글형태소 분석 엔진(Konlpy,...)
- 공통기능 : morphs(형태소 나누기), nouns(명사 추출), pos(형태소로 나누어 품사 태그)

- Konlpy (pip install konlpy)
    * KanNanum : 자바로 만든 형태소 분석기(JAVA_HOME 시스템 환경 변수, Path 설정)
    * KKma     : 자바로 만든 형태소 분석기(JAVA_HOME 시스템 환경 변수, Path 설정)
    * Komoran  : 자바로 만든 형태소 분석기(JAVA_HOME 시스템 환경 변수, Path 설정)
    * Okt
- Mecab (pip install python-mecab-ko)
    * Mecab : C++로 만든 형태소 분석기. 저사양환경에서 사용 가능. 다국어 바딩인 지원

In [2]:
import os
os.environ.get("JAVA_HOME")

'C:\\Program Files\\Java\\jdk-17'

In [3]:
text = '''아름답지만 다소 복잡하기도 한 한국어는 전세계에서 13번쨰로
많이 사용되는 언어입니다
'''

## 3.1 HanNanum

In [4]:
# %pip install konlpy

In [5]:
from konlpy.tag import Hannanum
hannanum = Hannanum(jvmpath=None,
                   max_heap_size=512) # 기본값:1024, '10m', '1g', 최대사이즈 4g
hannanum.analyze(text) #ntag=69로 형태소분석 후보

[[[('아름답', 'paa'), ('지만', 'ecs')],
  [('아름답', 'paa'), ('지', 'ecs'), ('만', 'jxc')],
  [('아름답', 'paa'), ('지', 'ecx'), ('말', 'px'), ('ㄴ', 'etm')]],
 [[('다소', 'mag')], [('다소', 'ncn')]],
 [[('복잡', 'ncn'), ('하기', 'ncn'), ('도', 'jxc')],
  [('복잡', 'ncn'), ('하기', 'ncn'), ('도', 'ncn')],
  [('복잡', 'ncps'), ('하기', 'ncn'), ('도', 'jxc')],
  [('복잡', 'ncps'), ('하기', 'ncn'), ('도', 'ncn')],
  [('복잡', 'ncps'), ('하', 'xsms'), ('기', 'etn'), ('도', 'jxc')]],
 [[('하', 'pvg'), ('ㄴ', 'etm')],
  [('한', 'nnc')],
  [('한', 'ncn')],
  [('한', 'nbn')],
  [('하', 'px'), ('ㄴ', 'etm')]],
 [[('한국어', 'ncn'), ('는', 'jxc')]],
 [[('전세계', 'ncn'), ('에서', 'jca')],
  [('전세', 'ncn'), ('계', 'ncn'), ('에서', 'jca')],
  [('전', 'xp'), ('세계', 'ncn'), ('에서', 'jca')]],
 [[('13번쨰', 'ncn'), ('로', 'jca')],
  [('13번쨰로', 'ncn')],
  [('13번쨰', 'nqq'), ('로', 'jca')],
  [('13번쨰로', 'nqq')]],
 [],
 [[('많', 'paa'), ('이', 'xsa')], [('많이', 'mag')]],
 [[('사용', 'ncpa'), ('되', 'xsvn'), ('는', 'etm')]],
 [[('언어', 'ncn'), ('이', 'jp'), ('ㅂ니다', 'ef')]]]

- 구글에서 konlpy docs 검색 https://konlpy.org/
- api 메뉴 -> "Comparison between POS tagging classes"클릭 -> Korean POS tags comparison chart클릭

In [6]:
# 형태소 분석 : morphs
print(hannanum.morphs(text))

['아름답', '지만', '다소', '복잡', '하', '기', '도', '하', 'ㄴ', '한국어', '는', '전세계', '에서', '13번쨰', '로', '많', '이', '사용', '되', '는', '언어', '이', 'ㅂ니다']


In [7]:
# 명사만 추출
print(hannanum.nouns(text))

['복잡', '한국어', '전세계', '13번쨰', '사용', '언어']


In [8]:
# 품사태그
print(hannanum.pos(text)) # 품사 개수 기본값 ntags=9

[('아름답', 'P'), ('지만', 'E'), ('다소', 'M'), ('복잡', 'N'), ('하', 'X'), ('기', 'E'), ('도', 'J'), ('하', 'P'), ('ㄴ', 'E'), ('한국어', 'N'), ('는', 'J'), ('전세계', 'N'), ('에서', 'J'), ('13번쨰', 'N'), ('로', 'J'), ('많', 'P'), ('이', 'X'), ('사용', 'N'), ('되', 'X'), ('는', 'E'), ('언어', 'N'), ('이', 'J'), ('ㅂ니다', 'E')]


In [9]:
print(hannanum.pos(text, ntags=22))

[('아름답', 'PA'), ('지만', 'EC'), ('다소', 'MA'), ('복잡', 'NC'), ('하', 'XS'), ('기', 'ET'), ('도', 'JX'), ('하', 'PV'), ('ㄴ', 'ET'), ('한국어', 'NC'), ('는', 'JX'), ('전세계', 'NC'), ('에서', 'JC'), ('13번쨰', 'NC'), ('로', 'JC'), ('많', 'PA'), ('이', 'XS'), ('사용', 'NC'), ('되', 'XS'), ('는', 'ET'), ('언어', 'NC'), ('이', 'JP'), ('ㅂ니다', 'EF')]


In [10]:
# 퀴즈1. text에서 형용사(PA)만 추출
tagged_text = hannanum.pos(text, ntags=22)
words = [token for token, tag in tagged_text if tag=='PA']
# for token, tag in tagged_text : 
#     if tag=='PA' :
#         words.append(token)
words

['아름답', '많']

In [11]:
# 퀴즈2. text에서 명사(NC, NQ, NB, NN, NP)만 추출
print([token for token, tag in tagged_text if tag.find('N')!= -1])
print([token for token, tag in tagged_text if (tag=='NC') |
                                              (tag=='NQ') |
                                              (tag=='NB') |
                                              (tag=='NN') |
                                              (tag=='NP')])
print([(token, tag) for token, tag in tagged_text if tag in ('NC', 'NQ', 'NB', 'NN', 'NP')])
print(hannanum.nouns(text))

['복잡', '한국어', '전세계', '13번쨰', '사용', '언어']
['복잡', '한국어', '전세계', '13번쨰', '사용', '언어']
[('복잡', 'NC'), ('한국어', 'NC'), ('전세계', 'NC'), ('13번쨰', 'NC'), ('사용', 'NC'), ('언어', 'NC')]
['복잡', '한국어', '전세계', '13번쨰', '사용', '언어']


In [12]:
# 퀴즈3. text에서 보통명사만 추출
[token for token, tag in tagged_text if tag=='NC']

['복잡', '한국어', '전세계', '13번쨰', '사용', '언어']

## 3.2 Kkma

In [13]:
from konlpy.tag import Kkma
kkma = Kkma(jvmpath=None,
            max_heap_size=1024) # "4m", "4g" 등
# 형태소 분석
print(kkma.morphs(text)) 

java.lang.OutOfMemoryError: java.lang.OutOfMemoryError: Java heap space

In [14]:
# 명사추출
print(kkma.nouns(text)) 

[]


In [None]:
# 품사 태깅
print(kkma.pos(text)) # ntags 지정 불가(무조건 56으로)

In [None]:
# 명사 추출
tagged_text = kkma.pos(text)
print([word for word, tag in tagged_text if tag in ('NNG','NNP','NNB') ])

## 3.3 Komoran

In [None]:
from konlpy.tag import Komoran
komoran = Komoran()
# 형태소 분석
print(komoran.morphs(text))

In [None]:
# 명사 추출
print(komoran.nouns(text))

In [None]:
# 품사 태깅
print(komoran.pos(text)) # ntags 조정 불가

In [None]:
# 일반명사, 고유명사만 추출
[token for token, tag in komoran.pos(text) if tag in ('NNG', 'NNP')]

## 3.4 Twitter(Okt; Open Korean Text)
- konlpy v0.4.5 부터 Twitter -> Okt로 바뀜

In [None]:
import konlpy
konlpy.__version__

In [None]:
%%time
from konlpy.tag import Twitter, Okt
# okt = Twitter()
okt = Okt() # max_heap_size
# print('구 추출 : ', okt.phrases(text))
print('형태소 추출 : ', okt.morphs(text))
print('명사 추출 : ', okt.nouns(text))
tagged_text = okt.pos(text)
print('품사 태깅을 이용한 명사 추출 : ', 
      [token for token, tag in tagged_text if tag=='Noun'])
print('품사 태깅 : ', tagged_text)

## 3.5 Mecab
- pip install mecab

In [None]:
%%time
from mecab import MeCab
mecab = MeCab() # 힙메모리 사이즈 지정 불가
print('형태소 추출 : ', mecab.morphs(text))
print('명사 추출 : ', mecab.nouns(text))
tagged_text = mecab.pos(text) # ntags 조정 불가(ntags=43 고정)
print('품사 태깅을 이용한 명사 추출 : ',
      [token for token, tag in tagged_text if tag=='Noun'])
print('품사태깅 : ', tagged_text)

# 4. 말뭉치

In [None]:
# 영어 말뭉치
import nltk
emma = nltk.corpus.gutenberg.raw('austen-emma.txt')

In [None]:
# 한국어 말뭉치
# %pip show konlpy

In [None]:
# 한국어 말뭉치
from konlpy.corpus import kolaw
# data = kolaw.open('constitution.txt').readlines() # 한줄씩 list로 반환
data = kolaw.open('constitution.txt').read()
print("글자 수 : ", len(data))
print("%r" % data[:100])

# 5. 워드 클라우드
- pip install wordcloud

In [None]:
l = ['aaa', 'bbb', 'ccc', 'aaa']
' '.join(l)

In [None]:
# 말뭉치에서 단어 추출(특수문자 제외)
from nltk.tokenize import RegexpTokenizer
from nltk.tag import pos_tag
ret = RegexpTokenizer('[\w]{2,}')
words = ret.tokenize(emma)
# 명사만 추출
emma_tags = pos_tag(words)
noun_list = [token for token, tag in emma_tags if tag in ('NN', 'NNS')]
print("추출된 명사 갯수 : ",len(noun_list), "\t단어 종류 수 : ",len(set(noun_list)))
print("noun_list : ", noun_list[:10])
emma_noun = ' '.join(noun_list)
print("워드 클라우드에 필요한 내용 : ",emma_noun[:100])

In [None]:
from wordcloud import WordCloud
from matplotlib import pyplot as plt
wordc = WordCloud()
wordc.generate(emma_noun)
plt.imshow(wordc)
plt.show()

- 컬러맵
    - https://matplotlib.org/stable/users/explain/colors/colormaps.html

In [None]:
wordcloud = WordCloud(font_path='C:/Windows/Fonts/Verdana/verdanaz.ttf',
                    #width=800, # 생성될 이미지 가로(픽셀)
                    background_color='white', # 배경색
                    max_words=300, # 표시될 단어의 최대갯수
                    relative_scaling=0.9, # 단어 빈도에 따른 크기 차이 조정
                    colormap='viridis', # 글씨 컬러맵
                    max_font_size=80, #최대 폰트 사이즈
                    min_font_size=10  #최소 사이즈
)
wordcloud.generate(emma_noun)
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

In [None]:
# 한글 말뭉치 data로 워드클라우드 시각화
from konlpy.tag import Hannanum, Kkma, Komoran, Okt
from mecab      import MeCab
analyzer = MeCab()
noun_list = analyzer.nouns(data)
noun_list = [word for word, tag in analyzer.pos(data) \
              if tag in ('NNG', 'NNP')]
data_noun = ' '.join(noun_list)
data_noun[:100]

In [None]:
wordcloud = WordCloud(
                font_path='C:/Windows/Fonts/한컴 고딕/Hancom Gothic Regular.ttf',
                # width=800, # 생성될 이미지 가로(픽셀)
                background_color='white', # 배경색
                max_words=300, # 표시될 단어의 최대갯수
                #relative_scaling=0.9, # 단어 빈도에 따른 크기 차이 조정
                colormap='viridis', # 글씨 컬러맵
                #random_state=3
)
wordcloud.generate(data_noun)
plt.figure(figsize=(18,5))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

In [None]:
# 불용어 처리(불용어지정 + 불용어사전)
from wordcloud import STOPWORDS
불용어 = STOPWORDS | {'대통령', '법률'} # | : 집합합연산자
불용어 = set(['대통령','법률'])
불용어 = {'대통령','법률','조'}
불용어

In [None]:
wordcloud = WordCloud(
                #font_path='C:/Windows/Fonts/한컴 고딕/Hancom Gothic Regular.ttf',
                font_path='data/NanumPenScript-Regular.ttf',
                # width=800, # 생성될 이미지 가로(픽셀)
                background_color='white', # 배경색
                max_words=300, # 표시될 단어의 최대갯수
                #relative_scaling=0.9, # 단어 빈도에 따른 크기 차이 조정
                colormap='viridis', # 글씨 컬러맵
                #random_state=3,
                stopwords=불용어
)
wordcloud.generate(data_noun)
plt.figure(figsize=(18,5))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

In [None]:
# 마스킹 : 워드클라우드를 지정된 마스크 이미지에 맞도록 설정
# 이미지를 넘파이 배열로 방법1
from PIL import Image
import numpy as np
img = Image.open('data/test.png')
mask = np.array(img)
plt.figure(figsize=(2,1))
plt.imshow(mask)
mask.shape

In [None]:
# 이미지를 넘파이 배열로 방법2
import cv2
# %pip install opencv-contrib-python
mask = cv2.imread('data/test.png'
                 # , cv2.IMREAD_GRAYSCALE
                 )
plt.figure(figsize=(2,1))
plt.imshow(mask)
mask.shape

In [None]:
wordcloud = WordCloud(
                #font_path='C:/Windows/Fonts/한컴 고딕/Hancom Gothic Regular.ttf',
                font_path='data/NanumPenScript-Regular.ttf',
                # width=800, # 생성될 이미지 가로(픽셀)
                background_color='white', # 배경색
                max_words=300, # 표시될 단어의 최대갯수
                #relative_scaling=0.9, # 단어 빈도에 따른 크기 차이 조정
                colormap='viridis', # 글씨 컬러맵
                #random_state=3,
                stopwords=불용어,
                mask=mask
)
wordcloud.generate(data_noun)
plt.figure(figsize=(18,5))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

In [None]:
mask2 = cv2.imread('data/heart.jpg')
# plt.figure(figsize=(2,2))
# plt.imshow(mask2)
mask2.shape
wordcloud = WordCloud(
                #font_path='C:/Windows/Fonts/한컴 고딕/Hancom Gothic Regular.ttf',
                font_path='data/NanumPenScript-Regular.ttf',
                # width=800, # 생성될 이미지 가로(픽셀)
                background_color='white', # 배경색
                max_words=300, # 표시될 단어의 최대갯수
                #relative_scaling=0.9, # 단어 빈도에 따른 크기 차이 조정
                colormap='viridis', # 글씨 컬러맵
                #random_state=3,
                stopwords=불용어,
                mask=mask2
)
wordcloud.generate(data_noun)
plt.figure(figsize=(18,5))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

In [None]:
mask3 = cv2.imread('data/test2.jpg')
wordcloud = WordCloud(
                #font_path='C:/Windows/Fonts/한컴 고딕/Hancom Gothic Regular.ttf',
                font_path='data/NanumPenScript-Regular.ttf',
                # width=800, # 생성될 이미지 가로(픽셀)
                background_color='white', # 배경색
                max_words=300, # 표시될 단어의 최대갯수
                #relative_scaling=0.9, # 단어 빈도에 따른 크기 차이 조정
                colormap='viridis', # 글씨 컬러맵
                #random_state=3,
                stopwords=불용어,
                mask=mask3
)
wordcloud.generate(data_noun)
plt.figure(figsize=(18,5))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

In [None]:
mask4 = cv2.imread('data/test3.png')
mask4.shape
wordcloud = WordCloud(
                #font_path='C:/Windows/Fonts/한컴 고딕/Hancom Gothic Regular.ttf',
                font_path='data/NanumPenScript-Regular.ttf',
                # width=800, # 생성될 이미지 가로(픽셀)
                background_color='white', # 배경색
                max_words=300, # 표시될 단어의 최대갯수
                #relative_scaling=0.9, # 단어 빈도에 따른 크기 차이 조정
                colormap='viridis', # 글씨 컬러맵
                #random_state=3,
                stopwords=불용어,
                mask=mask4
)
wordcloud.generate(data_noun)
plt.figure(figsize=(18,5))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

In [None]:
img = Image.open('data/test3.png')
mask5 = np.array(img)
print(mask5.shape)
plt.imshow(mask5)

In [None]:
wordcloud = WordCloud(
                #font_path='C:/Windows/Fonts/한컴 고딕/Hancom Gothic Regular.ttf',
                font_path='data/NanumPenScript-Regular.ttf',
                # width=800, # 생성될 이미지 가로(픽셀)
                background_color='white', # 배경색
                max_words=300, # 표시될 단어의 최대갯수
                #relative_scaling=0.9, # 단어 빈도에 따른 크기 차이 조정
                colormap='viridis', # 글씨 컬러맵
                #random_state=3,
                stopwords=불용어,
                mask=mask5,
                contour_color='black',
                contour_width=1
)
wordcloud.generate(data_noun)
plt.figure(figsize=(18,5))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

In [None]:
# convert('RGB') : 1채널이미지 ->3채널
# convert('RGBA') : 1채널이미지 -> 4채널(RGB+투명도채널)
img = Image.open('data/south_korea.png').convert('RGB')
mask5 = np.array(img)
print(mask5.shape)
plt.figure(figsize=(2,2))
plt.imshow(mask5)

In [None]:
wordcloud = WordCloud(
                #font_path='C:/Windows/Fonts/한컴 고딕/Hancom Gothic Regular.ttf',
                font_path='data/NanumPenScript-Regular.ttf',
                # width=800, # 생성될 이미지 가로(픽셀)
                background_color='white', # 배경색
                max_words=300, # 표시될 단어의 최대갯수
                #relative_scaling=0.9, # 단어 빈도에 따른 크기 차이 조정
                colormap='viridis', # 글씨 컬러맵
                #random_state=3,
                stopwords=불용어,
                mask=mask5,
                contour_color='red',
                contour_width=1
)
wordcloud.generate(data_noun)
plt.figure(figsize=(18,5))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

In [None]:
# 생성된 wordcloud 저장
wordcloud.to_file('korea.jpg') # jpg나 png

## 단어의 빈도수 시각화(nltk.Text)

In [None]:
import nltk
data_text = nltk.Text(noun_list)
plt.figure(figsize=(15,4))
plt.rc('font', family='Malgun Gothic')
data_text.plot(15)
plt.show()

In [None]:
data_text.vocab().most_common(15)

In [None]:
word, counts = zip(*data_text.vocab().most_common(15))
print(word)
print(counts)
plt.figure(figsize=(15,4))
plt.plot(word, counts)
plt.xticks(rotation=45)
plt.xlabel('word')
plt.ylabel('count')
plt.show()

# 6. 워드 임베딩
- 단어간 벡터 계산 -> 단어간 유사성 도출

In [2]:
import requests
from bs4 import BeautifulSoup
rss_url = 'https://fs.jtbc.co.kr/RSS/economy.xml'
jtbc_response = requests.get(rss_url)
soup = BeautifulSoup(jtbc_response.content, "xml")
link_el = soup.select('item link')
link_list = [el.text for el in link_el]
link_list

['https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220943',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220949',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220832',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220765',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220766',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220665',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220651',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220627',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220516',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220366',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220365',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220169',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12220180',
 'https://news.jtbc.co.kr/article/article.aspx?news_id=NB12219888',
 'https://news.jtbc.co.kr/article/article.aspx?n

In [3]:
'''각 link들의 뉴스 기사 -> 명사만 :
    [['드촌','재건축','명사1',....],
     ['캠핑장', '재건축','명사2',...],
     ....,
     ]
'''
from konlpy.tag import Kkma
kkma = Kkma()
news = []
for link in link_list :
    response = requests.get(link)
#     print(response.status_code)
    news_soup = BeautifulSoup(response.content, "html.parser")
    title = news_soup.select_one('title').text
    description = str(news_soup.select_one('meta[name="description"]'))
    noun_list = kkma.nouns(title + ' ' + description)
    불용어 = {'뉴스', '앵커'}
    noun_list = [word for word in noun_list if word not in 불용어]
    news.append(noun_list)
print(news)

[['촌', '촌주공', '주공', '전', '홍수', '예상', '눈치', '눈치게임', '게임', '시작', '단군', '이래', '최대', '규모', '건축', '불리', '아파트', '입주', '다음', '말', '대규모', '전세', '전세매물', '매물', '현장'], ['실제', '완전', '사기', '캠핑', '캠핑장', '장', '관리', '소홀', '예약', '때', '플랫폼', '사진', '기대', '당황', '분'], ['요즘', '끼', '편의점', '정도', '정도일', '일', '줄', '2', '2만', '만', '원', '육박', '점심', '점심값', '값', '도시락', '때', '7000', '7000원', '식비', '부담'], ['오늘', '겠다', '말', '이유', '편의점', '도시락', '7', '7천원', '천', '원', '시대', '주머니', '직장인', '자취생', '눈앞', '아람', '기자'], ['경영권', '분쟁', '주', '표', '표대결', '대결', '로', '롤러', '롤러코스터', '코스터', '고려', '고려아연', '아연', '주가', '오늘', '28', '28일', '일', '장', '장중', '중', '15', '포인트', '말', '달', '이어진', '공개', '공개매수', '매수', '절차', '마무리', '뚜껑', '어보'], ['결혼', '돈', '걱정', '예비', '예비부부', '부부', '저출산', '문제지', '현실', '결혼식', '비용', '문제', '소식', '정', '정아람', '아람', '기자', '전', '전해드', '해드'], ['예비', '예비부부', '부부', '웨딩', '물가', '올해', '예식장', '비용', '21', '한편', '결혼식', '비싸져', '식', '소식', '정', '정아람', '아람', '기자', '내년', '5', '5월', '월', '결혼'], ['20', '20대', '대', '정규직', '비중', '역대', '최고',

In [4]:
# rss의 title과 description => 명사 추출 => 워드임베딩(단어간 벡터(거리) 계산 => 특정 단어의 유사도)
import requests
from bs4 import BeautifulSoup
rss_url = 'https://fs.jtbc.co.kr/RSS/economy.xml'
jtbc_response = requests.get(rss_url)
soup = BeautifulSoup(jtbc_response.content, "xml")
news = []
item_elems = soup.find_all('item')
for item_elem in item_elems :
    title = item_elem.find('title').text
    description = item_elem.find('description').text
#     print(title + ' ' + description)
    article = title + ' ' + description.replace('[앵커]', ' ')
    noun_list = kkma.nouns(article)
    # 보통명사(NNG), 고유명사(NNP)
    noun_list = [word for word, tag in kkma.pos(article) if tag in ('NNG', 'NNP')]
    news.append(noun_list)
print(news[:3])

[['촌', '주공', '전', '홍수', '예상', '눈치', '게임', '시작', '단군', '이래', '최대', '규모', '건축', '불리', '촌', '주공', '아파트', '입주', '다음', '말', '시작', '대규모', '입주', '전세', '매물', '현장', '분위기', '이'], ['실제', '완전', '사기', '캠핑', '장', '관리', '소홀', '캠핑', '장', '예약', '때', '예약', '플랫폼', '사진', '실제', '불만', '경우', '앞', '예약', '플랫폼', '책임', '강화', '아람', '기자', '기자', '인터넷', '카페'], ['요즘', '끼', '편의점', '정도', '일', '줄', '육박', '점심', '값', '편의점', '도시락', '끼', '때', '편의점', '도시락', '식비', '부담', '아람', '기자', '기자', '서울', '한']]


In [6]:
# 워드 임베딩(단어간 거리 계산)
# pip install gensim
from gensim.models import Word2Vec
model = Word2Vec(news, #학습 데이터 2차원
                 window=10, # 각 단어의 좌우 10개 단어를 학습 컨텐츠로 사용
                 min_count=2, # 학습데이터에서 2회 이상 등장한 단어만 학습
                 workers=-1 #  병렬처리 core 수, -1:모든 가용 코어 사용
                )

In [12]:
model.wv.most_similar('아파트')

[('아연', 0.2122785449028015),
 ('불리', 0.19188855588436127),
 ('매출', 0.16693152487277985),
 ('성장률', 0.16677328944206238),
 ('기자', 0.15923377871513367),
 ('장', 0.15619252622127533),
 ('코스터', 0.1550060659646988),
 ('편의점', 0.1528114527463913),
 ('탓', 0.14976413547992706),
 ('예약', 0.14474642276763916)]

In [11]:
model.wv.most_similar('아파트', topn=3)

[('아연', 0.2122785449028015),
 ('불리', 0.19188855588436127),
 ('매출', 0.16693152487277985)]