In [1]:
import fasttext
model = fasttext.FastText.load_model("./model/fasttext.bin")



In [2]:
from numpy import dot
from numpy.linalg import norm
import numpy as np
def cos_sim(A, B):
       return dot(A, B)/(norm(A)*norm(B))

In [3]:
cos_sim(model.get_word_vector("많음"), model.get_word_vector("분위기"))

0.14886048

In [4]:
from konlpy.tag import Kkma
parser = Kkma()
parsed_data = parser.pos("생각보다 사람들도 많았고 넓어서 놀랐어용! 외관에서부터 풍기는 아늑한분위기와 딱 안성맞춤의 인테리어로 쾌적하고 좋더라구요~")
parsed_data

[('생각', 'NNG'),
 ('보다', 'JKM'),
 ('사람', 'NNG'),
 ('들', 'XSN'),
 ('도', 'JX'),
 ('많', 'VA'),
 ('았', 'EPT'),
 ('고', 'ECE'),
 ('넓', 'VA'),
 ('어서', 'ECD'),
 ('놀라', 'VV'),
 ('었', 'EPT'),
 ('어요', 'EFN'),
 ('!', 'SF'),
 ('외관', 'NNG'),
 ('에서', 'JKM'),
 ('부터', 'JX'),
 ('풍기', 'VV'),
 ('는', 'ETD'),
 ('아늑', 'XR'),
 ('하', 'XSA'),
 ('ㄴ', 'ETD'),
 ('분위기', 'NNG'),
 ('와', 'JKM'),
 ('딱', 'MAG'),
 ('안성맞춤', 'NNG'),
 ('의', 'JKG'),
 ('인테리어', 'NNG'),
 ('로', 'JKM'),
 ('쾌적', 'XR'),
 ('하', 'XSA'),
 ('고', 'ECE'),
 ('좋', 'VA'),
 ('더', 'EPT'),
 ('라구요', 'EFN'),
 ('~', 'SO')]

In [5]:
from konlpy.tag import Twitter
parser = Twitter()
parsed_data = parser.pos("생각보다 사람들도 많았고 넓어서 놀랐어용! 외관에서부터 풍기는 아늑한분위기와 딱 안성맞춤의 인테리어로 쾌적하고 좋더라구요~", stem=True)
parsed_data

[('생각', 'Noun'),
 ('보다', 'Josa'),
 ('사람', 'Noun'),
 ('들', 'Suffix'),
 ('도', 'Josa'),
 ('많다', 'Adjective'),
 ('넓다', 'Adjective'),
 ('놀라다', 'Verb'),
 ('!', 'Punctuation'),
 ('외관', 'Noun'),
 ('에서부터', 'Josa'),
 ('풍기다', 'Verb'),
 ('아늑하다', 'Adjective'),
 ('분위기', 'Noun'),
 ('와', 'Josa'),
 ('딱', 'Adverb'),
 ('안성맞춤', 'Noun'),
 ('의', 'Josa'),
 ('인테리어', 'Noun'),
 ('로', 'Josa'),
 ('쾌적하다', 'Adjective'),
 ('좋다', 'Adjective'),
 ('~', 'Punctuation')]

In [13]:
adjs = [i[0] for i in parsed_data if i[1]=='Adjective']
adjs
# 넓다.
# 아늑하다
# 쾌적하다

['많다', '넓다', '아늑하다', '쾌적하다', '좋다']

In [14]:
'''
위의 데이터에서 제일 중요한 것: 넓다, 아늑하다, 쾌적하다
필요 없는 데이터: 많다, 좋다
필요 없는 데이터를 과연 어떻게 걸러낼 것인가...
'''
def model_cos(A, B):
    return cos_sim(model.get_word_vector(A), model.get_word_vector(B))

In [15]:
def print_recursive(param):
    for i in range(len(param)):
        print()
        for j in range(len(param)):
            if i == j:
                continue
            print(f"{param[i]}, {param[j]}: {model_cos(param[i], param[j])}")

In [16]:
#print(model_cos("많다", "넓다"), model_cos("넓다", "아늑하다"), model_cos("많다", "쾌적하다"), model_cos("많다", "좋다"))
print_recursive(adjs)


많다, 넓다: -0.040319424122571945
많다, 아늑하다: -0.026820259168744087
많다, 쾌적하다: 0.013399380259215832
많다, 좋다: -0.14908938109874725

넓다, 많다: -0.040319424122571945
넓다, 아늑하다: 0.17025969922542572
넓다, 쾌적하다: 0.16057512164115906
넓다, 좋다: 0.12555243074893951

아늑하다, 많다: -0.026820259168744087
아늑하다, 넓다: 0.17025969922542572
아늑하다, 쾌적하다: 0.7843034863471985
아늑하다, 좋다: 0.4947142004966736

쾌적하다, 많다: 0.013399380259215832
쾌적하다, 넓다: 0.16057512164115906
쾌적하다, 아늑하다: 0.7843034863471985
쾌적하다, 좋다: 0.4141066074371338

좋다, 많다: -0.14908938109874725
좋다, 넓다: 0.12555243074893951
좋다, 아늑하다: 0.4947142004966736
좋다, 쾌적하다: 0.4141066074371338


In [10]:
def test_sentence(param):
    posed = parser.pos(param, stem=True)
    data = [i[0] for i in posed if i[1]=='Adjective']
    print_recursive(data)


In [11]:
test_sentence("사장님이 너무 친절 하시네요 빵도 맛있습니다 특히 샌드위치가 너무 맛있네요")


맛있다, 맛있다: 0.9999999403953552

맛있다, 맛있다: 0.9999999403953552


In [12]:
parser.pos("사장님이 너무 친절 하시네요 빵도 맛있습니다 특히 샌드위치가 너무 맛있네요")

[('사장', 'Noun'),
 ('님', 'Suffix'),
 ('이', 'Josa'),
 ('너무', 'Adverb'),
 ('친절', 'Noun'),
 ('하시네요', 'Verb'),
 ('빵', 'Noun'),
 ('도', 'Josa'),
 ('맛있습니다', 'Adjective'),
 ('특히', 'Adverb'),
 ('샌드위치', 'Noun'),
 ('가', 'Josa'),
 ('너무', 'Adverb'),
 ('맛있네요', 'Adjective')]

In [29]:
model_cos("국방부장관", "김태영")

0.42039704

In [33]:
array = model.get_word_vector("한국") - model.get_word_vector("서울") + model.get_word_vector("도쿄")

In [39]:
model

<fasttext.FastText._FastText at 0x20f98e86188>

In [64]:
model

array([-0.14611626, -0.01621023,  0.01903511,  0.02962443,  0.01624297,
       -0.09618955, -0.15415958, -0.03323527, -0.06980585, -0.02150374,
       -0.05566195, -0.04968221,  0.06681278, -0.12751429, -0.01174389,
       -0.06715393,  0.03407922,  0.00733754,  0.07310134,  0.08389422,
       -0.01361466, -0.11672994,  0.0322118 ,  0.02135915,  0.05110433,
        0.00962487, -0.13595591, -0.06638823, -0.05038622, -0.0356696 ,
        0.08985589, -0.01120962,  0.03992796,  0.05014847, -0.00021282,
        0.05258455, -0.03264805,  0.05684883, -0.0515701 , -0.00328654,
        0.07002423, -0.00059311, -0.09263798,  0.00605734,  0.08439884,
       -0.10955266, -0.02294063, -0.02506508, -0.12513395,  0.06198175,
       -0.14579593,  0.02518399, -0.06459211,  0.07762942,  0.11503398,
       -0.1370856 ,  0.05565992, -0.08337105, -0.01067462, -0.06143223,
       -0.04036436, -0.02084969, -0.06245148,  0.09009117,  0.07931037,
        0.07712352,  0.15380679, -0.03900255, -0.07398573,  0.02

In [None]:
#모든게 잘되어있는데 한가지 아쉬운게 있습니다. 다른게 아니고 지하철에서 올라올때 표지판이 혼란을줍니다. 충남쪽방향 모두를 호남선으로 표기해놓아서 혼란이 많다는 지적들을 합니다. 호남행 표지판에 충남쪽 표시를 해주시면 어떨까요! 작은배려가 큰 고마움과 감사한 마음을 가지기 때문입니다. 참고해주시면 감사하겠습니다.