In [1]:
from konlpy.tag import Okt
import gensim
import numpy as np
from scipy import spatial

model = gensim.models.Word2Vec.load('./ko/ko.bin')

index2word_set = set(model.wv.index2word)

In [2]:
def avg_feature_vector(sentence, model, num_features, index2word_set):
    words = sentence.split()
    feature_vec = np.zeros((num_features, ), dtype='float32')
    n_words = 0
    for word in words:
        if word in index2word_set:
            n_words += 1
            feature_vec = np.add(feature_vec, model[word])
    if (n_words > 0):
        feature_vec = np.divide(feature_vec, n_words)
    return feature_vec

def split_text_list(text_list, split_by):
    new_text_list = []
    for word in text_list:
        if split_by in word:
            temp = word.split(split_by)
            new_text_list.extend(temp)
        else: new_text_list.append(word)
    return new_text_list
            
def strip_text_list(text_list, remove):
    new_text_list = [word.strip(remove) for word in text_list]
    return new_text_list
    
def remove_text_list(text_list, remove_len = 10):
    new_text_list = [text for text in text_list if len(text) > remove_len]
    return new_text_list

In [3]:
# 메인 함수
def main(compare) :
    spliter = Okt()
    crop_text = []
    
    f = open("news.txt", 'r')
    crop_text = f.readlines()
    print('================================================================')
    for line in crop_text:
        print(line)
    print('================================================================\n\n\n')
    f.close()
    
    crop_text = strip_text_list(crop_text, '.') # 마침표 제거
    crop_text = split_text_list(crop_text, '.') # 마침표를 기준으로 문장 분해
    crop_text = remove_text_list(crop_text, remove_len =4) # 4글자 이하 문장 삭제
    
    best_fit = {}
    compare_words = ' '.join(spliter.nouns(compare))
    #print(compare_words)
    print('문장 1 =', compare)
    print('================================================================')
    for sentence in crop_text:
        words = ' '.join(spliter.nouns(sentence))
        print('문장 2 =', sentence)
        #print('문장에서 뽑아낸 단어 =',words)
        
        s1_afv = avg_feature_vector(compare_words, model=model, num_features=200, index2word_set=index2word_set)
        s2_afv = avg_feature_vector(words, model=model, num_features=200, index2word_set=index2word_set)
        sim = 1 - spatial.distance.cosine(s1_afv, s2_afv)
        print('유사도 =',sim)
        print('************\n')
        best_fit[sentence] = sim
    
    best_fit = sorted(best_fit.items(),key=(lambda x:x[1]), reverse = True)
    print('================================================================\n\n\n')
    print('--------------------문장 유사도 순위--------------------\n\n\n')
    for i in best_fit:
        print(i[0])
        print('유사도 :',i[1])
        print('************\n')
    
if __name__ == '__main__':
    main('미국 여행 주의보')

도널드 트럼프 미국 대통령이 1일(현지시간) 한국과 이탈리아 등 신종 코로나 감염증(코로나 19) 고위험국 여행자는 현지 탑승 전 검사에 더해 미국에 도착해서도 검사를 받을 것이라고 밝혔다. 발열 등 신종 코로나 관련 유증상자의 입국을 차단하겠다는 뜻이다. 한국 대구에 대한 여행금지 경보 발령으로 부족해 하루 만에 한국에서 출발하는 모든 여행자의 출발 전, 미 공항 입국 시 이중 검사를 지시한 것이다. 미 보건장관은 "한국에 대한 입국 제한 등 모든 옵션이 테이블 위에 남아 있다"고 말했다.

트럼프 대통령은 이날 트위터에서 "코로나바이러스: 특정 고위험국 지정 국가 출신의 여행자를 탑승 전 검사하는 조치에 더해 그들은 미국에 도착할 때도 검사를 받게 될 것"이라고 밝혔다. 이 같은 트위터에 백악관 신종 코로나 태스크포스를 이끄는 마이크 펜스 부통령과 알렉스 에이자 보건부 장관, 로버트 레드필드 질병통제센터(CDC) 국장의 트위터 계정도 함께 올렸다. 사실상 고위국 여행자의 출발 전 검사에 더해 미 공항 입국 시 추가 의료 검사를 지시한 셈이다.

케이시 밀러 펜스 부통령 대변인은 CNN 방송에 트럼프 대통령이 언급한 검사 조치에 대해 "최근 14일 중국을 방문한 적이 있는 사람들(미국인)에 대한 입국 시 검사가 이미 시행 중"이라며 "이탈리아와 한국에 이런 검사를 확대한다는 것"이라고 설명했다. "게다가 우리는 한국과 이탈리아, 필요한 경우 다른 유럽 국가에서 출국 전 검사를 시행하고 있다"고 밀러는 덧붙였다.

펜스 부통령도 전날 기자회견에서 한국 대구와 이탈리아 롬바르디아(주도 밀라노)와 베네토(베니스)주에 대한 4단계 여행 금지 경보 발령을 설명하면서 "대통령이 국무부에 이탈리아와 한국 동맹국과 이들 국가에서 미국으로 입국하는 개인들의 의료 검사를 하도록 조율하라고 지시했다"고 밝힌 바 있다.

알렉스 에이자 보건부장관도 이날 한국에 대해 현재는 미국인의 여행 금지 권고가 적절한 조치이지만 "모든 것이 항상 테이블 위에 있다"고 말했다. 중국처럼 언제든

  feature_vec = np.add(feature_vec, model[word])
