In [25]:
import operator

def preprocess(sentence):
    # 대소문자 구분을 없애기 위해 각 문장을 소문자로 변환 후 공백 기준으로 나눈 리스트 반환
    preprocessed_sentence = sentence.lower().strip().split()
    return preprocessed_sentence

def indexing(file_name):
    file_token_pairs = []
    # 파일의 모든 문장의 리스트를 lines에 저장
    lines = open(file_name, "r", encoding="utf8").readlines()
    # 각 문장의 단어의 집합들을 file_token_pairs에 저장
    for line in lines:
        tokens = preprocess(line)
        file_token_pairs.append(set(tokens))
    # 원본 문장 리스트와 토큰 쌍 리스트를 반환
    return lines, file_token_pairs

def calc_similarity(preprocessed_query, preprocessed_sentences):
    score_dict = {}
    for i, file_token_set in enumerate(preprocessed_sentences):
        all_tokens = preprocessed_query | file_token_set
        same_tokens = preprocessed_query & file_token_set
        similarity = len(same_tokens) / len(all_tokens)
        score_dict[i] = similarity
    return score_dict

# 1. Indexing
## https://github.com/jungyeul/korean-parallel-corpora
file_name = "./test/jhe-koen-dev.txt"
# 원본 문장과 각 문장의 단어의 집합들을 저장
sentences, file_tokens_pairs = indexing(file_name)


# 2. Input the query
# 쿼리 문장의 단어들의 집합을 query_token_set에 저장
query = input("영어 쿼리를 입력하세요.")
preprocessed_query = preprocess(query)
query_token_set = set(preprocessed_query)

# 3. Calculate similarities based on a same token set
score_dict = calc_similarity(query_token_set, file_tokens_pairs)

# 4. Sort the similarity list
# score_dict.items()의 각 원소의 2번째 원소(value값 = 유사도 점수)를 기준으로 내림차순 정렬
sorted_score_list = sorted(score_dict.items(), key = operator.itemgetter(1), reverse=True)

# 5. Print the result
# 가장 큰 유사도가 0이면(유사한 문장이 없으면) 문구 출력
if sorted_score_list[0][1] == 0.0:
    print("There is no similar sentence.")
# 유사도가 높은 순서대로 10개 문장 출력
else:
    print("rank", "Index", "score", "sentence", sep = "\t")
    rank = 1
    for i, score  in sorted_score_list:
        print(rank, i, score, sentences[i], sep = "\t")
        if rank == 10:
            break
        rank = rank + 1

영어 쿼리를 입력하세요. Hello!


There is no similar sentence.


In [15]:
print(*file_tokens_pairs[:5], sep='\n')

{"you'll", 'farm', 'all', 'the', 'and', 'be', 'helping', 'generally', 'usual', 'picking', 'us', 'do', 'fruit', 'work.'}
{'with', 'filled', 'garbage.', 'the', 'and', 'cities', 'clean,', 'in', 'were', 'streets', 'ages,', 'not', 'middle', 'very'}
{'up', 'may', 'with', 'progressive', 'they', 'yet', 'moment', 'sooner', 'the', 'will', 'but', 'behind', 'or', 'later', 'be', 'apron', 'their', 'for', 'catch', 'society', 'world.', 'strings,', 'hiding'}
{'minister.', 'you', 'the', 'said', 'answered?"', 'what', 'cow', 'know', 'do'}
{'poland', 'may', 'different', 'countries.', 'and', 'italy', 'like', 'seem', 'very'}


In [16]:
# 2. Input the query
# 쿼리 문장의 단어들의 집합을 query_token_set에 저장
query = input("영어 쿼리를 입력하세요.")
preprocessed_query = preprocess(query)
query_token_set = set(preprocessed_query)
print(query_token_set)

영어 쿼리를 입력하세요. My name is Yeonwoo


{'yeonwoo', 'my', 'name', 'is'}


In [22]:
print(*list(score_dict.items())[:25], sep='\n')

(0, 0.0)
(1, 0.0)
(2, 0.0)
(3, 0.0)
(4, 0.0)
(5, 0.0)
(6, 0.0)
(7, 0.0)
(8, 0.0)
(9, 0.0)
(10, 0.0)
(11, 0.0)
(12, 0.0)
(13, 0.0)
(14, 0.0)
(15, 0.0)
(16, 0.0)
(17, 0.1)
(18, 0.0)
(19, 0.0)
(20, 0.08333333333333333)
(21, 0.043478260869565216)
(22, 0.0)
(23, 0.0625)
(24, 0.058823529411764705)


In [23]:
print(*sorted_score_list[:15], sep='\n')

(679, 0.6)
(526, 0.3333333333333333)
(538, 0.3333333333333333)
(453, 0.2857142857142857)
(241, 0.25)
(336, 0.25)
(212, 0.2222222222222222)
(505, 0.2)
(190, 0.16666666666666666)
(314, 0.16666666666666666)
(610, 0.16666666666666666)
(710, 0.16666666666666666)
(45, 0.125)
(107, 0.125)
(293, 0.125)
