## search_engine

In [5]:
import operator

def lower_case(early_sentence) : #입력 : 초기 검색 쿼리 or 초기 검색 대상의 각 문장
    lower_sentence = ''.join(early_sentence).lower()
    return lower_sentence
    #반환 : 소문자화된 검색 쿼리 or 문장

def preprocess(sentence) : #입력 : 소문자화된 검색 쿼리 or 검색 대상의 각 문장
    preprocessed_sentence = sentence.strip().split(" ") #토큰화 : 공백을 기준으로 문장 분할
    return preprocessed_sentence 
    #반환 : 토큰화된 검색 쿼리 or 문장 (=쿼리와 문장 내 토큰 집합)
    #쿼리는 바로 여기로 들어와서 토큰화해서 나가기
    
def indexing(file_name) : #입력 : 검색 대상 파일의 이름, 경로
    file_tokens_pairs = [] #반환할 토큰 리스트 생성
    for line in lines : #파일에 들어있는 문장 수만큼 반복문 실행
        lower_line = lower_case(line) #소문자화하는 함수 호출
        tokens = preprocess(lower_line) #토큰화하는 함수 호출
        file_tokens_pairs.append(tokens) #전처리된 문장을 토큰 리스트에 추가
    return file_tokens_pairs
    #반환 : 파일 내 각 문장에 대한 토큰 리스트
    #search target은 여기서 반복문 실행을 통해 한 문장씩 인덱싱하고 바깥에서 토큰화해서 다시 들어와서 저장됨
    
def calc_similarity(preprocessed_query, preprocessed_sentences) :
    #입력 : 전처리된 검색 쿼리와 전처리된 검색 대상 문장
    score_dict = {} #유사도 점수 저장할 딕셔너리 생성
    for i in range(len(file_tokens_pairs)): #파일 내에 있는 문장 수 만큼 반복문 실행 
        file_token_set = set(file_tokens_pairs[i]) #파일 내 각 문장에 대한 토큰 리스트를 집합으로 변경
        all_tokens = query_token_set | file_token_set #all_tokens = 두 집합의 합집합
        same_tokens = query_token_set & file_token_set #same_tokens = 두 집합의 교집합 
        similarity = len(same_tokens) / len(all_tokens) #유사도 계산하기 (유사도=같은 토큰 수/전체 토큰 수)
        score_dict[i] = similarity #계산한 유사도를 딕셔너리에 담기
    return score_dict
    #반환 : 파일 인덱스 및 쿼리와 문장의 유사도 점수를 가지는 dictionary


'''순서
#데이터 소스 -> preprocessing -> indexing -> index -> 유사도 계산
#쿼리 입력받기 -> preprocessing -> preprocessed query -> 유사도 계산
# => 순차정렬 -> 상위 10개 출력
'''  
    
# 1. Indexing
file_name = "jhe-koen-dev.en" #search target이 될 data source
lines = open(file_name, "r", encoding="utf8").readlines() #파일을 읽기 전용으로 열기
file_tokens_pairs = indexing(file_name)

    
# 2. Input the query
query = input("영어 쿼리를 입력하세요.") #영어 쿼리 입력받기
lower_query = lower_case(query)
preprocessed_query = preprocess(lower_query) #함수 호출->입력받은 영어 쿼리 토큰화
query_token_set = set(preprocessed_query) #토큰화한 영어 쿼리를 집합에 담기


# 3. Calculate similarities based on a same token set
score_dict = calc_similarity(query_token_set, file_tokens_pairs)
#유사도 점수 저장된 딕셔너리 반환
    
# 4. Sort the similarity list
sorted_score_list = sorted(score_dict.items(), key = operator.itemgetter(1), reverse=True)
#딕셔너리 점수대로 순차 정렬


# 5. Print the result
if sorted_score_list[0][1] == 0.0:
    print("There is no similar sentence.")
else:
    print("rank", "Index", "score", "sentence", sep = "\t")
    rank = 1 #rank 번호는 1부터 시작
    for i, score  in sorted_score_list:
        print(rank, i, score, ' '.join(file_tokens_pairs[i]), sep = "\t")
        if rank == 10:#상위 10개 문장 출력이므로 10개를 출력하면 반복문 종료
            break
        rank = rank + 1


영어 쿼리를 입력하세요.My name is Sabin
rank	Index	score	sentence
1	679	0.6	my name is mike.
2	526	0.3333333333333333	bob is my brother.
3	538	0.3333333333333333	my hobby is traveling.
4	453	0.2857142857142857	my mother is sketching them.
5	241	0.25	my father is running with so-ra.
6	336	0.25	my family is at the park.
7	212	0.2222222222222222	my sister betty is waiting for me.
8	505	0.2	my little sister annie is five years old.
9	190	0.16666666666666666	it is sunday.
10	314	0.16666666666666666	this is washington.
