# 우리는 매일 '검색'을 한다.
- 검색 서비스를 가지는 회사는 검색 품질이 회사의 매출을 결정할 만큼 '**검색**'은 매우 중요하다.
- `검색어 자동완성`의 목적은 방대한 데이터 중에서 사용자가 원하는 데이터와 지식을 제공하는 데 있다.
> - 검색은 사용자에게 주도권이, 추천은 시스템에게서 주도권이 있다. 
> - 검색과 추천 시스템은 기술적으로 보면 공통되는 부분이 많고, 독립적으로 구성되는 것이 아닌 서로 상호작용하며 동작한다. 예를 들어, 검색 결과에 소량의 추천 결과를 포함시킬 수 있고, 검색 결과가 아예 없으면 추천 결과를 대신해서 보여줄 수도 있다.
> - https://gritmind.blog/2021/03/27/search_nlp/

# 검색어 자동완성이 왜 중요할까?
- 사용자가 작성하는 검색어(쿼리)는 불완전하다.
> - 오타가 있거나, 찾고자 하는 것에 대한 이해가 부족해서 (안다고 해도) 텍스트로 표현을 잘 못하는 경우가 많다.
> - 그러므로 검색어(쿼리)를 보완할 필요가 있다.
- 언어처리는 사람의 손이 많이 가는 작업이다.
> - 최대한 자동화할 수 있는 기술이 필요하다.
- 사용자는 인내심이 없다. 
> - 특별한 이유가 아니면 다음 검색 페이지로 잘 넘기지 않는다. 검색 품질은 생명이다.


# 검색어 자동완성 기능이란 무엇인가?
- 단어 자동완성 기능은 `사용자가 어떤 단어를 입력하고 있을 때 그 단어의 나머지 부분이나 문장이 자동으로 제안(입력x)되는 기능`이다. (자동완성검색어 ≠ 연관검색어 ?)
- 단어 자동완성 기능은 웹 브라우져의 URL 입력, 이메일 클라이언트의 주소 입력, 검색엔진의 질의어 추천, 소스코드 편집기의 코드추천, 스마트폰의 텍스트 입력 등에 광범위하게 사용되고 있는 기능이다.
> - https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO201525249160709&dbt=NART
> - https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=naver_search&logNo=221251180447
> - https://journal.kiso.or.kr/?p=25

# 구현 방법1- suggestion 라이브러리
- suggestion 라이브러리 소개
> - https://pypi.org/project/suggestion/
> - https://news.knowledia.com/US/en/articles/pyrustic-suggestion-1e4b82fd87639ad7d3c0465121dc68fcd4b9f0e3
> - https://github.com/pyrustic/suggestion
- tkinter 기능 소개
> - https://wikidocs.net/132610
> - https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=infoefficien&logNo=221057243324
> - https://076923.github.io/posts/Python-tkinter-18/
> - https://wikidocs.net/132610
- 
Designing Search: As-You-Type Suggestions
> - https://uxmag.com/articles/designing-search-as-you-type-suggestions

In [75]:
import pandas as pd

In [76]:
df = pd.read_csv('../0_data/(오류삭제)클릭데이터.csv')
df.shape

(14651450, 5)

In [77]:
df.head()

Unnamed: 0,id,create_date,search,photo_card_id,user_id
0,1,2021-08-23 08:47:23.315235,,12644,20918.0
1,2,2021-08-23 08:47:23.466387,세븐틴 우지 real,3827,
2,3,2021-08-23 08:47:25.692937,,12723,
3,4,2021-08-23 08:47:27.725859,,12981,20918.0
4,5,2021-08-23 08:47:31.262730,,12366,16869.0


In [78]:
df_search = df[['search']]  ## search 컬럼만 뽑기
df_search = df_search.dropna()  ## nan 값 제거
df_search = df_search.drop_duplicates()  ## 중복 제거
df_search.reset_index(drop= True, inplace= True)  ## 인덱스 리셋

In [79]:
# 데이터프레임을 텍스트(txt) 파일로 변환
df_search.to_csv('search_list_2.txt', sep= '\n', index= False, header= None, \
                 encoding= 'utf-8')

In [None]:
import tkinter as tk
from suggestion import Suggestion

# the dataset
DATASET = open("search_list_2.txt", 'rt', encoding= 'utf-8')

# root
root = tk.Tk()
root.title("Infludeo search demo | built with Pyrustic")

# text field (it works with tk.Entry too!)
text_field = tk.Text(root)
text_field.pack()

# Suggestion
suggestion = Suggestion(text_field, dataset=DATASET)

# lift off !
root.mainloop()

## GIF 

In [25]:
import os
from PIL import Image
from IPython.display import Image as Img
from IPython.display import display

In [11]:
def generate_gif(path):
    img_list = os.listdir(path)
    img_list = [path + '/' + x for x in img_list]
    images = [Image.open(x) for x in img_list]
    
    im = images[0]
    im.save('out.gif', save_all=True, append_images=images[1:],loop=0xff, duration=500)
    # loop 반복 횟수
    # duration 프레임 전환 속도 (500 = 0.5초)
    return Img(url='out.gif')

In [14]:
gif = generate_gif('../11_gif')

In [15]:
display(gif)

## MP4

In [119]:
def show_video_in_jupyter_nb(width, height, video_url):
    from IPython.display import HTML
    return HTML("""<video width="{}" height="{}" controls>
    <source src={} type="video/mp4">
    </video>""".format(width, height, video_url))
video_url = '../11_gif/suggestion_demo_v1.mp4'
show_video_in_jupyter_nb(200, 150,video_url)

## 원리
- suggestion은 자동 완성 또는 자동 제안 기능으로 애플리케이션을 구동하는 데 필요한 라이브러리로, Pyrustic Open Ecosystem의 일부이다.
> - Pyrustic은 동일한 정책을 공유하는 경량 Python 프로젝트 모음이다.
> - Pyrustic은 GUI, 테마, 위젯 등 다양한 
- 입력값과 일치하는 검색어 리스트가 출력된다.
> 이때 검색어 리스트는 저장된 단어 순서대로 출력된다.

## 한계점
1. 한글로 쓴 검색어를 선택하면, 입력값의 마지막 글자가 반복되어 출력된다.
2. 한글 검색어의 경우, 검색어 리스트의 출력 속도가 느리다.

# 구현 방법2- collections 메소드

In [27]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import urllib.request
import time
import tensorflow_datasets as tfds
import tensorflow as tf
from os.path import join
import os
import re

In [28]:
BASE_DIR = 'C:/Infludeo'
data_path= join(BASE_DIR,'0_data/')

In [30]:
click_df = pd.read_csv(data_path+'(오류삭제)클릭데이터.csv')
click_df.shape

(14651450, 5)

In [31]:
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

In [32]:
# 데이터 준비
def preparing_data(click_df):
    # search 컬럼만 추출하여, 데이터 합치기
    click_search = click_df[['search']]
    
    # search 컬럼에서 NaN 값 제거
    total=click_search[~click_search['search'].isnull()]  ## 11,732,793 행
    total.reset_index(inplace=True)

    def text_cleaning(text):
        special = re.compile(r'[^ A-Za-z0-9가-힣+]')
        result=special.sub('', text)
        return result
    total['clean_search'] = total['search'].apply(lambda x: text_cleaning(x))
    del total['search']
    
    # 데이터프레임을 리스트로 변환
    words_list = total['clean_search'].values.tolist()
    
    return words_list  

In [34]:
from typing import List
from collections import Counter

def my_search_filter(words_list: List[str], input_str: str) -> List[str]:
#     print("word_list", words_list)
    print("search input", input_str)
    return list(filter(lambda text: text.replace(' ', '').lower().startswith(input_str.replace(' ', '').lower()), words_list))

if __name__ == '__main__':  # 프로그램의 시작점일 때만 아래 코드 실행
    import time  
    temp_list = [_[0] for _ in Counter(preparing_data(click_df)).most_common()]
    text_input = input()
    
    start_time = time.time()
    
    # 작업 코드
    # 입력 받은 값과 첫 단어부터 일치하는 단어를 빈도수가 높은 기준으로 상위 10개만 출력
    print(my_search_filter(temp_list, text_input)[:10])
    
    end_time = time.time()

    print('코드 실행 시간: %20ds' % (end_time - start_time))
    print('코드 실행 시간:', (end_time - start_time))

엔시티
search input 엔시티
['엔시티 재현', '엔시티 지성', '엔시티 정우', '엔시티 도영', '엔시티 마크', '엔시티', '엔시티 해찬', '엔시티 제노', '엔시티 런쥔', '엔시티 재민']
코드 실행 시간:                    0s
코드 실행 시간: 0.2066805362701416


## MP4

In [40]:
def show_video_in_jupyter_nb(width, height, video_url):
    from IPython.display import HTML
    return HTML("""<video width="{}" height="{}" controls>
    <source src={} type="video/mp4">
    </video>""".format(width, height, video_url))
video_url = '../11_gif/PyQt5_demo_v1.mp4'
show_video_in_jupyter_nb(300, 200,video_url)

## 원리
- 기존 검색어 리스트를 빈도순으로 저장한다. 즉, 모든 단어를 빈도수 많은 순서대로 추천 단어 리스트를 생성한다.
> - 미리 만들어진 리스트 안 단어들의 내용을 분석해 (중복 단어) 가장 빈도수가 높은 단어를 우선 표시해주는 기능이다.
> - collections 모듈의 Counter 클래스는 컨테이너안의 데이터를 편리하고 빠르게 개수를 세도록 지원하는 계수기 도구이다. (https://docs.python.org/ko/3/library/collections.html#collections.Counter)
> - most_common() : 데이터 개수가 많은 순으로 `정렬된 튜플 배열 리스트`를 리턴
> - Counter() : 문자열이나, list 의 요소를 카운팅하여 데이터의 개수가 많은 순으로 딕셔너리형태로 리턴
- 입력값과 일치하는 검색어 리스트가 출력된다.
- 한글로 입력해도 한글 단어가 중복으로 입력되지 않는다.

## 한계점
- 오류값을 입력할 경우에는 검색어 리스트가 출력되지 않는다.

# 구현 방법3- trie 알고리즘


In [66]:
from tqdm.notebook import tqdm

In [67]:
class Node(object):
    def __init__(self, key, data=None):
        self.key = key
        self.data = data
        self.children = {}

In [68]:
class Trie:
    def __init__(self):
        self.head = Node(None)

    def insert(self, string):
        current_node = self.head

        for char in string:
            if char not in current_node.children:
                current_node.children[char] = Node(char)
            current_node = current_node.children[char]
        current_node.data = string

    def search(self, string):
        current_node = self.head

        for char in string:
            if char in current_node.children:
                current_node = current_node.children[char]
            else:
                return False

        if current_node.data:
            return True
        else:
            return False

    def starts_with(self, prefix):
        current_node = self.head
        words = []

        for p in prefix:
            if p in current_node.children:
                current_node = current_node.children[p]
            else:
                return None

        current_node = [current_node]
        next_node = []
        while True:
            for node in current_node:
                if node.data:
                    words.append(node.data)
                next_node.extend(list(node.children.values()))
            if len(next_node) != 0:
                current_node = next_node
                next_node = []
            else:
                break

        return words

In [45]:
trie = Trie()

for word in tqdm(preparing_data(df)):  ## 클릭 데이터 이용
    trie.insert(word)

  0%|          | 0/11732793 [00:00<?, ?it/s]

In [109]:
start_time = time.time()

print(trie.starts_with("nct")[:10])

end_time = time.time()

print('코드 실행 시간:', (end_time - start_time))

['nct', 'nct ', 'nct 제', 'nct 쿤', 'nct 쇼', 'nct 맛', 'nct 붐', 'nct 유', 'nct 텐', 'nct  ']
코드 실행 시간: 0.05998682975769043


In [110]:
start_time = time.time()

print(trie.starts_with("NCT")[:10])

end_time = time.time()

print('코드 실행 시간:', (end_time - start_time))

['NCT', 'NCT ', 'NCTU', 'NCT 제', 'NCT 정', 'NCT 윈', 'NCT 마', 'NCT 런', 'NCT 태', 'NCT 재']
코드 실행 시간: 0.2771134376525879


In [111]:
start_time = time.time()

print(trie.starts_with("스테이")[:10])

end_time = time.time()

print('코드 실행 시간:', (end_time - start_time))

['스테이', '스테이씨', '스테이지', '스테이씨윤', '스테이 윤', '스테이 한', '스테이씨 수', '스테이씨 윤', '스테이씨 재', '스테이씨 세']
코드 실행 시간: 0.005080461502075195


## MP4

In [74]:
def show_video_in_jupyter_nb(width, height, video_url):
    from IPython.display import HTML
    return HTML("""<video width="{}" height="{}" controls>
    <source src={} type="video/mp4">
    </video>""".format(width, height, video_url))
video_url = '../11_gif/Trie_demo_v1.mp4'
show_video_in_jupyter_nb(300, 200,video_url)

## 원리
- Trie(트라이)의 아이디어는 낱말을 하나 하나 글자로 쪼개어 트리로 저장한다.
> - 이때 저장되는 문자열형 데이터의 대소관계는 사전식 순서에 의해 결정된다.
> - 즉, `알파벳 → 한글` 순이며 한글은 `자음 → 모음` 순
- 트라이 자료구조에 기반한 시스템은 먼저 어휘사전에 있는 모든 어휘로 구성된 탐색트리를 만든다. 그런 후에 사용자의 키입력으로부터 생성 가능한 모든 어휘를 빠르게 탐색하고 어휘 가중치에 따라 추천 단어열을 만들어 낸다. 트라이 자료구조는 탐색알고리즘의 복잡도가 낮고, 트리를 만드는 데 걸리는 시간이 짧은 특성이 있다.

## 한계점
- 리스트에 없는 단어는 출력되지 않는다.

# 개선할 점
1. `오타가 나도` 결과가 나올 수 있도록, `초성만 입력해도` 원하는 키워드를 찾을 수 있도록, `영어로 입력해도` 자동완성 검색을 구현할 수 있도록
> - **검색엔진을 고도화**하고 싶다.\
> 예를 들어, `엘라스틱 서치(Elasticsearch)`를 통해 다양한 유형의 검색을 수행하고 결합할 수 있도록 구현해보고 싶다.

2. 검색어와 함께 `사용자 분석, 추천 서비스를 결합`하여 
> - **사용자 경험을 높이고** 싶다.\
> 예를 들어 검색 사용자의 행동로그를 구축하여 `유사 검색어`로도 정확한 검색이 가능한 수준의 검색엔진을 구현해보고 싶다.

3. 시간의 경과에 따른 검색어 자동완성 리스트, 즉 `인기 검색어`를 구현해보고 싶다.
> https://ko.martech.zone/python-script-google-autosuggest-trends-export-csv/

- 사용자 행동 패턴, 히스토리 정보 등을 모델링하고, 단순한 검색을 넘어 의사결정(decision-making)이 가능한 똑똑한 검색 시스템을 구현하고 싶다.
- 참고: https://fastcampus.co.kr/data_red_jhw/?utm_source=google&utm_medium=cpc&utm_campaign=hq%5E210907%5E204824&utm_content=%EC%B6%94%EC%B2%9C%EC%8B%9C%EC%8A%A4%ED%85%9C&utm_term=&gclid=CjwKCAjwjZmTBhB4EiwAynRmD0I_vpcK80faRpaFul8IeAZ0-mqC1tKY-0d-qOs_FaAFRk-BoiMTXBoCPIEQAvD_BwE