In [None]:
#===========================================================================================
# ElasticSearch 텍스트 임베딩 테스트 예제
# 
# =>ElasticSearch 7.3.0 버전부터는 cosine similarity 검색을 지원한다.
# => 데이터로 고차원벡터를 집어넣고, 벡터형식의 데이터를 쿼리(검색어)로 하여 
# 코사인 유사도를 측정하여 가장 유사한 데이터를 찾는다.
# => 여기서는 ElasticSearch와 S-BERT를 이용함
# => ElasticSearch에 index 파일은 index_1.json /데이터 파일은 KorQuAD_v1.0_train_convert.json 참조
#
# => 참고자료 : https://skagh.tistory.com/32
#
# => 참고로 여기서는 title_vector 만 구함, paragrapha_vector는 cpu에서는 엄청 오래 걸려서 주석처리하였음
#===========================================================================================

# sentenceTransformers 라이브러리 설치
#!pip install -U sentence-transformers

# elasticsearch 서버 접속 모듈 설치
# !pip install elasticsearch

# 한국어 문장 분리기(kss) 설치
#!pip install kss

In [1]:
import torch
from sentence_transformers import SentenceTransformer, util
import kss, numpy
import json
from elasticsearch import Elasticsearch
from elasticsearch.helpers import bulk
from tqdm.notebook import tqdm

from elasticsearch import Elasticsearch
from elasticsearch import helpers

# elastic 서버 접속 테스트
#es = Elasticsearch("https://192.168.0.91:9200/", verify_certs=False)
#es = Elasticsearch("http://192.168.0.130:9200/")
#es.info()

device = torch.device('cpu')

In [2]:
# s-bert 모델 테스트
sbert_model_path = 'F:\\AI\\model\\sbert-ts2022-04-01-distiluse-7'

# cpu 모델로 실행할때는 device=cpu, 기본은 GPU임
embedder = SentenceTransformer(sbert_model_path, device=device)

text = '나는 오늘 밥을 먹는다.'
vectors = embedder.encode(text, convert_to_tensor=True)
vector_list = [vector.numpy().tolist() for vector in vectors]

print(f'vector_len:{len(vector_list)}')


vector_len:768


In [3]:
# 인덱싱 함수 
def index_data():
    es.indices.delete(index=INDEX_NAME, ignore=[404])
    
    count = 0
        
    # 인덱스 생성
    with open(INDEX_FILE) as index_file:
        source = index_file.read().strip()
      
        count += 1
        print(f'{count}:{source}')
      
        es.indices.create(index=INDEX_NAME, body=source)
        
    count = 0
    
    # DATA 추기
    with open(DATA_FILE) as data_file:
        for line in data_file:
            line = line.strip()
            
            json_data = json.loads(line)
            docs = []
            
            for j in tqdm(json_data):
                count += 1
                
                docs.append(j)
                if count % BATCH_SIZE == 0:
                    index_batch(docs)
                    docs = []
                    print("Indexed {} documents.".format(count))
                  
                # ** 500 개만 보냄
                #if count >= 500:
                #    break
                    
            if docs:
                index_batch(docs)
                print("Indexed {} documents.".format(count))
                    
    es.indices.refresh(index=INDEX_NAME)
    print("=== End Done indexing===")
    
    
# 문단(paragraph)들 분리
# 문장으로 나누고, 해당 vector들의 평균을 구함.
# =>굳이 elasticsearch에 문단 벡터는 추가하지 않고, title 벡터만 이용해도 되므로 주석처리함
'''
def paragraph_index(paragraph):
    avg_paragraph_vec = numpy.zeros((1,768))
    sent_count = 0
    
    #print(paragraph)
    # kss로 분할할때 줄바꿈 있으면, 파싱하는데 에러남.따라서 "\n"는 제거함
    paragraph = paragraph.replace("\n","")
    
    #print("==Start paragraph_index==")
    for sent in kss.split_sentences(paragraph):
        # 문장으로 나누고, 해당 vector들의 평균을 구함.
        avg_paragraph_vec += embed_text([sent])
        sent_count += 1
            
    avg_paragraph_vec /= sent_count
    return avg_paragraph_vec.ravel(order='C')
'''

def index_batch(docs):
   
    titles = [doc["title"] for doc in docs]
    title_vectors = embed_text(titles)
    
    # 문장이 길면 분할해서 embedding을 구해야 하는데, 여기서는 분할하지 않고 embedding을 구함
    paragraphs = [doc["paragraph"] for doc in docs]
    paragraph_vectors = embed_text(paragraphs)
    
    # * cpu로 문단은 임베딩하는데 너무 오래 걸리므로 주석처리함
    #paragraph_vectors = [paragraph_index(doc["paragraph"]) for doc in tqdm(docs)]
    requests = []
    
    for i, doc in enumerate(tqdm(docs)):
        request = doc
        request["_op_type"] = "index"
        request["_index"] = INDEX_NAME
        request["title_vector"] = title_vectors[i]
        request["paragraph_vector"] = paragraph_vectors[i]
        #request["paragraph_vector"] = paragraph_vectors[i]  # * cpu로 문단은 임베딩하는데 너무 오래 걸리므로 주석처리함
        requests.append(request)
        
    # batch 단위로 한꺼번에 es에 데이터 insert 시킴     
    bulk(es, requests)
    
# embedding 모델에서 vector를 구함    
def embed_text(input):
    vectors =  embedder.encode(input, convert_to_tensor=True)
    return [vector.numpy().tolist() for vector in vectors]
          

In [5]:
#======================================================================================
# ElasticSearch(이하:ES) 데이터 인텍싱
# - ElasticSearch(이하:ES)에 KorQuAD_v1.0_train_convert.json 파일에 vector값을 구하여 index 함
#
# => index 명 : korquad
# => index 구조 : index_1.json 파일 참조
# => BATCH_SIZE : 100 => 100개의 vector값을 구하여, 한꺼번에 ES에 인텍스 데이터를 추가함.
#======================================================================================
INDEX_NAME = 'korquad'
INDEX_FILE = './data/index.json'
DATA_FILE = './data/KorQuAD_v1.0_train_convert.json'
BATCH_SIZE = 100

# 1. elasticsearch 접속
es = Elasticsearch("http://192.168.0.130:9200/")
print(es.info())

# 2. index 처리
index_data()

{'name': 'lenovo-x240', 'cluster_name': 'mpower', 'cluster_uuid': 'JJ1h3dNTRvSLJFW3gj5MCw', 'version': {'number': '7.17.3', 'build_flavor': 'default', 'build_type': 'zip', 'build_hash': '5ad023604c8d7416c9eb6c0eadb62b14e766caff', 'build_date': '2022-04-19T08:11:19.070913226Z', 'build_snapshot': False, 'lucene_version': '8.11.1', 'minimum_wire_compatibility_version': '6.8.0', 'minimum_index_compatibility_version': '6.0.0-beta1'}, 'tagline': 'You Know, for Search'}
1:{
  "settings": {
    "number_of_shards": 2,
    "number_of_replicas": 1
  },
   "mappings": {
    "dynamic": "true",
    "_source": {
      "enabled": "true"
    },
    "properties": {
      "title": {
        "type": "text"
      },
	  "paragraph": {
        "type": "text"
      },
      "title_vector": {
        "type": "dense_vector",
        "dims": 768
      },
	  "paragraph_vector": {
        "type": "dense_vector",
        "dims": 768
      }
    }
  }
}


  0%|          | 0/1420 [00:00<?, ?it/s]

  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 100 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 200 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 300 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 400 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 500 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 600 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 700 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 800 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 900 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 1000 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 1100 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 1200 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 1300 documents.


  0%|          | 0/100 [00:00<?, ?it/s]

Indexed 1400 documents.


  0%|          | 0/20 [00:00<?, ?it/s]

Indexed 1420 documents.
=== End Done indexing===


In [None]:
# kibana 콘솔창에 접속해서 계수 확인
# http://192.168.0.130:5601/app/dev_tools 에 접속해서 해야함

# GET korquad/_count

In [22]:
# 검색 하기

import time
from elasticsearch import Elasticsearch

def run_query_loop():
    while True:
        try:
            handle_query()
        except KeyboardInterrupt:
            return
        
def handle_query():
    
    query = input("검색어 입력: ")
    
    start_embedding_time = time.time()
    query_vector = embed_text([query])[0]
    end_embedding_time = time.time() - start_embedding_time
    
    # 쿼리 구성
    script_query = {
        "script_score":{
            "query":{
                "match_all": {}},
            "script":{
                "source": "cosineSimilarity(params.query_vector, doc['paragraph_vector']) + 1.0",  # 뒤에 1.0 은 코사인유사도 측정된 값 + 1.0을 더해준 출력이 나옴
                "params": {"query_vector": query_vector}
            }
        }
    }
    
    #print('query\n')
    #print(script_query)
    
    # 실제 ES로 검색 쿼리 날림
    start_search_time = time.time()
    response = es.search(
        index=INDEX_NAME,
        body={
            "size": SEARCH_SIZE,
            "query": script_query,
            "_source":{"includes": ["title", "paragraph"]}
        }
    )
    end_search_time = time.time() - start_search_time
    
    print("{} total hits.".format(response["hits"]["total"]["value"])) 
    print("embedding time: {:.2f} ms".format(end_embedding_time * 1000)) 
    print("search time: {:.2f} ms".format(end_search_time * 1000)) 
    print('\n')
    
    # 쿼리 응답 결과값에서 _id, _score, _source 등을 뽑아냄
    #print(response)
    
    for hit in response["hits"]["hits"]: 
        
        print("index:{}, type:{}".format(hit["_index"], hit["_type"]))
        print("id: {}, score: {}".format(hit["_id"], hit["_score"])) 
        
        print(f'[제목] {hit["_source"]["title"]}')
        
        print('[내용]')
        print(hit["_source"]["paragraph"]) 
        
        print()
    

In [None]:
#====================================================================
# ES 인덱싱된 내용 검색 
# => cosineSimilarity 스크립트를 이용하여 ES로 query 함(*이때 SEARCH_SIZE를 몇개로 할지 지정할수 있음)
# => 쿼리 응답 결과 값에서 _id, _score, _source 등을 뽑아냄
#====================================================================

INDEX_NAME = 'korquad'
SEARCH_SIZE = 3

# 1. elasticsearch 접속
es = Elasticsearch("http://192.168.0.130:9200/")
print(es.info)

# 2. query 처리
run_query_loop()

<bound method Elasticsearch.info of <Elasticsearch([{'host': '192.168.0.130', 'port': 9200}])>>


검색어 입력:  한국 영화 추천


1420 total hits.
embedding time: 21.99 ms
search time: 31.99 ms


index:korquad, type:_doc
id: 3_Fmz4AB7rHLuQj1t6ui, score: 1.3586812
[제목] 한류_(문화)
[내용]
한류 (韓流, 영어: Korean Wave, 스페인어: ola coreana, 말레이어: Gelombang Korea, 터키어: Kore Dalgası, 러시아어: Корейская волна, 독일어: Koreanische Welle, 태국어: กระแสเกาหลี, 타갈로그어: Along Koreano, 베트남어: Làn sóng Hàn Quốc, 우크라이나어: Корейська хвиля)는 대한민국의 대중문화를 포함한 한국과 관련된 것들이 대한민국 이외의 나라에서 인기를 얻는 현상을 뜻한다. ‘한류’라는 단어는 1990년대에 대한민국 문화의 영향력이 타국에서 급성장함에 따라 등장한 신조어이다. 초기 한류는 아시아 지역에서 주로 드라마를 통해 발현되었으며 이후 K-POP으로 분야가 확장되었다. 2010년대에 들어서는 동아시아를 넘어 중동 (북아프리카 포함), 라틴 아메리카 (중남미), 동유럽, 러시아, 중앙아시아 지역으로 넓어졌으며, 최근에는 북아메리카 (북미)와 서유럽 그리고 오세아니아 지역으로 급속히 확산되고 있다.
1987년 6·29 선언으로 인해 대한민국에 민주주의가 들어서기 시작하면서 대중들은 대중문화에 대해 더 많은 관심을 가지기 시작했다. 이와 함께 SBS를 포함한 여러 케이블 TV, 위성방송 채널 등이 개국하면서 본격적인 상업 방송이 활성화되었고, 이는 곧 방송 환경의 발달로 이어졌다. 방송 환경의 발달은 대기업 자본의 문화 산업 참여를 유도했고, 그 결과 체계적인 생산 과정의 도입 등 문화 콘텐츠의 질을 높이는 여러 변화가 일어났다. 이 과정에서 대한민국의 문화 산업에는 ‘기획’이라는 개념이 본격적으로 자리 잡기 시작했는데, 그 예로 1990년대에 설립된 기획 영화 제작사