# Information Retrieval Baseline Code

## 대회 설명
Information Retrieval 경진대회에 오신 여러분 환영합니다! 🎉 <br>
본 대회에서는 과학 상식에 대한 멀터턴 질문에 대하여 RAG 기술을 활용하여 질문에 적합한 레퍼런스를 추출하고 이를 토대로 답변을 생성하는 어플리케이션을 구현해 봅니다. <br>
LLM은 GPT-3.5 버전을 이용하고, 레퍼런스 추출을 위한 검색엔진 구축은 Elasticsearch를 활용합니다.

## 데이터셋 준비
* 질문에 대한 레퍼런스로 활용될 수 있는 4272개의 과학 상식을 다루는 문서
 * Open Ko LLM Leaderboard에 들어가는 Ko-H4 데이터 중 MMLU, ARC 데이터를 기반으로 생성
 * Question과 answer를 paraphrase (question과 answer를 토대로 GPT-4 활용하여 document 생성)
 * 예시)
  ```
  수소, 산소, 질소 가스의 혼합물에서 평균 속도가 가장 빠른 분자는 수소입니다
. 수소 분자는 가장 가볍고 작은 원자로 구성되어 있기 때문에 다른 분자들보다 더 빠르게 움직>입니다. 이러한 이유로 수소 분자는 주어진 온도에서 가장 빠른 평균 속도를 가지고 있습니다. >수소 분자는 화학 반응에서도 활발하게 참여하며, 수소 연료로도 널리 사용됩니다. 따라서 수소 분자는 주어진 온도에서 평균 속도가 가장 빠른 분자입니다.
  ```

* 가상의 질문 220개
 * 과학 상식 질문 또는 일상 대화 메시지를 수동으로 생성
 * 220개 중 20개는 멀티턴 대화 형태의 질문, 20개는 일상 칫챗 대화
  * 예시)
  ```
{"eval_id": 0, "msg": [{"role": "user", "content": "나무의 분류에 대해 조사해 보기 위한 방
법은?"}], "refs": ["c63b9e3a-716f-423a-9c9b-0bcaa1b9f35d"]}
{"eval_id": 1, "msg": [{"role": "user", "content": "각 나라에서의 공교육 지출 현황에 대해 알려줘."}], "refs": ["79c93deb-fe60-4c81-8d51-cb7400a0a156"]}
{"eval_id": 2, "msg": [{"role": "user", "content": "기억 상실증 걸리면 너무 무섭겠다."}, {"role": "assistant", "content": "네 맞습니다."}, {"role": "user", "content": "어떤 원인 때
문에 발생하는지 궁금해."}], "refs": ["25de4ffd-cee4-4f27-907e-fd6b802c6ede"]}
  ```

In [1]:
cd /home/

/home


  self.shell.db['dhist'] = compress_dhist(dhist)[-100:]


In [None]:
!pwd

/home


In [3]:
# !pip install --upgrade pip

In [4]:
# 색인 대상 문서 및 평가 데이터 다운로드
#!wget https://aistages-api-public-prod.s3.amazonaws.com/app/Competitions/000291/data/data.tar.gz
#!tar -xzvf data.tar.gz

### 코드 다운로드
#!wget https://aistages-api-public-prod.s3.amazonaws.com/app/Competitions/000291/data/code.tar.gz
#!tar -xzf code.tar.gz

## 환경 설정
검색엔진을 위한 Elasitcsearch, 임베딩 생성을 위한 sentence transformers, LLM 사용을 위한 openai client 설치가 필요합니다.

In [5]:
# Elasticsearch 8.8.0 다운로드 및 압축 해제
#!wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.15.2-linux-x86_64.tar.gz
#!tar -xzf elasticsearch-8.15.2-linux-x86_64.tar.gz

In [6]:
# daemon user로 구동을 하기 위해 소유자 변경
!chown -R daemon:daemon elasticsearch-8.15.2/

In [7]:
# 코랩 노트북 환경에서 서버 구동을 위한 리소스 제한/격리를 위해 아래 명령 수행
!umount /sys/fs/cgroup

umount: /sys/fs/cgroup: must be superuser to unmount.


In [8]:
!apt install cgroup-tools

Reading package lists... Done
Building dependency tree       
Reading state information... Done
cgroup-tools is already the newest version (0.41-10).
0 upgraded, 0 newly installed, 0 to remove and 48 not upgraded.


In [9]:
# Nori 형태소 분석기 설치 확인인
!elasticsearch-8.15.2/bin/elasticsearch-plugin list analysis-nori

analysis-nori


In [10]:
# Nori 형태소 분석기 설치
#!elasticsearch-8.15.2/bin/elasticsearch-plugin install analysis-nori

In [11]:
# Elasticsearch python 패키지 설치
#!pip install elasticsearch==8.15.1

In [12]:
# OpenAI Python 패키지 설치
#!pip install openai==1.7.2
#!pip install -U openai

In [13]:
# 임베딩 생성을 위한 벡터 인코더 설치
#!pip install sentence-transformers==2.2.2
#!pip install sentence-transformers

## 검색엔진 준비 - Elasticsearch




In [14]:

# 엘라스틱서치의 데몬 인스턴스 만들기
import os
import json
import pandas as pd
from elasticsearch import Elasticsearch, helpers
from subprocess import Popen, PIPE, STDOUT

es_server = Popen(['elasticsearch-8.15.2/bin/elasticsearch'],
                  stdout=PIPE, stderr=STDOUT,
                  preexec_fn=lambda: os.setuid(1)  # as daemon
                 )

# 인스턴스를 로드하는 데 약간의 시간이 걸림
import time
for i in range(30):
    print("\r",i+1,end="")
    time.sleep(1)

 30

In [15]:
# 데몬이 구동되었는지 확인 (세개의 daemon process가 있어야 함)
!ps -ef | grep elasticsearch

daemon    389700  389586  9 09:51 ?        00:00:02 /home/elasticsearch-8.15.2/jdk/bin/java -Xms4m -Xmx64m -XX:+UseSerialGC -Dcli.name=server -Dcli.script=elasticsearch-8.15.2/bin/elasticsearch -Dcli.libs=lib/tools/server-cli -Des.path.home=/home/elasticsearch-8.15.2 -Des.path.conf=/home/elasticsearch-8.15.2/config -Des.distribution.type=tar -cp /home/elasticsearch-8.15.2/lib/*:/home/elasticsearch-8.15.2/lib/cli-launcher/* org.elasticsearch.launcher.CliToolLauncher
daemon    389761  389700 99 09:51 ?        00:00:54 /home/elasticsearch-8.15.2/jdk/bin/java -Des.networkaddress.cache.ttl=60 -Des.networkaddress.cache.negative.ttl=10 -Djava.security.manager=allow -XX:+AlwaysPreTouch -Xss1m -Djava.awt.headless=true -Dfile.encoding=UTF-8 -Djna.nosys=true -XX:-OmitStackTraceInFastThrow -Dio.netty.noUnsafe=true -Dio.netty.noKeySetOptimization=true -Dio.netty.recycler.maxCapacityPerThread=0 -Dlog4j.shutdownHookEnabled=false -Dlog4j2.disable.jmx=true -Dlog4j2.formatMsgNoLookups=true -Djava.locale

In [16]:
# 데몬 구동후 password 설정 단계 필요
# 명령 실행 후 "Please confirm that you would like to continue"에서 y 입력 필요

### 터미널 실행할 것.
# !/home/elasticsearch-8.15.2/bin/elasticsearch-setup-passwords auto -url "https://localhost:9200"

# /home/elasticsearch-8.15.0/bin/elasticsearch-reset-password -u elastic

In [17]:
es_username = 'elastic'

# 위 명령 실행 결과의 마지막 부분인 PASSWORD elastic 값으로 교체 필요
es_password = ''

# Elasticsearch client 생성
es = Elasticsearch(['https://localhost:9200'], basic_auth=(es_username, es_password), ca_certs="/home/elasticsearch-8.15.2/config/certs/http_ca.crt")

# Elasticsearch client 정보 확인
print(es.info())

{'name': 'instance-11864', 'cluster_name': 'elasticsearch', 'cluster_uuid': '_CSckQ_hR9e6NoYNQRjJ6Q', 'version': {'number': '8.15.2', 'build_flavor': 'default', 'build_type': 'tar', 'build_hash': '98adf7bf6bb69b66ab95b761c9e5aadb0bb059a3', 'build_date': '2024-09-19T10:06:03.564235954Z', 'build_snapshot': False, 'lucene_version': '9.11.1', 'minimum_wire_compatibility_version': '7.17.0', 'minimum_index_compatibility_version': '7.0.0'}, 'tagline': 'You Know, for Search'}


In [18]:
from sentence_transformers import SentenceTransformer
# model_name = "jhgan/ko-sroberta-multitask"  # 점수 낮음 0.7121
# model_name = "snunlp/KR-SBERT-Medium-extended-patent2024-hn"  # 4-1

model_name = "snunlp/KR-SBERT-V40K-klueNLI-augSTS"
# https://huggingface.co/snunlp/KR-SBERT-V40K-klueNLI-augSTS
# https://github.com/snunlp/KR-SBERT

#model_name = "snunlp/KR-BERT-char16424"

# Sentence Transformer 모델 초기화 (한국어 임베딩 생성 가능한 어떤 모델도 가능)
model = SentenceTransformer(model_name)

# SetntenceTransformer를 이용하여 임베딩 생성
def get_embedding(sentences):
    return model.encode(sentences)

# 주어진 문서의 리스트에서 배치 단위로 임베딩 생성
def get_embeddings_in_batches(docs, batch_size=100):
    batch_embeddings = []
    for i in range(0, len(docs), batch_size):
        batch = docs[i:i + batch_size]
        contents = [doc["content"] for doc in batch]
        embeddings = get_embedding(contents)
        batch_embeddings.extend(embeddings)
        print(f'batch {i}')
    return batch_embeddings

# 새로운 index 생성
def create_es_index(index, settings, mappings):
    # 인덱스가 이미 존재하는지 확인
    if es.indices.exists(index=index):
        # 인덱스가 이미 존재하면 설정을 새로운 것으로 갱신하기 위해 삭제
        es.indices.delete(index=index)
    # 지정된 설정으로 새로운 인덱스 생성
    es.indices.create(index=index, settings=settings, mappings=mappings)

# 지정된 인덱스 삭제
def delete_es_index(index):
    es.indices.delete(index=index)

# Elasticsearch 헬퍼 함수를 사용하여 대량 인덱싱 수행
def bulk_add(index, docs):
    # 대량 인덱싱 작업을 준비
    actions = [
        {
            '_index': index,
            '_source': doc
        }
        for doc in docs
    ]
    return helpers.bulk(es, actions)

# 역색인을 이용한 검색
def sparse_retrieve(query_str, size):
    query = {
        "match": {
            "content": {
                "query": query_str
            }
        }
    }
    return es.search(index="test", query=query, size=size, sort="_score")

# Vector 유사도를 이용한 검색
def dense_retrieve(query_str, size):
    # 벡터 유사도 검색에 사용할 쿼리 임베딩 가져오기
    query_embedding = get_embedding([query_str])[0]

    # KNN을 사용한 벡터 유사성 검색을 위한 매개변수 설정
    knn = {
        "field": "embeddings",
        "query_vector": query_embedding.tolist(),
        "k": size,
        "num_candidates": 100
    }

    # 지정된 인덱스에서 벡터 유사도 검색 수행
    return es.search(index="test", knn=knn)

  from tqdm.autonotebook import tqdm, trange


## setting

In [19]:
settings = {
    "analysis": {  # Elasticsearch에서 텍스트 분석을 위한 설정을 정의
        "analyzer": {  # 텍스트를 분석하기 위한 분석기 정의 (이 경우 'nori' 분석기)
            "nori": {  # 사용자 정의(custom) 'nori' 분석기 설정
                "type": "custom",  # 이 분석기는 'custom' 타입으로 사용자가 설정한 대로 동작
                "tokenizer": "nori_tokenizer",  # 'nori_tokenizer'를 사용하여 텍스트를 토큰화
                "decompound_mode": "mixed",  # 복합어(예: '책상' -> '책', '상')를 처리하는 방법을 설정 ('mixed' 모드)
                # 복합어 처리 모드:
                # - "mixed": 복합어와 그 구성 요소 둘 다 반환 (예: '책상'과 '책', '상'을 모두 반환)
                # - "none": 복합어를 분리하지 않음
                # - "discard": 복합어를 버리고 구성 요소만 반환
                "filter": ["nori_posfilter"]  # 분석기에서 사용할 필터 설정 (nori_posfilter를 적용)
            }
        },
        "filter": {  # 텍스트 분석에 사용될 필터 정의
            "nori_posfilter": {  # 형태소 분석에서 사용할 필터를 정의 (품사 기반 필터)
                "type": "nori_part_of_speech",  # 'nori' 형태소 분석기의 품사 필터 사용
                "stoptags": ["E", "J", "SC", "SE", "SF", "VCN", "VCP", "VX"]  # 특정 품사(tag)를 필터링하여 제외
                # stoptags 설명:
                # - "E" (어미): 용언의 끝부분, 동사와 형용사의 변형을 필터링
                # - "J" (조사): 주격 조사, 목적격 조사 등을 필터링
                # - "SC" (구분자): 쉼표, 마침표 등 구분자를 필터링
                # - "SE" (줄임표): 생략부호(...) 등을 필터링
                # - "SF" (마침표): 문장의 끝을 나타내는 마침표 등을 필터링
                # - "VCN" (지정사): 지정사 품사 필터링 (예: '이다'와 같은 서술적 용어)
                # - "VCP" (보조 용언): 보조 동사, 예를 들어 '하다', '되다'와 같은 동작을 필터링
                # - "VX" (보조 용언): 보조 용언, 동사와 결합하여 다른 의미를 형성하는 보조 동사 필터링
            }
        }
    }
}


## setting에 대한 해석

### 세부 해석:

1. **`analysis`**:
   - 텍스트 분석을 위한 **분석기** 및 **필터** 설정을 정의하는 섹션입니다.
   
2. **`analyzer`**:
   - 텍스트 분석을 위해 설정된 분석기들을 정의합니다.
   - 여기서 `nori` 분석기는 **사용자 정의(custom)** 분석기로, **Nori 토크나이저**를 사용해 텍스트를 처리합니다.
   - **Nori**는 **한국어** 텍스트를 처리하기 위한 Elasticsearch의 분석기로, 한국어의 형태소 분석을 수행합니다.
   
3. **`nori`**:
   - **사용자 정의 분석기**를 설정하고 있으며, Nori 분석기를 기반으로 동작합니다.
   - **`type`**: 'custom'으로 설정되어 있으며, 이는 기본 설정이 아닌 사용자가 직접 정의한 분석기임을 의미합니다.
   - **`tokenizer`**: Nori 분석기에서 사용할 토크나이저로 **nori_tokenizer**를 지정하고 있습니다. 이는 한국어 텍스트를 단어 또는 형태소 단위로 분리해주는 역할을 합니다.
   - **`decompound_mode`**: 복합어 처리 방식입니다. **'mixed'**로 설정되어 있어 복합어와 그 구성 요소를 모두 반환합니다. 예를 들어, '책상'이라는 단어는 '책'과 '상'으로 분해될 수 있으며, 원래의 단어와 분해된 단어들이 모두 검색 가능해집니다.
   - **`filter`**: Nori 분석기에서 사용할 필터를 설정하며, 여기서는 `nori_posfilter`라는 품사 기반 필터를 적용합니다.

4. **`filter`**:
   - 텍스트 분석에 사용할 필터를 정의하는 섹션입니다. 여기서는 **품사 태그 필터**를 정의하고 있습니다.
   
5. **`nori_posfilter`**:
   - **품사 기반 필터**로, Nori 형태소 분석기에서 특정 품사 태그들을 제외하는 역할을 합니다.
   - **`type`**: 필터의 종류를 지정하며, 이 경우 **'nori_part_of_speech'**로 한국어의 품사 태그에 따라 필터링을 수행합니다.
   - **`stoptags`**: 제외할 품사 태그 목록입니다. 이 필터를 통해 특정 품사(어미, 조사, 구분자 등)는 검색에 포함되지 않도록 필터링합니다. 이를 통해 검색 품질을 향상시키고, 불필요한 단어를 제거합니다.

### 필터링되는 품사(`stoptags`) 설명:
- **E (어미)**: 용언의 끝을 나타내는 어미를 제외합니다. 예를 들어, '~다', '~다니다' 등의 어미는 의미가 크지 않으므로 제외됩니다.
- **J (조사)**: 조사는 문법적인 역할을 하지만 검색과는 큰 연관이 없으므로 제외됩니다. 예: '이', '가', '은', '는' 등.
- **SC (구분자)**: 쉼표(,), 마침표(.)와 같은 구분자를 제외합니다.
- **SE (줄임표)**: 생략 부호(...)를 제외합니다.
- **SF (마침표)**: 문장의 끝을 나타내는 마침표 등을 제외합니다.
- **VCN (지정사)**: '이다' 같은 서술적 용어를 제외합니다.
- **VCP (보조 용언)**: 보조 동사 '하다', '되다'와 같은 동작을 제외합니다.
- **VX (보조 용언)**: 본동사와 결합하여 새로운 의미를 형성하는 보조 동사도 필터링합니다.

### 요약:
이 설정은 **Nori 분석기**를 사용해 **한국어 텍스트**를 처리할 때, 불필요한 품사(어미, 조사, 구분자 등)를 필터링하여 **검색 효율성**을 높이는 것을 목적으로 합니다. 특히, 복합어 처리와 형태소 분석을 통해 한국어 텍스트를 보다 정교하게 분석하고, 검색 품질을 개선합니다.

## mappings

In [20]:
# 색인을 위한 mapping 설정 (역색인 필드, 임베딩 필드 모두 설정)
mappings = {
    "properties": {
        # "content" 필드는 텍스트 데이터를 저장합니다.
        # 이 필드는 "text" 타입이며, 한국어 분석을 위해 nori 분석기를 사용합니다.
        "content": {
            "type": "text",        # Elasticsearch에서 텍스트 필드 타입
            "analyzer": "nori"     # 한국어 분석기 "nori"를 사용하여 텍스트를 처리
        },
        
        # "embeddings" 필드는 고차원 벡터 데이터를 저장하는 필드입니다.
        # 예를 들어, 자연어 처리에서 문장 임베딩(벡터 표현)을 저장할 수 있습니다.
        # 이 필드는 "dense_vector" 타입으로 설정됩니다.
        "embeddings": {
            "type": "dense_vector",  # 벡터를 저장하는 필드 타입
            "dims": 768,             # 벡터의 차원 수. 여기서는 768차원 벡터를 의미함 (BERT 기반 임베딩 예시)
            
            # 벡터 검색을 위해 인덱싱 활성화 (벡터 기반 검색에 필수)
            "index": True,           # 해당 필드를 인덱싱하여 검색 가능하게 설정
            
            # 벡터 간의 유사도를 측정하는 방식으로 "l2_norm"을 사용 (L2 거리 기반)
            "similarity": "l2_norm"  # L2 노름(유클리디안 거리)를 이용한 유사도 계산 방식
        }
    }
}



## mappings에 대한 해석

임베딩 벡터의 차원 수(`dims`)는 검색 성능 및 효율성에 큰 영향을 미칩니다. 벡터 차원이 높을수록 모델이 표현할 수 있는 정보의 양이 증가하지만, 동시에 처리 성능과 메모리 사용에도 영향을 미칩니다. 차원 수가 성능에 미치는 영향을 여러 측면에서 살펴보겠습니다.
### 1. **검색 정확도 및 표현력**
   - **차원 수가 높을수록**: 임베딩 벡터는 더 많은 정보를 담을 수 있기 때문에 문서나 쿼리에 대한 표현력이 높아집니다. 특히 복잡한 의미나 문맥적 차이를 더 세밀하게 반영할 수 있습니다. 예를 들어, 자연어 처리(NLP)에서 문장의 문맥이나 유사성을 더 정확하게 계산할 수 있습니다.
   - **차원 수가 낮을수록**: 표현력은 줄어들지만, 데이터가 간단하거나 특징이 명확한 경우에는 낮은 차원의 벡터도 충분할 수 있습니다. 하지만 문장의 의미를 세밀하게 구분해야 하는 작업에서는 저차원 벡터가 부족할 수 있습니다.
### 2. **검색 성능 (속도)**
   - **차원 수가 높을수록**: 차원이 높아지면 각 벡터의 계산량이 증가합니다. 벡터 간의 유사도를 계산하기 위해 더 많은 차원을 비교해야 하기 때문에, **벡터 검색 속도가 느려질 수 있습니다**. 특히, L2 거리(L2-norm)나 코사인 유사도 같은 유사도 측정 방식에서, 차원이 높아질수록 계산 복잡성이 증가합니다.
   - **차원 수가 낮을수록**: 계산할 데이터가 적기 때문에 벡터 검색 속도가 빨라질 수 있습니다. 더 빠른 계산이 가능하지만, 낮은 차원에서는 정보 손실이 발생할 가능성이 있습니다.
### 3. **메모리 및 저장 공간**
   - **차원 수가 높을수록**: 각 벡터가 차원당 값을 저장하므로, 차원이 높을수록 더 많은 메모리와 저장 공간이 필요합니다. 대규모 데이터셋을 처리할 때, 메모리 부담이 커지고 저장 공간이 증가합니다. 특히 인덱싱을 위해 모든 문서에 대해 고차원 벡터를 저장해야 하므로, 시스템 리소스 사용이 크게 늘어납니다.
   - **차원 수가 낮을수록**: 메모리와 저장 공간이 줄어듭니다. 적은 자원으로도 벡터를 저장하고 검색할 수 있습니다.
### 4. **차원의 저주 (Curse of Dimensionality)**
   - **차원 수가 너무 높을 때**: 차원 수가 너무 높으면 발생할 수 있는 문제가 바로 **차원의 저주**입니다. 고차원 공간에서는 데이터 포인트 간의 거리가 너무 멀어져서 유사도를 계산하는 것이 비효율적이거나 부정확해질 수 있습니다. 즉, **고차원 공간에서 데이터가 희소해져** 유사도를 측정하기 어려워지는 현상이 발생할 수 있습니다.
### 최적의 차원 수 선택
- **차원의 선택은 작업의 복잡성**에 따라 달라집니다. 
  - 예를 들어, **텍스트 임베딩**에서는 BERT 같은 모델에서 주로 768차원 또는 1024차원 벡터를 사용하지만, 작업에 따라 이보다 더 낮은 차원(예: 128차원 또는 256차원)으로 줄여도 되는 경우도 있습니다. 특히, 데이터의 크기나 처리 성능을 고려할 때 차원 수를 적절히 조정해야 합니다.
- **작업의 성격에 맞는 차원 수**를 선택하는 것이 중요합니다. 데이터의 복잡도가 높고, 정밀한 검색이 필요하다면 높은 차원을 사용할 수 있지만, 속도나 메모리 효율성이 중요하다면 차원을 줄이는 것이 적합합니다.
### 요약:
- **차원 수가 높으면**: 검색 정확도와 표현력이 좋아지지만, 계산 복잡성, 검색 속도, 메모리 사용량이 증가할 수 있습니다. 차원의 저주도 고려해야 합니다.
- **차원 수가 낮으면**: 검색 속도와 메모리 효율성이 좋아지지만, 표현력이 떨어질 수 있습니다.
따라서, 적절한 차원 수를 선택하는 것은 **정확도와 효율성 사이의 트레이드오프**를 고려한 결정입니다.

## 계속

In [21]:
# settings, mappings 설정된 내용으로 'test' 인덱스 생성
create_es_index("test", settings, mappings)

In [22]:
# 문서의 content 필드에 대한 임베딩 생성
index_docs = []
with open("/home/data/documents.jsonl") as f:
    docs = [json.loads(line) for line in f]
embeddings = get_embeddings_in_batches(docs)

# 생성한 임베딩을 색인할 필드로 추가
for doc, embedding in zip(docs, embeddings):
    doc["embeddings"] = embedding.tolist()
    index_docs.append(doc)

# 'test' 인덱스에 대량 문서 추가
ret = bulk_add("test", index_docs)

# 색인이 잘 되었는지 확인 (색인된 총 문서수가 출력되어야 함)
print(ret)


batch 0
batch 100
batch 200
batch 300
batch 400
batch 500
batch 600
batch 700
batch 800
batch 900
batch 1000
batch 1100
batch 1200
batch 1300
batch 1400
batch 1500
batch 1600
batch 1700
batch 1800
batch 1900
batch 2000
batch 2100
batch 2200
batch 2300
batch 2400
batch 2500
batch 2600
batch 2700
batch 2800
batch 2900
batch 3000
batch 3100
batch 3200
batch 3300
batch 3400
batch 3500
batch 3600
batch 3700
batch 3800
batch 3900
batch 4000
batch 4100
batch 4200
(4272, [])


### <font color=orange> 역색인을 사용하는 검색 예제

In [23]:
# 검색엔진에 색인이 잘 되었는지 테스트하기 위한 질의
#test_query1 = "금성이 다른 행성들보다 밝게 보이는 이유는 무엇인가요?"
#test_query2 = "금성이 다른 행성들보다 더 밝게 보이는 이유는 무엇인가요?"
test_query1 = "나무의 분류에 대해 조사해 보기 위한 방법은?"
test_query1 = "1. 나무의 분류는 나무를 과학적이고 체계적으로 분류하고 구별하는 것을 의미합니다. 2. 조사\"는 주어진 주제나 문제에 대해 정보를 수집하고 조사하는 것을 말합니다. 3. \"방법\"은 목적을 달성하기 위해 사용되는 절차나 방식을 가리킵니다."
test_query1 = "주제: 나무의 분류 방법, 목표: 나무를 과학적이고 체계적으로 분류하고 구별하기 위한 방법에 대해 알아보기"
test_query1 = "[나무의 분류 방법] [나무, 분류, 방법] 나무의 분류에 대해 조사해 보기 위한 방법은?"
test_query1 = "[농업] [복숭아 재배] 복숭아를 성공적으로 재배하는 방법에 대한 조언을 부탁드립니다."
test_query1 = "각 나라의 공교육 지출 현황에 대해 알려줘."
test_query1 = "[국가별 지출][공교육 지출] 각 나라의 공교육 지출 현황에 대해 알려줘."
test_query1 = "[공교육 지출][국가별 비교][정부 지출] 각 나라의 공교육 지출 현황에 대해 알려줘."
test_query1 = "[공교육][지출][현황] 각 나라의 공교육에 대한 지출 현황을 구체적으로 비교하고 분석해보세요."

test_query1 = """각 나라의 공교육에 대한 지출 현황을 구체적으로 비교하고 분석해보세요.
공교육 지출 : 정부나 공공기관이 국민의 교육을 위해 사용하는 재정적 자원. 이는 초등, 중등, 고등, 대학 교육 등 모든 공교육 체계에서 이루어지는 지출을 포함하며, 학교 운영비, 교사 급여, 교육 시설 유지비 등이 포함됩니다.
국가별 비교 : 여러 나라 사이에서 공교육 지출을 비교하는 것. 각 나라가 교육에 얼마만큼의 자원을 투자하는지를 상대적으로 분석하고 비교하여 교육에 대한 우선순위를 파악하는 데 도움을 줍니다.
정부 지출 : 정부가 각종 공공 서비스와 정책을 위해 지출하는 예산을 의미하며, 이 중 교육에 대한 정부의 투자가 어떤 수준인지 평가하는 것이 중요합니다. 교육은 여러 공공 지출 항목 중 하나로, 건강, 국방, 복지 등과 함께 주요 항목을 구성합니다."""


test_query1 = """평균을 구하는 코드를 작성 중인데, 예외처리가 필요한 경우는 어떤 상황일까요?
예외처리 : 코드 실행 중 예상치 못한 오류나 상황이 발생할 때 프로그램이 멈추지 않고 처리할 수 있도록 준비하는 과정. 평균을 구할 때는 데이터가 비어 있거나 숫자가 아닌 값이 포함된 경우가 예외처리의 대표적인 상황입니다.
빈 리스트 : 평균을 구하기 위한 데이터가 전혀 없는 상태. 만약 리스트나 배열이 비어 있을 경우, 0으로 나누는 오류가 발생하므로 이를 미리 확인하고 처리해야 합니다.
데이터 유형 검사 : 평균을 계산할 때 입력 데이터가 숫자가 아닌 경우 (예: 문자열, None 등) 오류가 발생할 수 있습니다. 이러한 데이터 유형을 미리 확인하고 잘못된 입력을 걸러내는 작업이 필요합니다.
"""

test_query1 = "이란 콘트라 사건이 뭐야" "이란-콘트라 사건은 로널드 레이건 집권기인 1986년에 레이건 행정부와 CIA가 적성국이었던 이란에게 무기를 몰래 수출한 대금으로 니카라과의 우익 성향 반군 콘트라를 지원하면서 동시에 반군으로부터 마약을 사들인 후 미국에 판매하다가 발각되어 큰 파장을 일으킨 사건입니다.이 사건이 미국 정치에 미친 영향은?"

test_query2 = """
1. 이란-콘트라 사건이 미국 정치에 미친 영향은 무엇인가요?
2. 이란-콘트라 사건은 미국 정부의 도덕성과 신뢰성을 크게 훼손시켰습니다. 레이건 행정부는 의회의 통제를 무시하고 비밀스러운 무기 거래를 벌였으며, 이는 의회와 행정부 간의 갈등을 심화시켰고, 이후 정치적 투명성과 책임성에 대한 논의가 확대되었습니다.

3. 미국 정부 신뢰도 : 이 사건으로 인해 미국 정부의 정책 투명성에 대한 국민들의 신뢰가 크게 손상되었습니다. 정부가 비밀리에 불법적인 거래를 진행했다는 점이 주된 이슈였습니다.
정치적 투명성 : 정부의 결정과 행동이 국민들에게 공개적이고 책임감 있게 이루어져야 한다는 원칙. 이란-콘트라 사건은 정부의 비밀 활동이 얼마나 큰 파장을 불러일으킬 수 있는지 보여준 사례입니다.
의회와 행정부 갈등 : 이 사건으로 인해 의회는 행정부가 의회의 승인을 무시하고 정책을 추진했다는 점에서 강력하게 반발하였고, 그 결과 의회와 행정부 간의 권력 관계에 긴장이 고조되었습니다.
"""

test_query3 = """
1. 미국 정치에 미친 영향에 대해서 알고 싶어하는 정보가 무엇인가요?

2. 이란-콘트라 사건이 미국 정치에 미친 영향에 대해 규명하는 것은 복잡한 과제입니다. 이 사건으로 인해 레이건 행정부와 CIA의 행위, 국제정치의 안보 및 무기 수출, 마약 밀수 등 다양한 측면에서 영향이 있었습니다.

3. 핵심주제:
   - 국제정치 : 국가 간 관계, 무기 수출과 안보 문제, 이란과 미국의 관계
   - 내부정치 : 레이건 행정부와 CIA의 행위, 국내 정치적 파장
   - 불법활동 : 마약 밀수와 맹비난의 문제, 미국의 법 집행과 사법적 과정
"""

#test_query2 = "나무의 분류에 대해 조사하려면 어떤 방법을 사용하는 것이 좋을까요?"
#test_query3 = "생물학: 나무의 분류 체계를 효과적으로 조사할 수 있는 방법은 무엇인가요?"
test_query4 = "[생물학] [나무의 분류] 질문: 나무를 분류할 때 어떤 조사 방법을 사용하는 것이 효과적인가요?"
test_query5 = "[생물학] [나무의 분류] [조사 방법] 나무를 분류할 때 어떤 조사 방법을 사용하는 것이 효과적인가요?"
test_query6 = "[생물학] [식물 분류] [나무, 분류 방법] 나무를 분류할 때 어떤 조사 방법을 사용하는 것이 효과적인가요?"
test_query7 = "[고등학교 생물학, 대학 생물학] [나무의 분류 방법] [나무, 분류, 방법] 나무의 분류에 대해 조사해 보기 위한 방법은?"

test_query8 = """나무의 분류를 조사하기 위해 어떤 방법들이 효과적인지 구체적으로 알아보세요.
Tree Classification (나무 분류)
뜻: 다양한 나무 종을 구조적, 유전적, 생태학적 특징을 바탕으로 체계적으로 분류하는 것. 이는 나무의 생물학적 계통, 형태적 특징(잎, 열매, 나무껍질 등), 생장 패턴 등을 기준으로 분류하여 나무의 종류를 구분하는 작업입니다.
Taxonomy (분류학)
뜻: 생물들을 이름 짓고 분류하는 학문. 나무를 포함한 생물의 종, 속, 과 등의 계층적 분류 체계를 정립하여 생물학적 유사성에 따라 나누는 것을 의미합니다. 나무 분류에서는 형태적 특징뿐만 아니라 유전학적 정보를 사용하여 정확한 분류가 이루어집니다.
Morphological Characteristics (형태적 특징)
뜻: 나무의 외형적 속성이나 특성을 기준으로 분류하는 방식. 예를 들어 잎 모양, 나무껍질, 나무 높이, 열매 형태 등과 같은 외형적인 요소들이 분류의 중요한 기준이 됩니다.
"""


GPT 플랫폼 function 함수 내용
{
  "name": "search",
  "description": "search relevant documents",
  "strict": false,
  "parameters": {
    "properties": {
      "standalone_query": {
        "type": "string",
        "description": "Final query suitable for use in search from the user messages history."
      }
    },
    "required": [
      "standalone_query"
    ],
    "type": "object"
  }
}

In [24]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query1, 7)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 160.93518 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 52.282948 source: 닉슨이 사임하기 전에 닉슨을 해임해야 한다고 생각한 사람들의 수는 57%였습니다. 이는 닉슨 대통령의 행정부에 대한 신뢰가 크게 훼손되었음을 보여줍니다. 닉슨 대통령은 1972년 워터게이트 스캔들로 인해 많은 비난을 받았고, 이로 인해 국민들의 신뢰를 잃었습니다. 이에 따라 많은 사람들이 닉슨을 해임해야 한다고 생각하게 되었고, 이견을 제기한 사람들의 수는 57%에 달했습니다. 이는 국민들이 닉슨 대통령의 부정행위에 대해 엄중한 처벌을 요구하고자 했음을 보여줍니다. 이러한 상황은 결국 닉슨 대통령의 사임으로 이어졌으며, 이는 미국 정치사에서 큰 사건으로 기억되고 있습니다.
score: 48.260303 source: 1943년에 홀로코스트를 믿은 미국인은 약 50%였습니다. 홀로코스트는 제2차 세계대전 중 나치 독일이 유럽 유대인을 대량으로 학살한 사건으로, 그 당시에는 아직 전세계적으로 알려지지 않았기 때문에 미국인들의 인식도 제한적이었습니다. 그러나 전쟁이 진행되면서 정보가 점차 전파되고, 미국의 언론이 이 사건을 보도하기 시작하면서 인식도 점차 높아졌습니다. 1943년에는 약 절반 가량의 미국인들이 홀로코스트의 실체를 믿었으며, 이는 그 당시의 사회적 분위기와 정보의 한계로 인한 결과였습니다. 이후에는 더 많은 증거와 보도가 나오면서 미국인들의 인식도 변화하였고, 홀로코스트는 전세계적으로 알려지고 인정받는 사건이 되었습니다.
score: 41.073578

In [25]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query2, 7)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 239.91963 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 186.67401 source: 닉슨이 사임하기 전에 닉슨을 해임해야 한다고 생각한 사람들의 수는 57%였습니다. 이는 닉슨 대통령의 행정부에 대한 신뢰가 크게 훼손되었음을 보여줍니다. 닉슨 대통령은 1972년 워터게이트 스캔들로 인해 많은 비난을 받았고, 이로 인해 국민들의 신뢰를 잃었습니다. 이에 따라 많은 사람들이 닉슨을 해임해야 한다고 생각하게 되었고, 이견을 제기한 사람들의 수는 57%에 달했습니다. 이는 국민들이 닉슨 대통령의 부정행위에 대해 엄중한 처벌을 요구하고자 했음을 보여줍니다. 이러한 상황은 결국 닉슨 대통령의 사임으로 이어졌으며, 이는 미국 정치사에서 큰 사건으로 기억되고 있습니다.
score: 118.04813 source: 미국에서는 2013년 현재, 정당이 부패했다는 의식을 가진 사람들의 비율이 76%입니다. 이는 많은 사람들이 정치적인 부패와 불공정한 시스템에 대한 우려를 가지고 있다는 것을 보여줍니다. 정당의 부패는 공공의 이익을 훼손하고 시민들의 불신을 증폭시킬 수 있으며, 이는 민주주의의 원칙과 가치에 위협이 될 수 있습니다. 이러한 문제에 대한 인식과 대응은 미국 정치의 발전과 민주주의의 강화를 위해 중요한 과제입니다. 정당의 부패를 막기 위해서는 투명하고 효과적인 정치적인 체계와 강력한 법률 시행이 필요합니다. 또한, 시민들은 정치에 관심을 가지고 참여하며, 부패와 불공정에 대한 신호를 주고 반발해야 합니다. 이를 통해 미국은 더욱 공정하고 투명한 정치적

In [26]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query3, 7)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 172.7846 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 113.35105 source: 닉슨이 사임하기 전에 닉슨을 해임해야 한다고 생각한 사람들의 수는 57%였습니다. 이는 닉슨 대통령의 행정부에 대한 신뢰가 크게 훼손되었음을 보여줍니다. 닉슨 대통령은 1972년 워터게이트 스캔들로 인해 많은 비난을 받았고, 이로 인해 국민들의 신뢰를 잃었습니다. 이에 따라 많은 사람들이 닉슨을 해임해야 한다고 생각하게 되었고, 이견을 제기한 사람들의 수는 57%에 달했습니다. 이는 국민들이 닉슨 대통령의 부정행위에 대해 엄중한 처벌을 요구하고자 했음을 보여줍니다. 이러한 상황은 결국 닉슨 대통령의 사임으로 이어졌으며, 이는 미국 정치사에서 큰 사건으로 기억되고 있습니다.
score: 104.86199 source: 미국에서는 2013년 현재, 정당이 부패했다는 의식을 가진 사람들의 비율이 76%입니다. 이는 많은 사람들이 정치적인 부패와 불공정한 시스템에 대한 우려를 가지고 있다는 것을 보여줍니다. 정당의 부패는 공공의 이익을 훼손하고 시민들의 불신을 증폭시킬 수 있으며, 이는 민주주의의 원칙과 가치에 위협이 될 수 있습니다. 이러한 문제에 대한 인식과 대응은 미국 정치의 발전과 민주주의의 강화를 위해 중요한 과제입니다. 정당의 부패를 막기 위해서는 투명하고 효과적인 정치적인 체계와 강력한 법률 시행이 필요합니다. 또한, 시민들은 정치에 관심을 가지고 참여하며, 부패와 불공정에 대한 신호를 주고 반발해야 합니다. 이를 통해 미국은 더욱 공정하고 투명한 정치적인

In [27]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query1, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 160.93518 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 52.282948 source: 닉슨이 사임하기 전에 닉슨을 해임해야 한다고 생각한 사람들의 수는 57%였습니다. 이는 닉슨 대통령의 행정부에 대한 신뢰가 크게 훼손되었음을 보여줍니다. 닉슨 대통령은 1972년 워터게이트 스캔들로 인해 많은 비난을 받았고, 이로 인해 국민들의 신뢰를 잃었습니다. 이에 따라 많은 사람들이 닉슨을 해임해야 한다고 생각하게 되었고, 이견을 제기한 사람들의 수는 57%에 달했습니다. 이는 국민들이 닉슨 대통령의 부정행위에 대해 엄중한 처벌을 요구하고자 했음을 보여줍니다. 이러한 상황은 결국 닉슨 대통령의 사임으로 이어졌으며, 이는 미국 정치사에서 큰 사건으로 기억되고 있습니다.
score: 48.260303 source: 1943년에 홀로코스트를 믿은 미국인은 약 50%였습니다. 홀로코스트는 제2차 세계대전 중 나치 독일이 유럽 유대인을 대량으로 학살한 사건으로, 그 당시에는 아직 전세계적으로 알려지지 않았기 때문에 미국인들의 인식도 제한적이었습니다. 그러나 전쟁이 진행되면서 정보가 점차 전파되고, 미국의 언론이 이 사건을 보도하기 시작하면서 인식도 점차 높아졌습니다. 1943년에는 약 절반 가량의 미국인들이 홀로코스트의 실체를 믿었으며, 이는 그 당시의 사회적 분위기와 정보의 한계로 인한 결과였습니다. 이후에는 더 많은 증거와 보도가 나오면서 미국인들의 인식도 변화하였고, 홀로코스트는 전세계적으로 알려지고 인정받는 사건이 되었습니다.
score: 41.073578

In [28]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query1, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 160.93518 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 52.282948 source: 닉슨이 사임하기 전에 닉슨을 해임해야 한다고 생각한 사람들의 수는 57%였습니다. 이는 닉슨 대통령의 행정부에 대한 신뢰가 크게 훼손되었음을 보여줍니다. 닉슨 대통령은 1972년 워터게이트 스캔들로 인해 많은 비난을 받았고, 이로 인해 국민들의 신뢰를 잃었습니다. 이에 따라 많은 사람들이 닉슨을 해임해야 한다고 생각하게 되었고, 이견을 제기한 사람들의 수는 57%에 달했습니다. 이는 국민들이 닉슨 대통령의 부정행위에 대해 엄중한 처벌을 요구하고자 했음을 보여줍니다. 이러한 상황은 결국 닉슨 대통령의 사임으로 이어졌으며, 이는 미국 정치사에서 큰 사건으로 기억되고 있습니다.
score: 48.260303 source: 1943년에 홀로코스트를 믿은 미국인은 약 50%였습니다. 홀로코스트는 제2차 세계대전 중 나치 독일이 유럽 유대인을 대량으로 학살한 사건으로, 그 당시에는 아직 전세계적으로 알려지지 않았기 때문에 미국인들의 인식도 제한적이었습니다. 그러나 전쟁이 진행되면서 정보가 점차 전파되고, 미국의 언론이 이 사건을 보도하기 시작하면서 인식도 점차 높아졌습니다. 1943년에는 약 절반 가량의 미국인들이 홀로코스트의 실체를 믿었으며, 이는 그 당시의 사회적 분위기와 정보의 한계로 인한 결과였습니다. 이후에는 더 많은 증거와 보도가 나오면서 미국인들의 인식도 변화하였고, 홀로코스트는 전세계적으로 알려지고 인정받는 사건이 되었습니다.
score: 41.073578

In [29]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query1, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 160.93518 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 52.282948 source: 닉슨이 사임하기 전에 닉슨을 해임해야 한다고 생각한 사람들의 수는 57%였습니다. 이는 닉슨 대통령의 행정부에 대한 신뢰가 크게 훼손되었음을 보여줍니다. 닉슨 대통령은 1972년 워터게이트 스캔들로 인해 많은 비난을 받았고, 이로 인해 국민들의 신뢰를 잃었습니다. 이에 따라 많은 사람들이 닉슨을 해임해야 한다고 생각하게 되었고, 이견을 제기한 사람들의 수는 57%에 달했습니다. 이는 국민들이 닉슨 대통령의 부정행위에 대해 엄중한 처벌을 요구하고자 했음을 보여줍니다. 이러한 상황은 결국 닉슨 대통령의 사임으로 이어졌으며, 이는 미국 정치사에서 큰 사건으로 기억되고 있습니다.
score: 48.260303 source: 1943년에 홀로코스트를 믿은 미국인은 약 50%였습니다. 홀로코스트는 제2차 세계대전 중 나치 독일이 유럽 유대인을 대량으로 학살한 사건으로, 그 당시에는 아직 전세계적으로 알려지지 않았기 때문에 미국인들의 인식도 제한적이었습니다. 그러나 전쟁이 진행되면서 정보가 점차 전파되고, 미국의 언론이 이 사건을 보도하기 시작하면서 인식도 점차 높아졌습니다. 1943년에는 약 절반 가량의 미국인들이 홀로코스트의 실체를 믿었으며, 이는 그 당시의 사회적 분위기와 정보의 한계로 인한 결과였습니다. 이후에는 더 많은 증거와 보도가 나오면서 미국인들의 인식도 변화하였고, 홀로코스트는 전세계적으로 알려지고 인정받는 사건이 되었습니다.
score: 41.073578

In [30]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query1, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 160.93518 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 52.282948 source: 닉슨이 사임하기 전에 닉슨을 해임해야 한다고 생각한 사람들의 수는 57%였습니다. 이는 닉슨 대통령의 행정부에 대한 신뢰가 크게 훼손되었음을 보여줍니다. 닉슨 대통령은 1972년 워터게이트 스캔들로 인해 많은 비난을 받았고, 이로 인해 국민들의 신뢰를 잃었습니다. 이에 따라 많은 사람들이 닉슨을 해임해야 한다고 생각하게 되었고, 이견을 제기한 사람들의 수는 57%에 달했습니다. 이는 국민들이 닉슨 대통령의 부정행위에 대해 엄중한 처벌을 요구하고자 했음을 보여줍니다. 이러한 상황은 결국 닉슨 대통령의 사임으로 이어졌으며, 이는 미국 정치사에서 큰 사건으로 기억되고 있습니다.
score: 48.260303 source: 1943년에 홀로코스트를 믿은 미국인은 약 50%였습니다. 홀로코스트는 제2차 세계대전 중 나치 독일이 유럽 유대인을 대량으로 학살한 사건으로, 그 당시에는 아직 전세계적으로 알려지지 않았기 때문에 미국인들의 인식도 제한적이었습니다. 그러나 전쟁이 진행되면서 정보가 점차 전파되고, 미국의 언론이 이 사건을 보도하기 시작하면서 인식도 점차 높아졌습니다. 1943년에는 약 절반 가량의 미국인들이 홀로코스트의 실체를 믿었으며, 이는 그 당시의 사회적 분위기와 정보의 한계로 인한 결과였습니다. 이후에는 더 많은 증거와 보도가 나오면서 미국인들의 인식도 변화하였고, 홀로코스트는 전세계적으로 알려지고 인정받는 사건이 되었습니다.
score: 41.073578

In [31]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query2, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 239.91963 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 186.67401 source: 닉슨이 사임하기 전에 닉슨을 해임해야 한다고 생각한 사람들의 수는 57%였습니다. 이는 닉슨 대통령의 행정부에 대한 신뢰가 크게 훼손되었음을 보여줍니다. 닉슨 대통령은 1972년 워터게이트 스캔들로 인해 많은 비난을 받았고, 이로 인해 국민들의 신뢰를 잃었습니다. 이에 따라 많은 사람들이 닉슨을 해임해야 한다고 생각하게 되었고, 이견을 제기한 사람들의 수는 57%에 달했습니다. 이는 국민들이 닉슨 대통령의 부정행위에 대해 엄중한 처벌을 요구하고자 했음을 보여줍니다. 이러한 상황은 결국 닉슨 대통령의 사임으로 이어졌으며, 이는 미국 정치사에서 큰 사건으로 기억되고 있습니다.
score: 118.04813 source: 미국에서는 2013년 현재, 정당이 부패했다는 의식을 가진 사람들의 비율이 76%입니다. 이는 많은 사람들이 정치적인 부패와 불공정한 시스템에 대한 우려를 가지고 있다는 것을 보여줍니다. 정당의 부패는 공공의 이익을 훼손하고 시민들의 불신을 증폭시킬 수 있으며, 이는 민주주의의 원칙과 가치에 위협이 될 수 있습니다. 이러한 문제에 대한 인식과 대응은 미국 정치의 발전과 민주주의의 강화를 위해 중요한 과제입니다. 정당의 부패를 막기 위해서는 투명하고 효과적인 정치적인 체계와 강력한 법률 시행이 필요합니다. 또한, 시민들은 정치에 관심을 가지고 참여하며, 부패와 불공정에 대한 신호를 주고 반발해야 합니다. 이를 통해 미국은 더욱 공정하고 투명한 정치적

In [None]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query3, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 172.7846 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 113.35105 source: 닉슨이 사임하기 전에 닉슨을 해임해야 한다고 생각한 사람들의 수는 57%였습니다. 이는 닉슨 대통령의 행정부에 대한 신뢰가 크게 훼손되었음을 보여줍니다. 닉슨 대통령은 1972년 워터게이트 스캔들로 인해 많은 비난을 받았고, 이로 인해 국민들의 신뢰를 잃었습니다. 이에 따라 많은 사람들이 닉슨을 해임해야 한다고 생각하게 되었고, 이견을 제기한 사람들의 수는 57%에 달했습니다. 이는 국민들이 닉슨 대통령의 부정행위에 대해 엄중한 처벌을 요구하고자 했음을 보여줍니다. 이러한 상황은 결국 닉슨 대통령의 사임으로 이어졌으며, 이는 미국 정치사에서 큰 사건으로 기억되고 있습니다.
score: 104.86199 source: 미국에서는 2013년 현재, 정당이 부패했다는 의식을 가진 사람들의 비율이 76%입니다. 이는 많은 사람들이 정치적인 부패와 불공정한 시스템에 대한 우려를 가지고 있다는 것을 보여줍니다. 정당의 부패는 공공의 이익을 훼손하고 시민들의 불신을 증폭시킬 수 있으며, 이는 민주주의의 원칙과 가치에 위협이 될 수 있습니다. 이러한 문제에 대한 인식과 대응은 미국 정치의 발전과 민주주의의 강화를 위해 중요한 과제입니다. 정당의 부패를 막기 위해서는 투명하고 효과적인 정치적인 체계와 강력한 법률 시행이 필요합니다. 또한, 시민들은 정치에 관심을 가지고 참여하며, 부패와 불공정에 대한 신호를 주고 반발해야 합니다. 이를 통해 미국은 더욱 공정하고 투명한 정치적인

In [None]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query4, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 38.142452 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 34.313847 source: 생물학에서 일부 생물체의 분류 방법이 변경되었습니다. 이제 생물체를 재분류하는 데에는 구조보다는 분자 수준에서의 조사가 사용됩니다. 이 새로운 방법은 생물체의 유전자나 단백질의 구조와 기능을 분석하여 그들의 진화적 관계를 밝히는 데에 큰 도움이 됩니다. 이러한 분자 수준의 조사는 생물체의 유전적 유사성을 파악하고, 서로 다른 종 간의 진화적 연결고리를 찾는 데에 중요한 역할을 합니다. 이 방법은 생물체의 분류를 더욱 정확하고 명확하게 만들어주며, 생물 다양성 연구에도 큰 기여를 하고 있습니다. 이제 구조보다는 분자 수준에서의 조사가 생물체의 재분류에 사용되고 있으며, 이는 생물학의 발전에 새로운 지평을 열어주고 있습니다.
score: 26.085587 source: 가정 폐수는 모두 동일하지 않습니다. 중수는 싱크대와 욕조에서 나오는 가정 폐수를 가리킵니다. 이것은 인간의 생물학적 폐기물을 포함하지 않으므로, 하수로 처리하는 것 대신 재사용할 수 있습니다.

중수를 재활용하는 한 가지 방법은 화단 관개입니다. 중수는 식물에 필요한 수분을 제공하여 식물이 건강하게 자라도록 도와줍니다. 화단 관개는 물을 절약하면서도 식물을 적절히 관리하는 효과적인 방법입니다.

또한 중수를 나무에 물 주기로 사용할 수도 있습니다. 나무는 중수를 흡수하여 생장

In [None]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query5, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 44.27444 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 43.87672 source: 생물학에서 일부 생물체의 분류 방법이 변경되었습니다. 이제 생물체를 재분류하는 데에는 구조보다는 분자 수준에서의 조사가 사용됩니다. 이 새로운 방법은 생물체의 유전자나 단백질의 구조와 기능을 분석하여 그들의 진화적 관계를 밝히는 데에 큰 도움이 됩니다. 이러한 분자 수준의 조사는 생물체의 유전적 유사성을 파악하고, 서로 다른 종 간의 진화적 연결고리를 찾는 데에 중요한 역할을 합니다. 이 방법은 생물체의 분류를 더욱 정확하고 명확하게 만들어주며, 생물 다양성 연구에도 큰 기여를 하고 있습니다. 이제 구조보다는 분자 수준에서의 조사가 생물체의 재분류에 사용되고 있으며, 이는 생물학의 발전에 새로운 지평을 열어주고 있습니다.
score: 30.087635 source: 가정 폐수는 모두 동일하지 않습니다. 중수는 싱크대와 욕조에서 나오는 가정 폐수를 가리킵니다. 이것은 인간의 생물학적 폐기물을 포함하지 않으므로, 하수로 처리하는 것 대신 재사용할 수 있습니다.

중수를 재활용하는 한 가지 방법은 화단 관개입니다. 중수는 식물에 필요한 수분을 제공하여 식물이 건강하게 자라도록 도와줍니다. 화단 관개는 물을 절약하면서도 식물을 적절히 관리하는 효과적인 방법입니다.

또한 중수를 나무에 물 주기로 사용할 수도 있습니다. 나무는 중수를 흡수하여 생장에 

In [None]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query6, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 45.117794 source: 생물학에서 일부 생물체의 분류 방법이 변경되었습니다. 이제 생물체를 재분류하는 데에는 구조보다는 분자 수준에서의 조사가 사용됩니다. 이 새로운 방법은 생물체의 유전자나 단백질의 구조와 기능을 분석하여 그들의 진화적 관계를 밝히는 데에 큰 도움이 됩니다. 이러한 분자 수준의 조사는 생물체의 유전적 유사성을 파악하고, 서로 다른 종 간의 진화적 연결고리를 찾는 데에 중요한 역할을 합니다. 이 방법은 생물체의 분류를 더욱 정확하고 명확하게 만들어주며, 생물 다양성 연구에도 큰 기여를 하고 있습니다. 이제 구조보다는 분자 수준에서의 조사가 생물체의 재분류에 사용되고 있으며, 이는 생물학의 발전에 새로운 지평을 열어주고 있습니다.
score: 44.17431 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 33.801903 source: 가정 폐수는 모두 동일하지 않습니다. 중수는 싱크대와 욕조에서 나오는 가정 폐수를 가리킵니다. 이것은 인간의 생물학적 폐기물을 포함하지 않으므로, 하수로 처리하는 것 대신 재사용할 수 있습니다.

중수를 재활용하는 한 가지 방법은 화단 관개입니다. 중수는 식물에 필요한 수분을 제공하여 식물이 건강하게 자라도록 도와줍니다. 화단 관개는 물을 절약하면서도 식물을 적절히 관리하는 효과적인 방법입니다.

또한 중수를 나무에 물 주기로 사용할 수도 있습니다. 나무는 중수를 흡수하여 생장에

In [None]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query7, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 56.69787 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 53.73923 source: 생물학에서 일부 생물체의 분류 방법이 변경되었습니다. 이제 생물체를 재분류하는 데에는 구조보다는 분자 수준에서의 조사가 사용됩니다. 이 새로운 방법은 생물체의 유전자나 단백질의 구조와 기능을 분석하여 그들의 진화적 관계를 밝히는 데에 큰 도움이 됩니다. 이러한 분자 수준의 조사는 생물체의 유전적 유사성을 파악하고, 서로 다른 종 간의 진화적 연결고리를 찾는 데에 중요한 역할을 합니다. 이 방법은 생물체의 분류를 더욱 정확하고 명확하게 만들어주며, 생물 다양성 연구에도 큰 기여를 하고 있습니다. 이제 구조보다는 분자 수준에서의 조사가 생물체의 재분류에 사용되고 있으며, 이는 생물학의 발전에 새로운 지평을 열어주고 있습니다.
score: 38.89281 source: 생물체는 가장 기본적인 특성에 따라 가장 광범위한 그룹으로 분류될 수 있습니다. 이를 역이라고 합니다. 생물체는 다양한 종류와 형태를 가지고 있으며, 각각의 생물체는 고유한 특징과 기능을 가지고 있습니다. 생물체는 생명을 유지하고 번식하기 위해 다양한 방법과 전략을 사용합니다. 역은 생물체의 다양성을 이해하는 데 중요한 개념입니다. 역은 생물체의 특성을 기반으로 그룹을 형성하고 분류하는 데 사용됩니다. 생물체의 역은 생물학 연구와 생물 다양성 보전에 매우 중요한 역할을 합니다. 생물

In [37]:
# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve("나무,분류,조사, 나무의 분류를 조사하기 위해 어떤 방법들이 효과적인지 구체적으로 알아보세요.", 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 39.441525 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 32.33576 source: 생물학에서 일부 생물체의 분류 방법이 변경되었습니다. 이제 생물체를 재분류하는 데에는 구조보다는 분자 수준에서의 조사가 사용됩니다. 이 새로운 방법은 생물체의 유전자나 단백질의 구조와 기능을 분석하여 그들의 진화적 관계를 밝히는 데에 큰 도움이 됩니다. 이러한 분자 수준의 조사는 생물체의 유전적 유사성을 파악하고, 서로 다른 종 간의 진화적 연결고리를 찾는 데에 중요한 역할을 합니다. 이 방법은 생물체의 분류를 더욱 정확하고 명확하게 만들어주며, 생물 다양성 연구에도 큰 기여를 하고 있습니다. 이제 구조보다는 분자 수준에서의 조사가 생물체의 재분류에 사용되고 있으며, 이는 생물학의 발전에 새로운 지평을 열어주고 있습니다.
score: 25.391464 source: 세쿼이아 나무들은 캘리포니아의 시에라 네바다에 자리하고 있습니다. 이들 나무들은 그 크기로 유명하며, 매우 큽니다. 그 중에는 3000년 이상 된 나무들도 있습니다. 이러한 나무들은 산불에게 어떤 이점을 주는지 알아보겠습니다. 산불은 이들 나무들에게 영양분 경쟁을 일부 제거해줍니다. 이는 나무들이 더 많은 영양분을 흡수하고 성장할 수 있게 해줍니다. 따라서, 산불은 세쿼이아 나무들에게 긍정적인 영향을 미치는 것으로 알려져 있습니다.
score: 25.342077 source: 과

In [38]:
test_query1 = "나무의 분류에 대해 조사해 보기 위한 방법은?"
test_query1 = "1. 나무의 분류는 나무를 과학적이고 체계적으로 분류하고 구별하는 것을 의미합니다. 2. 조사\"는 주어진 주제나 문제에 대해 정보를 수집하고 조사하는 것을 말합니다. 3. \"방법\"은 목적을 달성하기 위해 사용되는 절차나 방식을 가리킵니다."
test_query1 = "주제: 나무의 분류 방법, 목표: 나무를 과학적이고 체계적으로 분류하고 구별하기 위한 방법에 대해 알아보기"
test_query1 = "[나무의 분류 방법] [나무, 분류, 방법] 나무의 분류에 대해 조사해 보기 위한 방법은?"
test_query1 = "나무, 분류, 방법, 나무의 분류에 대해 조사해 보기 위한 방법은? 1. 나무의 분류는 나무를 과학적이고 체계적으로 분류하고 구별하는 것을 의미합니다. 2. 조사는 주어진 주제나 문제에 대해 정보를 수집하고 조사하는 것을 말합니다. 3. 방법은 목적을 달성하기 위해 사용되는 절차나 방식을 가리킵니다."
test_query1 = "[생물학] [나무의 분류] 질문: 나무를 분류할 때 어떤 조사 방법을 사용하는 것이 효과적인가요?"
test_query1 = "[생물학] [나무의 분류] [조사 방법] 나무를 분류할 때 어떤 조사 방법을 사용하는 것이 효과적인가요?"
test_query1 = "[생물학] [식물 분류] [나무, 분류 방법] 나무를 분류할 때 어떤 조사 방법을 사용하는 것이 효과적인가요?"
test_query1 = "[고등학교 생물학, 대학 생물학] [나무의 분류 방법] [나무, 분류, 방법] 나무의 분류에 대해 조사해 보기 위한 방법은?"
test_query1 = """
분야: 생물학 / 식물학

분류: 식물 분류학 / 나무 분류 방법

핵심 주제: 나무 분류 방법론

검색에 사용할 10가지 핵심 키워드:

나무 분류 체계
식물학적 분류 방법
나무의 형태적 특징
유전적 분류 기법
나무 생태적 분류
잎과 열매 분류 기준
나무 DNA 분석
목본식물 분류 기준
나무 분류 도감
나무 종 식별 방법
"""

# 역색인을 사용하는 검색 예제
search_result_retrieve = sparse_retrieve(test_query1, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 156.4131 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 126.22244 source: 생물학에서 일부 생물체의 분류 방법이 변경되었습니다. 이제 생물체를 재분류하는 데에는 구조보다는 분자 수준에서의 조사가 사용됩니다. 이 새로운 방법은 생물체의 유전자나 단백질의 구조와 기능을 분석하여 그들의 진화적 관계를 밝히는 데에 큰 도움이 됩니다. 이러한 분자 수준의 조사는 생물체의 유전적 유사성을 파악하고, 서로 다른 종 간의 진화적 연결고리를 찾는 데에 중요한 역할을 합니다. 이 방법은 생물체의 분류를 더욱 정확하고 명확하게 만들어주며, 생물 다양성 연구에도 큰 기여를 하고 있습니다. 이제 구조보다는 분자 수준에서의 조사가 생물체의 재분류에 사용되고 있으며, 이는 생물학의 발전에 새로운 지평을 열어주고 있습니다.
score: 117.063255 source: 과학적으로 채소를 분류하는 데에는 다양한 기준이 있습니다. 채소는 종류에 따라 잎, 줄기, 뿌리 등으로 분류될 수 있습니다. 또한 채소의 색상, 크기, 모양 등도 분류 기준이 될 수 있습니다. 그러나 맛은 과학적으로 채소를 분류하는 데에는 사용되지 않는 기준입니다. 맛은 주관적인 경험에 의해 결정되기 때문에 과학적인 분류에는 적합하지 않습니다. 따라서 맛이 좋은지 여부는 채소를 분류하는 과학적인 기준으로 사용되지 않습니다.
score: 112.84086 source: 바이러스 

### <font color=orange> 백터 유사도 검색 예제

In [39]:
# Vector 유사도 사용한 검색 예제
search_result_retrieve = dense_retrieve(test_query1, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 0.004700368 source: 목재 회사는 10,000헥타르의 숲을 5개의 구역으로 나누고 있습니다. 각 구역의 면적을 표시할 때 가장 적절한 단위는 제곱킬로미터 (km^2)입니다. 제곱킬로미터는 넓은 면적을 표현하기에 적합한 단위로, 헥타르보다 더 큰 단위입니다. 이 단위를 사용하면 숲의 구역별 면적을 보다 정확하게 표현할 수 있습니다. 목재 회사는 이 단위를 사용하여 숲의 구역별 면적을 측정하고, 이를 기반으로 생산 계획을 수립하고 관리합니다. 이렇게 구역을 나누고 면적을 표시함으로써 목재 회사는 숲을 효율적으로 관리하고 지속 가능한 자원 활용을 실현하고 있습니다.
score: 0.0046484456 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 0.0046059163 source: 제한 단편 장다형 분석은 게놈 디엔에이에서 특정 디엔에이 제한 조각을 감지하기 위해 혼성화를 사용하는 기술입니다. 이 기술은 DNA 분석의 한 방법으로, 특정 유전자나 DNA 서열을 정확하게 분석하고 이해하는 데 도움을 줍니다. 제한 단편 장다형 분석은 DNA의 특정 부분을 제한 효소로 자르고, 그 자른 조각들을 크기별로 분리하여 분석하는 과정을 거칩니다. 이를 통해 특정 디엔에이 제한 조각을 감지하고, 이를 통해 유전자 변이나 질병과의 연관성을 파악할 수 있습니다. 제한 단편 장다형 분석은 유전체 연구, 질병 진단, 유전자 치료 등 다양한 분야

In [40]:
# Vector 유사도 사용한 검색 예제
search_result_retrieve = dense_retrieve(test_query2, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 0.008686532 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 0.0059444043 source: 당근에 들어있는 베타카로틴이 사람들의 장수를 도와줄 수 있는지에 대한 의문이 제기되었습니다. 일부 연구자들은 이를 확인하기 위해 실험을 설계하였습니다. 이 실험은 백 명의 사람들을 대상으로 진행되었으며, 매일 두 배의 베타카로틴을 2년 동안 복용하도록 요청한 그룹과 동일한 기간 동안 위약을 복용한 그룹으로 나뉘었습니다. 그러나 이 실험은 실시되지 않았습니다. 그 이유는 변수가 너무 많아서 정확한 결론을 내리기 어렵다는 것입니다. 과학적 연구에서는 변수의 수를 최소화하여 실험의 신뢰성을 높이는 것이 중요합니다. 따라서 이 실험은 과학적 연구의 좋은 사례로 평가되지 않았습니다.
score: 0.0057093436 source: 미국에서는 2013년 현재, 정당이 부패했다는 의식을 가진 사람들의 비율이 76%입니다. 이는 많은 사람들이 정치적인 부패와 불공정한 시스템에 대한 우려를 가지고 있다는 것을 보여줍니다. 정당의 부패는 공공의 이익을 훼손하고 시민들의 불신을 증폭시킬 수 있으며, 이는 민주주의의 원칙과 가치에 위협이 될 수 있습니다. 이러한 문제에 대한 인식과 대응은 미국 정치의 발전과 민주주의의 강화를 위해 중요한 과제입니다. 정당의 부패를 막기 위해서는 투명하고 효과적인 정치적인 체계와 강력한 법률 시행이 필요합니다. 또한, 시민들은 정치에 관심을 가지고 참여하며, 부패와 불공정에 대한 신호를 주고 반발해야 합니다. 이를 통해 미국은 더욱 공정하

In [41]:
# Vector 유사도 사용한 검색 예제
search_result_retrieve = dense_retrieve(test_query3, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 0.0069786776 source: 1987년에 이란-콘트라 사건이 발생했습니다. 이 사건은 이란과 니카라과의 갈등과 미국의 개입으로 인해 발생한 것으로 알려져 있습니다. 이 사건에서 미국인들 중 75%는 레이건 대통령이 정보를 숨기고 있다고 믿었습니다. 이는 레이건 대통령의 신뢰도가 낮아진 원인 중 하나였습니다. 이란-콘트라 사건은 미국 역사상 중요한 사건 중 하나로 기억되고 있으며, 이 사건은 미국의 외교 정책과 국내 정치에 큰 영향을 미쳤습니다.
score: 0.0055650156 source: 바이러스 팬데믹은 단일 집중점에서 시작하여 급격하게 전세계적으로 발병하는 현상입니다. 이는 감염된 사람들 사이에서 빠르게 전파되어 많은 사람들이 감염되고, 이로 인해 많은 사망자가 발생할 수 있습니다. 바이러스 팬데믹은 전 세계적으로 경제적, 사회적, 정치적 영향을 미치며, 사회의 안전과 안녕을 위협합니다. 이러한 팬데믹은 과거에도 발생했으며, 대표적인 예로는 1918년 스페인 독감이 있습니다. 이러한 팬데믹은 예방과 대응을 위한 국제적 협력과 조치가 필요합니다. 정부와 국제 기구들은 바이러스 팬데믹에 대비하여 감염병 예방 및 대응 계획을 수립하고, 백신 개발과 분배, 의료 시설 강화 등의 조치를 취하고 있습니다. 바이러스 팬데믹은 우리 모두에게 경각심을 일깨워야 할 문제이며, 개인적인 위생 수칙과 예방접종 등을 통해 바이러스의 전파를 예방하는 것이 중요합니다.
score: 0.0053764163 source: MAC은 메시지 인증 코드(MAC)의 약자로, 메시지의 무결성과 인증을 보장하기 위해 사용됩니다. MAC은 일반적으로 (S,V)로 표현되며, S는 메시지에 대한 태그를 생성하는 알고리즘이고, V는 태그의 유효성을 검증하는 알고리즘입니다. 이 문제에서는 S(k,m)이 항상 5비트 길이라고 가정합니다. 그러나 이러한 가정에도 불구하고, 이 MAC은 안전하지 않습니다. 공격자는 메시지에 대한 태그를 단순히 추측할 수 있기 때문입니다. 따라서 이 M

In [42]:
# Vector 유사도 사용한 검색 예제
search_result_retrieve = dense_retrieve(test_query4, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 0.005088947 source: 종이와 같은 자원의 재활용은 매우 중요합니다. 재활용 종이를 사용하면 새로운 나무를 베어내는 것을 줄일 수 있기 때문입니다. 나무는 우리에게 많은 혜택을 주는데, 산소를 생산하고 대기 중의 이산화탄소를 흡수하여 대기를 정화하는 역할을 합니다. 그러나 나무를 베어내는 과정은 환경에 많은 영향을 미칩니다. 숲을 베어내면서 많은 동물들의 서식지를 파괴하고, 토양 침식을 초래하며, 생태계의 균형을 깨뜨릴 수 있습니다. 따라서 우리는 종이와 같은 자원을 재활용하여 새로운 나무를 베어내는 것을 줄여야 합니다. 재활용은 자원을 보존하고 환경을 보호하는 중요한 방법 중 하나입니다. 종이를 재활용하면 나무를 보호할 뿐만 아니라, 에너지와 물 등의 자원도 절약할 수 있습니다. 또한, 재활용 종이를 사용함으로써 폐기물의 양을 줄일 수 있고, 폐기물 처리에 따른 환경 오염도 감소시킬 수 있습니다. 따라서 우리는 종이와 같은 자원의 재활용을 적극적으로 실천하여 지속 가능한 환경을 만들어야 합니다.
score: 0.0049502207 source: 재생 가능한 자원을 유지하는 데 도움이 되는 인간의 행동은 다양합니다. 그 중 하나는 벌목된 지역에 나무를 다시 심는 것입니다. 나무는 대기 중 이산화탄소를 흡수하여 대기를 정화하고 산소를 생산합니다. 또한, 나무는 토양을 고정시켜 토사유출을 방지하고 토양의 건강을 유지하는 역할을 합니다. 이를 통해 생태계의 균형을 유지하고 생물 다양성을 보호할 수 있습니다. 또한, 나무는 목재로 사용되어 다양한 산업 분야에서 활용됩니다. 나무를 다시 심는 것은 자원을 보존하고 지속 가능한 개발을 위한 중요한 조치입니다. 따라서, 벌목된 지역에 나무를 다시 심는 것은 재생 가능한 자원을 유지하는 데 도움이 되는 효과적인 인간의 행동입니다.
score: 0.004867689 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다

In [43]:
# Vector 유사도 사용한 검색 예제
search_result_retrieve = dense_retrieve(test_query5, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 0.005131691 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 0.0050858776 source: 재생 가능한 자원을 유지하는 데 도움이 되는 인간의 행동은 다양합니다. 그 중 하나는 벌목된 지역에 나무를 다시 심는 것입니다. 나무는 대기 중 이산화탄소를 흡수하여 대기를 정화하고 산소를 생산합니다. 또한, 나무는 토양을 고정시켜 토사유출을 방지하고 토양의 건강을 유지하는 역할을 합니다. 이를 통해 생태계의 균형을 유지하고 생물 다양성을 보호할 수 있습니다. 또한, 나무는 목재로 사용되어 다양한 산업 분야에서 활용됩니다. 나무를 다시 심는 것은 자원을 보존하고 지속 가능한 개발을 위한 중요한 조치입니다. 따라서, 벌목된 지역에 나무를 다시 심는 것은 재생 가능한 자원을 유지하는 데 도움이 되는 효과적인 인간의 행동입니다.
score: 0.004942652 source: 종이와 같은 자원의 재활용은 매우 중요합니다. 재활용 종이를 사용하면 새로운 나무를 베어내는 것을 줄일 수 있기 때문입니다. 나무는 우리에게 많은 혜택을 주는데, 산소를 생산하고 대기 중의 이산화탄소를 흡수하여 대기를 정화하는 역할을 합니다. 그러나 나무를 베어내는 과정은 환경에 많은 영향을 미칩니다. 숲을 베어내면서 많은 동물들의 서식지를 파괴하고, 토양 침식을 초래하며, 생태계의 균형을 깨뜨릴 수 있습니다. 따라서 우리는 종이와 같은 자원을 재활용하여 새로운 

In [44]:
# Vector 유사도 사용한 검색 예제
search_result_retrieve = dense_retrieve(test_query6, 5)

# 결과 출력 테스트
for rst in search_result_retrieve['hits']['hits']:
    print('score:', rst['_score'], 'source:', rst['_source']["content"])

score: 0.0051335585 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 0.005024616 source: 종이와 같은 자원의 재활용은 매우 중요합니다. 재활용 종이를 사용하면 새로운 나무를 베어내는 것을 줄일 수 있기 때문입니다. 나무는 우리에게 많은 혜택을 주는데, 산소를 생산하고 대기 중의 이산화탄소를 흡수하여 대기를 정화하는 역할을 합니다. 그러나 나무를 베어내는 과정은 환경에 많은 영향을 미칩니다. 숲을 베어내면서 많은 동물들의 서식지를 파괴하고, 토양 침식을 초래하며, 생태계의 균형을 깨뜨릴 수 있습니다. 따라서 우리는 종이와 같은 자원을 재활용하여 새로운 나무를 베어내는 것을 줄여야 합니다. 재활용은 자원을 보존하고 환경을 보호하는 중요한 방법 중 하나입니다. 종이를 재활용하면 나무를 보호할 뿐만 아니라, 에너지와 물 등의 자원도 절약할 수 있습니다. 또한, 재활용 종이를 사용함으로써 폐기물의 양을 줄일 수 있고, 폐기물 처리에 따른 환경 오염도 감소시킬 수 있습니다. 따라서 우리는 종이와 같은 자원의 재활용을 적극적으로 실천하여 지속 가능한 환경을 만들어야 합니다.
score: 0.004924635 source: 재생 가능한 자원을 유지하는 데 도움이 되는 인간의 행동은 다양합니다. 그 중 하나는 벌목된 지역에 나무를 다시 심는 것입니다. 나무는 대기 중 이산화탄소를 흡수하여 대기를 정화하고 산소를 생산합니다. 또한, 나

## RAG 구현

준비된 검색엔진과 LLM을 활용하셔 대화형 RAG 구현

### GPT API 활용

In [45]:
from openai import OpenAI
import traceback

# OpenAI API 키를 환경변수에 설정

#패캠 지원 API
os.environ["OPENAI_API_KEY"] = ""


client = OpenAI()
# 사용할 모델을 설정(여기서는 gpt-3.5-turbo-1106 모델 사용)
llm_model = "gpt-3.5-turbo-1106"
#llm_model = "gpt-4o" 결과값 저하됨
#llm_model = "gpt-4o-mini"
#llm_model = "gpt-4-turbo"
#llm_model = "gpt-3.5-turbo-1125"

### Gemini API 활용

In [46]:
정지

NameError: name '정지' is not defined

In [None]:
# !pip install -q -U google-generativeai
# !pip install ipywidgets

In [4]:
import pathlib
import textwrap

import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown

def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

사용법 참조 링크

https://ai.google.dev/gemini-api/docs/get-started/python?hl=ko

In [6]:
# # Used to securely store your API key
# from google.colab import userdata
# # Or use `os.getenv('GOOGLE_API_KEY')` to fetch an environment variable.
# GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')

GOOGLE_API_KEY = 'AIzaSyAZCOMzgO_tvl0twZzoHJb4vONNPnEp9_0'

genai.configure(api_key=GOOGLE_API_KEY)

In [None]:
### 모델 나열하기
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

In [16]:
model = genai.GenerativeModel('gemini-pro')


In [None]:
%%time
response = model.generate_content("[생물학] [나무의 분류] 나무의 분류 방법을 조사할 때 가장 효과적인 방법은 무엇인가요?")

In [None]:
response.prompt_feedback

In [None]:
response.candidates

In [None]:
to_markdown(response.text)

## instruction 구현

In [None]:
''' 2-4
## Instruction
- 사용자가 질문한 내용이 '영양학', '개념 물리학', '인간 성', '바이러스학', '인간 노화', '고등학교 생물학', '고등학교 물리학', '대학 생물학', '컴퓨터 보안', '해부학', '대학 물리학', '의학 유전학', '전기공학', '대학 의학', '대학 화학', '천문학', '대학 컴퓨터 과학', '세계 사실', '고등학교 화학', '고등학교 컴퓨터 과학' 분야의 내용인 경우, 즉시 search API를 호출하여 관련 정보를 검색합니다.
- 사용자가 질문한 내용이 '영양학', '개념 물리학', '인간 성', '바이러스학', '인간 노화', '고등학교 생물학', '고등학교 물리학', '대학 생물학', '컴퓨터 보안', '해부학', '대학 물리학', '의학 유전학', '전기공학', '대학 의학', '대학 화학', '천문학', '대학 컴퓨터 과학', '세계 사실', '고등학교 화학', '고등학교 컴퓨터 과학' 분야의 내용이 아닌 경우, 검색 API 호출 없이 "과학상식과 관련된 질문이 아닙니다"와 같은 적절한 대답을 생성한다.
- 모든 응답은 명료한 문어체로 작성되며, 한국어로 제공됩니다.
'''

''' 2-3
## Instruction
- 사용자가 과학 상식과 관련된 질문을 하면 즉시 search API를 호출하여 관련 정보를 검색합니다.
- 사용자가 과학 상식과 관련되지 않은 질문을 하면, 검색 API 호출 없이 "과학상식과 관련된 질문이 아닙니다"와 같은 적절한 대답을 생성한다.
- 모든 응답은 명료한 문어체로 작성되며, 한국어로 제공됩니다.
'''

'''
- 사용자가 과학 상식과 관련되지 않은 질문을 하면, 검색 API 호출 없이 상황에 맞는 답변을 직접 생성합니다.
- 과학 상식과 관련되지 않은 나머지 대화 메시지에는 "과학상식과 관련된 질문이 아닙니다"와 같은 적절한 대답을 생성한다.
'''

'''
## Instruction
- 사용자가 대화를 통해 과학 지식에 관한 주제로 질문하면 search api를 호출할 수 있어야 한다.
- 과학 상식과 관련되지 않은 나머지 대화 메시지에는 적절한 대답을 생성한다.
'''


- 대화 내용 주제가 과학 분야의 내용이라면, 즉시 search API를 호출하여 관련 정보를 검색합니다.
- 나머지 대화 내용에는 "과학 분야와 관련된 질문이 아닙니다"와 같은 적절한 대답을 생성한다.
- 답변은 정확하고 간결한 문어체로 작성합니다.
- 모든 응답은 명료한 문어체로 작성되며, 한국어로 제공됩니다.


In [None]:

'''
['영양학', '개념 물리학', 'ARC 챌린지', '인간 성', '바이러스학', '인간 노화',
'고등학교 생물학', '고등학교 물리학', '대학 생물학', '컴퓨터 보안', '해부학', '대학 물리학',
'의학 유전학', '전기공학', '대학 의학', '대학 화학', '천문학', '대학 컴퓨터 과학',
'세계 사실', '고등학교 화학', '고등학교 컴퓨터 과학']

['nutrition', 'conceptual_physics', 'ARC_Challenge', 'human_sexuality', 'virology', 'human_aging',
'high_school_biology', 'high_school_physics', 'college_biology', 'computer_security', 'anatomy', 'college_physics',
'medical_genetics', 'electrical_engineering', 'college_medicine', 'college_chemistry', 'astronomy', 'college_computer_science',
'global_facts', 'high_school_chemistry', 'high_school_computer_science']
'''


'''
- 사용자의 질문을 더 정확한 질문으로 변경하여 대답을 생성한다. 
- 질문과 대답을 문어체로 생성한다.
- 사용자의 이전 메시지 정보 및 주어진 참고 정보를 활용하여 간결하게 대답을 생성한다.
- 주어진 검색 결과 정보로 대답할 수 없는 경우는 정보가 부족해서 대답을 할 수 없다고 대답한다.
- 한국어로 대답을 생성한다.
'''

'''## Instructions
- 사용자의 이전 메시지 정보 및 주어진 Reference 정보를 활용하여 간결하게 답변을 생성한다.
- 주어진 검색 결과 정보로 대답할 수 없는 경우는 정보가 부족해서 답을 할 수 없다고 대답한다.
- 한국어로 답변을 생성한다.
"""
'''


- 사용자의 질문을 분석하여 명확하고 구체적인 질문으로 재구성한 후, 이에 대한 답변을 제공합니다.
- 답변은 정확하고 간결한 문어체로 작성합니다.
- 사용자의 이전 메시지와 참고 자료를 바탕으로 관련 정보를 수집합니다. 
- 질문과 관련된 우선순위에 따라 포함하여 답변을 구성합니다.
- 주어진 검색 결과에 기반한 답변을 할 수 없는 경우, "제공된 정보만으로는 답변을 드리기 어렵습니다"와 같은 문구를 사용하여 정보를 충분히 제공할 수 없음을 명시합니다.
- 답변은 한국어로 작성합니다.


## RAG 구현 프롬프트 내용

In [48]:
# RAG 구현에 필요한 질의 분석 및 검색 이외의 일반 질의 대응을 위한 LLM 프롬프트
persona_function_calling = """
## Role: 과학 상식 전문가

## Instruction
- 사용자가 대화를 통해 과학 지식에 관한 주제로 질문하면 search api를 호출할 수 있어야 한다.
- 과학 상식과 관련되지 않은 나머지 대화 메시지에는 적절한 대답을 생성한다.
"""

# 개인적인 감정, 일상 대화 또는 자아에 관한 질문"과 "정보 요청 또는 특정 주제에 대한 지식 탐구"



# RAG 구현에 필요한 Question Answering을 위한 LLM  프롬프트
persona_qa = """
## Role: 과학 상식 전문가

## Instructions
- 사용자의 이전 메시지 정보 및 주어진 Reference 정보를 활용하여 간결하게 답변을 생성한다.
- 주어진 검색 결과 정보로 대답할 수 없는 경우는 정보가 부족해서 답을 할 수 없다고 대답한다.
- 한국어로 답변을 생성한다.
"""

# Function calling에 사용할 함수 정의
tools = [
    {
        "type": "function",
        "function": {
            "name": "search",
            "description": "search relevant documents",
            "parameters": {
                "properties": {
                    "standalone_query": {
                        "type": "string",
                        "description": "1. 위 내용에 대해서 분석하고 알고 싶어하는 정보가 무엇인지 질문으로 작성해줘. \n2. 만든 질문에 대한 답을 간략하게 작성해줘.\n3. 답변 내용울 분석해서 핵심주제를 3가지로 관련도 순서로 알려주고, 핵심주제의 뜻에 대해서 간략하게 알려줘. "
                    }
                },
                "required": ["standalone_query"],
                "type": "object"
            }
        }
    },
]


In [108]:
# # LLM과 검색엔진을 활용한 RAG(Retrieval-Augmented Generation) 구현
# def answer_question(messages):
#     # 함수 출력 초기화
#     # standalone_query: LLM이 생성한 최종 쿼리, topk: 상위 검색 결과, references: 참조 문서, answer: 최종 답변
#     response = {"standalone_query": "", "topk": [], "references": [], "answer": ""}

#     # 질의 분석 및 검색 이외의 질의 대응을 위한 LLM 활용
#     # messages: 사용자로부터 받은 메시지 내역
#     msg = [{"role": "system", "content": persona_function_calling}] + messages

#     try:
#         # LLM을 호출하여 사용자 메시지를 처리 (여기서는 질의를 분석하고 검색이 필요한지를 판단)
#         result = client.chat.completions.create(
#             model=llm_model,       # 사용되는 LLM 모델 (예: GPT-3.5 또는 GPT-4)
#             messages=msg,          # 메시지: 시스템 메시지와 사용자 메시지를 포함
#             tools=tools,           # 검색과 같은 기능을 사용하기 위한 도구 정의
#             temperature=0,         # temperature를 0으로 설정하여 예측을 더 결정론적으로 만듦
#             seed=1,                # 시드 설정 (결과 재현 가능성을 위해 사용)
#             timeout=10             # 타임아웃: 10초 안에 응답을 받지 못하면 오류가 발생
#         )
#     except Exception as e:
#         # 오류 발생 시 traceback을 출력하고 기본 응답 반환
#         traceback.print_exc()
#         return response

#     # 검색이 필요한 경우 (LLM이 도구 호출을 사용한 경우)
#     if result.choices[0].message.tool_calls:
#         tool_call = result.choices[0].message.tool_calls[0]  # 호출된 도구 정보
#         function_args = json.loads(tool_call.function.arguments)  # 도구 호출에 사용된 인자(JSON 형식)
#         standalone_query = function_args.get("standalone_query")  # 도구에서 생성된 최종 검색 쿼리 추출
#         #display(messages)
#         # 검색 기능 호출 (Baseline으로는 sparse_retrieve만 사용하여 검색 결과 추출)
#         ###search_result = sparse_retrieve(standalone_query, 3)  # sparse_retrieve 함수 사용, 상위 3개의 결과를 반환
#         search_result = sparse_retrieve(messages[0]["content"], 3)  # sparse_retrieve 함수 사용, 상위 3개의 결과를 반환

#         # 응답 객체에 standalone_query 저장
#         response["standalone_query"] = standalone_query
#         print("standalon query = ", standalone_query)   ### 불러온 문서확인을 위한 코드

#         retrieved_context = []  # 검색된 문서의 내용을 저장할 리스트
#         for i, rst in enumerate(search_result['hits']['hits']):
#             # 검색된 문서 내용을 추출하여 저장
#             retrieved_context.append(rst["_source"]["content"])
#             response["topk"].append(rst["_source"]["docid"])  # 문서 ID 저장
#             response["references"].append({"score": rst["_score"], "content": rst["_source"]["content"]})  # 참조할 문서 정보 추가
#             print('score:', rst['_score'], 'source:', rst['_source']["content"]) ### 불러온 문서확인을 위한 코드
            
#         # 검색된 문서 내용을 JSON 형식으로 직렬화
#         content = json.dumps(retrieved_context)
#         messages.append({"role": "assistant", "content": content})  # assistant 역할로 검색된 문서 내용 추가

#         # 검색된 문서를 포함하여 LLM을 다시 호출하여 최종 답변 생성
#         msg = [{"role": "system", "content": persona_qa}] + messages
#         try:
#             # 검색된 정보를 바탕으로 질의응답 생성
#             qaresult = client.chat.completions.create(
#                 model=llm_model,   # LLM 모델
#                 messages=msg,      # 업데이트된 메시지 내역 (검색된 문서를 포함)
#                 temperature=0,     # 결정론적인 응답 생성
#                 seed=1,            # 시드 설정 (결과 재현 가능성)
#                 timeout=30         # 타임아웃 설정 (30초 안에 응답 없을 시 오류 발생)
#             )
#         except Exception as e:
#             # 오류 발생 시 traceback 출력 및 기본 응답 반환
#             traceback.print_exc()
#             return response

#         # 최종 생성된 답변을 응답에 저장
#         response["answer"] = qaresult.choices[0].message.content

#     # 검색이 필요하지 않은 경우 (LLM이 바로 답변을 생성한 경우)
#     else:
#         # LLM이 직접 생성한 답변을 response 객체에 저장
#         response["answer"] = result.choices[0].message.content

#     return response  # 최종 응답 반환


In [80]:
# LLM과 검색엔진을 활용한 RAG(Retrieval-Augmented Generation) 구현
def answer_question(messages):     # messages는 [{"role": "system", "content:" 내용}] 형태의 json값
    # 함수 출력 초기화
    # standalone_query: LLM이 생성한 최종 쿼리, topk: 상위 검색 결과, references: 참조 문서, answer: 최종 답변
    response = {"standalone_query": "", "topk": [], "references": [], "answer": ""}

    # 질의 분석 및 검색 이외의 질의 대응을 위한 LLM 활용
    # messages: 사용자로부터 받은 메시지 내역
    
    # 검색이 필요한 경우 (LLM이 도구 호출을 사용한 경우)
    search_result = sparse_retrieve(messages[0]["content"], 3)  # sparse_retrieve 함수 사용, 상위 3개의 결과를 반환
    response["standalone_query"] = messages[0]["content"]
    # 응답 객체에 standalone_query 저장
    retrieved_context = []  # 검색된 문서의 내용을 저장할 리스트
    for i, rst in enumerate(search_result['hits']['hits']):
        # 검색된 문서 내용을 추출하여 저장
        retrieved_context.append(rst["_source"]["content"])
        response["topk"].append(rst["_source"]["docid"])  # 문서 ID 저장
        response["references"].append({"score": rst["_score"], "content": rst["_source"]["content"]})  # 참조할 문서 정보 추가
        print('score:', rst['_score'], 'source:', rst['_source']["content"]) ### 불러온 문서확인을 위한 코드
        
    # 검색된 문서 내용을 JSON 형식으로 직렬화
    #content = json.dumps(retrieved_context)
    #messages.append({"role": "assistant", "content": content})  # assistant 역할로 검색된 문서 내용 추가


    # 최종 생성된 답변을 응답에 저장
    response["answer"] = messages

    return response  # 최종 응답 반환


테스트 질문세트 만들기

In [112]:

test = [1, 3, 7, 8, 36, 37, 51, 52, 53, 54, 60, 64, 75, 89, 91,94, 98, 99, 102, 114, 115, 117, 118, 124, 133, 135, 148, 150, 151, 157, 158, 161, 162, 175, 177, 181, 196, 197, 205, 219]

chat_list = [22, 37, 52, 53, 54, 65, 90, 95, 100, 103, 116, 118, 119, 125, 134, 149, 152, 162, 176, 182,]

#이 내용을 숫자 리스트로 만드는 코드

# 평가를 위한 파일을 읽어서 각 평가 데이터에 대해서 결과 추출후 파일에 저장
def eval_rag(eval_filename, output_filename):
    with open(eval_filename) as f, open(output_filename, "w") as of:
        idx = 0
        ox = 0
        for line in f:
            if idx > 220:
                break
            j = json.loads(line)
            print(f'\nTest {idx}\nQuestion: {j["msg"]}')
            idx += 1
            for k in chat_list:
                if idx == k:
                    ox = 1
            
            if ox == 1:            
                response = answer_question(j["msg"])
                #print(f'Answer: {response["answer"]}\n')
            
                # 대회 score 계산은 topk 정보를 사용, answer 정보는 LLM을 통한 자동평가시 활용
                output = {"eval_id": j["eval_id"], "standalone_query": "", "topk": "", "answer": "", "references": ""}
                of.write(f'{json.dumps(output, ensure_ascii=False)}\n')
            else:
                response = answer_question(j["msg"])
                #print(f'Answer: {response["answer"]}\n')
                
                # 대회 score 계산은 topk 정보를 사용, answer 정보는 LLM을 통한 자동평가시 활용
                output = {"eval_id": j["eval_id"], "standalone_query": response["standalone_query"], "topk": response["topk"], "answer": response["answer"], "references": response["references"]}
                of.write(f'{json.dumps(output, ensure_ascii=False)}\n')
            ox = 0    



In [None]:
len(test)

In [None]:
## 파라미터 출력
print(llm_model, "         ", model_name)


In [None]:
잠시 멈춤

In [113]:
%%time
# 평가 데이터에 대해서 결과 생성 - 파일 포맷은 jsonl이지만 파일명은 csv 사용
input_file  = "/home/questions_.jsonl"
output_file = "/home/02-1 질문쿼리번경GPT없음2.csv"

msgs = "\"role\": \"system\", \"content:\"\n"
print("LLM_model  : ", llm_model, "\nSentenceTransformer_name : ", model_name, "\n")
#print(msgs, persona_function_calling)

eval_rag(input_file, output_file)

LLM_model  :  gpt-3.5-turbo-1106 
SentenceTransformer_name :  snunlp/KR-SBERT-V40K-klueNLI-augSTS 


Test 0
Question: [{'role': 'user', 'content': '나무의 분류에 대해 조사하기 위해서는 식물학과 생물학적인 지식이 필요합니다. 또한, 다음과 같은 방법을 활용하여 조사할 수 있습니다.\n\n분야: 생물학, 식물학\n분류: 나무의 분류 방법, 분류 체계\n핵심주제: 분류 체계, 분류학, 식물 분류, 분류 기준\n\n핵심 키워드:\n1. 식물 분류학\n2. 나무 분류\n3. 분류 체계\n4. 분류 기준\n5. 분류학적 방법\n6. 분류학적 특징\n7. 식물 분류 기준\n8. 나무 분류법\n9. 분류학적 분석\n10. 식물 분류체계\n\n이러한 키워드를 활용하여 학술 논문, 전문 서적, 학술지 등에서 신뢰할 만한 정보를 얻을 수 있습니다.'}]
score: 204.88443 source: 한 학생이 다양한 종류의 나무를 조사하고 있습니다. 이 학생은 성장 속도, 온도 범위, 크기가 비슷한 두 나무를 발견했습니다. 그러나 이 두 나무의 잎과 꽃은 서로 다릅니다. 이러한 특징을 고려하면, 이 나무들은 대체로 같은 속에 속해 있을 것으로 추측됩니다. 같은 속에 속한 나무들은 종류별로 유사한 특징을 가지고 있으며, 이는 생물 분류학에서 중요한 기준 중 하나입니다. 따라서 이 학생의 조사 결과는 나무의 분류와 관련된 중요한 정보를 제공할 수 있습니다. 이러한 조사는 나무의 성장과 생태에 대한 이해를 높이는 데 도움이 될 것입니다.
score: 197.53938 source: 생물학에서 일부 생물체의 분류 방법이 변경되었습니다. 이제 생물체를 재분류하는 데에는 구조보다는 분자 수준에서의 조사가 사용됩니다. 이 새로운 방법은 생물체의 유전자나 단백질의 구조와 기능을 분석하여 그들의 진화적 관계를 밝히는 데에 큰 도움이 됩니다. 이러한 분자 수준의 조사는 생물체의 유전

In [None]:
%%time
# 평가 데이터에 대해서 결과 생성 - 파일 포맷은 jsonl이지만 파일명은 csv 사용
input_file  = "/home/data/eval.jsonl"
output_file = "/home/04-1 SentenceTransformaer변경.csv"

msgs = "\"role\": \"system\", \"content:\"\n"
print("LLM_model  : ", llm_model, "\nSentenceTransformer_name : ", model_name, "\n\n")
print(msgs, persona_function_calling)

#eval_rag(input_file, output_file)

In [None]:
%%time
# 평가 데이터에 대해서 결과 생성 - 파일 포맷은 jsonl이지만 파일명은 csv 사용
input_file  = "/home/data/eval.jsonl"
output_file = "/home/02-3 inst변경.csv"

eval_rag(input_file, output_file)

In [None]:

data_answers = open("/home/02-1 test.csv","r")
data_answers = pd.DataFrame(data_answers)

pd_answers = []

for i in range(10):
    tmp = str(data_answers[0][i])
    spe_tmp = tmp.split(", \"")
    print(spe_tmp)
    pd_answers.append(spe_tmp)

pd_answers = pd.DataFrame(pd_answers)

pd_answers
#for i in range(10):
    #print(pd_answers[1][i])



In [72]:
### 
# 평가를 위한 파일을 읽어서 각 평가 데이터에 대해서 결과 추출후 파일에 저장
def eval_rag(eval_filename, output_filename):
    with open(eval_filename) as f, open(output_filename, "w") as of:
        idx = 0
        for line in f:
            if idx > 0:
              break
            j = json.loads(line)
            print(f'Test {idx}\nQuestion: {j["msg"]}')
            #response = answer_question(j["msg"])
            #print(f'Answer: {response["answer"]}\n')

            # 대회 score 계산은 topk 정보를 사용, answer 정보는 LLM을 통한 자동평가시 활용
            # output = {"eval_id": j["eval_id"], "standalone_query": response["standalone_query"], "topk": response["topk"], "answer": response["answer"], "references": response["references"]}
            # of.write(f'{json.dumps(output, ensure_ascii=False)}\n')
            idx += 1

# eval_rag("/home/data/eval.jsonl", "/home/04 result_임시.csv")

In [38]:
#!wc -l sample_submission.csv

# MAP

In [None]:
def calc_map(gt, pred):
    sum_average_precision = 0  # 평균 정밀도의 총합을 저장할 변수

    for j in pred:  # 예측된 결과(pred)의 각 항목을 순회
        if gt[j["eval_id"]]:  # gt(ground truth)에서 해당 eval_id가 존재하는지 확인
            hit_count = 0  # 정답이 발견된 횟수를 저장할 변수
            sum_precision = 0  # 정밀도의 합계를 저장할 변수
            for i, docid in enumerate(j["topk"][:3]):  # 예측 상위 3개의 topk 문서에 대해 반복
                if docid in gt[j["eval_id"]]:  # 만약 예측된 문서가 ground truth에 있다면
                    hit_count += 1  # 정답 문서 발견 시 hit_count 증가
                    sum_precision += hit_count / (i + 1)  # 정밀도 계산하여 sum_precision에 더함

            # 평균 정밀도를 계산 (hit_count가 0보다 크면 sum_precision을 hit_count로 나눔, 그렇지 않으면 0)
            average_precision = sum_precision / hit_count if hit_count > 0 else 0
        else:
            # topk에 결과가 없을 경우 평균 정밀도는 0, topk가 존재하지 않으면 1로 설정
            average_precision = 0 if j["topk"] else 1

        # 모든 average_precision 값을 더해 sum_average_precision에 더함
        sum_average_precision += average_precision

    # 전체 예측 결과의 평균 평균 정밀도를 반환 (sum_average_precision을 예측 결과의 개수로 나눈 값)
    return sum_average_precision / len(pred)


### 코드 설명:

1. **`calc_map(gt, pred)`**:
   - 함수 이름에서 `calc_map`은 **MAP**(Mean Average Precision)을 계산하는 함수입니다. 
   - 이 함수는 두 개의 인자를 받습니다:
     - **gt**: 실제 정답(ground truth) 데이터를 담은 객체입니다.
     - **pred**: 예측된 결과 데이터입니다.

2. **`sum_average_precision = 0`**:
   - 전체 평균 정밀도의 총합을 저장할 변수입니다. 나중에 `pred`의 길이로 나눠 평균을 계산합니다.

3. **`for j in pred`**:
   - 예측된 결과 리스트 `pred`에서 각 항목(문서에 대한 예측)을 순차적으로 탐색합니다.

4. **`if gt[j["eval_id"]]`**:
   - 각 예측 항목에서 **eval_id**를 사용해 해당 **ground truth**가 존재하는지 확인합니다.

5. **`hit_count` & `sum_precision`**:
   - **hit_count**는 예측된 문서 중 실제로 **정답**과 일치하는 문서의 수를 셉니다.
   - **sum_precision**은 정밀도 값을 누적해서 저장합니다.

6. **`for i, docid in enumerate(j["topk"][:3])`**:
   - 각 예측 항목에서 상위 3개의 문서(`topk[:3]`)를 확인합니다.
   - `enumerate()`를 사용해 `i`는 인덱스를, `docid`는 문서 ID를 가져옵니다.

7. **`if docid in gt[j["eval_id"]]`**:
   - 예측된 문서 ID가 실제 정답 데이터에 존재하는지 확인합니다.
   - 일치하면 **hit_count**를 1 증가시키고, 정밀도 계산식 `hit_count / (i + 1)`을 누적합니다.

8. **`average_precision = sum_precision / hit_count if hit_count > 0 else 0`**:
   - **평균 정밀도(average_precision)**는 `sum_precision`을 **hit_count**로 나눈 값입니다.
   - 만약 일치하는 문서가 없다면 **average_precision**은 0으로 설정됩니다.

9. **`else: average_precision = 0 if j["topk"] else 1`**:
   - `topk`가 없는 경우(검색 결과가 없는 경우), **average_precision**은 0으로 설정됩니다.
   - 하지만 만약 `topk` 자체가 아예 존재하지 않는 경우에는 **1**로 설정됩니다. 이는 특정 예외적인 경우를 처리하는 로직입니다.

10. **`sum_average_precision += average_precision`**:
    - 각 예측 항목의 평균 정밀도를 **sum_average_precision**에 더합니다.

11. **`return sum_average_precision / len(pred)`**:
    - 예측 항목의 개수로 **sum_average_precision**을 나누어 **Mean Average Precision(MAP)**을 반환합니다.

### 요약:
이 함수는 **Mean Average Precision (MAP)**을 계산하는 함수로, 주어진 예측 결과(`pred`)와 실제 정답(`gt`) 데이터를 바탕으로, 각 쿼리의 **평균 정밀도(Average Precision)**를 계산한 후, 그 값들의 평균을 구합니다.

# 계속

#Reference

## Required Package

openai==1.7.2 <br>
elasticsearch==8.8.0 <br>
sentence_transformers==2.2.2 <br>



## 콘텐츠 라이선스

저작권 : <font color='skyblue'> <b> ©2023 by Upstage X fastcampus Co., Ltd. All rights reserved.</font></b>

<font color='red'><b>WARNING</font> : 본 교육 콘텐츠의 지식재산권은 업스테이지 및 패스트캠퍼스에 귀속됩니다. 본 콘텐츠를 어떠한 경로로든 외부로 유출 및 수정하는 행위를 엄격히 금합니다. </b>