# 01 Pull Type Import Strategy

## Use case
- Azure AI Search の サービス仕様ドキュメントをインプットにする。
  - https://learn.microsoft.com/ja-jp/azure/search/
- ドキュメントは OCR が必要。
- 開発者マニュアルは、構造化されたセクションとなっている。
- 各セクションは非常に詳細かつ専門性の高い技術解説が記載されており、ドキュメントサイズも大きい。
- ドキュメントには、テキスト、テーブル、図、グラフなどが含まれるが、ここでは、テキスト、テーブルデータのみを扱う。

## チャンキング設計
- Document Intelligence で、Markdown形式でテキストデータを抽出済み。
- 1つのドキュメントに大量のコンテキストが含まれており、ドキュメントサイズも大きいため、チャンキングを実施する。
- チャンキングは Azure AI Search が提供する Text Split skill を利用する。
- 各チャンキングのContentはEmbeddingする。

In [None]:
! pip install azure-search-documents==11.6.0b4
! pip install openai python-dotenv azure-identity cohere azure-ai-vision-imageanalysis
! pip install azure-storage-blob

In [None]:
import os

from azure.core.credentials import AzureKeyCredential
from azure.identity import DefaultAzureCredential, get_bearer_token_provider
from azure.search.documents import SearchClient
from azure.search.documents.indexes import SearchIndexClient, SearchIndexerClient
from azure.search.documents.indexes.models import (
    AIServicesVisionParameters,
    AIServicesVisionVectorizer,
    AIStudioModelCatalogName,
    AzureMachineLearningVectorizer,
    AzureOpenAIVectorizer,
    AzureOpenAIModelName,
    AzureOpenAIParameters,
    AzureOpenAIEmbeddingSkill,
    BlobIndexerDataToExtract,
    BlobIndexerParsingMode,
    CognitiveServicesAccountKey,
    DefaultCognitiveServicesAccount,
    ExhaustiveKnnAlgorithmConfiguration,
    ExhaustiveKnnParameters,
    FieldMapping,
    HnswAlgorithmConfiguration,
    HnswParameters,
    IndexerExecutionStatus,
    IndexingParameters,
    IndexingParametersConfiguration,
    InputFieldMappingEntry,
    KeyPhraseExtractionSkill,
    OutputFieldMappingEntry,
    ScalarQuantizationCompressionConfiguration,
    ScalarQuantizationParameters,
    SearchField,
    SearchFieldDataType,
    SearchIndex,
    SearchIndexer,
    SearchIndexerDataContainer,
    SearchIndexerDataIdentity,
    SearchIndexerDataSourceConnection,
    SearchIndexerIndexProjections,
    SearchIndexerIndexProjectionSelector,
    SearchIndexerIndexProjectionsParameters,
    SearchIndexerSkillset,
    SemanticConfiguration,
    SemanticField,
    SemanticPrioritizedFields,
    SemanticSearch,
    SimpleField,
    SplitSkill,
    VectorSearch,
    VectorSearchAlgorithmKind,
    VectorSearchAlgorithmMetric,
    VectorSearchProfile,
    VisionVectorizeSkill
)
from azure.search.documents.models import (
    HybridCountAndFacetMode,
    HybridSearch,
    SearchScoreThreshold,
    VectorizableTextQuery,
    VectorizableImageBinaryQuery,
    VectorizableImageUrlQuery,
    VectorSimilarityThreshold,
)
from azure.storage.blob import BlobServiceClient
from dotenv import load_dotenv
from IPython.display import Image, display, HTML
from openai import AzureOpenAI

In [None]:
# Load environment variables
load_dotenv()

# Configuration
AZURE_AI_VISION_API_KEY = os.getenv("AZURE_AI_VISION_API_KEY")
AZURE_AI_VISION_ENDPOINT = os.getenv("AZURE_AI_VISION_ENDPOINT")
AZURE_OPENAI_ENDPOINT = os.getenv("AZURE_OPENAI_ENDPOINT")
AZURE_OPENAI_API_KEY = os.getenv("AZURE_OPENAI_API_KEY")
BLOB_CONNECTION_STRING = os.getenv("BLOB_CONNECTION_STRING")
INDEX_NAME = "rag-search-index-pull"
AZURE_SEARCH_ADMIN_KEY = os.getenv("AZURE_SEARCH_ADMIN_KEY")
AZURE_SEARCH_ENDPOINT = os.getenv("AZURE_SEARCH_ENDPOINT")
AZURE_AI_MULTI_SERVICE_ENDPOINT = os.getenv("AZURE_AI_MULTI_SERVICE_ENDPOINT")
AZURE_AI_MULTI_SERVICE_KEY = os.getenv("AZURE_AI_MULTI_SERVICE_KEY")

In [None]:
# User-specified parameter
USE_AAD_FOR_SEARCH = False  # Set this to False to use API key for authentication

def authenticate_azure_search(api_key=None, use_aad_for_search=False):
    if use_aad_for_search:
        print("Using AAD for authentication.")
        credential = DefaultAzureCredential()
    else:
        print("Using API keys for authentication.")
        if api_key is None:
            raise ValueError("API key must be provided if not using AAD for authentication.")
        credential = AzureKeyCredential(api_key)
    return credential

azure_search_credential = authenticate_azure_search(api_key=AZURE_SEARCH_ADMIN_KEY, use_aad_for_search=USE_AAD_FOR_SEARCH)

### データセットのアップロード
Azure AI Search のインデクサーにより、データをインポートする場合は各データソースにデータを格納しておく必要がある。

In [None]:
from utils.azure_blob_operation import upload_folder_to_blob

connection_string = BLOB_CONNECTION_STRING
container_name = "rag-knowledge-01-aisearch"
local_folder_path = "../output/01_output"

upload_folder_to_blob(connection_string, container_name, local_folder_path)

### Create a blob data source connector on Azure AI Search

In [None]:
def create_or_update_data_source(indexer_client, container_name, connection_string, index_name):
    """
    Create or update a data source connection for Azure AI Search.
    """
    container = SearchIndexerDataContainer(name=container_name, query="documents") # Query is optional, but can be used to filter the folters in the blob container
    data_source_connection = SearchIndexerDataSourceConnection(
        name=f"{index_name}-blob",
        type="azureblob",
        connection_string=connection_string,
        container=container
    )
    try:
        indexer_client.create_or_update_data_source_connection(data_source_connection)
        print(f"Data source '{index_name}-blob' created or updated successfully.")
    except Exception as e:
        raise Exception(f"Failed to create or update data source due to error: {e}")

# Create a SearchIndexerClient instance
indexer_client = SearchIndexerClient(AZURE_SEARCH_ENDPOINT, azure_search_credential)

# Call the function to create or update the data source
create_or_update_data_source(indexer_client, container_name, BLOB_CONNECTION_STRING, INDEX_NAME)

## Create a search index

### インデックスの定義
- インデックスは単一で構成する。
- インプットドキュメントが説明的な内容のため、`Hybrid + Semantic Ranker` を採用する。そのため、ベクトル検索、 Semantic Ranker ための設定をする。

### フィールドの定義
- ドキュメントをチャンク分割したテキストを `chunk` フィールドに格納する。
- ユーザのコンテキストを捉えるために、ベクトル検索を採用する。そのため、`Embedding` フィールドを構成する。
  - Embedding Model: `text-embedding-ada-002`を採用する。
- ドキュメントのタイトルを`Title`フィールドに含める。
- ドキュメント内にドメイン固有なワードが頻繁に出現するため、`key_phrases` フィールドに各チャンク内のキーフレーズを含める。
- ソースドキュメントの追跡用に `metadata_storage_last_modified`, `metadata_storage_path` を含める。

### Option: Enabling Semantic Ranker
Uses Microsoft’s language understanding models to rerank search results, enhancing relevance and providing results more aligned with the user’s context.

#### Implementation Considerations
Semantic Ranker を有効にする際の考慮事項を記載します。
- Semantic Ranker は、テキストクエリの BM25 でランク付けされた検索結果から、またはハイブリッド クエリの RRF でランク付けされた結果をリランキングします。
- 検索結果の数が 50 個を超える場合でも、リランキングが行われるのは上位 50 個の結果のみです。そのため、処理されない結果があることに注意してください。
- また、Semantic Ranker は、文章のコンテキストを理解させるために利用するため、適用対象のフィールドは説明的なものを指定することが推奨されます。ナレッジベース、オンラインドキュメントなど説明的なコンテンツを含むドキュメントでは、Semantic Ranker から最も多くのメリットが得られます。

In [None]:
# Creating Configuration for Semantic Ranker
def create_semantic_config():
	semantic_config = SemanticConfiguration(
		name="my-semantic-config",
		prioritized_fields=SemanticPrioritizedFields(
			title_field=SemanticField(field_name="title"),
			keywords_fields=[SemanticField(field_name="key_phrases")],
			content_fields=[SemanticField(field_name="chunk")],
		)
	)
	# Create the semantic settings with the configuration
	semantic_search = SemanticSearch(configurations=[semantic_config])
	return semantic_search

In [None]:
def create_search_index(index_name, azure_openai_endpoint, azure_openai_embedding_deployment_id, azure_openai_key=None):
    return SearchIndex(
        name=index_name,
        fields=[
            SearchField(
                name="chunk_id",
                type=SearchFieldDataType.String,
                key=True,
                hidden=False,
                filterable=True,
                sortable=True,
                facetable=False,
                searchable=True,
                analyzer_name="keyword"
            ),
            SearchField(
                name="parent_id",
                type=SearchFieldDataType.String,
                hidden=False,
                filterable=True,
                sortable=True,
                facetable=False,
                searchable=False
            ),
            SearchField(
                name="chunk",
                type=SearchFieldDataType.String,
                hidden=False,
                filterable=True,
                sortable=False,
                facetable=False,
                searchable=True,
                analyzer_name="ja.microsoft" # replace with your analyzer
            ),
            SearchField(
                name="title",
                type=SearchFieldDataType.String,
                hidden=False,
                filterable=True,
                sortable=False,
                facetable=False,
                searchable=True,
                analyzer_name="ja.microsoft" # replace with your analyzer
            ),
            SearchField(
                name="key_phrases",
                type=SearchFieldDataType.String,
                hidden=False,
                filterable=True,
                sortable=False,
                facetable=False,
                searchable=True,
                analyzer_name="ja.microsoft" # replace with your analyzer
            ),
            SearchField(
                name="vector",
                type=SearchFieldDataType.Collection(SearchFieldDataType.Single),
                hidden=False,
                filterable=False,
                sortable=False,
                facetable=False,
                searchable=True,
                vector_search_dimensions=1536,
                vector_search_profile_name="profile"
            ),
            SimpleField(
				name="metadata_storage_last_modified",
                type=SearchFieldDataType.DateTimeOffset,
                hidden=False,
                filterable=True,
                sortable=True,
                facetable=False,
                searchable=False,
			),
            SimpleField(
				name="metadata_storage_path",
                type=SearchFieldDataType.String,
                hidden=False,
                filterable=True,
                sortable=True,
                facetable=False,
                searchable=False,
			)
        ],
        vector_search=VectorSearch(
			algorithms=[
				HnswAlgorithmConfiguration(
					name="myHnsw",
					parameters=HnswParameters(
						m=4,
						ef_construction=400,
						ef_search=500,
						metric=VectorSearchAlgorithmMetric.COSINE,
					),
				)
			],
			vectorizers=[
				AzureOpenAIVectorizer(
					name="myAzureOpenAIVectorizer",
					kind="azureOpenAI",
					azure_open_ai_parameters=AzureOpenAIParameters(
						resource_uri=azure_openai_endpoint,
						api_key=azure_openai_key,
						deployment_id=azure_openai_embedding_deployment_id,
						model_name=AzureOpenAIModelName.TEXT_EMBEDDING_ADA002,
					),
				)
			],
			profiles=[
				VectorSearchProfile(
					name="profile",
					algorithm_configuration_name="myHnsw",
					vectorizer="myAzureOpenAIVectorizer",
				)
			],
    	),
        semantic_search=create_semantic_config() # Here we add the semantic search configuration
	)

index = create_search_index(
    INDEX_NAME,
    AZURE_OPENAI_ENDPOINT,
    "text-embedding-ada-002", # replace with your deployment name
    AZURE_OPENAI_API_KEY
)
index_client = SearchIndexClient(
    endpoint=AZURE_SEARCH_ENDPOINT, credential=azure_search_credential
)
index_client.create_or_update_index(index)

print(f"Created index: {INDEX_NAME}")

## Create a Skillset

- **Text Splitter**: ドキュメントをチャンキングする。
  - text_split_mode: ページ単位での分割
  - maximum_page_length: 最大2000文字（大きすぎると精度が低下するため）
  - page_overlap_length: コンテキストがLostを最小限にするために、ページの前後のテキストを各チャンクに含める。（25％で設定）
- **Embeddings**: AOAIのモデルを利用してテキストデータのEmbeddingをする。
- **Key Phrase Extraction**: ドキュメントからキーフレーズを抽出する。

In [None]:
def create_search_skillset(
        skillset_name,
        index_name,
        azure_openai_endpoint,
        azure_openai_embedding_deployment_id,
        azure_openai_key=None,
        text_split_mode='pages',
        maximum_page_length=2000,
        page_overlap_length=500):
    return SearchIndexerSkillset(
        name=skillset_name,
        skills=[
            SplitSkill(
                name="Text Splitter",
                default_language_code="ja", # replace documents language code
                text_split_mode=text_split_mode,
                maximum_page_length=maximum_page_length,
                page_overlap_length=page_overlap_length,
                context="/document",
                inputs=[
                    InputFieldMappingEntry(
                        name="text",
                        source="/document/content"
                    )
                ],
                outputs=[
                    OutputFieldMappingEntry(
                        name="textItems",
                        target_name="pages"
                    )
                ]
            ),
            AzureOpenAIEmbeddingSkill(
                name="Embeddings",
                resource_uri=azure_openai_endpoint,
                deployment_id=azure_openai_embedding_deployment_id,
                api_key=azure_openai_key, # Optional if using RBAC authentication
                model_name=AzureOpenAIModelName.TEXT_EMBEDDING_ADA002,
                context="/document/pages/*",
                inputs=[
                    InputFieldMappingEntry(
                        name="text",
                        source="/document/pages/*"
                    )
                ],
                outputs=[
                    OutputFieldMappingEntry(
                        name="embedding",
                        target_name="vector"
                    )
                ]
            ),
            KeyPhraseExtractionSkill(
				name="Key Phrase Extraction",
				context="/document/pages/*",
				default_language_code="ja", # replace documents language code
                inputs=[
                    InputFieldMappingEntry(
                        name="text",
                        source="/document/pages/*"
                    )
                ],
                outputs=[
                    OutputFieldMappingEntry(
                        name="keyPhrases",
                        target_name="key_phrases"
                    )
                ]
			)
        ],
        index_projections=SearchIndexerIndexProjections(
            selectors=[
                SearchIndexerIndexProjectionSelector(
                    target_index_name=index_name,
                    parent_key_field_name="parent_id",
                    source_context="/document/pages/*",
                    mappings=[
                        InputFieldMappingEntry(
                            name="chunk",
                            source="/document/pages/*"
                        ),
                        InputFieldMappingEntry(
                            name="vector",
                            source="/document/pages/*/vector"
                        ),
                        InputFieldMappingEntry(
                            name="title",
                            source="/document/metadata_storage_name"
                        ),
                        InputFieldMappingEntry(
                            name="key_phrases",
                            source="/document/pages/*/key_phrases"
                        ),
                        InputFieldMappingEntry(
                            name="metadata_storage_last_modified",
                            source="/document/metadata_storage_last_modified"
                        ),
                        InputFieldMappingEntry(
                            name="metadata_storage_path",
                            source="/document/metadata_storage_path"
                        ),
                    ]
                )
            ],
            parameters=SearchIndexerIndexProjectionsParameters(projection_mode="skipIndexingParentDocuments")
        ),
        cognitive_services_account=CognitiveServicesAccountKey(key=AZURE_AI_MULTI_SERVICE_KEY)
    )

skillset_name = f"{INDEX_NAME}-skillset"
skillset = create_search_skillset(
    skillset_name,
    INDEX_NAME,
    AZURE_OPENAI_ENDPOINT,
    "text-embedding-ada-002", # replace with your deployment name
    AZURE_OPENAI_API_KEY,
    text_split_mode='pages',
    maximum_page_length=2000,
    page_overlap_length=500
)
search_indexer_client = SearchIndexerClient(endpoint=AZURE_SEARCH_ENDPOINT, credential=azure_search_credential)
search_indexer_client.create_or_update_skillset(skillset)

## Run Indexer

- データソースは Azure Storage Account のため、変更検出がサポートされている。
- ここでは、サンプルのため、スケジューリングの設定はしないが、スケジューリングを設定すると、インデクサーによりドキュメントの変更（新規追加も含む）検知をして増分データのみをインデックス化することが可能になる。
  - これにより、すべてのソースドキュメントをスキャンすることがなく、インデックス化のジョブのパフォーマンスを最適化することが可能になる。

In [None]:
def create_search_indexer(indexer_name, skillset_name, datasource_name, index_name):
    return SearchIndexer(
        name=indexer_name,
        data_source_name=datasource_name,
        target_index_name=index_name,
        skillset_name=skillset_name
    )

indexer_name = f"{INDEX_NAME}-indexer"
indexer = create_search_indexer(indexer_name, skillset_name, f"{INDEX_NAME}-blob", INDEX_NAME)


In [None]:
search_indexer_client.create_or_update_indexer(indexer)
print(f"{indexer_name} created or updated.")
search_indexer_client.run_indexer(indexer_name)
print(f"{indexer_name} is running. If queries return no results, please wait a bit and try again.")

# 04_Query-Design
Tips for Azure AI Search Query-Design

### Simple Search
- ユーザのクエリのコンテキストをとらえたい、かつサービスに特化したワードがクエリに含まれる可能性が高いため、Hybrid（フルテキスト検索＋ベクトル検索）＋Semantic Ranker を採用する。
  - Hybrid検索のスコアはAzure AI Searchでは、Reciprocal Rank Fusion (RRF) が採用される。 
- クエリはユーザのクエリをそのまま検索インデックスのクエリに利用する。

In [None]:
search_client = SearchClient(endpoint=AZURE_SEARCH_ENDPOINT, index_name=INDEX_NAME, credential=azure_search_credential)

In [None]:
query="ベクトル検索時の設定要素について教えてください"

vector_query = VectorizableTextQuery(
    text=query,
    k_nearest_neighbors=50,
    fields="vector",
)

# Perform the search
results = search_client.search(
    query_type='semantic',
    query_language='ja',
    semantic_configuration_name='my-semantic-config',
    search_text=query,
    vector_queries=[vector_query],
    top=5,
    select="chunk, title, key_phrases",
	search_fields=["chunk", "title", "key_phrases"],
)

for result in results:
    print(result)

### Query Expansion
- ユーザのクエリのコンテキストをとらえたい、かつサービスに特化したワードがクエリに含まれる可能性が高いため、Hybrid（フルテキスト検索＋ベクトル検索）＋Semantic Ranker を採用する。
  - Hybrid検索のスコアはAzure AI Searchでは、Reciprocal Rank Fusion (RRF) が採用される。 
- また、ユーザクエリから検索クエリを新しく生成する。
  - クエリはユーザのクエリをスタンドアローンなクエリに変換する。
  - また、検索のカバレッジを大きくするために、類似した入力クエリを複数生成する。

In [None]:
import re
import os
from openai import AzureOpenAI
import json

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
  api_version="2024-02-01"
)

system_message = """
# Your Task
- Given the following conversation history and the users next question,rephrase the question to be a stand alone question.
- You also need to extend the original question to generate 5 related queries. This is done to capture the broader context of the user's question.
- You must output json format. In other words, You must output array of questions that length is 5.

# Json format example:
{
	"questions": [
		"related question 1",
		"related question 2",
		"related question 3",
		"related question 4",
		"related question 5"
	]
}
"""

def generate_expanded_query(text):
    message_text = [
		{"role":"system","content": system_message},
		{"role":"user","content": text}
	]
    completion = client.chat.completions.create(
		model="gpt-4o", # model = "deployment_name"
		messages = message_text,
		response_format={"type": "json_object"},
		temperature=0,
		)
    return completion.choices[0].message.content


In [None]:
query="ベクトル検索時の設定要素について教えてください"
expanded_query = generate_expanded_query(query)
parsed_data = json.loads(expanded_query)
parsed_data

In [None]:
for question in parsed_data["questions"]:
	vector_query = VectorizableTextQuery(
		text=question,
		k_nearest_neighbors=50,
		fields="vector",
	)
	# Perform the search
	results = search_client.search(
		query_type='semantic',
  		query_language='ja',
    	semantic_configuration_name='my-semantic-config',
		search_text=query,
		vector_queries=[vector_query],
		top=5,
		select="chunk, title, key_phrases",
		search_fields=["chunk", "title", "key_phrases"],
	)
	print("query: ", question)
	for result in results:
		print(result)
	print("\n")

### HyDE (Hypothetical Document Embeddings)
- ユーザのクエリのコンテキストをとらえたい、かつサービスに特化したワードがクエリに含まれる可能性が高いため、Hybrid（フルテキスト検索＋ベクトル検索）＋Semantic Ranker を採用する。
  - Hybrid検索のスコアはAzure AI Searchでは、Reciprocal Rank Fusion (RRF) が採用される。 
- また、ユーザクエリから検索クエリを新しく生成する。
  - クエリはユーザのクエリをスタンドアローンなクエリに変換する。
  - また、ユーザのクエリに基づいて仮想的な応答をLLMで作成し、それをベクトル変換した結果を用いて検索をかけるHyDEを採用します。クエリを検索対象のベクトルにより近いものに変換することで、検索精度を高めることを狙った手法です。
  - HyDEはLLMがまったく知識を持たないような領域だと役に立たない可能性があるため採用する際は注意してください。

In [None]:
import re
import os
from openai import AzureOpenAI
import json

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
  api_version="2024-02-01"
)


def generate_hypothetical_query(text):
    hypothetical_gen_instruction = f"""Please write a passage to answer the question
	Question: {text}
	Passage:
	"""
    message_text = [
		{"role":"system","content": "You are an AI assistant."},
		{"role":"user","content": hypothetical_gen_instruction}
	]
    completion = client.chat.completions.create(
		model="gpt-4o", # model = "deployment_name"
		messages = message_text,
		# response_format={"type": "json_object"},
		temperature=0,
		)
    return completion.choices[0].message.content

In [None]:
query="ベクトル検索時の設定要素について教えてください"
hypothetical_answer = generate_hypothetical_query(query)
hypothetical_answer

In [None]:
vector_query = VectorizableTextQuery(
	text=hypothetical_answer,
	k_nearest_neighbors=50,
	fields="vector",
)
# Perform the search
results = search_client.search(
    query_type='semantic',
    query_language='ja',
    semantic_configuration_name='my-semantic-config',
	search_text=hypothetical_answer,
	vector_queries=[vector_query],
	top=5,
	select="chunk, title, key_phrases",
	search_fields=["chunk", "title", "key_phrases"],
)
for result in results:
	print(result)

## 05_Generate-Answer
検索インデックスから取得したものをコンテキストとして与えて、それをベースにした回答を生成させるプロンプトを設定します。
プロンプトエンジニアリングに関する包括的なガイダンスは以下を参照ください。

https://learn.microsoft.com/ja-jp/azure/ai-services/openai/concepts/prompt-engineering

In [None]:
import re
import os
from openai import AzureOpenAI
import json

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
  api_version="2024-02-01"
)


def generate_answer(query, context):
    system_message = f"""
    system:
	You are an AI assistant that helps users answer questions given a specific context. You will be given a context and asked a question based on that context. Your answer should be as precise as possible and should only come from the context.
	Please add citation after each sentence when possible in a form "(Source: citation)". 
	context: {context}
	user: 
	"""
    message_text = [
		{"role":"system","content": system_message},
		{"role":"user","content": query}
	]
    completion = client.chat.completions.create(
		model="gpt-4o", # model = "deployment_name"
		messages = message_text,
		# response_format={"type": "json_object"},
		temperature=0,
		)
    return completion.choices[0].message.content

In [None]:
context_text = ""
for result in results:
	context_text += result["chunk"] + " "

answer = generate_answer(query, context_text)
answer

## 06_Evaluation
RAG の Evaluation は、「検索評価」と「生成評価」にわけて実施することが推奨される。

### 検索評価 - 簡易評価
- シンプルな検索評価として、検索結果の上位5件にユーザクエリを解決するための情報が含まれているかどうかを評価します。
- クエリの種類は、想定されるエンドユーザーのクエリや、異なるドキュメントを答えとなるようなクエリを複数パターン用意します。
  - 回答に複数の文が必要な抽象的な質問：
  - 検索エンジンに一般的に入力されるものと同様の短縮されたクエリ：
  - 回答が質問とは異なる単語やフレーズを使用しているクエリ：
  - 回答が 1 つしかないクエリ
  - 複数の内容を質問しているクエリ
- ここではサンプルのため5パターンのクエリを用意しますが、包括的な評価をするためには、100件以上のパターンを用意することが推奨されます。（もちろん、ドキュメントの量やユーザのタスクによって異なるため、それぞれの要件にあわせて設計が必要です）
  - [参考：評価用データセットの作成](https://github.com/microsoft/promptflow-resource-hub/blob/main/sample_gallery/golden_dataset/copilot-golden-dataset-creation-guidance.md)


In [None]:
# Test query set
queries = [
	"AI Search について勉強しています。ベクトル検索時の設定要素について教えてください",
	"ハイブリッド検索　メリット",
	"Azure AI Search には、リランクのモデルが利用できるか？",
	"フルテキスト検索の取得は最大何件か",
	"Hybrid検索とセマンティックランカーの特徴と違いはなんですか？"
]

#### シンプルクエリ

クエリを実行

In [None]:
import pprint

# Test for simple query
for query in queries:
    vector_query = VectorizableTextQuery(
        text=query,
        k_nearest_neighbors=50,
        fields="vector",
    )

    # Perform the search
    results = search_client.search(
        query_type='semantic',
        query_language='ja',
    	semantic_configuration_name='my-semantic-config',
        search_text=query,
        vector_queries=[vector_query],
        top=5,
        select="chunk, title, key_phrases",
        search_fields=["chunk", "title", "key_phrases"],
    )

    print("Query:")
    pprint.pprint(query)
    print("\nResults:")
    for result in results:
        pprint.pprint(result)
        print("\n")

##### 1. 回答に複数の文が必要な抽象的な質問  
**質問:**  
*AI Search について勉強しています。ベクトル検索時の設定要素について教えてください*

- **評価:** 部分的に合致
  - **意図した回答が含まれるチャンクの順位:** 3位
  - **理由:** クエリに対応するベクトル検索の設定要素が具体的に記載されており、質問に直接対応していました。

##### 2. 検索エンジンに一般的に入力されるものと同様の短縮されたクエリ  
**質問:**  
*ハイブリッド検索 メリット*

- **評価:** 合致
  - **意図した回答が含まれるチャンクの順位:** 1位
  - **理由:** ハイブリッド検索のメリットや具体的な使用例、関連性の向上についての記述が見られ、クエリに対して的確に回答しています。

##### 3. 回答が質問とは異なる単語やフレーズを使用しているクエリ  
**質問:**  
*Azure AI Search には、リランクのモデルが利用できるか？*

- **評価:** 合致
  - **意図した回答が含まれるチャンクの順位:** 2位
  - **理由:** セマンティックランク付けについての詳細な説明があり、リランクに関する情報が提供されていますが、さらに具体的な言及が期待されます。

##### 4. 回答が 1 つしかないクエリ  
**質問:**  
*フルテキスト検索の取得は最大何件か*

- **評価:** 合致
  - **意図した回答が含まれるチャンクの順位:** 1位
  - **理由:** フルテキスト検索の最大取得件数に関する直接的な情報が提供され、クエリに対して明確に回答しています。

##### 5. 複数の内容を質問しているクエリ  
**質問:**  
*Hybrid検索とセマンティックランカーの特徴と違いはなんですか？*

- **評価:** 合致
  - **意図した回答が含まれるチャンクの順位:** 1位、2位
  - **理由:** ハイブリッド検索とセマンティックランカーの機能に関する比較が含まれており、クエリに対して適切な情報が提供されています。


#### HyDE

クエリを実行

In [None]:
import pprint

# Test for simple query
for query in queries:
    hypothetical_answer = generate_hypothetical_query(query)   
    vector_query = VectorizableTextQuery(
		text=hypothetical_answer,
		k_nearest_neighbors=50,
		fields="vector",
	)

    # Perform the search
    results = search_client.search(
        query_type='semantic',
        query_language='ja',
    	semantic_configuration_name='my-semantic-config',
        search_text=hypothetical_answer,
        vector_queries=[vector_query],
        top=5,
        select="chunk, title, key_phrases",
        search_fields=["chunk", "title", "key_phrases"],
    )

    print("Query:")
    pprint.pprint(query)
    print("\nHyDE Query:")
    pprint.pprint(hypothetical_answer)
    print("\nResults:")
    for result in results:
        pprint.pprint(result)
        print("\n")

##### 1. 回答に複数の文が必要な抽象的な質問  
**質問:**  
*AI Search について勉強しています。ベクトル検索時の設定要素について教えてください*

- **評価:** 合致
  - **意図した回答が含まれるチャンクの順位:** 1位
  - **理由:** ベクトル検索に関連する設定要素（次元数、距離測定方法、インデックス構築など）が説明されています。

##### 2. 検索エンジンに一般的に入力されるものと同様の短縮されたクエリ  
**質問:**  
*ハイブリッド検索 メリット*

- **評価:** 合致
  - **意図した回答が含まれるチャンクの順位:** 2位
  - **理由:** ハイブリッド検索のメリット（精度の向上、セマンティックランク付けの効果、ベクトル検索とキーワード検索の統合など）が言及されています。

##### 3. 回答が質問とは異なる単語やフレーズを使用しているクエリ  
**質問:**  
*Azure AI Search には、リランクのモデルが利用できるか？*

- **評価:** 合致
  - **意図した回答が含まれるチャンクの順位:** 1位
  - **理由:** Azure AI Searchでセマンティックランク付けや再ランク付けのプロセスに関する情報が提供されています。

##### 4. 回答が 1 つしかないクエリ  
**質問:**  
*フルテキスト検索の取得は最大何件か*

- **評価:** 合致
  - **意図した回答が含まれるチャンクの順位:** 2位
  - **理由:** フルテキスト検索結果の取得件数に関する言及（既定の50件、最大1000件まで）が含まれています。

##### 5. 複数の内容を質問しているクエリ  
**質問:**  
*Hybrid検索とセマンティックランカーの特徴と違いはなんですか？*

- **評価:** 合致
  - **意図した回答が含まれるチャンクの順位:** 1位, 2位, 3位
  - **理由:** ハイブリッド検索とセマンティックランク付けに関するそれぞれの特徴についての言及が見られます。

### 検索評価 - 厳密な評価
TBD
- 評価指標の設計
- クエリパターン
- 評価用データの選定・設計

### 生成評価 - 簡易評価
- シンプルな検索評価として、検索結果の上位5件にユーザクエリを解決するための情報が含まれているかどうかを評価します。
- クエリの種類は、想定されるエンドユーザーのクエリや、異なるドキュメントを答えとなるようなクエリを複数パターン用意します。
  - 回答に複数の文が必要な抽象的な質問：
  - 検索エンジンに一般的に入力されるものと同様の短縮されたクエリ：
  - 回答が質問とは異なる単語やフレーズを使用しているクエリ：
  - 回答が 1 つしかないクエリ
  - 複数の内容を質問しているクエリ
- ここではサンプルのため5パターンのクエリを用意しますが、包括的な評価をするためには、100件以上のパターンを用意することが推奨されます。（もちろん、ドキュメントの量やユーザのタスクによって異なるため、それぞれの要件にあわせて設計が必要です）
  - [参考：評価用データセットの作成](https://github.com/microsoft/promptflow-resource-hub/blob/main/sample_gallery/golden_dataset/copilot-golden-dataset-creation-guidance.md)


In [None]:
# Define RAG Pipeline
def rag_pipeline_with_hyde(query):
	hypothetical_answer = generate_hypothetical_query(query)
	vector_query = VectorizableTextQuery(
		text=hypothetical_answer,
		k_nearest_neighbors=50,
		fields="vector",
	)
	# Perform the search
	results = search_client.search(
		query_type='semantic',
		query_language='ja',
    	semantic_configuration_name='my-semantic-config',
		search_text=hypothetical_answer,
		vector_queries=[vector_query],
		top=5,
		select="chunk, title, key_phrases",
		search_fields=["chunk", "title", "key_phrases"],
	)
	
	context_text = ""
	for result in results:
		context_text += result["chunk"] + " "

	return generate_answer(query, context_text)

In [None]:
# Test query set
queries = [
	"AI Search について勉強しています。ベクトル検索時の設定要素について教えてください",
	"ハイブリッド検索　メリット",
	"Azure AI Search には、リランクのモデルが利用できるか？",
	"フルテキスト検索の取得は最大何件か",
	"Hybrid検索とセマンティックランカーの特徴と違いはなんですか？"
]

In [None]:
import time

for query in queries:
    start_time = time.time()
    answer = rag_pipeline_with_hyde(query)
    end_time = time.time()
    elapsed_time = end_time - start_time

    print(f"Query: {query}")
    print(f"Answer: {answer}")
    print(f"Elapsed time: {elapsed_time} seconds")
    print("\n")