# 日本語データセットをチャンク分割し Azure Cognitive Search のインデックスに登録するサンプル

Azure Cognitive Search の**キーワード検索**をするために以下を行うサンプルです。

1. 戦国武将の Wikipedia ページをチャンクに分割
1. Azure Cognitive Search のインデックスに登録

ベクトルインデックスの作成と登録は[こちら](TextChunking_Embeddings_RegisterIndex.ipynb)を参照してください。

# 1. 日本語データセットをチャンクに分割

In [None]:
!pip install openai tiktoken langchain

In [None]:
import warnings
import tiktoken
import pandas as pd
import glob
import os
import base64
import re

from langchain.text_splitter import RecursiveCharacterTextSplitter
warnings.filterwarnings('ignore')

In [None]:
#!pip install pyarrow
#import pyarrow.parquet as pq

## 単一ファイルの動作確認

In [None]:
f = open('./data/源頼朝.txt', 'r', encoding='UTF-8')

data = f.read()
print(data)

f.close()

## ドキュメントのトークン数を計測
OpenAI モデルのトークン数を正確に数えるためには、[tiktoken](https://github.com/openai/tiktoken) ライブラリを利用します。モデルごとに利用するトークナイザーが異なるため詳しくは[こちら](https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb)を参照してください。

In [None]:
enc = tiktoken.get_encoding("cl100k_base")
print(len(enc.encode(data)))

## テキストをチャンクに分割
通常 1 つのドキュメントに含まれるトークン数は 1 度のコンテキストに指定できる最大トークン数をゆうに超えます。今回はドキュメントの文を指定したトークン数以下のチャンクに分割します。

- テキストの分割方法<br>
RecursiveCharacterTextSplitter はチャンクが十分に小さくなるまで、順番に分割します。
- チャンクサイズの測定方法<br>
tiktoken ライブラリのトークナイザーを使用してトークン数を正確に測定します。

In [None]:
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    encoding_name='cl100k_base',
    chunk_size=1000, 
    chunk_overlap=50
)

In [None]:
chunk = text_splitter.split_text(data)
chunk

In [None]:
#チャンク数
len(chunk)

In [None]:
#チャンク[0]の中身
chunk[0]

In [None]:
#トークン数
print(len(enc.encode(chunk[0])))

In [None]:
#チャンクごとのトークン数確認
tokencounter = 0
for i, text in enumerate(chunk):
    print(i,len(enc.encode(text)))
    tokencounter = tokencounter + len(enc.encode(text))

print(tokencounter)

## ファイル一括処理
ドキュメントをチャンクに分割する方法を確認したら、実際に複数のデータセットを一括処理でチャンクごとのテキストファイルに分割します。

In [None]:
enc = tiktoken.get_encoding("cl100k_base")
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    encoding_name='cl100k_base',
    chunk_size=1000, 
    chunk_overlap=50
)

#テキストファイルを読み込んで、指定のトークン数のチャンクファイルに分割します。
def splitChunkFile(filepath):
    f = open(filepath, 'r', encoding='UTF-8')
    data = f.read()
    chunk = text_splitter.split_text(data)

    #chunk単位でループ
    for i, chunkedtext in enumerate(chunk):
        
        dirname = os.path.dirname(filepath)
        basename = os.path.splitext(os.path.basename(filepath))[0]
        outputfilepath = dirname + "/output/" + basename + "-" + str(i) + ".txt"
        
        print(i, len(enc.encode(chunkedtext)), outputfilepath)
        with open(outputfilepath, 'w', encoding='UTF-8') as fo:
            fo.write(chunkedtext)

        fo.close()
    f.close()
   
    return

In [None]:
for p in glob.glob('./data/*.txt'):
    splitChunkFile(p)

生成されたテキストファイルを Azure Blob Storage にアップロードして Azure Cognitive Search に登録することもできます。

# 2. 必要なデータフレームを作成

In [None]:
df = pd.DataFrame([], columns=['id', 'content', 'sourcepage'])

In [None]:
df

In [None]:
def makeDataFrame(filepath):
    f = open(filepath, 'r', encoding='UTF-8')
    data = f.read()
    content = " ".join(data.splitlines())
    
    filename = os.path.basename(filepath)
    enc_id = base64.urlsafe_b64encode(filename.encode())
    
    return {'id': enc_id.decode(), 'content': content, 'sourcepage': filename}

チャンク分割済みテキストファイルを DataFrame の行としてロード

In [None]:
import glob
for p in glob.glob('./data/output/*.txt'):
    result = makeDataFrame(p)
    df = df.append(result, ignore_index=True)

In [None]:
df

## DataFrame を JSON ファイルで保存

In [None]:
df.to_json(f"busho_dataset.json", orient='records', force_ascii=False)

# 3. Azure Cognitive Search に登録

In [None]:
import requests
import json as JSON

# Azure Cognitive Search のインデックス名と API キー
search_service_name = "<YOUR_AZURE_COGNITIVE_SEARCH_SERVICE>"
index_name = "<YOUR_AZURE_COGNITIVE_SEARCH_INDEX>"
api_version = "2023-07-01-Preview"
api_key = "<YOUR_AZURE_COGNITIVE_SEARCH_APIKEY>"

# インデックス作成の REST API の URL
createindex_url = "https://{0}.search.windows.net/indexes/{1}?api-version={2}".format(search_service_name, index_name, api_version)

# データをアップロードするための REST API の URL
base_url = "https://{0}.search.windows.net/indexes/{1}/docs/index?api-version={2}".format(search_service_name, index_name, api_version)

## インデックスの作成

In [None]:
url = createindex_url

with open("./create_index.json", 'r', encoding="utf-8") as f:
    jsondata = JSON.load(f)
    response = requests.put(url, headers={"Content-Type": "application/json", "api-key": api_key}, json=jsondata)
    print(response.status_code, response.text)

## インデックスに JSON の内容を登録

In [None]:
files = glob.glob('./busho_dataset.json')

for file in files:
    print(file)
    with open(file, 'r', encoding="utf-8") as f:
        data = JSON.load(f)
    
        url = base_url 
        jsondata = {
            "value": data
        }
        response = requests.post(url, headers={"Content-Type": "application/json", "api-key": api_key}, json=jsondata)
        print(response.status_code)
        #print(response.text)
        

In [None]:
print(response.text)