In [None]:
# パッケージのインストール
!pip install llama-index==0.10.14
!pip install llama-index-llms-gemini llama-index-embeddings-gemini

In [None]:
import logging
import sys

# ログレベルの設定
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

In [None]:
# 環境変数の準備 (左端の鍵アイコンでGOOGLE_API_KEYを設定)
import os
from google.colab import userdata
os.environ["GOOGLE_API_KEY"] = userdata.get("GOOGLE_API_KEY")

In [None]:
# local環境で実行するとDefaultCredentialsErrorが発生する。Google Cloudの設定をしないといけないらしく、わからなかったので一旦コラボで実行

from llama_index.core import Settings
from llama_index.llms.gemini import Gemini
from llama_index.embeddings.gemini import GeminiEmbedding

# LLMの準備
Settings.llm = Gemini(
    model_name='models/gemini-1.5-pro',
)

# 埋め込みモデルの準備
Settings.embed_model = GeminiEmbedding(
    model_name="models/text-embedding-004", #embedding-001の日本語性能はイマイチなので、OpenAI APIのembeddingの方が好ましいらしい。→2024.04にリリースされたtext-embedding-004だと多言語対応しているので良いっぽい。
)
# 実際、embedding_modelをembedding-001にするとRAGが機能していなかったが、text-embedding-004にするといけた

In [None]:
# prompt: マウントするコード

from google.colab import drive
drive.mount('/content/drive')

In [None]:
from llama_index.core import SimpleDirectoryReader

txt_path = "/content/drive/MyDrive/NDCdata"

# ドキュメントの読み込み
documents = SimpleDirectoryReader(txt_path).load_data()

In [None]:
from llama_index.core import VectorStoreIndex

# インデックスの作成
index = VectorStoreIndex.from_documents(documents)

In [None]:
# クエリエンジンの作成
query_engine = index.as_query_engine()

In [None]:
# 質問応答
print(query_engine.query("NDCにおける形式区分の使用方法と制限について説明してください。"))