<a href="https://colab.research.google.com/github/kotaro0918/Gemini_RAG/blob/main/Gemini_RAG.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

このプログラムを実行する前に、GeminiのAPIキーを発行してシークレットキーに保管してください
またNDCのドキュメントをドライブに保存してください

NDCのtxtデータはEmbeddingのレポジトリに落ちてます
(余裕があったらRAGのレポジトリにもおいておきますね)

In [None]:
#必要なライブラリのインストール
!pip install langchain
!pip install -q -U google-generativeai

In [None]:
#Google Driveへのアクセス許可
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#必要なライブラリインポート
# Embedding用
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
# テキストファイルを読み込む
from langchain.document_loaders import TextLoader

In [None]:
# 環境変数の準備
import google.generativeai as genai
from google.colab import userdata
GOOGLE_API_KEY=userdata.get('GEMINI_API_KEY')

genai.configure(api_key=GOOGLE_API_KEY)

In [None]:
txt_path = "/content/drive/MyDrive/NDCdata/doc_class.txt"

In [None]:
#テキストデータの読み込み
loader = TextLoader(txt_path)
documents = loader.load()

In [None]:
#テキストデータの分割
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs = text_splitter.split_documents(documents)

In [None]:
import pandas as pd
df=pd.DataFrame(data=docs,columns=["doc","source","type"])
display(df)

In [None]:
#分割したドキュメントをEmbedding
docs=list(docs)
result = genai.embed_content(
    model="models/embedding-001",
    content=df["doc"],
    task_type="retrieval_document",
    title="Embedding of list of strings")
df["Embedding"]=result["embedding"]

In [None]:
#得られたベクトルを標準化
import numpy as np
def normalize_vector(v):
    norm = np.linalg.norm(v)
    if norm == 0:
       return v
    return v / norm

df["Embedding"]=df["Embedding"].map(normalize_vector)
passage_embeddings=df["Embedding"]

In [None]:
#queryをEmbedding
result = genai.embed_content(
    model="models/embedding-001",
    content="""
    手宮線は、全国で３番目、北海道では最初に開通した路線です。
    南小樽～手宮間は、わずか２．８ｋｍの短い路線ですが、北海道開拓の物資輸送の拠点として発展しました。
    しかし戦後、利用客は減少を続け、昭和６０年１１月、手宮線は廃止されました。
    北海道鉄道発祥の地である手宮駅の跡地は、現在、小樽市総合博物館として活用され現存する日本最古の機関庫とともに、貴重な車両が保存されています。
    """,
    task_type="retrieval_document",
    title="Embedding of list of strings")
query_embedding = normalize_vector(result["embedding"])

In [None]:
#得られたベクトルの内積を計算
scores = []
for content in passage_embeddings:
  scores.append(np.dot(content,query_embedding))

In [None]:
#内積を降順に並べ替えた時のインデックスを取得
def get_sorted_indices(lst):
    return [i for i, v in sorted(enumerate(lst), key=lambda x: x[1],reverse = True)]
scores_indices = get_sorted_indices(scores)

In [None]:
#コサイン類似度の高い３つの文章を出力
print(df["doc"][scores_indices[0:3]])

次に実際にLLMを通して効果を確認してみます

今回使うのはLlama2を日本語に関して教科学習させた
"elyza/ELYZA-japanese-Llama-2-7b-instruct"

In [None]:
# パッケージのインストール
!pip install transformers accelerate bitsandbytes

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# トークナイザーとモデルの準備
tokenizer = AutoTokenizer.from_pretrained(
    "elyza/ELYZA-japanese-Llama-2-7b-instruct"
)
model = AutoModelForCausalLM.from_pretrained(
    "elyza/ELYZA-japanese-Llama-2-7b-instruct",
    torch_dtype=torch.float16,
    device_map="auto"
)

In [None]:
#プロンプトを作成する
B_INST, E_INST = "[INST]", "[/INST]"
B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"
DEFAULT_SYSTEM_PROMPT = """
あなたは誠実で優秀な日本人のアシスタントです。
与えられた文章に対して適切な分類項目を答えてください
この際分類項目に関する情報が与えられます
"""

def q(text):
	prompt = "{bos_token}{b_inst} {system}{prompt} {e_inst} ".format(
	    bos_token=tokenizer.bos_token,
	    b_inst=B_INST,
	    system=f"{B_SYS}{DEFAULT_SYSTEM_PROMPT}{E_SYS}",
	    prompt=text,
	    e_inst=E_INST,
	)
	with torch.no_grad():
	    token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
	    output_ids = model.generate(
	        token_ids.to(model.device),
	        max_new_tokens=1024,
	        pad_token_id=tokenizer.pad_token_id,
	        eos_token_id=tokenizer.eos_token_id,
	    )
	output = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1) :], skip_special_tokens=True)
	print(output)

In [None]:
#RAGする前の出力
text = """手宮線は、全国で３番目、北海道では最初に開通した路線です。
    南小樽～手宮間は、わずか２．８ｋｍの短い路線ですが、北海道開拓の物資輸送の拠点として発展しました。
    しかし戦後、利用客は減少を続け、昭和６０年１１月、手宮線は廃止されました。
    北海道鉄道発祥の地である手宮駅の跡地は、現在、小樽市総合博物館として活用され現存する日本最古の機関庫とともに、貴重な車両が保存されています。
    """
q(text)

In [None]:
#RAGしてきた文章を元のプロンプトに加える
query = text +str(df["doc"][scores_indices[0]])
print(query)

In [None]:
q(query)