# 1. 開発実習環境セットアップ

## 1.1. ハンズオン用githubリポジトリをクローン

In [None]:
!git clone https://github.com/taniii-shio/intern2023-llm-handson.git

## 1.2. OpenAIのAPIキーを環境変数として定義

In [None]:
!cd intern2023-llm-handson && echo -e "OPENAI_API_KEY=xxx" > /content/.env

In [None]:
!cat .env

## 1.3. Pythonのパッケージのインストール¶

In [None]:
!pip install openai==0.27.8
!pip install langchain==0.0.240
!pip install PyMuPDF==1.22.5
!pip install tiktoken==0.4.0
!pip install faiss-cpu==1.7.4
!pip install python-dotenv

## 1.4. Pythonのモジュールのインポート¶

In [None]:
import os
import json
from dotenv import load_dotenv

# OpenAI
import openai

# LangChain
from langchain.document_loaders import PyMuPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.embeddings import OpenAIEmbeddings
from langchain.chat_models import ChatOpenAI

## 1.5. 環境変数の確認他¶

In [None]:
load_dotenv()

In [None]:
print(os.getenv("OPENAI_API_KEY"))

In [None]:
openai.log = "debug"

# 2. PDFファイルからベクトルデータベースのインデックス作成¶

## 2-1. PDFファイルを読み込み、分割
埋め込みモデルのinputの上限を超えず、情報源として役に立つサイズに分割します。

In [None]:
pdf_file_path = "/content/intern2023-llm-handson/pdf/IBM_2021_ESG_Report.pdf"
loader = PyMuPDFLoader(pdf_file_path)

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base",
    separator="\n",
    chunk_size=2000,
    chunk_overlap=200,
    disallowed_special=(),
)
pages = loader.load_and_split(text_splitter=text_splitter)

PDFファイルを読み込んだ結果を確認してみます。

In [None]:
type_of_page = type(pages[0])
page_count = len(pages)

print("pageの型:", type_of_page)
print("ページ数:", page_count)

1ページ分のデータを参照してみます。

In [None]:
page = pages[11]
formatted_data = json.dumps(page.__dict__, indent=4, ensure_ascii=False)
print(formatted_data)

In [None]:
# ページ内容
result = page.page_content

# ページ内容を見やすくするため、50文字ずつに改行して表示
line_length = 50
for i in range(0, len(result), line_length):
    print(result[i:i+line_length])

## 2.2. 埋め込みモデル（embedding）のインスタンス作成¶
埋め込みモデルには、OpenAI APIを使います。

In [None]:
embeddings = OpenAIEmbeddings(openai_api_key=os.getenv("OPENAI_API_KEY"))

埋め込みモデルを使って、テキストをベクトル化してみます。

In [None]:
text = "これは埋め込みのテストです。"
embeddings.embed_query(text)

## 2-3. 埋め込みモデルを使って、PDFファイルからインデックスを作成する¶
ベクトルデータベースには、FAISSを使います。

In [None]:
db = FAISS.from_documents(pages, embeddings)

検索してみます。

In [None]:
query = "IBMは気候変動のリスクにどのように取り組んでいますか？"

docs = db.similarity_search(query)
for doc in docs:
    print("page", doc.metadata["page"], doc)

検索結果はデフォルトで4ドキュメントを含みます。それぞれ、PDFファイルのメタデータを持っています。

In [None]:
def document_to_dict(document):
    return document.__dict__

formatted_data = json.dumps(docs[0], default=document_to_dict, indent=4, ensure_ascii=False)
print(formatted_data)

インデックスはローカルに保存することができます。

In [None]:
index_path = "/content/intern2023-llm-handson/index/IBM_2021_ESG_Report"
db.save_local(index_path)

保存したインデックスをロードすることができます。

In [None]:
db = FAISS.load_local(index_path, embeddings)

# 3. Retrieval QAチェーンの作成¶
## 3.1. LLMのインスタンス作成を作成する¶
LLMにOpenAI APIを使います。


In [None]:
llm = ChatOpenAI(model_name="gpt-3.5-turbo-16k")

## 3.2. Retrieval QAチェーンを作成する
retriever（インデックス内の文書や埋め込みを検索するためのメソッド）とLLMを使って、Retrieval QAチェーンを生成します。

In [None]:
retriever = db.as_retriever()

qa_chain = RetrievalQA.from_chain_type(
    llm,
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=True,
    verbose=True)

# 4. QA実施¶
Retrieval QAチェーンを使って、QAします。

In [None]:
query = "IBMの温室効果ガス排出量削減目標を教えてください。"
response = qa_chain({"query": query})

回答を見やすく表示します。

In [None]:
# レスポンスの回答部分
result = response["result"]

# 回答を見やすくするため、50文字ずつに改行して表示
line_length = 50
for i in range(0, len(result), line_length):
    print(result[i:i+line_length])

レスポンスを確認してみます。

In [None]:
def document_to_dict(document):
    return document.__dict__

formatted_data = json.dumps(response, default=document_to_dict, indent=4, ensure_ascii=False)
print(formatted_data)