<a href="https://colab.research.google.com/github/takiguchi-yu/google-colab/blob/main/ChatGPT_LangChain_RAG_Example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 参考資料

https://qiita.com/hiroki_okuhata_int/items/5dc6149ded35c5c3a40f

## Google Colab での Python コードの実行

In [1]:
%%writefile requirements.txt
openai
chromadb
langchain
deeplake
tiktoken

Writing requirements.txt


In [None]:
%pip install -r requirements.txt

In [4]:
import os
import platform

import openai
import langchain

from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.chat_models import ChatOpenAI
from langchain.chains import ConversationalRetrievalChain
from langchain.document_loaders import TextLoader
from langchain.vectorstores import DeepLake

## 解析したいソースコードの読み込み

In [5]:
!git clone https://github.com/takiguchi-yu/cognito-google-federation-example

Cloning into 'cognito-google-federation-example'...
remote: Enumerating objects: 147, done.[K
remote: Counting objects: 100% (147/147), done.[K
remote: Compressing objects: 100% (93/93), done.[K
remote: Total 147 (delta 40), reused 145 (delta 38), pack-reused 0[K
Receiving objects: 100% (147/147), 1.02 MiB | 17.65 MiB/s, done.
Resolving deltas: 100% (40/40), done.


In [6]:
root_dir = './cognito-google-federation-example'
docs = []
for dirpath, dirnames, filenames in os.walk(root_dir):
    for file in filenames:
        try:
            loader = TextLoader(os.path.join(dirpath, file), encoding='utf-8')
            docs.extend(loader.load_and_split())
        except Exception as e:
            pass


In [7]:
# 上記で読み込んだ、docs 配列の２番目の要素を見てみましょう。
docs[2]

Document(page_content='{\n  "recommendations": ["esbenp.prettier-vscode", "editorconfig.editorconfig", "dbaeumer.vscode-eslint", "eamodio.gitlens", "hediet.vscode-drawio"]\n}', metadata={'source': './cognito-google-federation-example/.vscode/extensions.json'})

## ソースコードの内容を分割する

In [8]:
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(docs)
# 実行すると WARNING が出ることがあります。
# ソースコードテキストは、必ずしも指定したサイズごとにきれいに区切れるとは限らないため、下記のような警告がでることがあるます。
# 概ね ChatGPT のモデルで扱えるサイズに収まっているため、ここでは無視することとします。



In [9]:
# 分割されたテキストの一つを見てみると、小さいチャンクに区切られていることが確認できます。
texts[0]

Document(page_content='## Overview', metadata={'source': './cognito-google-federation-example/README.md'})

## LangChain における LLM のセットアップ

In [17]:
os.environ['OPENAI_API_KEY'] = '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'
openai.api_key = os.getenv('OPENAI_API_KEY')
# llm = ChatOpenAI(temperature=0, model_name='gpt-3.5-turbo')
llm = ChatOpenAI(temperature=0, model_name='gpt-4')

## 分割したテキストの情報をベクターストアに格納する
次に、分割したテキストについて、テキスト間の関連性に関するベクターデータをベクターストアに格納します。

本記事では、ChatGPT に与えるベクターストアとして、DeepLake という Deep Learning 用のデータレイクサービスを使用します。

DeepLake とは
https://python.langchain.com/docs/integrations/vectorstores/activeloop_deeplake

In [19]:
os.environ['ACTIVELOOP_TOKEN'] = 'eyJhbGciOiJIUzUxMiIsImlhdCI6MTcwNTcyMzExNSwiZXhwIjoxNzM3MzQ1NDk5fQ.eyJpZCI6InRha2lndWNoaXl1In0.i5UAxTFyoLWkGkZ9dpZziVFhEkMUjVsUPJuLIUP3wjPgGIj3kJlL_6L54-XnYIwwb-bKreSq3BkcFr_FhQjimg'

embeddings = OpenAIEmbeddings()

dataset_path = "hub://takiguchiyu/ChatGPT-LangChain-RAG-Example"

# db = DeepLake.from_documents(texts, embeddings, dataset_path=dataset_path, read_only=True)
db = DeepLake.from_documents(texts, embeddings, dataset_path=dataset_path, read_only=False)

Deep Lake Dataset in hub://takiguchiyu/ChatGPT-LangChain-RAG-Example already exists, loading from the storage


Creating 175 embeddings in 1 batches of size 175:: 100%|██████████| 1/1 [00:35<00:00, 35.76s/it]

Dataset(path='hub://takiguchiyu/ChatGPT-LangChain-RAG-Example', tensors=['embedding', 'id', 'metadata', 'text'])

  tensor      htype       shape      dtype  compression
  -------    -------     -------    -------  ------- 
 embedding  embedding  (350, 1536)  float32   None   
    id        text      (350, 1)      str     None   
 metadata     json      (350, 1)      str     None   
   text       text      (350, 1)      str     None   





In [20]:
# このベクターストアを下記のように LLM に与えることで、テキスト間の関連性について表現したベクトルデータを LLM に使用させることをできます。
retriever = db.as_retriever()
retriever.search_kwargs['distance_metric'] = 'cos'
retriever.search_kwargs['fetch_k'] = 100
retriever.search_kwargs['maximal_marginal_relevance'] = True
retriever.search_kwargs['k'] = 20

qa = ConversationalRetrievalChain.from_llm(llm, retriever=retriever)

## ソースコードの内容を自然言語で問い合わせる

In [27]:
import time

questions = [
    "cognito-google-federation-exampleについて教えてください",
    "全体の処理フローを mermaid 形式で書いてください。",
    # "Lambda の Login では何をやっていますか。",
    # "OAuth2認証の検索パラメータを教えてください。",
]
chat_history = []

for question in questions:
  result = qa({"question": question, "chat_history": chat_history})
  chat_history.append((question, result['answer']))
  print(f"-> **Question** : {question} \n")
  print(f"-> **Answer** : {result['answer']} \n")
  # time.sleep(25) # 無料プランの場合はAPIコール数に制限があるので sleep させる。

-> **Question** : cognito-google-federation-exampleについて教えてください 

-> **Answer** : "cognito-google-federation-example"は、Amazon CognitoとGoogleの認証を連携させるための実装例です。このプロジェクトでは、フロントエンドとバックエンドの両方でTypeScriptが使用されています。フロントエンドではReactとTailwind CSSを使用し、バックエンドではNode.jsが使用されています。また、AWSのインフラストラクチャとして使用されています。

具体的には、Google Cloud Platformで新しいプロジェクトを作成し、OAuth同意画面と認証情報を設定します。その後、AWSの環境を構築し、Googleの認証情報を使用してCognitoユーザープールを作成します。これにより、ユーザーはGoogleの認証情報を使用してアプリケーションにサインインできます。

また、このプロジェクトでは、API GatewayとLambdaを使用してバックエンドAPIを作成し、パラメータストアを使用して設定情報を管理しています。 

-> **Question** : 全体の処理フローを mermaid 形式で書いてください。 

-> **Answer** : ```mermaid
sequenceDiagram
    participant Frontend
    participant Backend
    participant Cognito
    participant Google
    Frontend->>Backend: /auth/login<br>Request unique login URL (Cognito Hosted UI)
    Backend->>Cognito: /oauth2/authorize<br>Request unique login URL (Cognito Hosted UI)
    Cognito->>Backend: Return unique login URL (Cognito Hosted UI)
    Backend->>Frontend: Return uni