https://zenn.dev/umi_mori/books/prompt-engineer/viewer/langchain_indexes

In [7]:
from dotenv import load_dotenv
import os

load_dotenv()
os.environ["LANGCHAIN_TRACING"] = "true"
# os.environ["LANGCHAIN_HANDLER"] = "langchain"
os.environ["LANGCHAIN_ENDPOINT"] = "http://localhost:8000"

In [2]:
from langchain.document_loaders import PyPDFLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

loader = PyPDFLoader("https://blog.freelance-jp.org/wp-content/uploads/2023/03/FreelanceSurvey2023.pdf")
pages = loader.load_and_split()
print(pages[0])

chroma_index = Chroma.from_documents(pages, OpenAIEmbeddings())
docs = chroma_index.similarity_search("「フリーランスのリモートワークの実態」について教えて。", k=2)
for doc in docs:
    print(str(doc.metadata["page"]) + ":", doc.page_content)

page_content='第１章\nはじめに\n2' metadata={'source': '/var/folders/c8/780kh95934j497xrzwxp90cw0000gq/T/tmpteyw0dok', 'page': 1}
44: ◼フリーランスのリモートワーク実態 (1/3)
45(n=850)Q.リモートワークの実施およびその影響に関して、それぞれ当てはまる選択肢を一つ選んでください。
（単一回答）
※リモートワークとは、情報通信技術 (ICT)を活用した、場所や時間にとらわれない柔軟な働き方のことを指します。
コロナ以前（ 2020年2月以前）と比べてリモートワークでのフリーランス業務が増えた
62.0%の回答者 が「リモートワーク業務が増えた」ことに同意。一方で、 11.3% が同意できないと回答し、「どちらとも
言えない」との回答も 26.7% 存在した。全体としてリモートワークの拡大傾向は見られるものの、就労形態に影響を及ぼ
さないフリーランスも一定数いることが見てとれる。
※小数点以下第二位四捨五入Copyright 2023 Freelance Association Japan.40.5%
21.5%26.7%4.1%7.2%
同意する割合は 62.0%
46: ◼フリーランスのリモートワーク実態 (3/3)
47Q.リモートワークの実施およびその影響に関して、それぞれ当てはまる選択肢を一つ選んでください。
（各項目単一回答）
※リモートワークとは、情報通信技術 (ICT)を活用した、場所や時間にとらわれない柔軟な働き方のことを指します。
3.3% 11.8% 41.3% 23.6% 20.0%リモートワーク普及により発注企業との関係構築が難しくなった
4.6% 10.1% 37.3% 26.1% 21.9%リモートワーク普及により仕事の負荷・ストレスが高まった
8.5% 25.3% 42.0% 15.3% 8.9%リモートワーク普及により仕事上の新しいつながりを築く機会が減った
リモートワーク普及の懸念点として、「発注企業との関係構築の困難さ」や 「仕事の負荷の増大」に同意する割合はそれぞ
れ2割に満たなかった 。一方で 、「仕事上の新しいつながりを築く機会が減った」ことに同意した割合は 33.8% であった。
既存クライア

In [3]:
from langchain.text_splitter import CharacterTextSplitter
long_text = """
GPT-4は、OpenAIが開発したAI技術であるGPTシリーズの第4世代目のモデルです。

自然言語処理(NLP)という技術を使い、文章の生成や理解を行うことができます。

これにより、人間と同じような文章を作成することが可能です。

GPT-4は、トランスフォーマーアーキテクチャに基づいており、より強力な性能を発揮します。

GPT-4は、インターネット上の大量のテキストデータを学習し、豊富な知識を持っています。

しかし、2021年9月までの情報しか持っていません。

このモデルは、質問応答や文章生成、文章要約など、様々なタスクで使用できます。

ただし、GPT-4は完璧ではありません。

時々、誤った情報や不適切な内容を生成することがあります。

使用者は、その限界を理解し、

適切な方法で利用することが重要です。
"""
print(len(long_text))

text_splitter = CharacterTextSplitter(
    separator = "\n\n",
    chunk_size = 100,
    chunk_overlap = 0,
    length_function = len,
)
text_list = text_splitter.split_text(long_text)
print(type(text_list[0]))
print(text_list)
print(len(text_list))

document_list = text_splitter.create_documents([long_text])
print(type(document_list[0]))
print(document_list)
print(len(document_list))

368
<class 'str'>
['GPT-4は、OpenAIが開発したAI技術であるGPTシリーズの第4世代目のモデルです。\n\n自然言語処理(NLP)という技術を使い、文章の生成や理解を行うことができます。', 'これにより、人間と同じような文章を作成することが可能です。\n\nGPT-4は、トランスフォーマーアーキテクチャに基づいており、より強力な性能を発揮します。', 'GPT-4は、インターネット上の大量のテキストデータを学習し、豊富な知識を持っています。\n\nしかし、2021年9月までの情報しか持っていません。', 'このモデルは、質問応答や文章生成、文章要約など、様々なタスクで使用できます。\n\nただし、GPT-4は完璧ではありません。\n\n時々、誤った情報や不適切な内容を生成することがあります。', '使用者は、その限界を理解し、\n\n適切な方法で利用することが重要です。']
5
<class 'langchain.schema.Document'>
[Document(page_content='GPT-4は、OpenAIが開発したAI技術であるGPTシリーズの第4世代目のモデルです。\n\n自然言語処理(NLP)という技術を使い、文章の生成や理解を行うことができます。', metadata={}), Document(page_content='これにより、人間と同じような文章を作成することが可能です。\n\nGPT-4は、トランスフォーマーアーキテクチャに基づいており、より強力な性能を発揮します。', metadata={}), Document(page_content='GPT-4は、インターネット上の大量のテキストデータを学習し、豊富な知識を持っています。\n\nしかし、2021年9月までの情報しか持っていません。', metadata={}), Document(page_content='このモデルは、質問応答や文章生成、文章要約など、様々なタスクで使用できます。\n\nただし、GPT-4は完璧ではありません。\n\n時々、誤った情報や不適切な内容を生成することがあります。', metadata={}), Document(page_content='使用者は、その限界を理解し、\n\n適切な方法で利用することが重要です

In [6]:
print(len(text_list[0]))

86


In [13]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.indexes import VectorstoreIndexCreator
from langchain.document_loaders import TextLoader

long_text = """
GPT-4は、OpenAIが開発したAI技術であるGPTシリーズの第4世代目のモデルです。

自然言語処理(NLP)という技術を使い、文章の生成や理解を行うことができます。

これにより、人間と同じような文章を作成することが可能です。

GPT-4は、トランスフォーマーアーキテクチャに基づいており、より強力な性能を発揮します。

GPT-4は、インターネット上の大量のテキストデータを学習し、豊富な知識を持っています。

しかし、2021年9月までの情報しか持っていません。

このモデルは、質問応答や文章生成、文章要約など、様々なタスクで使用できます。

ただし、GPT-4は完璧ではありません。

時々、誤った情報や不適切な内容を生成することがあります。

使用者は、その限界を理解し、

適切な方法で利用することが重要です。
"""
print(len(long_text))
with open("./long_text.txt", "w") as f:
    f.write(long_text)
    f.close()

loader = TextLoader('./long_text.txt')

text_splitter = CharacterTextSplitter(
    separator = "\n\n",
    chunk_size = 100,
    chunk_overlap = 0,
    length_function = len,
)

index = VectorstoreIndexCreator(
    vectorstore_cls=Chroma, # Default
    embedding=OpenAIEmbeddings(), # Default
    text_splitter=text_splitter,
).from_loaders([loader])

query = "Q1. インターネット上の何のデータを使って、学習しているの？"
print(f"\n\n{query}")
answer = index.query(query)
print(answer)

answer_with_sources = index.query_with_sources(query)
print(answer_with_sources)

query = "Q2. GPT4は第何世代のモデル？"
print(f"\n\n{query}")
answer = index.query(query)
print(answer)

answer_with_sources = index.query_with_sources(query)
print(answer_with_sources)

368


Q1. インターネット上の何のデータを使って、学習しているの？
 GPT-4は、インターネット上の大量のテキストデータを学習しています。
{'question': 'Q1. インターネット上の何のデータを使って、学習しているの？', 'answer': ' GPT-4 is learning from a large amount of text data on the internet.\n', 'sources': './long_text.txt'}


Q2. GPT4は第何世代のモデル？
 GPT-4は、OpenAIが開発したAI技術であるGPTシリーズの第4世代目のモデルです。
{'question': 'Q2. GPT4は第何世代のモデル？', 'answer': ' GPT-4 is the fourth generation model of the GPT series developed by OpenAI.\n', 'sources': './long_text.txt'}


In [11]:
from dotenv import load_dotenv
import os

load_dotenv()
os.environ["LANGCHAIN_TRACING"] = "true"
# os.environ["LANGCHAIN_HANDLER"] = "langchain"
os.environ["LANGCHAIN_ENDPOINT"] = "http://localhost:8000"

from langchain.agents import initialize_agent, load_tools
from langchain.llms import OpenAI

# エージェントの準備
llm=OpenAI(temperature=0)
agent = initialize_agent(
    tools= load_tools(["llm-math"], llm=llm),
    llm=llm,
    agent="zero-shot-react-description",
    verbose=True
)

# エージェントの実行
agent.run("2の.123243乗は?")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m I need to calculate the power of a number
Action: Calculator
Action Input: 2^.123243[0m
Observation: [36;1m[1;3mAnswer: 1.0891804557407723[0m
Thought:[32;1m[1;3m I now know the final answer
Final Answer: 1.0891804557407723[0m

[1m> Finished chain.[0m


'1.0891804557407723'

In [15]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma

long_text = """
GPT-4は、OpenAIが開発したAI技術であるGPTシリーズの第4世代目のモデルです。

自然言語処理(NLP)という技術を使い、文章の生成や理解を行うことができます。

これにより、人間と同じような文章を作成することが可能です。

GPT-4は、トランスフォーマーアーキテクチャに基づいており、より強力な性能を発揮します。

GPT-4は、インターネット上の大量のテキストデータを学習し、豊富な知識を持っています。

しかし、2021年9月までの情報しか持っていません。

このモデルは、質問応答や文章生成、文章要約など、様々なタスクで使用できます。

ただし、GPT-4は完璧ではありません。

時々、誤った情報や不適切な内容を生成することがあります。

使用者は、その限界を理解し、

適切な方法で利用することが重要です。
"""
print(len(long_text))

text_splitter = CharacterTextSplitter(
    separator = "\n\n",
    chunk_size = 100,
    chunk_overlap = 0,
    length_function = len,
)

document_list = text_splitter.create_documents([long_text])
print(document_list)
print(len(document_list))

db = Chroma.from_documents(document_list, OpenAIEmbeddings())
retriever = db.as_retriever()

query = "Q1. インターネット上の何のデータを使って、学習しているの？"
print(f"\n\n{query}")
docs = retriever.get_relevant_documents(query)
print(docs[0].page_content)

368
[Document(page_content='GPT-4は、OpenAIが開発したAI技術であるGPTシリーズの第4世代目のモデルです。\n\n自然言語処理(NLP)という技術を使い、文章の生成や理解を行うことができます。', metadata={}), Document(page_content='これにより、人間と同じような文章を作成することが可能です。\n\nGPT-4は、トランスフォーマーアーキテクチャに基づいており、より強力な性能を発揮します。', metadata={}), Document(page_content='GPT-4は、インターネット上の大量のテキストデータを学習し、豊富な知識を持っています。\n\nしかし、2021年9月までの情報しか持っていません。', metadata={}), Document(page_content='このモデルは、質問応答や文章生成、文章要約など、様々なタスクで使用できます。\n\nただし、GPT-4は完璧ではありません。\n\n時々、誤った情報や不適切な内容を生成することがあります。', metadata={}), Document(page_content='使用者は、その限界を理解し、\n\n適切な方法で利用することが重要です。', metadata={})]
5


Q1. インターネット上の何のデータを使って、学習しているの？
GPT-4は、インターネット上の大量のテキストデータを学習し、豊富な知識を持っています。

しかし、2021年9月までの情報しか持っていません。
