# Data Connection

# 準備

In [1]:
# 必要なモジュールをインポート
import os
from dotenv import load_dotenv

# 環境変数の読み込み
load_dotenv()
os.environ['OPENAI_API_KEY'] = os.environ['API_KEY']

# シンプルな例

In [2]:
from langchain.document_loaders.directory import DirectoryLoader

# テキストファイルを読込
loader = DirectoryLoader('./data/')
documents = loader.load()

# 結果の表示
print(documents)

[Document(page_content='アイデアクラウド：デジタル空間に浮かぶアイデアや概念を可視化するとされる架空のIT用語です。アイデアがクラウド上に集まり、ユーザーはその中から自分の必要なアイデアを選び出すことができると説明されます。ただし、実際に存在するものではなく、嘘のIT用語です。\n\nイモータルバグ：システムやソフトウェアに存在するとされる嘘のIT用語で、バグやエラーが永遠に修正されない状態を指します。従来のバグ修正方法が通用せず、何度修正を試みてもバグは復活するとされます。このようなバグは現実には存在せず、フィクション上のIT用語です。\n\nウィンドウズスリープ：Windowsオペレーティングシステムで使用される嘘のIT用語であり、実際には存在しない機能です。このIT用語は、コンピューターのスリープモードにおいてウィンドウを開いたままにする機能を指すと説明されます。しかし、Windowsオペレーティングシステムにはこのような機能はなく、ウィンドウが開いたままスリープモードに入ることはできません。\n\nエラーフリーコーディング：完全にバグやエラーのないプログラムを開発するための手法とされる嘘のIT用語です。エラーフリーコーディングによれば、特定のガイドラインやルールに従えば、プログラムの中にバグやエラーが一切存在しない状態を実現することができるとされます。しかし、実際のソフトウェア開発ではバグやエラーを完全に排除することは困難であり、このような完全無欠のコーディング手法は存在しません。\n\nオートマジックハッキング：自動化されたツールやプログラムを使用して、ネットワークやシステムへのハッキングを瞬時に行うことを指す嘘のIT用語です。オートマジックハッキングによれば、短時間で高度なハッキングが可能であり、セキュリティ対策がどれほど厳重であっても突破することができるとされます。しかしながら、現実のハッキングは非常に複雑なプロセスであり、自動化されたツールやプログラムだけで完全なハッキングを行うことはできません。', metadata={'source': 'data\\ア.txt'}), Document(page_content='カオティックデータベース：データベースの一種で、情報をランダムに配置し、データの整合性や検索の効率性を犠牲に

In [3]:
from langchain.text_splitter import CharacterTextSplitter

# チャンクに分割
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    separator="\n\n",
    chunk_size=256,
    chunk_overlap=0,
    encoding_name="cl100k_base")

texts = text_splitter.split_documents(documents)

# チャンク数と内容の表示
print("texts_size=", len(texts))
for txt in texts:
    print(txt)

texts_size= 17
page_content='アイデアクラウド：デジタル空間に浮かぶアイデアや概念を可視化するとされる架空のIT用語です。アイデアがクラウド上に集まり、ユーザーはその中から自分の必要なアイデアを選び出すことができると説明されます。ただし、実際に存在するものではなく、嘘のIT用語です。' metadata={'source': 'data\\ア.txt'}
page_content='イモータルバグ：システムやソフトウェアに存在するとされる嘘のIT用語で、バグやエラーが永遠に修正されない状態を指します。従来のバグ修正方法が通用せず、何度修正を試みてもバグは復活するとされます。このようなバグは現実には存在せず、フィクション上のIT用語です。' metadata={'source': 'data\\ア.txt'}
page_content='ウィンドウズスリープ：Windowsオペレーティングシステムで使用される嘘のIT用語であり、実際には存在しない機能です。このIT用語は、コンピューターのスリープモードにおいてウィンドウを開いたままにする機能を指すと説明されます。しかし、Windowsオペレーティングシステムにはこのような機能はなく、ウィンドウが開いたままスリープモードに入ることはできません。' metadata={'source': 'data\\ア.txt'}
page_content='エラーフリーコーディング：完全にバグやエラーのないプログラムを開発するための手法とされる嘘のIT用語です。エラーフリーコーディングによれば、特定のガイドラインやルールに従えば、プログラムの中にバグやエラーが一切存在しない状態を実現することができるとされます。しかし、実際のソフトウェア開発ではバグやエラーを完全に排除することは困難であり、このような完全無欠のコーディング手法は存在しません。' metadata={'source': 'data\\ア.txt'}
page_content='オートマジックハッキング：自動化されたツールやプログラムを使用して、ネットワークやシステムへのハッキングを瞬時に行うことを指す嘘のIT用語です。オートマジックハッキングによれば、短時間で高度なハッキングが可能であり、セキュリティ対策がどれほど厳重であっても突破することがで

In [5]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# Indexの構築
db = Chroma.from_documents(texts, OpenAIEmbeddings())

In [10]:
# 検索
query = "キノコストレージについて説明して"
results = db.similarity_search(query, k=3)

# 結果を表示
for result in results:
    print(result.page_content, "\n")

キノコストレージ：容量の大きなデータストレージ装置を指す架空のIT用語です。キノコストレージは、その形状がキノコに似ていることから名付けられました。この装置は非常に小さなサイズでありながら、膨大なデータを保持することができるとされています。また、キノコストレージは高い耐久性を持ち、データの保護と安全性を確保すると説明されます。 

アイデアクラウド：デジタル空間に浮かぶアイデアや概念を可視化するとされる架空のIT用語です。アイデアがクラウド上に集まり、ユーザーはその中から自分の必要なアイデアを選び出すことができると説明されます。ただし、実際に存在するものではなく、嘘のIT用語です。 

カオティックデータベース：データベースの一種で、情報をランダムに配置し、データの整合性や検索の効率性を犠牲にする代わりに、創造性やアイデアの偶発的な結びつきを促進するとされる架空のIT用語です。カオティックデータベースは従来のデータベース設計原則から逸脱し、情報をランダムに散らばらせることで新たな発見やインスピレーションをもたらすというアプローチを採用しているとされます。 



# ストレージに保存

In [7]:
# 保存先を指定
db2 = Chroma.from_documents(texts, OpenAIEmbeddings(), persist_directory="./chroma_db")
# 強制的に保存
db2.persist()

In [8]:
# ストレージから復元
db3 = Chroma(persist_directory="./chroma_db", embedding_function=OpenAIEmbeddings())

# 検索
results = db3.similarity_search(query)
print(results[0].page_content)

キノコストレージ：容量の大きなデータストレージ装置を指す架空のIT用語です。キノコストレージは、その形状がキノコに似ていることから名付けられました。この装置は非常に小さなサイズでありながら、膨大なデータを保持することができるとされています。また、キノコストレージは高い耐久性を持ち、データの保護と安全性を確保すると説明されます。


# PDFドキュメントの読込

In [10]:
from langchain.document_loaders import PyPDFLoader

# PDFの読込
loader = PyPDFLoader("./data2/001615363.pdf")
texts = loader.load_and_split()

In [11]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# Indexの構築
db = Chroma.from_documents(texts, OpenAIEmbeddings())

In [12]:
# 検索
query = "お土産の購入状況を教えて"
results = db.similarity_search(query, 3)

# 結果を表示
for result in results:
    print(f"【出典】：{result.metadata['source']} - {result.metadata['page']}ページ")
    print(f"{result.page_content[:100]}...")
    print("-"*40)    

【出典】：./data2/001615363.pdf - 21ページ
訪日外国人消費動向調査  
 
20 ３．土産品の購入実態  
 
（１） 費目別購入率 
 費目別の 購入率（その費目を購入した人の
割合）は「菓子類」 （ 70.4％）、「その他食
料品・飲料・...
----------------------------------------
【出典】：./data2/001615363.pdf - 39ページ
訪日外国人消費動向調査 
 
38 
 （３）買物場所 
百貨店・デパート 
原則として百貨店協会加盟の店舗 
家電量販店 
PCやカメラ、電気製品を専門に販売する店舗 
ファッション専門店 
服・鞄...
----------------------------------------
【出典】：./data2/001615363.pdf - 9ページ
訪日外国人消費動向調査  
 
8  ツアー商品や往復航空（船舶）券の 申込
方法では、「店頭（旅行会社や航空会社
等）で申し込んだ（以下、 店頭）」人の
割合が全体の 19.2％、「ウェブサイトか...
----------------------------------------


# Retriever

In [13]:
from langchain.document_loaders import PyPDFLoader
from langchain.indexes import VectorstoreIndexCreator

loader = PyPDFLoader("./data2/001615363.pdf")
index = VectorstoreIndexCreator().from_loaders([loader])

In [14]:
query = "お土産の購入状況を教えて"
index.query(query)

' 訪日外国人消費動向調査では、費目別の購入率が「菓子類」（70.4％）、「その他食料品・飲料・たばこ」（43.4％）、「衣類」（33.8％）の順で高いことがわかりました。また、費目別の購入者単価では「宝石・貴金属」が8.3万円と最も高いことがわかりました。'

### 何を行っているか

In [11]:
from langchain.document_loaders import PyPDFLoader

# PDFの読込
loader = PyPDFLoader("./data2/001615363.pdf")
documents = loader.load()

In [12]:
from langchain.text_splitter import CharacterTextSplitter

# チャンクに分割
text_splitter = CharacterTextSplitter(separator="\n", chunk_size=512, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

In [13]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# Indexの構築
db = Chroma.from_documents(texts, OpenAIEmbeddings())

In [14]:
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

# RetrievalQAチェーンの作成
qa = RetrievalQA.from_chain_type(
    llm=OpenAI(),
    chain_type="stuff",
    retriever=db.as_retriever())

In [15]:
# 質問
query = "お土産の購入状況を教えて"
result = qa(query)

# 回答を表示
print(result["result"])

 訪日外国人消費動向調査結果によると、費目別の購入率では、「菓子類」が70.4％、「その他食料品・飲料・たばこ」が43.4％、「衣類」が33.8％であるそうです。


# Memory

In [18]:
from langchain.chat_models import ChatOpenAI
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory

# Chat Model
llm = ChatOpenAI(
    model_name = "gpt-3.5-turbo",
    temperature=1.2)

# 対話型Chain
conversation = ConversationChain(
    llm=llm,
    verbose=True,
    memory=ConversationBufferMemory()
)

In [19]:
conversation.predict(input="おすすめのプログラミング言語を3つ教えてください")



[1m> Entering new  chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:

Human: おすすめのプログラミング言語を3つ教えてください
AI:[0m

[1m> Finished chain.[0m


'おすすめのプログラミング言語として、Python、JavaScript、およびJavaをお勧めします。\n\nPythonは初心者にもおすすめの言語です。シンプルな構文と豊富なモジュールが特徴で、様々なアプリケーションやウェブ開発に利用されています。\n\nJavaScriptはウェブ開発において非常に重要な言語です。ブラウザ上で動作するため、フロントエンドの開発に特に適しています。また、Node.jsと組み合わせることでサーバーサイドの開発も行えます。\n\nJavaは汎用性の高い言語であり、大規模なソフトウェアやアプリケーションの開発に適しています。Androidアプリ開発にも幅広く使用されています。\n\nこれらの言語はそれぞれ異なる特徴や用途がありますので、学習目的やプロジェクトの要件に合わせて選ぶことをおすすめします。'

In [20]:
conversation.predict(input="1つ目のプログラミング言語の名前は何ですか？")



[1m> Entering new  chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
Human: おすすめのプログラミング言語を3つ教えてください
AI: おすすめのプログラミング言語として、Python、JavaScript、およびJavaをお勧めします。

Pythonは初心者にもおすすめの言語です。シンプルな構文と豊富なモジュールが特徴で、様々なアプリケーションやウェブ開発に利用されています。

JavaScriptはウェブ開発において非常に重要な言語です。ブラウザ上で動作するため、フロントエンドの開発に特に適しています。また、Node.jsと組み合わせることでサーバーサイドの開発も行えます。

Javaは汎用性の高い言語であり、大規模なソフトウェアやアプリケーションの開発に適しています。Androidアプリ開発にも幅広く使用されています。

これらの言語はそれぞれ異なる特徴や用途がありますので、学習目的やプロジェクトの要件に合わせて選ぶことをおすすめします。
Human: 1つ目のプログラミング言語の名前は何ですか？
AI:[0m

[1m> Finished chain.[0m


'1つ目のプログラミング言語の名前はPythonです。'