In [1]:
# 必要なモジュールをインポート
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI

# 環境変数の読み込み
load_dotenv("../.env")
os.environ['OPENAI_API_KEY'] = os.environ['API_KEY']

# モデル名
MODEL_NAME = "gpt-4o-mini"

In [2]:
from langchain_community.document_loaders import DirectoryLoader
from langchain_community.document_loaders import PyPDFLoader

# PDFファイルを読込
loader = DirectoryLoader('./data/pdf', glob="./*.pdf",   loader_cls=PyPDFLoader)
documents = loader.load()

# 結果の表示
print(documents)

[Document(metadata={'source': 'data/pdf/02賃金規則.pdf', 'page': 0}, page_content='みらいテクノロジー株式会社  賃⾦規則\nみらいテクノロジー株式会社では、従業員の皆さんが安⼼して働けるよう、賃⾦（給与）に関す\nるルールを明確に定めています。この賃⾦規則は、給与の構成や⽀払い⽅法、昇給や賞与の仕組\nみを理解し、働きがいを持って業務に取り組んでもらうために作られています。\n1. 基本給\n1. 基本給とは\n基本給は、みらいテクノロジー株式会社で働くすべての従業員に⽀払われる基本的\nな賃⾦です。\n基本給は、従業員の経験や能⼒、職務内容に基づいて決定されます。\n2. 基本給の決定⽅法\n基本給は、毎年の⼈事評価結果や会社の業績、個⼈の勤務年数などを考慮して⾒直\nしが⾏われる場合があります。\n新⼊社員の場合は、会社の定める給与テーブルに基づき、職種ごとに⼀定の基準額\nが設定されています。\n2. 各種⼿当\nみらいテクノロジー株式会社では、基本給に加えて、以下の⼿当が⽀給されます。\n1. 通勤⼿当\n通勤にかかる交通費は、実際の経路に基づき⽀給されます。\n公共交通機関の利⽤の場合は、最安経路をもとに⽉額上限 3 万円まで⽀給します。\n⾃家⽤⾞での通勤が必要な場合は、事前に⼈事部へ申請してください。駐⾞場の使\n⽤料やガソリン代の⼀部が⽀給される場合もあります。\n2. 住宅⼿当\n会社から通勤に 1 時間以上かかる場合、住宅⼿当として⽉額 1 万円が⽀給されます。\n住宅⼿当を受けるためには、賃貸契約書など、居住地を証明できる書類の提出が必\n要です。\n3. 家族⼿当\n扶養家族がいる従業員には、家族⼿当が⽀給されます。\n配偶者には⽉額 5,000 円、⼦供⼀⼈につき⽉額 3,000 円が⽀給されます（上限︓⼦供 3\n⼈まで）。\n4. 時間外⼿当（残業代）\n所定の勤務時間を超えて働いた場合は、残業⼿当が⽀給されます。\n残業⼿当の割増率は、法令に基づき計算されます。通常の時間外労働は 1.25 倍、深\n夜時間帯（午後 10 時以降）の残業は 1.5 倍となります。\n5. 休⽇出勤⼿当'), Document(metadata={'source': 'data/

In [3]:
from langchain_text_splitters import CharacterTextSplitter
import tiktoken

# 言語モデルに合うトークナイザー名を取得
encoding_name = tiktoken.encoding_for_model(MODEL_NAME).name

# テキスト分割を作成
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(encoding_name)

# チャンクに分割
texts = text_splitter.split_documents(documents)

# チャンク数と内容の表示
print("texts_size=", len(texts))
for txt in texts[:3]:
    print(txt)
    print("-" * 50)

texts_size= 17
page_content='みらいテクノロジー株式会社  賃⾦規則
みらいテクノロジー株式会社では、従業員の皆さんが安⼼して働けるよう、賃⾦（給与）に関す
るルールを明確に定めています。この賃⾦規則は、給与の構成や⽀払い⽅法、昇給や賞与の仕組
みを理解し、働きがいを持って業務に取り組んでもらうために作られています。
1. 基本給
1. 基本給とは
基本給は、みらいテクノロジー株式会社で働くすべての従業員に⽀払われる基本的
な賃⾦です。
基本給は、従業員の経験や能⼒、職務内容に基づいて決定されます。
2. 基本給の決定⽅法
基本給は、毎年の⼈事評価結果や会社の業績、個⼈の勤務年数などを考慮して⾒直
しが⾏われる場合があります。
新⼊社員の場合は、会社の定める給与テーブルに基づき、職種ごとに⼀定の基準額
が設定されています。
2. 各種⼿当
みらいテクノロジー株式会社では、基本給に加えて、以下の⼿当が⽀給されます。
1. 通勤⼿当
通勤にかかる交通費は、実際の経路に基づき⽀給されます。
公共交通機関の利⽤の場合は、最安経路をもとに⽉額上限 3 万円まで⽀給します。
⾃家⽤⾞での通勤が必要な場合は、事前に⼈事部へ申請してください。駐⾞場の使
⽤料やガソリン代の⼀部が⽀給される場合もあります。
2. 住宅⼿当
会社から通勤に 1 時間以上かかる場合、住宅⼿当として⽉額 1 万円が⽀給されます。
住宅⼿当を受けるためには、賃貸契約書など、居住地を証明できる書類の提出が必
要です。
3. 家族⼿当
扶養家族がいる従業員には、家族⼿当が⽀給されます。
配偶者には⽉額 5,000 円、⼦供⼀⼈につき⽉額 3,000 円が⽀給されます（上限︓⼦供 3
⼈まで）。
4. 時間外⼿当（残業代）
所定の勤務時間を超えて働いた場合は、残業⼿当が⽀給されます。
残業⼿当の割増率は、法令に基づき計算されます。通常の時間外労働は 1.25 倍、深
夜時間帯（午後 10 時以降）の残業は 1.5 倍となります。
5. 休⽇出勤⼿当' metadata={'source': 'data/pdf/02賃金規則.pdf', 'page': 0}
--------------------------------------------------
page_content='休

In [4]:
from langchain_openai import OpenAIEmbeddings
from langchain_chroma import Chroma

# エンベディングモデルの指定
embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

# インデックスの構築
db = Chroma.from_documents(texts, embedding_model)

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


In [5]:
# Retrieverの作成
retriever = db.as_retriever()

# 検索の実施
results = retriever.invoke("有給休暇の付与日数は？")

# 結果を表示
for result in results:
    print(result.page_content)
    print("-" * 50)

Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given


みらいテクノロジー株式会社  休暇規則
みらいテクノロジー株式会社では、従業員の皆さんが仕事と⽣活のバランスを保ちながら働ける
よう、さまざまな休暇制度を設けています。この休暇規則は、休暇の種類や取得⽅法、条件など
を明確にし、安⼼して休暇を利⽤していただくためのものです。
1. 年次有給休暇（有給休暇）
1. 有給休暇とは
有給休暇は、給与を受け取りながら休暇を取得できる制度です。
⼼⾝のリフレッシュや私⽤のために⾃由に利⽤できます。
2. 付与⽇数
⼊社から 6 ヶ⽉継続勤務し、全労働⽇の 8 割以上出勤した場合に、初めて有給休暇が
付与されます。
初年度は 10 ⽇間の有給休暇が付与され、その後は勤続年数に応じて増加します。
勤続年数年次有給休暇⽇数
0.5 年 10 ⽇
1.5 年 11 ⽇
2.5 年 12 ⽇
3.5 年 14 ⽇
4.5 年 16 ⽇
5.5 年 18 ⽇
6.5 年以上20 ⽇
3. 有給休暇の取得⽅法
有給休暇を取得する際は、原則として3 ⽇前までに上司に申請してください。
緊急の場合は、当⽇の申請も可能ですが、できるだけ早めに連絡をお願いします。
申請は、社内の休暇申請システムを利⽤してください。
4. 有給休暇の繰越し
未使⽤の有給休暇は、翌年度に限り繰り越すことができます。
最⼤で 40 ⽇間の有給休暇を保有することが可能です。
2. 特別休暇
特別休暇は、有給休暇とは別に特定の事情に応じて取得できる休暇です。
1. 慶弔休暇
結婚休暇︓本⼈が結婚する場合、5 ⽇間の休暇が取得できます。
--------------------------------------------------
配偶者の出産休暇︓配偶者が出産する場合、2 ⽇間の休暇が取得できます。
忌引休暇︓家族が亡くなった場合、親等に応じて以下の休暇が取得できます。
配偶者、⼦、親︓5 ⽇間
兄弟姉妹、祖⽗⺟︓3 ⽇間
配偶者の親︓3 ⽇間
2. 産前産後休暇
産前休暇︓出産予定⽇の6 週間前から取得可能です。
産後休暇︓出産⽇の翌⽇から8 週間は就業が禁⽌されています。
産前産後休暇中は、健康保険から出産⼿当⾦が⽀給されます。
3. 育児休業
⼦供が1 歳になるまでの間、育児休業を取得できます。
保育所に⼊れないなどの事情がある場合、最⻑で2 歳まで延⻑可能です

In [6]:
# 保存先を指定
db = Chroma.from_documents(texts, embedding_model, persist_directory="./chroma_db")

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


In [7]:
# ストレージから復元
db = Chroma(persist_directory="./chroma_db", embedding_function=embedding_model)


Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


In [8]:
from langchain_core.prompts import ChatPromptTemplate

# プロンプトテンプレートの作成
prompt = ChatPromptTemplate.from_template("""提供されたコンテキストのみに基づいて次の質問に答えてください:

<コンテキスト>
{context}
</コンテキスト>

Question: {input}""")

In [9]:
# モデルの作成
chat_model = ChatOpenAI(model_name=MODEL_NAME)

In [10]:
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

chain = ({"context": retriever, "input": RunnablePassthrough()}
    | prompt
    | chat_model
    | StrOutputParser())

In [11]:
# チェーンの実行
response = chain.invoke("有給休暇の付与日数は？")

# 結果を表示
print(response)

有給休暇の付与日数は、入社から6ヶ月継続勤務し、全労働日の8割以上出勤した場合に初めて付与されます。初年度は10日間の有給休暇が付与され、その後は勤続年数に応じて増加します。具体的な勤続年数と付与日数は以下の通りです：

- 0.5年：10日
- 1.5年：11日
- 2.5年：12日
- 3.5年：14日
- 4.5年：16日
- 5.5年：18日
- 6.5年以上：20日
