In [4]:
import chromadb
from openai import OpenAI
from dotenv import load_dotenv
import os

# .env ファイルから環境変数をロード
load_dotenv()

# OpenAI クライアント
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
chroma_client = chromadb.PersistentClient(path="./chroma_db")

collection = chroma_client.get_or_create_collection(
    name="markdown_rag",
)

In [2]:
print(collection.count())

13


In [7]:
query = "研究について説明してください"

# クエリも埋め込みに変換
query_emb = client.embeddings.create(
    model="text-embedding-3-small",
    input=query
).data[0].embedding

# Chroma で検索
results = collection.query(
    query_embeddings=[query_emb],
    n_results=5
)

print(results["documents"])
print(results["metadatas"])

[['# 自己分析\n## エピソード\n### 研究\n\n- テーマ\n  - 自然言語の「否定」に対して言語理論からのアプローチを提案\n- 背景\n  - 「否定」は自然言語の中で頻繁に出現する\n  - 言語モデルなどは否定の処理が苦手\n  - モデルに否定の意味を理解させるためのサブタスクとして「否定スコープ認識」が存在する\n  - このタスクは近年，End-to-Endの手法で行われている\n- 動機\n  - End-to-Endの手法では処理過程がブラックボックス化してしまう\n  - 応用分野によっては処理過程が明確化されていることが重要になる\n    - 医療など\n- 目的\n  - 処理過程が明確な否定スコープ認識手法を提案する\n- アプローチ\n  - 言語理論を用いて否定スコープを認識する手法を提案する\n    - 処理過程が明確\n- 苦労したこと①\n  - 言語理論の理解が追いつかない\n  - 研究メンバーとの理解の差が激しい\n  - 解決策\n    - 言語理論について学ぶための本を図書館で借り，（英語の本だったが）頑張って勉強した\n  - 結果\n    - 理論に対する理解が深まり，提案手法を完成させることができた\n  - 身についたこと\n    - 困ったら周りに頼る力\n    - 忍耐力\n- 苦労したこと②\n  - 外部に対する説明が難しい\n  - 実際に初めての発表練習を見てもらったところ，「事前説明が長すぎて本筋がわからない」というような意見を多く頂いた\n  - 解決策\n    - 発表資料の順番を変えたり，具体例を統一したりして，資料の改善に取り組んだ\n    - 何回も発表練習を聞いてもらい，仲間からのフィードバックをもらった\n  - 結果\n    - 発表の質は向上し，学会ではより踏み込んだ議論（言語理論とLLMを組み合わせてはどうかなど）ができた\n  - 身についたこと\n    - わかりやすい説明の重要性とその作り方', '# 武器\n## 研究\n\n自然言語の「否定」に言語理論を用いてアプローチする\n\n- 苦労したこと: 内容が基礎的かつ理論的なので（特に若い学生さんに）内容が伝わりづらい\n- 努力したこと: 研究室のメンバーといっしょに発表の模擬練習を