本リポジトリは、「大規模言語モデルによるナレッジグラフ自動化の概念検証」 を目的とした実験コードをまとめたものです。
本シリーズは、クリエーションライン社のテックブログにて連載中です。 このリポジトリでは、その 第2回目の記事 に対応するデータとコードを公開しています。
本検証では、テキストデータから知識構造を抽出・可視化し、企業内に点在する情報資源を「グラフ」として再構成する可能性を探っています。 LLMによるテキスト解析とコード処理を分離し、それぞれの役割を明確化する構成を試みました。 実験素材として、自社テックブログをデータソースに使用し、より現実に近い構造を対象に検証を行っています。
実装を通して得られた知見としては、以下の点が挙げられます:
- LLM はグラフデータモデリングに有効である
- セマンティックモデル設計には人のチューニングが必要である
- モデルが確立すれば、記事からのグラフ生成を自動化できる可能性が見えてきた
本リポジトリは、GraphRAG(Graph-based Retrieval-Augmented Generation) などの関連技術との連携も視野に、継続的な概念検証を進めるための基盤となります。
本リポジトリのコードは、以下の環境で実行しています。
- Ubuntu 22.04.5 LTS(Windows11のWSL)
- Python 3.11
- Neo4j 5.24(5.13以上)
- Claude Sonnect 4
- OpenAIなど別のAPIキーの場合、AIを利用して接続部分のコード変更してください
pip install -r requirements.txt
echo "API_KEY=" > .env