# 医療テキスト分析システム

このノートブックでは以下の機能を実行できます：
1. ダミーデータの生成
2. LLMサーバーの起動確認
3. テキスト分析の実行
4. 結果の確認と保存

In [None]:
import sys
import os
import pandas as pd
import requests
from IPython.display import display

# srcディレクトリをパスに追加
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

from src.data.data_generator import MedicalDataGenerator
from src.analyzer.excel_analyzer import ExcelAnalyzer

ModuleNotFoundError: No module named 'vllm'

## 1. LLMサーバーの起動確認

**注意**: 別ターミナルで `python src/analyzer/llm_server.py` を実行してサーバーを起動しておく必要があります。

In [4]:
def check_llm_server():
    try:
        response = requests.get("http://localhost:8000/docs")
        if response.status_code == 200:
            print("✅ LLMサーバーが正常に動作しています")
            return True
    except:
        print("❌ LLMサーバーに接続できません")
        print("別ターミナルで以下のコマンドを実行してください：")
        print("python src/analyzer/llm_server.py")
        return False

check_llm_server()

❌ LLMサーバーに接続できません
別ターミナルで以下のコマンドを実行してください：
python src/analyzer/llm_server.py


False

## 2. テキスト分析の実行

生成したデータに対して、各種分析を実行します。

In [14]:
# アナライザーの初期化
try:
    analyzer = ExcelAnalyzer(
        file_path="../data/sample_data.xlsx",
        llm_server_url="http://localhost:8000",
        template_path="../templates/prompt_templates.json"
    )
    
    # ファイルの読み込み
    if not analyzer.load_excel():
        print("❌ ファイルの読み込みに失敗しました")
    else:
        print("✅ ファイルの読み込みが完了しました")
        analyzer.display_data_info()
except Exception as e:
    print(f"❌ エラーが発生しました: {str(e)}")
    print("以下を確認してください：")
    print("1. ../templates/prompt_templates.json ファイルが存在すること")
    print("2. ../data/sample_data.xlsx ファイルが存在すること")
    print("3. LLMサーバーが起動していること")

テンプレートを読み込みました（7件）
ファイルの読み込みが完了しました
✅ ファイルの読み込みが完了しました
データ行数: 31

列一覧:
- ID
- day
- text


In [15]:
# 各種分析の実行
analysis_templates = [
    "cancer_diagnosis",   # がん診断名の抽出
    "cancer_stage",       # ステージ情報の抽出
    "important_dates",    # 重要日付の抽出
    "diagnostic_test",    # 診断検査の抽出
    "first_treatment",    # 初回治療情報の抽出
    "chemotherapy_info",  # 抗がん剤治療情報の抽出
    "surgery_type",       # 術式の抽出
    "special_notes"       # 特記事項の抽出
]

for template in analysis_templates:
    print(f"\n分析実行中: {template}")
    analyzer.analyze_with_template(template)


分析実行中: cancer_diagnosis
警告: ID 1 の分析中にエラーが発生: API呼び出し中にエラーが発生: HTTPConnectionPool(host='localhost', port=8000): Max retries exceeded with url: /v1/chat/completions (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x11f5f5050>: Failed to establish a new connection: [Errno 61] Connection refused'))
警告: ID 2 の分析中にエラーが発生: API呼び出し中にエラーが発生: HTTPConnectionPool(host='localhost', port=8000): Max retries exceeded with url: /v1/chat/completions (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x11f5b2790>: Failed to establish a new connection: [Errno 61] Connection refused'))
警告: ID 3 の分析中にエラーが発生: API呼び出し中にエラーが発生: HTTPConnectionPool(host='localhost', port=8000): Max retries exceeded with url: /v1/chat/completions (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x11f5b6e90>: Failed to establish a new connection: [Errno 61] Connection refused'))
警告: ID 4 の分析中にエラーが発生: API呼び出し中にエラーが発生: HTTPConnectionPool(host='localhos

## 3. 分析結果の確認と保存

In [16]:
# 分析結果の保存
output_path = "../data/sample_data_analyzed.xlsx"
analyzer.save_results(output_path)

# 結果の確認
results_df = pd.read_excel(output_path)
print("\n分析結果のプレビュー:")
display(results_df.head())

分析結果を '../data/sample_data_analyzed.xlsx' に保存しました

分析結果の概要:
- 分析結果_がん診断名抽出:
  総データ数: 31
  ユニークな値の数: 1
  未検出(N/A)の数: 31
  主な抽出結果:
    - N/A: 31件
- 分析結果_がんステージ抽出:
  総データ数: 31
  ユニークな値の数: 1
  未検出(N/A)の数: 31
  主な抽出結果:
    - N/A: 31件
- 分析結果_診断検査抽出:
  総データ数: 31
  ユニークな値の数: 1
  未検出(N/A)の数: 31
  主な抽出結果:
    - N/A: 31件
- 分析結果_初回治療情報抽出:
  総データ数: 31
  ユニークな値の数: 1
  未検出(N/A)の数: 31
  主な抽出結果:
    - N/A: 31件
- 分析結果_抗がん剤治療情報抽出:
  総データ数: 31
  ユニークな値の数: 1
  未検出(N/A)の数: 31
  主な抽出結果:
    - N/A: 31件
- 分析結果_術式抽出:
  総データ数: 31
  ユニークな値の数: 1
  未検出(N/A)の数: 31
  主な抽出結果:
    - N/A: 31件
- 分析結果_特記事項抽出:
  総データ数: 31
  ユニークな値の数: 1
  未検出(N/A)の数: 31
  主な抽出結果:
    - N/A: 31件

分析結果のプレビュー:


Unnamed: 0,ID,day,text,分析結果_がん診断名抽出,分析結果_がんステージ抽出,分析結果_診断検査抽出,分析結果_初回治療情報抽出,分析結果_抗がん剤治療情報抽出,分析結果_術式抽出,分析結果_特記事項抽出
0,1,2023-01-01,組織診の結果、明細胞癌、Stage IIAと診断。,,,,,,,
1,1,2023-01-15,治療方針：腹腔鏡下全摘術の方針。,,,,,,,
2,1,2023-02-13,手術記録：腹腔鏡下子宮摘出術施行。手術時間156分、出血量663ml。,,,,,,,
3,1,2023-03-02,術後化学療法としてDTX+CBDCAを開始。,,,,,,,
4,1,2023-03-20,術後化学療法としてドセタキセル+カルボプラチンを開始。 糖尿病（HbA1c 9.6%）あり,,,,,,,


## 4. 特定の患者の詳細確認

In [17]:
def display_patient_details(df, patient_id):
    patient_data = df[df['ID'] == patient_id].sort_values('day')
    print(f"患者ID {patient_id} の経過:")
    
    for _, row in patient_data.iterrows():
        print(f"\n日付: {row['day']}")
        print(f"記録: {row['text']}")
        
        # 分析結果列の表示
        analysis_columns = [col for col in df.columns if col.startswith('分析結果_')]
        for col in analysis_columns:
            if row[col] != 'N/A':
                print(f"{col}: {row[col]}")

# 最初の患者IDについて詳細を表示
first_patient_id = results_df['ID'].iloc[0]
display_patient_details(results_df, first_patient_id)

患者ID 1 の経過:

日付: 2023-01-01 00:00:00
記録: 組織診の結果、明細胞癌、Stage IIAと診断。
分析結果_がん診断名抽出: nan
分析結果_がんステージ抽出: nan
分析結果_診断検査抽出: nan
分析結果_初回治療情報抽出: nan
分析結果_抗がん剤治療情報抽出: nan
分析結果_術式抽出: nan
分析結果_特記事項抽出: nan

日付: 2023-01-15 00:00:00
記録: 治療方針：腹腔鏡下全摘術の方針。
分析結果_がん診断名抽出: nan
分析結果_がんステージ抽出: nan
分析結果_診断検査抽出: nan
分析結果_初回治療情報抽出: nan
分析結果_抗がん剤治療情報抽出: nan
分析結果_術式抽出: nan
分析結果_特記事項抽出: nan

日付: 2023-02-13 00:00:00
記録: 手術記録：腹腔鏡下子宮摘出術施行。手術時間156分、出血量663ml。
分析結果_がん診断名抽出: nan
分析結果_がんステージ抽出: nan
分析結果_診断検査抽出: nan
分析結果_初回治療情報抽出: nan
分析結果_抗がん剤治療情報抽出: nan
分析結果_術式抽出: nan
分析結果_特記事項抽出: nan

日付: 2023-03-02 00:00:00
記録: 術後化学療法としてDTX+CBDCAを開始。
分析結果_がん診断名抽出: nan
分析結果_がんステージ抽出: nan
分析結果_診断検査抽出: nan
分析結果_初回治療情報抽出: nan
分析結果_抗がん剤治療情報抽出: nan
分析結果_術式抽出: nan
分析結果_特記事項抽出: nan

日付: 2023-03-20 00:00:00
記録: 術後化学療法としてドセタキセル+カルボプラチンを開始。 糖尿病（HbA1c 9.6%）あり
分析結果_がん診断名抽出: nan
分析結果_がんステージ抽出: nan
分析結果_診断検査抽出: nan
分析結果_初回治療情報抽出: nan
分析結果_抗がん剤治療情報抽出: nan
分析結果_術式抽出: nan
分析結果_特記事項抽出: nan

日付: 2023-03-30 00:00:00
記録: 術後化学療法としてTCを開始。
分析結果_がん診断名抽出: nan
分析