# 医療テキストデータ生成ツール

このノートブックでは、医療記録のダミーデータを生成します。
- 診断名、検査名、術式などの表記揺れを含む
- 時系列に沿った自然な記録の流れを生成
- 特記事項に数値データを含むパターンを再現

In [1]:
import sys
import os
import pandas as pd
from IPython.display import display

# srcディレクトリをパスに追加
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

from src.data.data_generator import MedicalDataGenerator

## 1. データ生成器の初期化

In [2]:
generator = MedicalDataGenerator()

# 少量のデータを生成してサンプルとして表示
sample_df = generator.generate_patient_records(num_patients=3)
print("生成されたデータのサンプル:")
display(sample_df)

生成されたデータのサンプル:


Unnamed: 0,ID,day,text
0,1,2023-01-01,組織診の結果、卵巣腫瘍、Stage IIICと診断。
1,1,2023-01-27,治療方針：腹腔鏡下全摘術の方針。
2,1,2023-02-20,手術記録：開腹子宮全摘+両側付属器切除術施行。手術時間312分、出血量134ml。
3,1,2023-03-01,術後化学療法としてweekly PTXを開始。 心機能低下（EF 41%）あり
4,1,2023-03-10,術後化学療法としてTC療法を開始。
5,1,2023-03-25,術後化学療法としてDTX+CBDCAを開始。 腎機能低下（Cr 1.6 mg/dl）
6,1,2023-04-21,術後化学療法としてDCを開始。
7,2,2023-01-01,内膜組織診の結果、子宮体部類内膜癌、Stage IIIAと診断。
8,2,2023-01-13,治療方針：腹腔鏡下子宮全摘の方針。
9,2,2023-02-12,手術記録：腹腔鏡下子宮摘出術施行。手術時間338分、出血量868ml。


## 2. データの生成と保存

In [3]:
# データ生成のパラメータ設定
num_patients = 5  # 生成する患者数

# データの生成
df = generator.generate_patient_records(num_patients=num_patients)

# 基本統計情報の表示
print(f"生成されたデータの統計情報:")
print(f"総レコード数: {len(df)}")
print(f"患者数: {df['ID'].nunique()}")
print(f"期間: {df['day'].min()} ～ {df['day'].max()}")

# データの保存
output_file = "../data/sample_data.xlsx"
os.makedirs(os.path.dirname(output_file), exist_ok=True)
generator.save_to_excel(output_file, num_patients=num_patients)
print(f"\nデータを {output_file} に保存しました")

生成されたデータの統計情報:
総レコード数: 26
患者数: 5
期間: 2023-01-01 ～ 2023-05-06
31件のダミーデータを../data/sample_data.xlsxに保存しました

データを ../data/sample_data.xlsx に保存しました


## 3. データの分析と確認

In [4]:
# 患者ごとの記録数の分布
records_per_patient = df['ID'].value_counts()
print("患者ごとの記録数:")
print(f"最小: {records_per_patient.min()}")
print(f"最大: {records_per_patient.max()}")
print(f"平均: {records_per_patient.mean():.1f}")

# テキストの長さの分布
df['text_length'] = df['text'].str.len()
print("\nテキストの長さ:")
print(f"最小: {df['text_length'].min()}文字")
print(f"最大: {df['text_length'].max()}文字")
print(f"平均: {df['text_length'].mean():.1f}文字")

患者ごとの記録数:
最小: 3
最大: 7
平均: 5.2

テキストの長さ:
最小: 15文字
最大: 44文字
平均: 28.5文字
