# 医療テキストデータ生成ツール

このノートブックでは、医療記録のダミーデータを生成します。
- 診断名、検査名、術式などの表記揺れを含む
- 時系列に沿った自然な記録の流れを生成
- 特記事項に数値データを含むパターンを再現

In [None]:
import sys
import os
import pandas as pd
from IPython.display import display

# srcディレクトリをパスに追加
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

from src.data.data_generator import MedicalDataGenerator

## 1. データ生成器の初期化

In [None]:
generator = MedicalDataGenerator()

# 少量のデータを生成してサンプルとして表示
sample_df = generator.generate_patient_records(num_patients=3)
print("生成されたデータのサンプル:")
display(sample_df)

## 2. データの生成と保存

In [None]:
# データ生成のパラメータ設定
num_patients = 50  # 生成する患者数

# データの生成
df = generator.generate_patient_records(num_patients=num_patients)

# 基本統計情報の表示
print(f"生成されたデータの統計情報:")
print(f"総レコード数: {len(df)}")
print(f"患者数: {df['ID'].nunique()}")
print(f"期間: {df['day'].min()} ～ {df['day'].max()}")

# データの保存
output_file = "../data/sample_data.xlsx"
os.makedirs(os.path.dirname(output_file), exist_ok=True)
generator.save_to_excel(output_file, num_patients=num_patients)
print(f"\nデータを {output_file} に保存しました")

## 3. データの分析と確認

In [None]:
# 患者ごとの記録数の分布
records_per_patient = df['ID'].value_counts()
print("患者ごとの記録数:")
print(f"最小: {records_per_patient.min()}")
print(f"最大: {records_per_patient.max()}")
print(f"平均: {records_per_patient.mean():.1f}")

# テキストの長さの分布
df['text_length'] = df['text'].str.len()
print("\nテキストの長さ:")
print(f"最小: {df['text_length'].min()}文字")
print(f"最大: {df['text_length'].max()}文字")
print(f"平均: {df['text_length'].mean():.1f}文字")