In [26]:
# 傷病名分類分析
import pandas as pd
import re
import matplotlib.pyplot as plt
import seaborn as sns
import japanize_matplotlib

# データ読み込み
df = pd.read_csv('../output/傷病名一覧.csv', encoding='utf-8')
print(f"データ総数: {len(df):,}件")

# float型の値を文字列に変換し、NANを適切に処理
def preprocess_disease_name(name):
    if pd.isna(name):
        return "不明"
    if isinstance(name, (int, float)):
        return str(int(name))
    return str(name)

df['傷病名'] = df['傷病名'].apply(preprocess_disease_name)

# 傷病名の正規化関数
def simplify_disease_name(name):
    
    # 括弧内の詳細情報を除去
    name = re.sub(r'[\(（].*?[\)）]', '', name)
    # 疑いの表現を統一
    name = re.sub(r'(の疑い|疑い|疑|と思われる)', '疑い', name)
    return name.strip()

#疼痛について、運動器の痛みは整形外科にした
#外傷について、硬膜外血腫は神経に入れた
# 分類ルール
rules = {
    '外傷系': r'(咬傷|咬創|骨折|転倒|打撲|裂傷|挫傷|外傷|脱臼|擦過傷|刺傷|刺創|切創|皮膚剥離|剥皮創|挫創|裂創|割創|刺傷|杙創|貫通創|爪剥離|皮膚欠損|指完全切断|腕切断|不完全切断|左手切断、左前腕コンパーメント症候群|不全断裂|指開放創|指挫滅|挫滅創|指切断|左手第五指末梢部切断|指不全切断|熱傷|捻挫|靭帯断裂|脳震盪|心臓震盪|頸髄損傷|頚椎損傷|脊髄損傷|頸椎損傷|頭部血腫|圧挫症候群|腹腔内出血|血胸|デグロービング損傷|コンパートメント症候群|肝損傷|肝・腎損傷|蜂刺創|蜂刺咬症|蜂刺症|虫刺され|虫刺|虫刺症|刺咬症|蜂刺咬|ムカデ刺咬|歯牙欠損|剥皮傷|剥離創|指欠損|指末端切断|指尖部切断|第１趾壊死|指先端欠損|指不全断裂|表皮剥離|腹部圧挫滅|感電|電撃症)',
    '整形外科':r'(腰椎すべり症|椎間板ヘルニア|頸椎ヘルニア|腰椎ヘルニア|椎症|脊柱管狭窄症|坐骨神経痛|肋間神経痛|神経痛|肩痛|関節痛|膝部痛|膝痛|大腿部痛|下腿部痛|下肢痛|関節炎|関節症|腱断裂|靱帯損傷|リウマチ|膠原病|半月板損傷)',
    '循環器系': r'(大動脈解離|下行大動脈切迫破裂|胸部動脈瘤切迫破裂|大動脈瘤|大動脈瘤破裂|心タンポナーデ|心嚢液貯留|心サルコイドーシス|心重症冠動脈疾患|筋梗塞|穿通枝梗塞|虚血性心疾患|無痛性心筋虚血|急性冠症候群|冠動脈破裂|冠動脈攣縮|心室中隔穿孔|不整脈|ブルガダ症候群|高血圧|狭心症|心不全|AMI|慢性不全の急性増悪|心疾患|心筋症|心筋炎|心膜炎|心内膜炎|心外膜炎|血圧|弁膜症|房室ブロック|高度房室性ブロック|異常Ｑ波|心房細動|心房粗動|心房粗細動|心筋虚血|心室頻拍|心室性頻拍|上室性頻拍|洞性頻脈|頻脈|上室頻拍|心室性期外収縮|期外収縮|肺血栓塞栓症|肺塞栓症|洞不全症候群|洞機能不全|徐脈|弁狭窄|弁閉鎖不全|心臓弁膜症|静脈血栓症|ＣｏｍｐｌｅｔｅＡＶｂｌｏｃｋ|左脚ブロック|ペースメーカー)',
    '脳神経系': r'(硬膜外血腫|脳震盪|脳卒中|ストローク|脳梗塞|頭葉梗塞|脳幹部出血|橋出血|脳室内出血|脳血栓塞栓症|心原性脳塞栓|被殻梗塞|ラクナ梗塞|脳血栓症|脳動脈閉塞|脳右動脈閉塞|脳幹梗塞|橋梗塞|側頭葉梗塞|脳幹周囲の多発梗塞、脳底動脈解離|視床梗塞|急性期脳血栓症|脳塞栓症|脳塞症|脳陳旧性梗塞|脳幹出血|後頭葉出血|側頭葉出血|脳内出血|被殻出血|視床出血|皮質下出血|脳血管障害|脳動脈解離|脳動脈瘤|脳出血|右頭頂葉出血|下垂体出血|もやもや病|くも膜下出血|脳腫瘍|脳腫瘤|脳下垂体腫瘍|脳膿瘍|脳幹腫瘍|脳炎疑い|水頭症|てんかん|痙攣|意識障害|頭痛|脳虚血|ＴＩＡ|パーキンソン|けいれん|構音障害|呂律障害|末梢神経障害|麻痺|痺れ|神経麻痺|歩行障害|筋萎縮性側索硬化症|多系統萎縮症|失調歩行|脳脊髄炎|筋ジストロフィー)',
    '消化器系': r'(消化器疾患の疑い|腹痛|胃炎|胃軸捻転|食道炎|胃出血|胆石|腸炎|下痢|嘔吐|消化管|消化器管出血|吐血|下血|黒色便|憩室裂孔|血便|急性腹症|イレウス|腸閉塞|腸重積|大腸がん|大腸癌|大腸憩室|結腸癌|直腸癌|SMA症候群|上腸間膜動脈症候群|Ｓ状結腸軸捻転|過敏性腸症候群|腸捻転|胆管|胆嚢|胆のう|肝嚢胞|腹膜炎|憩室炎|虫垂炎|食道静脈瘤|食道破裂|胃破裂|マロリーワイス症候群|マロリーワイズ症候群|マロリー・ワイス症候群|憩室出血|消化器出血|食道出血|ＧＥＲＤ|逆流性食道炎|胃食道逆流疾患|機能性ディスペプシア、腹部不快感|食道胃管吻合部潰瘍|食道潰瘍|胃潰瘍|十二指腸潰瘍|胃穿孔|結腸穿孔|大腸穿孔|虫垂穿孔|消化性潰瘍|胃粘膜病変|潰瘍性大腸炎|回盲部炎|クローン|膵炎|肝不全|肝硬変|肝障害|肝炎|肝機能低下|肝機能異常|肝内結石|肝機能障害|閉塞性黄疸|肝性脳症|膵臓癌|膵癌|すい臓がん|食道胃接合部癌疑い|食道がん|胃癌|胃がん|肝癌|肝臓癌|肝臓がん|肝がん|癌（肝臓、直腸）|肝細胞がん（末期）　多発肺転移|肝臓血管腫|幹細胞がん|食道癌|食道ヘルニア|食道裂孔ヘルニア|食道穿孔ヘルニア|裂孔ヘルニア|鼠経ヘルニア|鼠径ヘルニア|脱肛|肝臓癌|肝疾患|肝細胞癌進行に伴う全身状態不良|肝膿瘍|肝嚢胞|膵臓及び肝臓の癌|膵管癌|膵臓がん|末期癌（肝臓及び膵臓）|膵臓腫瘍|膵のう胞|肝腫瘍|肝周囲炎|腹水|腸壊死|痔核|肛門の痛み|肛門部痛|肛門周囲膿瘍|肛門膿瘍|肛門痛|脱腸|アニサキス)',
    '呼吸器系': r'(肺炎|気管支炎|喘息|呼吸困難|睡眠時無呼吸症候群|咳|痰|気道|肺癌|肺がん|慢性閉塞性肺疾患|気管支拡張症|間質性肺炎|肺線維症|ＣＯＰＤ|ＣОＰＤの急性増悪|COPD|ＣＯ２ナルコーシス|肺気腫|気胸|胸膜炎|膿胸|肺化膿症|乳癌|縦隔気腫)',
    '血液内科': r'(リンパ腫|白血病|多発性骨髄腫|再生不良性貧血|特発性血小板減少性紫斑病|悪性リンパ腫|骨髄異形成症候群|骨髄線維症|骨髄腫|血小板減少|白血球減少|汎血球減少|血友病|溶血性貧血|ヘモグロビン低下|鉄欠乏性貧血|溶血|血栓性血小板減少性紫斑病)',
    '感染症': r'(感染症|敗血症|髄膜炎|発熱|熱発|インフルエンザ|咽頭炎|感冒|悪寒|蜂窩織炎|帯状疱疹|非結核性抗酸菌症|扁桃炎|扁桃周囲膿瘍|急性喉頭蓋炎|結核)',
    '代謝系': r'(糖尿病|電解質|脱水|低血糖|高血糖|痛風|偽痛風|低カリウム血症|高カリウム血症|低ナトリウム血症|低ナトリウム症|高ナトリウム血症|高アンモニア血症|高カルシウム血症|低カルシウム血症)',
    '中毒': r'(中毒|過量摂取|アルコール|薬物)',
    '精神系': r'(統合失調|双極性障害|双極性感情障害|躁鬱|うつ病|不安|気分障害|精神|認知症|心因反応|解離性障害|解離性同一障害|パニック障害|パニック発作|パーソナリティ障害|せん妄|被害妄想|うつ病|抑うつ|鬱病|不眠症|適応障害|解離性同一性障害|身体表現性障害|心因性発作|摂食障害|過食|転換性障害|ヒステリー|心身症|レストレスレッグス|心臓神経症|脅迫性障害|強迫性障害|強迫性症候群|幻聴|幻覚|妄想|心因発作|心因性反応|パニック症|チック|人格障害)',
    '産婦人科系': r'(ＨＥＬＬＰ症候群|分娩|出産|出生後|腹部の張り（妊娠１８週）|回旋異常|妊娠|産後の出血|墜落産|弛緩出血|性器出血|流産|早産|切迫流産|前置胎盤|胎盤剥離|胎胞膨隆|胎児胎盤機能不全|胎児機能不全|胎盤早期剥離|胎盤娩出遅延|羊水過小|胎胞脱出|陣痛|切迫早産|産後の出血|生理痛|月経痛|月経困難|月経過多|月経時痛|過多月経|無排卵性破綻出血疑い|排卵痛|月経困難症|破水|子宮筋腫|チョコレート嚢胞|卵巣|子宮|不正出血|産後出血|更年期|卵管がん)',
    '小児科系': r'(熱性痙攣|百日咳|川崎病|クループ|臍ヘルニア|RS|胎便吸収症候群|突発性発疹)',
    '泌尿器系': r'(腎臓癌|腎癌|膀胱|尿|前立腺|排尿|水腎|腎盂腎炎|腎結石|腎障害|精巣捻転|亀頭包皮炎|精巣破裂|睾丸捻転)',
    '耳鼻科系': r'(鼻出血|メニエール|末梢性眩暈|難聴|突発性難聴|耳鳴り|中耳炎|副鼻腔炎)',
    '老年' : r'(便秘|誤嚥|衰弱|体動困難|歩行困難|起立困難|老衰|褥瘡|廃用症候群|食事摂取困難)',
    '非特異的愁訴' : r'(喀血|嘔気|悪心|振戦|不随意運動|食欲不振|食思不振|貧血|黄疸|めまい|過呼吸|過換気|動悸|心因性心悸亢進|動機|吸苦|気分不快|胸部不快|胸部違和感|胸部圧迫感|倦怠感|頭重感|自律神経失調症|ふらつき|全身の痛み|全身の震え|不定愁訴)',
    '心肺停止' : r'(心肺停止|心室細動|ＣＰＡ|心破裂（心肺停止）|心停止|死亡|CPA|呼吸停止（病院到着後心肺停止）|心臓突然死)',
    '腎不全' : r'(腎不全)',
    '痛み' : r'(広背筋痛|下腹部痛|上腹部痛|胃痛|背部痛|心窩部痛|胸部痛|胸痛|後頸部痛|腰痛|腰部痛|殿部痛|頸部痛|右側頭部痛|季肋部痛|左側腹部痛|右側腹部痛|胸部絞扼感|後頭部痛|鼠径部痛|癌性疼痛)',
    '非外傷性救急' : r'(溺水|溺死|呼吸不全|窒息|異物|誤飲|失神|意識消失|肺水腫|胸水貯留|胸水|アナフィラィシー|アナフィラキシー|アナフィキラシー|薬疹|アレルギー|蕁麻疹|ショック|迷走神経反射|脱力|不明熱|低体温|熱中症|低酸素血症|横紋筋融解|栄養失調|低栄養)',
    '自損' : r'(自殺|自傷|縊頸|縊頚|縊頚(心肺停止)|縊首|縊死|過量服薬|過量服用|多量服薬|多量服用|多量内服|過量内服|over dose|オーバードーズ|農薬の服毒|自損行為（薬物中毒）|リストカット|インスリン投薬による自損行為)',
    'ワクチン副反応' : r'(コロナワクチン副反応|コロナワクチン副作用|コロナウイルスワクチン副反応|コロナウイルスワクチン副作用|予防接種の副作用|ワクチン接種後全身疼痛|ワクチン副反応)',

}

# 分類関数
def classify_disease(name):
    for category, pattern in rules.items():
        if re.search(pattern, name):
            return category
    return 'その他'

# 傷病名の正規化
df['normalized_name'] = df['傷病名'].apply(simplify_disease_name)

# 分類の実行
df['category'] = df['normalized_name'].apply(classify_disease)

# 分類結果の集計
category_counts = df['category'].value_counts()

# 結果の表示
print("\n=== 分類結果 ===")
print("\n各カテゴリの件数:")
for category, count in category_counts.items():
    print(f"{category}: {count:,}件")

# API呼び出し必要数の計算
api_calls_needed = int(category_counts.get('その他', 0))
api_calls_percentage = (api_calls_needed / len(df)) * 100

print(f"\n必要なAPI呼び出し回数: {api_calls_needed:,}回")
print(f"全サンプルに対する割合: {api_calls_percentage:.2f}%")
"""
# 可視化
plt.figure(figsize=(12, 6))
sns.barplot(x=category_counts.values, y=category_counts.index)
plt.title('傷病名カテゴリ別の件数')
plt.xlabel('件数')
plt.ylabel('カテゴリ')
plt.tight_layout()
plt.show()
"""

# その他に分類された例の確認
print("\n=== 「その他」に分類された傷病名の例（先頭20件）===")
other_examples = df[df['category'] == 'その他']['傷病名'].value_counts().head(20)
for disease, count in other_examples.items():
    print(f"{disease}: {count:,}件")

データ総数: 172,320件

=== 分類結果 ===

各カテゴリの件数:
外傷系: 39,330件
脳神経系: 21,139件
消化器系: 18,316件
循環器系: 12,793件
非特異的愁訴: 11,988件
呼吸器系: 11,953件
非外傷性救急: 11,716件
感染症: 10,820件
痛み: 5,913件
泌尿器系: 4,476件
その他: 4,452件
代謝系: 3,819件
心肺停止: 3,329件
中毒: 2,727件
整形外科: 2,422件
老年: 1,903件
精神系: 1,772件
耳鼻科系: 1,214件
産婦人科系: 1,161件
腎不全: 399件
血液内科: 264件
自損: 208件
小児科系: 164件
ワクチン副反応: 42件

必要なAPI呼び出し回数: 4,452回
全サンプルに対する割合: 2.58%

=== 「その他」に分類された傷病名の例（先頭20件）===
歯肉出血: 22件
口腔内出血: 19件
歯痛: 15件
発疹: 14件
緑内障: 12件
不穏: 12件
嚥下障害: 12件
血中酸素飽和度低下: 11件
両下肢浮腫: 11件
意識レベル低下: 11件
腸腰筋膿瘍: 11件
全身痛: 10件
眼痛: 10件
椎骨動脈解離: 10件
抜歯後出血: 10件
腹壁瘢痕ヘルニア: 10件
左側頭部痛: 10件
一過性全健忘: 9件
化膿性脊椎炎: 9件
腹部膨満: 9件


In [3]:
import numpy as np
np.savetxt("../output/残り病名.csv",df[df['category'] == 'その他']['傷病名'].unique(), fmt="%s")

In [None]:
# 緊急度・重症度による分類分析
# 無理そう

import pandas as pd
import re
import matplotlib.pyplot as plt
import seaborn as sns
import japanize_matplotlib
import numpy as np

# データ読み込み
df = pd.read_csv('../output/傷病名一覧.csv', encoding='utf-8')
print(f"データ総数: {len(df):,}件")

# データの前処理
def preprocess_disease_name(name):
    if pd.isna(name):
        return "不明"
    if isinstance(name, (int, float)):
        return str(int(name))
    return str(name)

df['傷病名'] = df['傷病名'].apply(preprocess_disease_name)

# 緊急度・重症度の分類ルール
severity_rules = {
    '最重症': [
        r'(心肺停止|CPA|心停止)',
        r'(ショック|意識レベル|JCS300|JCS200|GCS[1-6])',
        r'(大量出血|多発性外傷|開放性骨折)',
        r'(くも膜下出血|脳出血|急性大動脈解離)',
        r'(重症熱傷|広範囲熱傷|気道熱傷)',
        r'(窒息|気道閉塞|アナフィラキシー)'
    ],
    '重症': [
        r'(心筋梗塞|狭心症|不整脈)',
        r'(脳梗塞|脳卒中|片麻痺)',
        r'(意識障害|JCS100|JCS20|GCS[7-9])',
        r'(呼吸困難|喘息発作|気管支喘息)',
        r'(骨折|脱臼|重度の打撲)',
        r'(急性腹症|消化管出血|吐血|下血)',
        r'(敗血症|髄膜炎|重症感染症)'
    ],
    '中等症': [
        r'(高血圧|糖尿病|腎不全)',
        r'(腹痛|胃腸炎|食中毒)',
        r'(発熱|頭痛|めまい)',
        r'(切傷|擦過傷|捻挫)',
        r'(鼻出血|耳痛|腰痛)',
        r'(嘔吐|下痢|脱水症)'
    ],
    '軽症': [
        r'(風邪|かぜ|感冒)',
        r'(打撲|擦り傷|突き指)',
        r'(皮膚炎|湿疹|かゆみ)',
        r'(軽度の腹痛|軽度の頭痛)',
        r'(不眠|不安|疲労)'
    ]
}

def classify_severity(name):
    for severity, patterns in severity_rules.items():
        if any(re.search(pattern, name, re.IGNORECASE) for pattern in patterns):
            return severity
    return '要判断'

# 分類の実行
df['severity'] = df['傷病名'].apply(classify_severity)

# 重症度の順序を定義
severity_order = ['最重症', '重症', '中等症', '軽症', '要判断']
df['severity'] = pd.Categorical(df['severity'], categories=severity_order, ordered=True)

# 分類結果の集計
severity_counts = df['severity'].value_counts().reindex(severity_order)

# 結果の表示
print("\n=== 分類結果 ===")
print("\n緊急度・重症度別の件数:")
for severity in severity_order:
    count = severity_counts[severity]
    print(f"{severity}: {count:,}件")

# API呼び出し必要数の計算
api_calls_needed = int(severity_counts.get('要判断', 0))
api_calls_percentage = (api_calls_needed / len(df)) * 100

print(f"\n必要なAPI呼び出し回数: {api_calls_needed:,}回")
print(f"全サンプルに対する割合: {api_calls_percentage:.2f}%")

# 可視化（順序を考慮）
plt.figure(figsize=(10, 6))
sns.barplot(x=severity_counts.values, y=severity_counts.index, order=severity_order)
plt.title('緊急度・重症度別の件数分布')
plt.xlabel('件数')
plt.ylabel('重症度')
plt.tight_layout()
plt.show()

# システム分類関数
def classify_system(name):
    system_rules = {
        '外傷系': r'(骨折|打撲|裂傷|挫傷|外傷|脱臼|擦過傷|刺傷|切創)',
        '循環器系': r'(心筋梗塞|不整脈|高血圧|狭心症|心不全|心臓|血圧|動悸|胸痛)',
        '脳神経系': r'(脳梗塞|くも膜下出血|てんかん|痙攣|めまい|失神|意識障害|頭痛)',
        '消化器系': r'(腹痛|胃炎|胆石|腸炎|下痢|嘔吐|消化管|吐血|下血)',
        '呼吸器系': r'(肺炎|気管支炎|喘息|呼吸困難|咳|痰|気道)'
    }
    
    for system, pattern in system_rules.items():
        if re.search(pattern, name):
            return system
    return 'その他'

df['system'] = df['傷病名'].apply(classify_system)

# クロス集計表の作成（重症度の順序を考慮）
cross_tab = pd.crosstab(df['system'], df['severity'])
print("\n=== システム分類と重症度のクロス集計 ===")
print(cross_tab[severity_order])  # 列の順序を指定

# 要判断に分類された例の確認
print("\n=== 「要判断」に分類された傷病名の例（先頭20件）===")
undetermined_examples = df[df['severity'] == '要判断']['傷病名'].value_counts().head(20)
for disease, count in undetermined_examples.items():
    print(f"{disease}: {count:,}件")

In [None]:
import pandas as pd
import re
from anthropic import Anthropic
import asyncio
from typing import List, Dict
import time
from tqdm import tqdm
from pathlib import Path

# Anthropic APIの設定
anthropic = Anthropic(api_key='YOUR_API_KEY')

# 基本的な臓器系統分類ルール
system_rules = {
    '循環器系': r'(心臓|血圧|不整脈|動悸|胸痛|心筋|血管)',
    '呼吸器系': r'(肺|気管|呼吸|喘息|咳|痰)',
    '消化器系': r'(胃|腸|肝臓|胆嚢|膵臓|腹痛|嘔吐)',
    '脳神経系': r'(脳|神経|意識|めまい|頭痛|痙攣)',
    '筋骨格系': r'(骨|関節|筋肉|腰痛|背部痛)',
    '泌尿器系': r'(腎臓|膀胱|尿)',
    '内分泌系': r'(甲状腺|副腎|糖尿病|ホルモン)',
    '血液系': r'(貧血|出血|白血球|血小板)',
    '皮膚系': r'(皮膚|発疹|かゆみ|湿疹)'
}

class PromptTemplate:
    def __init__(self, template_path: str):
        """プロンプトテンプレートの初期化"""
        self.template = self._load_template(template_path)
    
    def _load_template(self, template_path: str) -> str:
        """テンプレートファイルの読み込み"""
        try:
            with open(template_path, 'r', encoding='utf-8') as f:
                return f.read()
        except FileNotFoundError:
            raise FileNotFoundError(f"プロンプトテンプレートファイルが見つかりません: {template_path}")
    
    def format(self, diseases: List[str]) -> str:
        """プロンプトの生成"""
        diseases_list = "\n".join([f"{i+1}. {d}" for i, d in enumerate(diseases)])
        return self.template.format(
            count=len(diseases),
            diseases_list=diseases_list
        )

def classify_by_rules(name: str) -> str:
    """ルールベースでの分類"""
    for system, pattern in system_rules.items():
        if re.search(pattern, name):
            return system
    return '要API判定'

async def process_batch(batch: List[str], prompt_template: PromptTemplate) -> List[str]:
    """バッチ処理でHaiku APIを呼び出す"""
    try:
        prompt = prompt_template.format(batch)
        response = await anthropic.messages.create(
            model="claude-3-haiku-20240307",
            max_tokens=1024,
            messages=[{
                "role": "user",
                "content": prompt
            }]
        )
        results = parse_haiku_response(response.content, len(batch))
        return results
    except Exception as e:
        print(f"Error processing batch: {e}")
        return ['エラー'] * len(batch)

def parse_haiku_response(response: str, expected_length: int) -> List[str]:
    """Haiku APIのレスポンスをパース"""
    results = ['その他'] * expected_length  # デフォルト値を設定
    try:
        lines = response.strip().split('\n')
        for line in lines:
            if '.' in line:
                parts = line.strip().split('.')
                if len(parts) >= 2:
                    idx = int(parts[0]) - 1
                    system = parts[1].strip()
                    if 0 <= idx < expected_length:
                        results[idx] = system
    except Exception as e:
        print(f"Error parsing response: {e}")
    return results

async def process_all_data(df: pd.DataFrame, prompt_template: PromptTemplate, batch_size: int = 20):
    """全データの処理"""
    # まずルールベースで分類
    df['organ_system'] = df['傷病名'].apply(classify_by_rules)
    
    # API判定が必要なケースを抽出
    need_api = df[df['organ_system'] == '要API判定']
    total_api_cases = len(need_api)
    print(f"API判定が必要なケース: {total_api_cases:,}件")
    
    # バッチ処理の準備
    need_api_indices = need_api.index
    results = []
    batches = [need_api['傷病名'].iloc[i:i+batch_size].tolist() 
               for i in range(0, len(need_api), batch_size)]
    
    # プログレスバーでバッチ処理の進捗を表示
    api_calls = 0
    for batch in tqdm(batches, desc="API処理中"):
        batch_results = await process_batch(batch, prompt_template)
        results.extend(batch_results)
        api_calls += 1
        await asyncio.sleep(0.5)  # レート制限対策
    
    # 結果をデータフレームに反映
    df.loc[need_api_indices, 'organ_system'] = results
    
    return df, api_calls

async def main():
    # プロンプトテンプレートの読み込み
    prompt_template = PromptTemplate('prompt_template.txt')
    
    # データ読み込み
    df = pd.read_csv('傷病名一覧.csv', encoding='utf-8')
    print(f"データ総数: {len(df):,}件")
    
    # 処理開始時間
    start_time = time.time()
    
    # データ処理
    processed_df, api_calls = await process_all_data(df, prompt_template)
    
    # 処理時間の計算
    process_time = time.time() - start_time
    
    # 結果の集計と表示
    system_counts = processed_df['organ_system'].value_counts()
    print("\n=== 分類結果 ===")
    for system, count in system_counts.items():
        print(f"{system}: {count:,}件")
    
    print(f"\nAPI呼び出し回数: {api_calls:,}回")
    print(f"処理時間: {process_time:.2f}秒")
    print(f"バッチ処理による削減率: {((1 - api_calls / len(df)) * 100):.1f}%")
    
    # 結果の保存
    processed_df.to_csv('classified_diseases_haiku.csv', index=False)

if __name__ == "__main__":
    asyncio.run(main())