In [1]:
import re  # 正規表現ライブラリをインポート

def validate_and_correct_output(sub_stage):
    """
   sub_taskの形式を検証し、不正な形式の場合は修正する。
    """
    # 正規表現でTNM分類をチェック
    tnm_pattern = (
        r"(0|1)(\s(0|1)){7}"
    )
    if re.fullmatch(tnm_pattern, sub_stage):
        # 正しい形式の場合、そのまま返す
        return sub_stage
    else:
        # 正規表現パターンに一致する部分を検索
        match = re.search(tnm_pattern, sub_stage)
        if match:
            return match.group()  # 一致する部分文字列を返す
        else:
            print('no match found')
            return '1 0 0 0 0 0 0 0'  # 一致する部分がない場合はNoneを返す

tmp = '出力: 1 0 0 0 0 0 0 0'
print(validate_and_correct_output(tmp))

1 0 0 0 0 0 0 0


In [None]:
import os
from langchain.chat_models import ChatOpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
import pandas as pd
from tqdm import tqdm

# OpenAIのAPIキーを環境変数から取得
os.environ["OPENAI_API_KEY"] = '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'

# モデル名のリスト
model_names = ['o1-preview-2024-09-12']

# プロンプトテンプレートの読み込み
with open('../subtask_prompt.txt', 'r', encoding='utf-8') as file:
    subtask_prompt_text = file.read()


prompt = PromptTemplate(
    input_variables=["context", "sentence", "subtask_prompt_text"],
    template=(
        "あなたは優秀な医師です。以下の文章に基づき肺癌に関して常に正しい判断ができます。以下の文章全体を考慮し、指定された対象文について、以下のどのラベルに該当するかを判断してください。\n\n"
        "ラベル: \n{subtask_prompt_text}\n\n"
        "文章全体:\n{context}\n\n"
        "対象文:\n{sentence}\n\n"
        "次のトピックに該当する場合は「1」、該当しない場合は「0」としてください。\n"
        "1. omittable\n"
        "2. measure\n"
        "3. extension\n"
        "4. atelectasis\n"
        "5. satellite\n"
        "6. lymphadenopathy\n"
        "7. pleural\n"
        "8. distant\n\n"
        "出力形式: 0または1をスペース区切りで出力してください。\n"
        "例: 1 0 0 0 0 0 0 0\n"
        "出力："
    )
)

# sentences.csv を読み込み
sentences_path = '../radnlp_2024_train_val_test/ja/sub_task/train/sentences.csv'
sentences = pd.read_csv(sentences_path)

for model_name in model_names:
    print(f"モデル {model_name} を使用して予測中...")
    output_csv = f'../sentence_predictions_{model_name}.csv'

    # LLMの設定
    if '4o' in model_name:
        llm = ChatOpenAI(temperature=0, model_name=model_name)
    else:
        llm = ChatOpenAI(temperature=1, model_name=model_name)

    # チェーンの作成
    chain = LLMChain(llm=llm, prompt=prompt)

    results = []
    
    grouped = sentences.groupby('id')

    for group_id, group in tqdm(grouped):
        # 文脈としてすべての文を結合
        context = "\n".join(group['text'])
        
        for _, row in group.iterrows():
            sentence = row['text']  # 対象の文
            try:
                # モデルに入力して予測を取得
                output = chain.run({"context": context, "sentence": sentence, "subtask_prompt_text": subtask_prompt_text}).strip()
                output = validate_and_correct_output(output)
                # 出力をスペースで分割して数値に変換
                predictions = list(map(int, output.split()))
                # 結果をリストに保存
                results.append({
                    "id": row['id'],
                    "sentence_index": row['sentence_index'],
                    "omittable": predictions[0],
                    "measure": predictions[1],
                    "extension": predictions[2],
                    "atelectasis": predictions[3],
                    "satellite": predictions[4],
                    "lymphadenopathy": predictions[5],
                    "pleural": predictions[6],
                    "distant": predictions[7],
                })
            except Exception as e:
                print(f"エラーが発生しました: ID={row['id']}, sentence_index={row['sentence_index']} - {e}")
                continue

    # DataFrameに変換してCSVファイルに保存
    results_df = pd.DataFrame(results)
    output_csv = f'../sentence_classifications_{model_name}.csv'
    results_df.to_csv(output_csv, index=False)

    print(f"結果が{output_csv}に保存されました！")




モデル o1-preview-2024-09-12 を使用して予測中...


  llm = ChatOpenAI(temperature=1, model_name=model_name)
  chain = LLMChain(llm=llm, prompt=prompt)
  output = chain.run({"context": context, "sentence": sentence, "subtask_prompt_text": subtask_prompt_text}).strip()
  2%|▏         | 2/108 [03:40<3:06:29, 105.56s/it]

no match found


100%|██████████| 108/108 [4:21:36<00:00, 145.34s/it] 

結果が../sentence_classifications_{model_name}.csvに保存されました！





In [4]:
sentence

'他腹部臓器に有意所見は指摘できません。'

In [9]:
group_id, group

(165742,
         id  sentence_index                     text
 14  165742               0     右肺尖部に長径 5 ㎝の腫瘤を認めます。
 15  165742               1  辺縁に棘状影が見られ原発性肺癌を疑いま\nす。
 16  165742               2   壁側胸膜への浸潤も見られ T3 を疑います。
 17  165742               3        他肺野に有意所見は指摘できません。
 18  165742               4       縦隔、肺門リンパ節腫大は認めません。
 19  165742               5                胸水は認めません。
 20  165742               6             左副腎は腫大しています。
 21  165742               7                 腺腫を疑います。
 22  165742               8      他腹部臓器に有意所見は指摘できません。)