In [1]:
import re  # 正規表現ライブラリをインポート

def validate_and_correct_tnm_output(tnm_stage):
    """
    TNM分類の形式を検証し、不正な形式の場合は修正する。
    """
    # 正規表現でTNM分類をチェック
    tnm_pattern = (
        r"T(?:0|is|1mi|1[abc]?|2[ab]?|3|4) "  # Tの分類
        r"N(?:0|1|2|3) "                     # Nの分類
        r"M(?:0|1[abc]?)"                    # Mの分類
    )
    if re.fullmatch(tnm_pattern, tnm_stage):
        # 正しい形式の場合、そのまま返す
        return tnm_stage
    else:
        # 正規表現パターンに一致する部分を検索
        match = re.search(tnm_pattern, tnm_stage)
        if match:
            return match.group()  # 一致する部分文字列を返す
        else:
            return 'T2b N2 M1b'  # 一致する部分がない場合はテキトーに返す

tmp = 'output: T2b N2 M1b'
print(validate_and_correct_tnm_output(tmp))

T2b N2 M1b


### chatgpt 4o inference

In [3]:
import pandas as pd

train_label_path = '../model_outputs/4o_diff.csv'
df_train_label = pd.read_csv(train_label_path)

texts = glob.glob('../radnlp_2024_train_val_test/ja/main_task/*/*.txt')
df_train_label['path'] = df_train_label['id'].apply(lambda x: [i for i in texts if str(x) in i][0])

few_shot_examples = []

def example(row):
    ex_dict = {}
    study_id = row["id"]
    t = row["t_label"]
    n = row["n_label"]
    m = row["m_label"]
    txt_path = row["path"]
    with open(txt_path, 'r', encoding='utf-8') as file:
        content = file.read()
    ex_dict["文章"] = content
    ex_dict["出力"] = f"{t} {n} {m}"
    few_shot_examples.append(ex_dict)

df_train_label.apply(example, axis=1)

#display(df_train_label.head())
few_shot_examples[:2]

[{'文章': '右下葉に長径 15mm 大の mixed GGO を認めます。肺腺癌を否定できません。\n右中葉や左舌区に炎症瘢痕を疑う索状影あり。\n有意な縦隔リンパ節腫大なし。肺門部リンパ節については造影と併せて評価ください。\n心拡大と心嚢液貯留あり。',
  '出力': 'T1mi N0 M0'},
 {'文章': '左肺には縦隔浸潤が疑われる腫瘤があり、左肺全体に及ぶ無気肺を伴っています。\n肺門-気管分岐下にはリンパ節腫大が疑われます。\n右肺には結節が多数認められ、転移が疑われます。',
  '出力': 'T4 N2 M1a'}]

In [None]:
%%time

import os
from langchain.chat_models import ChatOpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
import pandas as pd
from dotenv import load_dotenv
from langchain.callbacks import tracing_enabled

import os
import pandas as pd
from langchain import PromptTemplate, FewShotPromptTemplate, LLMChain
from langchain.chat_models import ChatOpenAI

from langchain_anthropic import ChatAnthropic

from langsmith import Client, traceable
from tqdm import tqdm
import datetime
import pytz
now = str(datetime.datetime.now(pytz.timezone('Asia/Tokyo')))[:-16]; now = now.replace(" ", "_").replace("-", "_").replace(":", "_")

os.environ["OPENAI_API_KEY"] = 'your_api_key'

model_names = ['gpt-4o-2024-11-20']  # ['gpt-4o-2024-05-13','gpt-4o-mini-2024-07-18','o1-preview-2024-09-12']
#model_names = ["claude-3-sonnet-20240229"]

# プロンプトテンプレートの読み込み
with open('../tnm_prompt.txt', 'r', encoding='utf-8') as file:
    tnm_prompt_text = file.read()

# FewShotPromptTemplateを作成
examples = [{"content": ex["文章"], "tnm": ex["出力"]} for ex in few_shot_examples]

example_template = """
文章: {content}
出力: {tnm}
"""

few_shot_prompt = FewShotPromptTemplate(
    examples=examples,
    example_prompt=PromptTemplate(
        input_variables=["content", "tnm"],
        template=example_template
    ),
    prefix=(
        "あなたは優秀な医師です。以下の文章に基づき肺癌に関して常に正しい判断ができます。"
        "以下の進行度分類に基づき、与えられた文章からTNM分類を選んでください。\n\n"
        f"{tnm_prompt_text}"
    ),
    suffix=(
        "以下の文章を読んで、TNM分類を正確に選択し、必ず以下の形式で出力してください。TとN,NとMの間には半角スペースを挿入しそれ以外は何も出力しないでください。\n"
        "T<number>[optional_letter] N<number>[optional_letter] M<number>[optional_letter]\n\n"
        "{content}\n\n"
        "ouptut:"
    ),
    input_variables=["content"]
)
# モデルごとに処理
for model_name in model_names:
    print(f"モデル {model_name} を使用してTNM分類を予測中...")
    output_csv = f'../fewshot_submission_{model_name}.csv'

    if "claude" in model_name:
        llm = ChatAnthropic(
            model=model_name,
            temperature=0,
        )
    # LLMの設定（ChatGPTを使用）
    elif '4o' in model_name:
        llm = ChatOpenAI(temperature=0,model_name=model_name)
    else:
        llm = ChatOpenAI(temperature=1,model_name=model_name)

    # チェーンの作成
    chain = LLMChain(llm=llm, prompt=few_shot_prompt)

    # テスト用の入力
    txt_folder = '../radnlp_2024_train_val_test/ja/main_task/test/'  # ここをTXTファイルが保存されているフォルダに変更
    txt_files = [f for f in os.listdir(txt_folder) if f.endswith('.txt')]
    print('number of text files:', len(txt_files))

    results = []
    for file_name in tqdm(sorted(txt_files)):
        file_path = os.path.join(txt_folder, file_name)
        # ファイルを読み込む
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
        try:
            tnm_stage = chain.run({"content": content}).strip()

            # TNM分類の形式を検証・修正（この部分はユーザーのvalidate_and_correct_tnm_output関数を流用）
            tnm_stage = validate_and_correct_tnm_output(tnm_stage)

            # TNM分類を分割
            tnm_parts = tnm_stage.split()
            if len(tnm_parts) >= 3:
                results.append({
                    "id": file_name.split('.')[0],
                    "t": tnm_parts[0],
                    "n": tnm_parts[1],
                    "m": tnm_parts[2],
                })
            else:
                print(f"ファイル {file_name} のTNM分類の出力形式が正しくありません: {tnm_stage}")
        except Exception as e:
            print(f"エラーが発生しました: {file_name} - {e}")
            continue

    # DataFrameに変換してCSVファイルに保存
    results_df = pd.DataFrame(results)
    results_df.to_csv(output_csv, index=False)

    print(f"結果が{output_csv}に保存されました！")


モデル gpt-4o-2024-11-20 を使用してTNM分類を予測中...




number of text files: 216


100%|██████████| 216/216 [04:54<00:00,  1.37s/it]

結果が../fewshot_submission_gpt-4o-2024-11-20.csvに保存されました！
CPU times: user 2.89 s, sys: 453 ms, total: 3.34 s
Wall time: 4min 55s





### o1-preview inference

In [8]:
train_label_path = '../model_outputs/o1preview_diff.csv'
df_train_label = pd.read_csv(train_label_path)

texts = glob.glob('../radnlp_2024_train_val_test/ja/main_task/*/*.txt')
df_train_label['path'] = df_train_label['id'].apply(lambda x: [i for i in texts if str(x) in i][0])

few_shot_examples = []

df_train_label.apply(example, axis=1)
few_shot_examples[:2]

[{'文章': '右下葉に長径 15mm 大の mixed GGO を認めます。肺腺癌を否定できません。\n右中葉や左舌区に炎症瘢痕を疑う索状影あり。\n有意な縦隔リンパ節腫大なし。肺門部リンパ節については造影と併せて評価ください。\n心拡大と心嚢液貯留あり。',
  '出力': 'T1mi N0 M0'},
 {'文章': '右下葉に腫瘤を認め、既知肺癌を疑います。\n右縦隔、肺門部に軟部影を認め、リンパ節転移を疑います。\n両側胸水貯留を認めます。\n左肋骨、腰椎、両側骨盤骨に骨硬化性変化が多発しており骨転移を疑います。\n左腎嚢胞を認めます。撮像範囲の腹部臓器に転移を疑う所見を認めません。',
  '出力': 'T0 N2 M1c'}]

In [11]:
%%time

import os
from langchain.chat_models import ChatOpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
import pandas as pd
from dotenv import load_dotenv
from langchain.callbacks import tracing_enabled

import os
import pandas as pd
from langchain import PromptTemplate, FewShotPromptTemplate, LLMChain
from langchain.chat_models import ChatOpenAI

from langchain_anthropic import ChatAnthropic

from langsmith import Client, traceable
from tqdm import tqdm
import datetime
import pytz
now = str(datetime.datetime.now(pytz.timezone('Asia/Tokyo')))[:-16]; now = now.replace(" ", "_").replace("-", "_").replace(":", "_")

os.environ["OPENAI_API_KEY"] = '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'

model_names = ['o1-preview-2024-09-12']  # ['gpt-4o-2024-05-13','gpt-4o-mini-2024-07-18','o1-preview-2024-09-12']
#model_names = ["claude-3-sonnet-20240229"]

# プロンプトテンプレートの読み込み
with open('../tnm_prompt.txt', 'r', encoding='utf-8') as file:
    tnm_prompt_text = file.read()

# FewShotPromptTemplateを作成
examples = [{"content": ex["文章"], "tnm": ex["出力"]} for ex in few_shot_examples]

example_template = """
文章: {content}
出力: {tnm}
"""

few_shot_prompt = FewShotPromptTemplate(
    examples=examples,
    example_prompt=PromptTemplate(
        input_variables=["content", "tnm"],
        template=example_template
    ),
    prefix=(
        "あなたは優秀な医師です。以下の文章に基づき肺癌に関して常に正しい判断ができます。"
        "以下の進行度分類に基づき、与えられた文章からTNM分類を選んでください。\n\n"
        f"{tnm_prompt_text}"
    ),
    suffix=(
        "以下の文章を読んで、TNM分類を正確に選択し、必ず以下の形式で出力してください。TとN,NとMの間には半角スペースを挿入しそれ以外は何も出力しないでください。\n"
        "T<number>[optional_letter] N<number>[optional_letter] M<number>[optional_letter]\n\n"
        "{content}\n\n"
        "ouptut:"
    ),
    input_variables=["content"]
)
# モデルごとに処理
for model_name in model_names:
    print(f"モデル {model_name} を使用してTNM分類を予測中...")
    output_csv = f'../fewshot_submission_{model_name}.csv'

    if "claude" in model_name:
        llm = ChatAnthropic(
            model=model_name,
            temperature=0,
        )
    # LLMの設定（ChatGPTを使用）
    elif '4o' in model_name:
        llm = ChatOpenAI(temperature=0,model_name=model_name)
    else:
        llm = ChatOpenAI(temperature=1,model_name=model_name)

    # チェーンの作成
    chain = LLMChain(llm=llm, prompt=few_shot_prompt)

    # テスト用の入力
    txt_folder = '../radnlp_2024_train_val_test/ja/main_task/test/'  # ここをTXTファイルが保存されているフォルダに変更
    txt_files = [f for f in os.listdir(txt_folder) if f.endswith('.txt')]
    print('number of text files:', len(txt_files))

    results = []
    for file_name in tqdm(sorted(txt_files)):
        file_path = os.path.join(txt_folder, file_name)
        # ファイルを読み込む
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
        try:
            tnm_stage = chain.run({"content": content}).strip()

            # TNM分類の形式を検証・修正（この部分はユーザーのvalidate_and_correct_tnm_output関数を流用）
            tnm_stage = validate_and_correct_tnm_output(tnm_stage)

            # TNM分類を分割
            tnm_parts = tnm_stage.split()
            if len(tnm_parts) >= 3:
                results.append({
                    "id": file_name.split('.')[0],
                    "t": tnm_parts[0],
                    "n": tnm_parts[1],
                    "m": tnm_parts[2],
                })
            else:
                print(f"ファイル {file_name} のTNM分類の出力形式が正しくありません: {tnm_stage}")
        except Exception as e:
            print(f"エラーが発生しました: {file_name} - {e}")
            continue

    # DataFrameに変換してCSVファイルに保存
    results_df = pd.DataFrame(results)
    results_df.to_csv(output_csv, index=False)

    print(f"結果が{output_csv}に保存されました！")

モデル o1-preview-2024-09-12 を使用してTNM分類を予測中...
number of text files: 216


100%|██████████| 216/216 [1:08:34<00:00, 19.05s/it]

結果が../fewshot_submission_o1-preview-2024-09-12.csvに保存されました！
CPU times: user 2.08 s, sys: 357 ms, total: 2.43 s
Wall time: 1h 8min 34s





In [7]:
%%time

import os
from langchain.chat_models import ChatOpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
import pandas as pd
from dotenv import load_dotenv

import os
import pandas as pd
from langchain import PromptTemplate, FewShotPromptTemplate, LLMChain
from langchain.chat_models import ChatOpenAI

from langchain_anthropic import ChatAnthropic

load_dotenv()
ANTHROPIC_API_KEY  = os.getenv('ANTHROPIC_API_KEY')
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

# OpenAIのAPIキーを環境変数から取得
os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY
os.environ["ANTHROPIC_API_KEY"] = ANTHROPIC_API_KEY

#model_names = ['o1-preview-2024-09-12']  # ['gpt-4o-2024-05-13','gpt-4o-mini-2024-07-18','o1-preview-2024-09-12']
model_names = ["claude-3-sonnet-20240229"]

# プロンプトテンプレートの読み込み
with open('../tnm_prompt.txt', 'r', encoding='utf-8') as file:
    tnm_prompt_text = file.read()

# FewShotPromptTemplateを作成
examples = [{"content": ex["input"], "tnm": ex["output"]} for ex in few_shot_examples]

example_template = """
文章: {content}
出力: {tnm}
"""

few_shot_prompt = FewShotPromptTemplate(
    examples=examples,
    example_prompt=PromptTemplate(
        input_variables=["content", "tnm"],
        template=example_template
    ),
    prefix=(
        "あなたは優秀な医師です。以下の文章に基づき肺癌に関して常に正しい判断ができます。"
        "進行度分類は以下のTNM第８版に準拠しています。何も言わずに以下を覚え、与えられた文章からよく考えてTNM分類を選んでください。\n\n"
        f"{tnm_prompt_text}"
    ),
    suffix=(
        "以下の文章を読んで、TNM分類を正確に選択し、必ず以下の形式で出力してください：\n"
        "T<number>[optional_letter] N<number>[optional_letter] M<number>[optional_letter]\n\n"
        "{content}\n\n"
        "出力："
    ),
    input_variables=["content"]
)

# モデルごとに処理
for model_name in model_names:
    print(f"モデル {model_name} を使用してTNM分類を予測中...")
    output_csv = f'../fewshot_submission_{model_name}.csv'

    if "claude" in model_name:
        llm = ChatAnthropic(
            model=model_name,
            temperature=0,
        )
    # LLMの設定（ChatGPTを使用）
    elif '4o' in model_name:
        llm = ChatOpenAI(temperature=0.7,model_name=model_name)
    else:
        llm = ChatOpenAI(temperature=1,model_name=model_name)

    # チェーンの作成
    chain = LLMChain(llm=llm, prompt=few_shot_prompt)

    # テスト用の入力
    txt_folder = '../radnlp_2024_train_val_20240731/ja/main_task/val/'  # ここをTXTファイルが保存されているフォルダに変更
    txt_files = [f for f in os.listdir(txt_folder) if f.endswith('.txt')]
    print('number of text files:', len(txt_files))

    results = []
    for file_name in sorted(txt_files):
        file_path = os.path.join(txt_folder, file_name)
        # ファイルを読み込む
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
        try:
            tnm_stage = chain.run({"content": content}).strip()

            # TNM分類の形式を検証・修正（この部分はユーザーのvalidate_and_correct_tnm_output関数を流用）
            tnm_stage = validate_and_correct_tnm_output(tnm_stage)

            # TNM分類を分割
            tnm_parts = tnm_stage.split()
            if len(tnm_parts) >= 3:
                results.append({
                    "id": file_name.split('.')[0],
                    "t": tnm_parts[0],
                    "n": tnm_parts[1],
                    "m": tnm_parts[2],
                })
            else:
                print(f"ファイル {file_name} のTNM分類の出力形式が正しくありません: {tnm_stage}")
        except Exception as e:
            print(f"エラーが発生しました: {file_name} - {e}")
            continue

    # DataFrameに変換してCSVファイルに保存
    results_df = pd.DataFrame(results)
    results_df.to_csv(output_csv, index=False)

    print(f"結果が{output_csv}に保存されました！")


モデル claude-3-sonnet-20240229 を使用してTNM分類を予測中...
number of text files: 54
警告: 出力形式が不正です。修正します: 出力: T1c N0 M0



KeyboardInterrupt

