# Competitions
---

[NBME - Score Clinical Patient Notes](https://www.kaggle.com/c/nbme-score-clinical-patient-notes/overview)

# Task
---

カルテの文章から、症状の特徴を表すキーワード `annotation` を抽出する。

# Description
---

医師を受診したとき、症状をどう解釈するかで、診断が正確かどうかが決まります。<br>
医師は免許を取得するまでに、患者さんの訴えの経緯、身体検査所見、考えられる診断、<br>
経過観察などを記録するカルテを書く練習をたくさんしてきました。<br>
カルテの書き方を学び、評価するには、他の医師からのフィードバックが必要ですが、<br>
このプロセスには時間がかかり、機械学習を加えることで改善できる可能性があります。

最近まで、ステップ2臨床技能試験は、米国医師免許試験（USMLE®）の1つの構成要素でした。<br>
この試験では、**受験者は標準化された患者（特定の臨床例を描写するよう訓練された人々）と対話し、カルテを書くことが要求されました。**<br>
**その後、訓練を受けた医師の採点者が、各症例の重要な概念（特徴と呼ばれる）を概説したルーブリックを使用してカルテを採点しました。**<br>
**カルテにそのような特徴が多く見られるほど、試験の最終スコアに貢献する他の要因とともに、スコアは高くなります。**

しかし、医師が診察券を採点するためには、多大な時間と人的・経済的リソースが必要です。<br>
この問題を解決するために、自然言語処理を用いたアプローチが生み出されましたが、<br>
カルテの特徴は様々な表現が可能であるため、計算機によるスコアリングはまだ困難です。<br>
例えば、"loss of interest in activities "という特徴は、"no longer plays tennis "と表現されることがあります。<br>
他にも、複数のテキストセグメントを組み合わせて概念をマッピングする必要があったり、<br>
キーエッセンスである "lack of other thyroid symptoms" に対応する<br>
"no cold intolerance, hair loss, palpitations, or tremor" のように否定があいまいなケースもあります。

**このコンペティションでは、カルテに含まれる特定の臨床概念を特定します。**<br>
具体的には、試験のルーブリックにある臨床概念（例：「食欲不振」）と、<br>
医学生が書く臨床患者のメモにある様々な表現方法（例：「食事量が少ない」「服がゆったり着られる」）を<br>
自動的に対応付ける方法を開発します。優れた解決策は、正確さと信頼性を兼ね備えています。

成功すれば、カルテのスコアリングにおける最大の実用的な障壁に取り組むことになり、<br>
アプローチの透明性と解釈性を高め、そのような評価の開発と管理を容易にします。<br>
その結果、医療従事者は、臨床技能評価に関連する情報を明らかにするために、<br>
カルテの可能性を最大限に追求することができるようになるのです。

このコンペティションは、National Board of Medical Examiners® (NBME®)が主催しています。<br>
NBMEは、研究とイノベーションを通じて、教育、学習、テクノロジー、有意義なフィードバックの必要性の進化に関する<br>
問題に取り組む医学部および研修医プログラムの教育者を支援しています。<br>
NBMEは、学生、専門家、教育者、規制当局、医学教育および医療の進化するニーズに対応する機関向けに、高品質の評価と教育サービスを提供しています。<br>
これらのコミュニティに貢献するために、NBMEは、実践的な医療専門家、医学教育者、州医師会メンバー、<br>
テスト開発者、学術研究者、採点専門家、一般市民の代表者など、多様かつ包括的な人々と協力しています。

# Evaluation
---

このコンペティションは、[micro-averaged F1 score](https://scikit-learn.org/stable/modules/model_evaluation.html#from-binary-to-multiclass-and-multilabel) で評価される。

各インスタンスに対して、文字スパンのセットを予測する。<br>
文字範囲とは、テキスト内の文字の範囲を表すインデックスの組である。<br>
Pythonの表記法では、スパンi jはスライスi:jと等価である。

各インスタンスには、真のスパンのコレクションと予測されたスパンのコレクションが存在する。<br>
スパンはセミコロンで区切られ、次のようになる。0 3; 5 9.

それぞれの文字指標を点数化する。

・TP：予測値を正例として、その予測が正しい場合<br>
・FN：予測値を負例として、その予測が誤りの場合<br>
・FP：予測値を正例として、その予測が誤りの場合<br>

最後に、すべてのインスタンスで集計されたTP、FN、FPから総合F1スコアを計算する。<br>

### Example

インスタンスがあるとします。

In [None]:
# | ground-truth | prediction    |
# |--------------|---------------|
# | 0 3; 3 5     | 2 5; 7 9; 2 3 |

これらのスパンは、インデックスの集合を与える。

In [None]:
# | ground-truth | prediction |
# |--------------|------------|
# | 0 1 2 3 4    | 2 3 4 7 8  |

そこで、計算する。

In [None]:
# TP = size of {2, 3, 4} = 3
# FN = size of {0, 1} = 2
# FP = size of {7, 8} = 2

すべてのインスタンスについてこれを繰り返し、TP、FN、FPを収集し、最終的なF1スコアを計算する。

### Sample Submission

テストセット内の各IDについて、セミコロンで区切られた0個以上のスパンを予測する必要があります。<br>
ファイルはヘッダを含み、以下のフォーマットである必要がある。

In [None]:
# id,location
# 00016_000,0 100
# 00016_001,
# 00016_002,200 250;300 500
# ...

00016_000の場合、患者メモ00016の特徴量000の予測値を与える必要があります。

# Timeline
---

・2022年2月1日～開始日。<br>
・2022年4月26日 - エントリー締切。出場するには、この日までに競技規則に同意する必要があります。<br>
・2022年4月26日 - チーム合併の締切日。また、**翌日〜最終日までノートブックの公開が禁止となります。**<br>
・2022年5月3日 - 最終提出締切日。

すべての締め切りは、特に断りのない限り、該当する日の午後11時59分（UTC）です。<br>
**日本時間では、2022年5月4日 午前8時59分（JTC）となります。**<br>
大会主催者は、必要と判断した場合、コンテストのスケジュールを更新する権利を有します。

# Data
---

ここで紹介するテキストデータは、医師免許試験の一つであるUSMLE® Step 2 Clinical Skills試験のものです。<br>
この試験は、標準化された患者との面会において、適切な臨床的事実を認識する能力を測定するものです。

この試験では、受験者は標準化された患者（臨床例を描写するよう訓練された人）を見ます。<br>
患者との対話の後、受験者はカルテにその時の関連する事実を記録します。<br>
**各カルテは、**訓練を受けた医師によって採点され、**ルーブリックに記載された症例に関連する特定の重要な概念や特徴があるかどうかが調べられます。**<br>
このコンペティションの目的は、**各カルテの中から、該当する症状に関連する特徴語を自動的に特定する**方法を開発することです。<br>
特に、標準的な患者とのインタビューから得られた情報が記録されている、**カルテの患者履歴の部分に重点を置いています。**

### Important Terms

Clinical Case<br>
・標準患者が受験者（医学生、研修医、医師）に提示するシナリオ（症状、訴え、懸念など）。<br>
・このデータセットでは、10個の臨床例が表現されている。

Patient Note<br>
・患者との面談（身体検査や問診）において、患者が関連する重要な情報を詳細に記述したテキスト。

Feature<br>
・臨床に関連する概念。ルーブリックには、各症例に関連する重要な概念が記述されている。

### Training Data

patient_notes.csv<br>
・約40,000のカルテの履歴部分のコレクション。これらのうち、特徴量がアノテーションされているのはサブセットのみである。<br>
　アノテーションのないノートに対して教師なし学習技術を適用したい場合がある。テストセット内の患者ノートは、このファイルの公開バージョンには含まれません。
 
・pn_num：各カルテの一意の識別子。<br>
・case_num：カルテが表す臨床ケースの一意の識別子。<br>
・pn_history：テスト受験者によって記録された、遭遇のテキスト。

features.csv<br>
・各臨床例の特徴（またはキーコンセプト）のルーブリック。

・feature_num：各特徴の一意な識別子。<br>
・case_num：各症例の一意な識別子。<br>
・feature_text：特徴の説明。

train.csv<br>
・1000件のカルテの特徴アノテーション（10件につき100件）。

・id：各カルテ/特徴のペアの一意な識別子。<br>
・pn_num：この行で注釈されたカルテ。<br>
・feature_num：この行で注釈された特徴量。<br>
・case_num：このカルテが属するケース。<br>
・annotation：患者ノート内の、ある特徴を示すテキスト。1つのノートで複数回表示されることもある。<br>
・location：メモ内の各注釈の位置を示す文字間隔。注釈を表現するために複数のスパンが必要な場合があり、スパンはセミコロン ; で区切られる。<br>

### Example Test Data

投稿コードの作成に役立つように、トレーニングセットから選択したいくつかの例題が含まれています。<br>
提出されたノートブックが採点されるとき、このサンプルデータは実際のテストデータに置き換わります。<br>
テストセットのカルテがpatient_notes.csv ファイルに追加されます。<br>
これらの患者ノートは、トレーニングセットのカルテと同じ臨床例からのものです。<br>
テストセットには、約2000件の患者メモがあります。

test.csv<br>
・トレーニングセットから選択されたインスタンスの例です。

sample_submission.csv<br>
・正しい形式のサンプル投稿ファイルです。

# Leaderboard
---

このリーダーボードは、約33％のテストデータで計算されています。<br>
**最終的には残りの67％のデータをもとに算出されます**ので、最終的な順位は異なる場合があります。

# Alert
---

**大会最終週には新しいノートブックを公開しないこと。**<br>
ノートブックを公開すると、コンペティションが終了するまでロックされます。

高得点のノートブックを公開することは非常に破壊的であり、コンペティションの締め切りが近い場合は強くお勧めしません。<br>
Kaggleは教育や学習のためにNotebookを作成しました。しかし、高得点のノートブックがコンペティションの後半に共有されると<br>
他のコンペティターがその共有されたアイデアを理解する時間があまりにも少なくなってしまうのです。<br>
そのようなノートブックは、他の参加者がフォークして提出するのがあまりにも簡単になってしまい、他の参加者が投資した仕事の信用を失墜させてしまいます。

# Module
---

In [None]:
import os
import re
import ast
import time
import torch
import warnings
import numpy as np
import pandas as pd
import seaborn as sns
import torch.nn as nn
import matplotlib.pyplot as plt

from torch import optim
from itertools import chain
from ast import literal_eval
from tqdm.notebook import tqdm
from transformers import AutoModel
from torch.utils.data import Dataset
from transformers import AutoTokenizer
from torch.utils.data import DataLoader
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_recall_fscore_support

In [None]:
warnings.filterwarnings('ignore')
pd.set_option('display.max_colwidth', 150)

# Datasets
---

In [None]:
train = pd.read_csv('../input/nbme-score-clinical-patient-notes/train.csv')
test = pd.read_csv('../input/nbme-score-clinical-patient-notes/test.csv')
patient_notes = pd.read_csv('../input/nbme-score-clinical-patient-notes/patient_notes.csv')
features = pd.read_csv('../input/nbme-score-clinical-patient-notes/features.csv')
sample_submission = pd.read_csv('../input/nbme-score-clinical-patient-notes/sample_submission.csv')

### Patient notes
カルテのデータ

In [None]:
print(patient_notes.shape)
patient_notes.head()

### Features
症状の特徴データ

In [None]:
print(features.shape)
features.head()

### Train
カルテの注釈データ

In [None]:
print(train.shape)
train.head()

### Test
テストデータ

In [None]:
print(test.shape)
test.head()

### Sample submission
提出データのサンプル

In [None]:
print(sample_submission.shape)
sample_submission.head()

# EDA
---

### Patient notes
カルテのデータ

In [None]:
print(patient_notes.shape)
patient_notes.head(10)

In [None]:
data = pd.DataFrame(patient_notes.columns, columns=['カラム'])
data['意味'] = ['カルテID', '症状ID', 'カルテの文章']
data

In [None]:
patient_notes.info()

カルテ ID `pn_num` に重複するデータはない。

In [None]:
patient_notes['pn_num'].nunique()

カルテの文章 `pn_history` について、1つ見てみる。

In [None]:
print(patient_notes['pn_history'].iloc[12])

患者は17歳男性で、親の許可を得て学生診療所を受診し、周期的な心臓のドキドキを訴えている。<br>
2-3ヶ月前から始まり、突然発症し、1回3-4分の発作が合計5-6回あり、回数は増えていないとのことである。<br>
しかし、最近の2日前のエピソードは今までで最悪であったと述べている。エピソードとエピソードの間は快調である。<br>
心臓の鼓動、息切れ、胸部圧迫感、ふらつきのエピソードがある。アデロールを処方されている同居人から、<br>
勉強を助けるためにテスト前に時々アデロールを服用することによって、エピソードが促進されたようである。<br>
ROS：吐き気なし、腸や膀胱の習慣の変化なし、しびれなし、視力の変化なし、発熱なし。<br>
PMH：なし<br>
アレルギー：NKDA<br>
薬： 同居人に処方されたアデロールを服用中<br>
SH：大学1年生、大学生活に適応するためのストレスは認める、禁煙、社会的アルコール使用、大麻1x

### Features
症状の特徴データ

In [None]:
print(features.shape)
features.head(10)

In [None]:
data = pd.DataFrame(features.columns, columns=['カラム'])
data['意味'] = ['特徴ID', '症状ID', '特徴の説明',]
data

In [None]:
features.info()

症状 ID `case_num` は、全部で10通りある。

In [None]:
features['case_num'].nunique()

`case_num` の分布をプロットする。

In [None]:
plt.figure(figsize=(8, 4))
sns.countplot(x='case_num', data=features, palette = 'flare')
plt.title('Distribution of Case_Num in Features Data', fontsize=15)
plt.show()

特徴 ID `features_num` は、全部で143通りある。

In [None]:
features['feature_num'].nunique()

`feature_num` の先頭は、`case_num` に対応している。ただし、`case_num` が 0 の場合を除く。

In [None]:
features.sample(5)

`case_num = 0` に対応する `feature_text` をいくつか見てみる。

In [None]:
print(features['feature_text'].iloc[0])
print(features['feature_text'].iloc[1])
print(features['feature_text'].iloc[2])
print(features['feature_text'].iloc[2])
print(features['feature_text'].iloc[4])
print(features['feature_text'].iloc[5])

心筋梗塞の家族歴または心筋梗塞の家族歴<br>
甲状腺障害家歴<br>
胸部圧迫感<br>
胸部圧迫感<br>
軽い頭痛<br>
髪が変わらない、爪が変わらない、温度が下がらない

`case_num = 1` に対応する `feature_text` をいくつか見てみる。

In [None]:
print(features[features['case_num'] == 1]['feature_text'].iloc[0])
print(features[features['case_num'] == 1]['feature_text'].iloc[1])
print(features[features['case_num'] == 1]['feature_text'].iloc[2])
print(features[features['case_num'] == 1]['feature_text'].iloc[3])
print(features[features['case_num'] == 1]['feature_text'].iloc[4])
print(features[features['case_num'] == 1]['feature_text'].iloc[5])

無膣分泌物<br>
体重減少<br>
性行為をしない<br>
下痢をしたことがある人<br>
20年<br>
血便が出ない

### Train
カルテの注釈データ

In [None]:
print(train.shape)
train.head(10)

In [None]:
data = pd.DataFrame(train.columns, columns=['カラム'])
data['意味'] = ['カルテIDと特徴IDのペア', '症状ID', 'カルテID', '特徴ID', '症状や特徴を表すキーワード', 'キーワードが書かれている文字の位置']
data

各 `case` と `feature` に対応する、カルテ文中のキーワード `annotation` とその文字位置 `location` が示されている。

In [None]:
train.info()

In [None]:
train.nunique()

症状 ID `case_num` の分布をプロットする。

In [None]:
plt.figure(figsize=(8, 4))
sns.countplot(x='case_num', data=train, palette = 'flare')
plt.title('Distribution of Case_Num in Training Data', fontsize=15)
plt.show()

特徴 ID `pn_num` の分布をプロットする。

In [None]:
plt.figure(figsize=(18, 6))
sns.histplot(x='pn_num', data=train, hue='case_num', bins=50, palette='rainbow')
plt.title('Distribution of Pn_Num in Training Data', fontsize=15)
plt.show()

### Test
テストデータ

In [None]:
print(test.shape)
test.head()

In [None]:
data = pd.DataFrame(test.columns, columns=['カラム'])
data['意味'] = ['カルテIDと特徴IDのペア', '症状ID', 'カルテID', '特徴ID']
data

カルテ `pn_num = 16` の文章から、各 `case_num` と `feature_num` に該当するテキストを抽出（予測）することがタスクとなる。

ただし、このデータはダミーであるため、提出時には本物のテストデータに置き換えられる。

In [None]:
test.info()

In [None]:
test.nunique()

指定されたカルテ ID `pn_num` に対して、症状 `case_num` と特徴 `feature_num` に該当するキーワード `annotation` を予測する。<br>
そして、`annotation` の文字位置 `location` を予測値として提出をする。

In [None]:
test.head()

### Sample submission
提出データのサンプル

In [None]:
print(sample_submission.shape)
sample_submission.head()

In [None]:
data = pd.DataFrame(sample_submission.columns, columns=['カラム'])
data['意味'] = ['カルテIDと特徴IDのペア','キーワードが書かれている文字の位置']
data

与えられたカルテID `pn_num` と特徴ID `feature_num` から、カルテ文の `annotaion` を予測し、その文字位置 `location` を提出する。

### Patient analytics

`train.csv` には、各 `case` と `feature` に対応する、カルテ文中のキーワード `annotation` とその文字位置 `location` が示されている。

In [None]:
train[train['pn_num'] == 16]

該当するカルテの文章から `location` の範囲を取り出してみると、`annnotaion` に一致することを確認する。

In [None]:
pd.DataFrame(patient_notes[patient_notes['pn_num']==16])

カルテの文章 `pn_histroy` について、テキストの 696 ~ 724 文字を抽出する。

In [None]:
patient_notes[patient_notes['pn_num']==16]['pn_history'].iloc[0][696:724]

In [None]:
patient_notes[patient_notes['pn_num']==16]['pn_history'].iloc[0][203:217]

In [None]:
patient_notes[patient_notes['pn_num']==16]['pn_history'].iloc[0][26:38]

In [None]:
patient_notes[patient_notes['pn_num']==16]['pn_history'].iloc[0][96:118]

１つの `feature` に対して、複数の `annotaion` や `location` がある場合もある。

In [None]:
train[(train['id']=='00211_000')|(train['id']=='00100_010')]

症状の特徴をカルテに書けていなかった場合は、`annotation` と `lacation` は空になっている。<br>
また1つの特徴を何回もカルテに記述していた場合には、`annotation` と `location` には複数の値が入っている。

In [None]:
train.loc[train['pn_num'] == 16]

`annotation` が存在しているカルテの数を調べる。

In [None]:
train['pn_num'].nunique()

`annotation` が付けられていないカルテの数を調べる。

In [None]:
patient_notes['pn_num'].nunique() - train['pn_num'].nunique()

これらに `annotation` 付けするのも、重要なタスクになると考えられる。

`train` について、1 つのカルテに対応するデータを抽出してみる。

In [None]:
patient = train[train['pn_num'] == 74087]
print(patient.shape)
patient

カルテの文章 `pn_history` とそれに対応する、症状の特徴を表すキーワード `annotion` を確認する。

In [None]:
print(f'\033[94mPatient Notes - ')
print(f'\033[94m',patient_notes[patient_notes['pn_num'] == 74087]['pn_history'].iloc[0])
print('------------')
print(f'\033[92mAnnotaions:')
for i in range(len(patient)):
    print(f'\033[92m',patient["annotation"].iloc[i])

In [None]:
print(f'\033[94mカルテ - ')
print(f'\033[94m Angela Tompkinsは35歳の女性で、過去6ヶ月間、月経周期の異常がある。LMPは2ヵ月前であり、過去5ヵ月間に2回しか生理周期がない。最近の周期では経血量が多く、7日間ほど続きます。以前は3〜4日しか続かず、間隔も一定でした。生理痛はほとんどない。以前は経口避妊薬を服用していましたが、妊娠を希望して11年前に止めました。彼氏と性交渉を持ち、「何年も」努力したにもかかわらず、妊娠に至らず、失敗しています。現在も過去も妊娠しようとしたことは否定している。妊娠を試みてから避妊を再開していない。6ヶ月前に初めて乳頭塗抹を受けたが、異常所見はなかった。産婦人科で定期的にフォローアップを受けている。叔母は乳癌、祖母は子宮頸癌である。家族は遺伝子検査をしていない。')
print('------------')
print(f'\033[92mアノテーション - ')
print(f'\033[92m[女性]')
print(f'\033[92m[過去5ヶ月で2回しかない、流量が多い、7日くらい続く、生理周期に異常がある。]')
print(f'\033[92m[LMPは2ヶ月前]')
print(f'\033[92m[避妊を再開していない]')
print(f'\033[92m[]')
print(f'\033[92m[妊娠に至らない]')
print(f'\033[92m[35歳]')
print(f'\033[92m[6ヶ月]')

### Annotation analysis

In [None]:
train[(train['case_num']==0)&(train['feature_num']==10)]['annotation'].value_counts()

In [None]:
train[(train['case_num']==0)&(train['feature_num']==11)]['annotation'].value_counts()

`annotation` が空のデータをカウントする。

In [None]:
sum(train["location"] == '[]')

# Preprocess
---

### Token

トークン化とは、文章を単語などの小さな単位に分割することである。<br>

（例） It israining → トークンは、「it」 「is」 「rainning」 である。

### Flow

説明変数として、 `feature_text` とカルテの文 `pn_history` の token を用意する。<br>
目的変数には、`pn_history` の token が `feature_text` に対する `annotation` になるかどうかを表すラベル（ `0` or `1` ）を作成する。<br>
学習し予測した結果、`1` のラベルがついた token を `annotation` とし、その文字位置 `location` に変換して提出する。

つまり、`feature_text` と `pn_history` を入力し、「この 2 つの文を踏まえると、症状の特徴を表すキーワード `annotation` はこれである」という対応関係を学習し、予測をしていく。

### Dataset

In [None]:
BASE_URL = '../input/nbme-score-clinical-patient-notes'

In [None]:
def process_feature_text(text):
    return text.replace('-OR-', '; ').replace('-', ' ')

def prepare_datasets():
    features = pd.read_csv(f'{BASE_URL}/features.csv')
    notes = pd.read_csv(f'{BASE_URL}/patient_notes.csv')
    train = pd.read_csv(f'{BASE_URL}/train.csv')

    merged = train.merge(notes, how='left')
    merged = merged.merge(features, how='left')

    merged['annotation_list'] = [literal_eval(x) for x in merged['annotation']]
    merged['location_list'] = [literal_eval(x) for x in merged['location']]
    
    merged['feature_text'] = [process_feature_text(x) for x in merged['feature_text']]
    
    merged['feature_text'] = merged['feature_text'].apply(lambda x: x.lower())
    merged['pn_history'] = merged['pn_history'].apply(lambda x: x.lower())

    return merged

train_df = prepare_datasets()
print(train_df.shape)
train_df.head()

例として、1 行のデータを抽出し、前処理の流れを見ていく。

In [None]:
example = train_df.loc[14242]
pd.DataFrame(example).T

In [None]:
example['pn_history']

### Features
説明変数のデータセットを用意していく。

Kaggle にある `Huggingface BERT` を Notebook に追加して使用する。

In [None]:
tokenizer = AutoTokenizer.from_pretrained('../input/huggingface-bert/bert-base-uncased')

In [None]:
out = tokenizer(example['feature_text'], example['pn_history'], max_length=416, truncation='only_second', padding='max_length', return_offsets_mapping=True)
out.keys()

`input_ids` は、`feature_text` と `pn_history` を token に分割したものに付いている id である。<br>
`tokenizer.convert_ids_to_tokens` で token id を token に変換できる。

In [None]:
print('len(input_ids)')
print(len(out['input_ids']))
print('input_ids')
print(out['input_ids'])
print('convert_ids_to_tokens')
print(tokenizer.convert_ids_to_tokens(out['input_ids']))

`offset_mapping` で、各 token がもとの文のどの部分に対応するかが分かる。

live が 11 番目の token なので、それを `offset_mapping` で指定すると、カルテの文章で該当する文字位置を返す。

In [None]:
print(out['offset_mapping'][:15])
print(out['offset_mapping'][11])

In [None]:
print(example['pn_history'][13:18])

`sequence_ids` では、0 が `feature_text`、 1 は `pn_history` に属している token であることを示している。

In [None]:
print(len(out.sequence_ids()))
print(out.sequence_ids())
out['sequence_ids'] = out.sequence_ids()

### TARGET
目的変数のデータセットを用意していく。

`location_list` のデータをタプルに変換する。

In [None]:
def loc_list_to_ints(loc_list):
    to_return = []
    for loc_str in loc_list:
        loc_strs = loc_str.split(";")
        for loc in loc_strs:
            start, end = loc.split()
            to_return.append((int(start), int(end)))
    return to_return

print(f"{example['location_list']} -> {loc_list_to_ints(example['location_list'])}")
print(f"{['682 688;695 697']} -> {loc_list_to_ints(['682 688;695 697'])}")

out["location_int"] = loc_list_to_ints(example["location_list"])

`offset` （カルテの文章 `pn_history` の token の文字位置） が `location_list` （`annotation` の文字位置）に含まれている場合は、ラベル `1` をつける。

In [None]:
labels = [0.0] * len(out['input_ids'])

for idx, (seq_id, offsets) in enumerate(zip(out['sequence_ids'], out['offset_mapping'])):
    if not seq_id or seq_id == 0:
        labels[idx] = -1
        continue
        
    token_start, token_end = offsets
    for feature_start, feature_end in out['location_int']:
        if token_start >= feature_start and token_end <= feature_end:
            labels[idx] = 1.0
            break

out['labels'] = labels
print(out['labels'])

以上で、学習するための説明変数と目的変数を用意できたので、あとはモデルに入れて学習させていけば良い。

# References
---

### EDA
・[📊 NBME Detailed - EDA 📊](https://www.kaggle.com/odins0n/nbme-detailed-eda)<br>
・[NBME-Complete EDA🔎🔎](https://www.kaggle.com/utcarshagrawal/nbme-complete-eda)<br>
・[NBME タスク概観とデータの取説](https://www.kaggle.com/yufuin/nbme-japanese)<br>

### Basic
・[NBME🩺 Pytorch BERT 日本語 初心者向け](https://www.kaggle.com/bearmontblanc/nbme-pytorch-bert)<br>
・[[日本語&ENG] NBME Deberta&wandb ゆっくり実況 [train]](https://www.kaggle.com/pixyz0130/eng-nbme-deberta-wandb-train)<br>
・[[日本語&ENG] NBME Deberta&WandB ゆっくり実況 [infer]](https://www.kaggle.com/code/pixyz0130/eng-nbme-deberta-wandb-infer)<br>
・[BERT_for_beginners](https://www.kaggle.com/code/tomohiroh/nbme-bert-for-beginners)

### Notebook
・[NBME_Starter](https://www.kaggle.com/drcapa/nbme-starter)<br>
・[NBME / Deberta-base baseline [train]](https://www.kaggle.com/code/yasufuminakama/nbme-deberta-base-baseline-train/notebook)<br>
・[NBME / Deberta-base baseline [inference]](https://www.kaggle.com/yasufuminakama/nbme-deberta-base-baseline-inference)<br>
・[Pytorch Bert baseline NBME](https://www.kaggle.com/iamsdt/pytorch-bert-baseline-nbme/notebook)<br>
・[Roberta Strikes Back !](https://www.kaggle.com/code/theoviel/roberta-strikes-back)

### Model
・[Hugging Face](https://huggingface.co/tasks/question-answering)

### Competition
・[TensorFlow 2.0 Question Answering](https://www.kaggle.com/c/tensorflow2-question-answering/overview)

### Articles
・[ラベル（labels：正解ラベル、Ground Truth：正解、教師データ：labeled training data）とは？](https://atmarkit.itmedia.co.jp/ait/articles/1901/06/news040.html)<br>
・[AI開発でよく耳にする「アノテーション」とは？](https://japan.zdnet.com/article/35134024/)