In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pathlib import Path
from IPython.display import display

pd.set_option("max_rows", 100)
pd.set_option("max_columns", 100)

In [None]:
input_dir = Path("../input/nbme-score-clinical-patient-notes/")

In [None]:
train = pd.read_csv(input_dir / "train.csv")
test = pd.read_csv(input_dir / "test.csv")
features = pd.read_csv(input_dir / "features.csv")
patient_notes = pd.read_csv(input_dir / "patient_notes.csv")
sample_submission = pd.read_csv(input_dir / "sample_submission.csv")

## patient_notes

約 40,000 件の患者ノートの履歴部分のコレクション。これらのうち、特徴が注釈されているのはサブセットのみです。アノテーションのないノートに教師なし学習技術を適用することができます。テストセットの患者ノートは、このファイルの公開バージョンには含まれていません。
- pn_num - それぞれの患者のノートに固有の識別子
- case_num - 患者のノートが表す臨床例の識別子
- pn_history - テスト受験者が記録した症例のテキスト

In [None]:
patient_notes.head()

In [None]:
patient_notes.shape

In [None]:
patient_notes.isnull().sum()

In [None]:
patient_notes.pn_num.value_counts().sort_index()

In [None]:
patient_notes.case_num.value_counts().sort_index()

In [None]:
patient_notes.iloc[0]["pn_history"]

## features

各臨床例の特徴(またはキーコンセプト)のルビ
- feature_num - それぞれの特徴を表す固有の識別子
- case_num - それぞれの症例に固有の識別子
- feature_text - その特徴の説明文

In [None]:
features.head()

In [None]:
features.shape

In [None]:
features.isnull().sum()

In [None]:
features.feature_num.value_counts().sort_index()

In [None]:
features.case_num.value_counts().sort_index()

In [None]:
features.iloc[0]["feature_text"]

## train

1000件の患者のメモのうち、10件のケースごとに100件ずつの特徴の注釈
- id - 各患者のメモと特徴のペアに固有の識別子
- case_num - この患者のメモが属する症例
- pn_num - この行でアノテーションされた患者のメモ
- feature_num - この行に表示されている特徴
- annotation - 患者のメモの中にある特徴を示すテキスト。1つの患者メモの中で、1つの特徴が複数回示されることがあります
- location - ノートの中の各注釈の位置を示す文字列です。1つの注釈を表現するために複数のスパンが必要な場合があり、その場合、スパンはセミコロン;で区切られます

In [None]:
train.head()

In [None]:
train.shape

In [None]:
train.isnull().sum()

In [None]:
train.iloc[0].values

In [None]:
train.query("case_num == 0 and feature_num == 0").head()

In [None]:
features.query("case_num == 0 and feature_num == 0")

In [None]:
patient_notes.query("pn_num == 16").pn_history.values[0]

HPI: 17yo M presents with palpitations. Patient reports 3-4 months of intermittent episodes of "heart beating/pounding out of my chest." 2 days ago during a soccer game had an episode, but this time had chest pressure and felt as if he were going to pass out (did not lose conciousness). Of note patient endorses abusing adderall, primarily to study (1-3 times per week). Before recent soccer game, took adderrall night before and morning of game. Denies shortness of breath, diaphoresis, fevers, chills, headache, fatigue, changes in sleep, changes in vision/hearing, abdominal paun, changes in bowel or urinary habits. \r\nPMHx: none\r\nRx: uses friends adderrall\r\nFHx: mom with "thyroid disease," dad with recent heart attcak\r\nAll: none\r\nImmunizations: up to date\r\nSHx: Freshmen in college. Endorses 3-4 drinks 3 nights / week (on weekends), denies tabacco, endorses trying marijuana. Sexually active with girlfriend x 1 year, uses condoms

In [None]:
patient_notes.query("pn_num == 16").pn_history.values[0][696:724]

## test

In [None]:
test.head()

In [None]:
sample_submission