Skip to content

Commit

Permalink
[Add] Figures for the case study (Section 5)
Browse files Browse the repository at this point in the history
  • Loading branch information
fnshr committed Jan 9, 2017
1 parent 61a98a3 commit 0ab87ed
Showing 1 changed file with 21 additions and 0 deletions.
21 changes: 21 additions & 0 deletions md-manuscript/trans-tidy-data-sec05.md
Expand Up @@ -4,6 +4,10 @@

この事例研究では、個人を単位としたメキシコでの死亡率データを使用する。最終的な目標は、1日を範囲としたときに異常な時間的パターンが見られる死因を検出することにある。図1は、すべての死因について1時間当たりの死亡者数を示した時間的パターンである。このパターンから最も離れている疾患を検出することが目標である。

![図1](../figs/overall.png)

図1:すべての死因についての時間的パターン。

この事例研究の完全なデータセットには、2008年のメキシコにおける53万9530人の死亡に関する情報がある。そして、このデータセットには、死亡場所、死亡時間、死因、死亡者に関する人口統計学的な情報など55個の変数が含まれている。表15は、このデータセットの小規模な標本を示している。この表は、死亡時刻に関する変数(`year`「年」・`month`「月」・`day`「日」・`hour`「時」)と死因に関する変数(`cod`)に焦点を合わせている。

| yod| mod| dod| hod| cod |
Expand Down Expand Up @@ -164,6 +168,19 @@ last_plot() + scale_x_log10() + scale_y_log10() +
geom_smooth(method = "rlm", se = F)
```

![図2a](../figs/n-dist-raw.png)

図2(a):`n`(標本の大きさ)と`deviation`(偏差)のグラフ。偏差の散らばりは標本の大きさに大きく左右されており、標本が小さいほど散らばりが大きい。

![図2b](../figs/n-dist-log.png)


図2(b):両対数のグラフは散らばりのパターンと異常に高い値を見いだしやすい。青線は最も当てはまりがよい頑健な直線である。

![図3](../figs/n-dist-resid.png)

図3:log(<i>n</i>) から log(<i>dist</i>) を予測する頑健な線形モデルからの残差。1.5のところにある水平線は、さらなる探索のための閾値を示す。

我々は、<i>x</i>軸に関して近いもの同士の中で<i>y</i>の値が相対的に大きいような点に関心を持っている。死亡者数を統制したとき、こうした点は全体のパターンから最もかけ離れた疾患を表す。

こうした異常な点を見つけるために、頑健な線形モデルを当てはめ、残差を図示する(図3)。図では残差が1.5の辺りが何もない領域となっている。このため、いささか恣意的ではあるが、残差が1.5以上になる疾患を選び出すことにする。このことは、2段階で行われる。まず、`devi`(疾患ごとに1行)から適切な行を選択する。そして、元の要約データセット(疾患ごとに24行)から一致する時間経過の情報を見つけ出す。
Expand All @@ -181,3 +198,7 @@ ggplot(data = subset(hod_unusual, n > 350), aes(x = hod, y = prop)) +
geom_line(aes(y = prop_all), data = overall, colour = "grey50") +
geom_line() + facet_wrap(~ disease, ncol = 3)
```

![図4](../figs/unusual.png)

図4:異常な時間的推移が見られる死因。全体の1時間ごとの死亡率は灰色で示されている。(上側)1年で死亡者が350人を超える死因 ((訳注:上側における死因を和訳すると以下の通りになる。(上側の上段)左から順に、「その他及び詳細不明の銃器の発射による加害にもとづく傷害及び死亡」、「鋭利な物体による加害にもとづく傷害及び死亡」、「自然の水域内での溺死及び溺水」。(上側の中段)左から順に、「詳細不明の電流への曝露」、「車両(駆動形態を問わない)事故、車両の型式不明」、「その他及び詳細不明の交通事故により受傷した歩行者」。(上側の下段)左から順に「事故の形態が明示され、受傷者の輸送形態が不明の路上交通事故」、「詳細不明の溺死及び溺水」。なお、この事例研究における死因は、国際疾病分類第10版 (ICD-10) と呼ばれる分類に従っている。死因の和訳は[標準病名マスター作業班](http://www.dis.h.u-tokyo.ac.jp/byomei/index.html)が提供している ICD-10 の和訳によった。)) 。(下側)死亡者が350人に満たない死因 ((訳注:下側における死因を和訳すると以下の通りになる。(下側の上段)左から順に、「乗員が受傷した動力航空機事故」、「その他及び詳細不明の交通事故により受傷したバス乗員」、「その他の明示された溺死及び溺水」。(下側の下段)左から順に「乳幼児突然死症候群」、「落雷による受傷者」。)) 。上側と下側とで<i>y</i>軸の目盛りが異なることに注意。

0 comments on commit 0ab87ed

Please sign in to comment.