Skip to content
Permalink
Branch: master
Find file Copy path
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
73 lines (54 sloc) 6.4 KB
title tags
Datensparsamkeit
database
web development
internet culture
legal
data analytics

http://martinfowler.com/bliki/Datensparsamkeit.html

2013/12/12

ドイツ語にはDatensparsamkeitっていう言葉があるんだけど、それに該当する適切な英単語はない。 この言葉は、データを取得したり保存したりするときの心がけを表すもので、「実際に必要なデータだけを扱うべき」という意味だ。

とにかく何でもかんでもビッグデータっていう時代だ。取得できるデータはとりあえず何でもかんでも取っておけという風潮になっている。 アドレス帳の連絡先情報を今すぐに使うことはないとしても、とりあえずは取得しておく。あとで役立つかもしれないからだ。 ウェブサイト上でのすべてのクリック操作も、とりあえずは記録しておく。後で何かを調べたくなるかもしれないからだ。 スマホアプリも、とりあえずは位置情報を取得できるようにしておく。そのうちいつか、何かに役立てられるかもしれないからだ。 最近はストレージがタダ同然になっているわけだし、取っておかない手はないよね。

この「全部取っとけ」作戦の問題は、深刻なプライバシー問題が発生することだ。 たとえ「集めたデータは決して悪用しない」と信頼されていたとしても、蓄えたデータは犯罪者たちにとって格好の標的になる。 政府機関による監視の対象にもなるだろう。 ドイツでは、この問題は特に深刻なもののなる。というのもドイツでは、政府のきちんとした監視のもとで国民をコントロールするという体制が続いているからだ。 そのためドイツでは、プライバシーに関するデータを扱う際の法律が定められている。

Datensparsamkeit(*1)はこういったプライバシー観に基づく考えかたで、「全部取っておけ」とは対極にあるものだ。 うまい訳語が見つからない(ので、このページのタイトルもドイツ語のままにした)が、意味合い的には 「データの簡素化」とか「データの最小化」「データの節約」といったあたりが近い。 つまり、データを取得したり保存したりするときには常に「なぜそれが必要なのか」を自問し、 目的を達成するために最低限必要なデータだけを扱うようにすべきという意味だ。

こんな例を考えてみよう。自分のウェブサイトを訪れるユーザーの動きを追跡し、ユニークユーザーの数を調べることになった。 同じ人が数時間以内に複数のページにアクセスした場合は、それらをまとめて一回の訪問と見なしたい。 同じユーザーが月に何度か訪れるという場合にも、それらは同一ユーザーの訪問と見なしたい。 ひとつのやりかたとして、IPアドレスを記録した上で同じIPアドレスからの訪問はすべて同一ユーザーと見なすという手がある(*2)。 しかしIPアドレスにはさまざまな情報が含まれており、訪問者数を数える以外にもいろんなことに使えてしまう。 このような場合にDatensparsamkeitでは、IPアドレスをそのまま保存するのはやめろという考えかたをする。 IPアドレスのハッシュを計算して、ハッシュ値だけを保存すれば事足りる。

IPアドレスがらみでもう1つ、似た例がある。IPアドレスを使って、アクセス元の地域や国を推測することだ。 Datensparsamkeitの精神に則った場合、こういった情報を取得するためにIPアドレス全体を記録する必要はない。 最初の3オクテットだけ記録すれば十分だ。

Datensparsamkeitは別に、データを盗み出すような悪人のことだけを考えているのではない。 私たちと主要な企業との関係にも関わってくることだ。 現状、私たちが作り出すあらゆるデータは、収集した側で使い放題だ。それどころか、収集した側にとっては貴重な商売材料にすらなっている。 プライバシーを気にする人たち(私もそのひとりだ)は、この前提は変わるべきだと考えている。 企業はほんとうに必要菜データだけを収集すべきだし、何のためにそのデータを収集するのかを説明する責任もある。 もちろん、何を取得したのかや何を保存したのか、そして誰がそのデータを見るのかといったことも明らかにしなければいけない。 また、データのセキュリティに関する何らかの違反があれば、すぐにそれを公表しなければいけない(現状は、公表せずに覆い隠してしまうのが一般的だ)。

自分のデータを自己管理することについて、私とは違う考えを持つ人もいるだろう。 でも、セキュリティ違反があったときのリスクを考えれば、Datensparsamkeitというのは賢明な動きだ。 もし使う当てのないデータを抱えていたとして、誰かにそれを盗まれて被害を被ったとしよう。あなたはきっと、その損害に対する責任を問われることになるのではないだろうか。 仮に法的責任を免れたとしても、世間での評判はがた落ちだ。Datensparsamkeitを実践しない人たちはみな、このリスクを抱えることになる。

謝辞

この言葉を教えてくれたのはErik Dörnenburgだった。 「すべてのものを…」というミームは、少なくともこの十年はずっと存在し続けてきたように思える。 Korny Sietsmaにそれは2010年に始まったことだと教えてもらったことに感謝する。

備考

*1 読み方は、このようになる。

*2 NATとかを考慮すると話はややこしくなるけど、とりあえずの一例ということでシンプルに考えた。


by m-takagi

You can’t perform that action at this time.