In [1]:
data = [
    {'name': 'Alan Turong', 'born':1912, "died": 1954},
    {'name': 'Herbert A. Simon', 'born':1916, "died": 2001},
    {'name': 'Jacek Karpimski', 'born':1927, "died": 2010},
    {'name': 'J.C.R Licklider', 'born':1915, "died": 1990},
    {'name': 'Marvin Minsky', 'born':1927, "died": 2016},
]

'born'（出生年）特徴と'died'(没年)特徴はすでに数値形式で表示されていますが、'name'特徴は符号化するのが少し面倒です。<br>次のような方法で符号化できると思うかもしれません

In [2]:
{'Alan Turing': 1,
 'Herbert A. Simon': 2,
 'Jacek Karpimski' : 3,
  'J.C.R Licklider' : 4,
 'Marvin Minsky' : 5
}

{'Alan Turing': 1,
 'Herbert A. Simon': 2,
 'Jacek Karpimski': 3,
 'J.C.R Licklider': 4,
 'Marvin Minsky': 5}

これは良案ですが、機械学習の観点からみるとあまり意味はありません。
なぜでしょうか？<br>

なぜかというと、これらのカテゴリに順序付け可能な値を割り当てることによって、ほとんどの機械学習アルゴリズムは'Alan turing' < 'Herbert A. Simon' < 'Jacek Karpinsky'、つまり1 < 2 < 3という大小関係を導きだしてしまうからです。<br>ここで行いたかったことはこういうことではないです。<br>

最初のデータ点は'Alan Turing'カテゴリに属し、これは'herbert A. Simon'カテゴリと 'Jacek karpisky'カテゴリに属していないということを本当は言いたかったわけです。言い換えれば二値符号化(binary encoding)を行いたかったのでした。

scikit-learnによって二値符号かを行うモジュールがあります今回はそれを使用してみます。

In [4]:
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False, dtype=int)
vec.fit_transform(data)

array([[1912, 1954,    1,    0,    0,    0,    0],
       [1916, 2001,    0,    1,    0,    0,    0],
       [1927, 2010,    0,    0,    0,    1,    0],
       [1915, 1990,    0,    0,    1,    0,    0],
       [1927, 2016,    0,    0,    0,    0,    1]], dtype=int64)

ここでなにが起こったかというと2つの年に関する記載はそのまま残っていますが、残りの行は1と0に置き換えられています。
リスト化された特徴の順序を調べてみます。

In [5]:
vec.get_feature_names()

['born',
 'died',
 'name=Alan Turong',
 'name=Herbert A. Simon',
 'name=J.C.R Licklider',
 'name=Jacek Karpimski',
 'name=Marvin Minsky']

Alan Turingを表すデータ行列の一行目は'born' = 1912, 'died'=1954,　'Alan Turing' = 1, 'Herbert A. Simon'=0, 'J.C.R Licklider' = 0, 'jacek Karpinsky'=0そして'Marvin Minsky' = 0のように符号化されました。