### 4. 범주형 변수 표현하기
+ 머신 러닝 시스템을 구축하는 동안 사용할 수 있는 가장 일반적인 데이터 유형 중 하나는 범주적 데이터다.
  + 이 데이터의 문제점은 연속적으로 변경되지 않으므로 숫자로 표현하기 어렵다는 것이다.
+ 예를 들어 머신 러닝 및 인공지능의 조상 목록으로 구성된 데이터 세트를 인코딩하려 한다고 가정해보자.

In [3]:
data = [
    {'name': 'Alan Turing', 'born': 1912, 'died': 1954},
    {'name': 'Herbert A. Simon', 'born': 1916, 'died': 2001},
    {'name': 'Jacek Karpinski', 'born': 1927, 'died': 2010},
    {'name': 'J.C.R. Licklider', 'born': 1915, 'died': 1990},
    {'name': 'Marvin Minsky', 'born': 1927, 'died': 2016},
]

+ 'born' 및 'died' 특징은 숫자 형식으로 돼 있지만, 'name'은 인코딩하기가 까다롭다. 그래서 다음과 같은 방식을 쓰기도 한다.

In [4]:
{'Alan Turing': 1,
 'Herbert A. Simon': 2,
 'Jacek Karpinsky': 3,
 'J.C.R. Licklider': 4,
 'Marvin Minsky': 5}

{'Alan Turing': 1,
 'Herbert A. Simon': 2,
 'J.C.R. Licklider': 4,
 'Jacek Karpinsky': 3,
 'Marvin Minsky': 5}

####   

  
+ 이 방식은 머신 러닝 관점에서 보면 별 의미는 없다. 이러한 category에 ordinal(서수) 값을 할당함으로써 대부분의 머신 러닝 알고리즘에서는 'Alan Turing' < 'Herbert A. Simon' < 'Jacek Karpsinky' ... 라고 생각하기 때문이다.
  + 이는 1 < 2 < 3의 당연한 결과고, 우리가 의도한 결과는 아니다.
+ 우리는 대신 각 데이터가 다른 데이터에 속하는 범주가 아니라는 것을 표현하고 싶은 것이고, 이는 __바이너리 인코딩이 필요__하다는 것을 의미한다.
+ 머신 러닝 용어로 이것은 __one-hot 인코딩__이라 알려져있다.

In [9]:
# scikit-learn에서 feature_extraction 모듈의 DictVectorizer 클래스에서 
# one-hot encoding을 제공한다.
# 단순히 데이터를 포함하는 dictionary를 fit_transform 함수에 제공하는 방식으로 동작.
# 이 함수는 인코딩할 특징을 자동으로 결정할 수 있다.

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse = False, dtype = int)
vec.fit_transform(data)

array([[1912, 1954,    1,    0,    0,    0,    0],
       [1916, 2001,    0,    1,    0,    0,    0],
       [1927, 2010,    0,    0,    0,    1,    0],
       [1915, 1990,    0,    0,    1,    0,    0],
       [1927, 2016,    0,    0,    0,    0,    1]], dtype=int32)

+ get_feature_names를 호출해 나열된 특징의 순서를 확인할 수 있다.

In [10]:
vec.get_feature_names()

['born',
 'died',
 'name=Alan Turing',
 'name=Herbert A. Simon',
 'name=J.C.R. Licklider',
 'name=Jacek Karpinski',
 'name=Marvin Minsky']

+ Alan Turing 데이터 행렬의 첫 번째 행은 _'born'=1912, 'died'=1954, 'Alan Turing'=1, 'Herbert A. Simon'=0, 'J.C.R Licklider'=0, 'Jacek Karpinsik'=0, and 'Marvin Minsky'=0_으로 인코딩 된다.
####   
  
  
+ 이 방식에는 특징 범주에 가능한 성 및 이름 등에 많은 값이 있는 경우, one-hot encoding이 매우 큰 데이터 행렬을 만들 수 있다는 단점이 있다.
+ 그러나 row-by-row(행별)로 데이터 행렬을 조사하면 모든 행에 정확히 1이 있고 다른 모든 항목이 0이라는 것은 분명하다. 즉, 행렬은 희소 행렬(sparse matrix. 대부분이 0 값을 갖는 행렬)이 된다.
+ DictVectorizer() 클래스 생성시 sparse 매개변수에 True를 지정해 희소 행렬을 사용할 수 있다.

In [12]:
vec = DictVectorizer(sparse = True, dtype = int)
vec.fit_transform(data)

<5x7 sparse matrix of type '<class 'numpy.int32'>'
	with 15 stored elements in Compressed Sparse Row format>