In [2]:
# Scikit-Learn 의 문서 전처리 기능

### Bag of Words(BOW)
### : 문서를 숫자 벡터로 변환하는 방법

# DictVectorizer: 각 단어의 수를 세어놓은 사전에서 BOW벡터 생성
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
D = [{'A':1, 'B':2}, {'B':3, 'C':1}]
X = v.fit_transform(D)
X

array([[1., 2., 0.],
       [0., 3., 1.]])

In [3]:
v.feature_names_

['A', 'B', 'C']

In [4]:
v.transform({'C':4, 'D':3})

array([[0., 0., 4.]])

In [5]:
# CountVectorizer: 문서 집합에서 단어 토큰 생성하고 각 단어의 수를 세어 BOW 인코딩한 벡터 생성
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.', 
    'This is the second second document.',
    'And the third one.', 
    'Is this the first document?',
    'The last document?',
]
vect = CountVectorizer()
vect.fit(corpus)
vect.vocabulary_

{'this': 9,
 'is': 3,
 'the': 7,
 'first': 2,
 'document': 1,
 'second': 6,
 'and': 0,
 'third': 8,
 'one': 5,
 'last': 4}

In [7]:
vect.get_feature_names()

['and',
 'document',
 'first',
 'is',
 'last',
 'one',
 'second',
 'the',
 'third',
 'this']

In [8]:
vect.transform(['This is the second document.']).toarray()

array([[0, 1, 0, 1, 0, 0, 1, 1, 0, 1]])

In [9]:
vect.transform(['Something completely new.']).toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [10]:
vect.transform(corpus).toarray()

array([[0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 1, 0, 0, 2, 1, 0, 1],
       [1, 0, 0, 0, 0, 1, 0, 1, 1, 0],
       [0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 1, 0, 0]])

In [None]:
# Stop words
vect = CountVectorizer(stop_words=[])

In [None]:
# TfidfVectorizer: TF-IDF 방식으로 단어의 가중치를 조정한 BOW 벡터 생성

# HashingVectorizer: 해시 함수를 사용하여 적은 메모리와 빠른 속도로 BOW벡터 생성 