### BOW
* Bag Of Words
* 단어의 인덱스를 기준으로 토큰의 출현빈도를 나타낸 벡터

#### DictVectorizer
* 문서에서 단어의 출현빈도를 딕셔너리로 입력받아 BOW 벡터 생성

In [2]:
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
d = [
    {'java':1, 'python':2, 'mysql':3},
    {'mysql':4, 'linux':5, 'html':2}
]
x = v.fit_transform(d)
x

array([[0., 1., 0., 3., 2.],
       [2., 0., 5., 4., 0.]])

In [3]:
v.feature_names_

['html', 'java', 'linux', 'mysql', 'python']

In [5]:
v.transform({'html':10, 'python':100, 'javascript':50})

array([[ 10.,   0.,   0.,   0., 100.]])

#### CountVectorizer
* 문서에서 단어토큰을 리스트로 생성하고, 각 단어들의 수를 BOW 벡터로 생성

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document',
    'This is the second document',
    'and the third document'
    'this is the fourth document',
    'the last document'
]
v = CountVectorizer()
v.fit(corpus)
v.vocabulary_

{'this': 10,
 'is': 5,
 'the': 8,
 'first': 3,
 'document': 1,
 'second': 7,
 'and': 0,
 'third': 9,
 'documentthis': 2,
 'fourth': 4,
 'last': 6}

In [8]:
# 각 인덱스에 해당하는 단어 횟수
v.transform(['this is the first first document']).toarray()

array([[0, 1, 0, 2, 0, 1, 0, 0, 1, 0, 1]], dtype=int64)

In [9]:
v.transform(['i am a boy']).toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

In [10]:
v.transform(corpus).toarray()

array([[0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1],
       [0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1],
       [1, 1, 1, 0, 1, 1, 0, 0, 2, 1, 0],
       [0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0]], dtype=int64)

In [11]:
# 불용어
v2 = CountVectorizer(stop_words=['and', 'is'])
v2.fit(corpus)
v2.vocabulary_

{'this': 8,
 'the': 6,
 'first': 2,
 'document': 0,
 'second': 5,
 'third': 7,
 'documentthis': 1,
 'fourth': 3,
 'last': 4}

In [12]:
# 문자
v2 = CountVectorizer(analyzer='char')
v2.fit(corpus)
v2.vocabulary_

{'t': 14,
 'h': 6,
 'i': 7,
 's': 13,
 ' ': 0,
 'e': 4,
 'f': 5,
 'r': 12,
 'd': 3,
 'o': 11,
 'c': 2,
 'u': 15,
 'm': 9,
 'n': 10,
 'a': 1,
 'l': 8}

In [13]:
# 정규식
v2 = CountVectorizer(token_pattern='t\w+')
v2.fit(corpus)
v2.vocabulary_

{'this': 3, 'the': 1, 'third': 2, 'tthis': 4, 'th': 0}

In [14]:
# nltk
import nltk
v2 = CountVectorizer(tokenizer=nltk.word_tokenize)
v2.fit(corpus)
v2.vocabulary_



{'this': 10,
 'is': 5,
 'the': 8,
 'first': 3,
 'document': 1,
 'second': 7,
 'and': 0,
 'third': 9,
 'documentthis': 2,
 'fourth': 4,
 'last': 6}

In [17]:
# N-gram
# 토큰의 크기
# monogram - 토큰하나, bigram - 토큰두개
v2 = CountVectorizer(ngram_range=(2,2))
v2.fit(corpus)
v2.vocabulary_

{'this is': 13,
 'is the': 4,
 'the first': 7,
 'first document': 2,
 'the second': 10,
 'second document': 6,
 'and the': 0,
 'the third': 11,
 'third documentthis': 12,
 'documentthis is': 1,
 'the fourth': 8,
 'fourth document': 3,
 'the last': 9,
 'last document': 5}

In [18]:
# 빈도
v2 = CountVectorizer(min_df=1, max_df=4)
v2.fit(corpus)
v2.vocabulary_

{'this': 10,
 'is': 5,
 'the': 8,
 'first': 3,
 'document': 1,
 'second': 7,
 'and': 0,
 'third': 9,
 'documentthis': 2,
 'fourth': 4,
 'last': 6}

In [21]:
v2.transform(corpus).toarray().sum(axis=0)

array([1, 4, 1, 1, 1, 3, 1, 1, 5, 1, 2], dtype=int64)

#### TfidfVectorizer
* Tf-idf (Term Frequency-Inverse Document Frequency)
* 단어의 가중치를 조절한 BOW 벡터 생성
* 단어빈도수로만 보는것이 아니라, 전체 문서에 포함된 단어의 가중치를 줄이는 방식
* tf(단어빈도수)
* idf(특정단어가 들어있는 문서의 수에 반비례) = 문서수 / 단어가포함된문서수

In [22]:
from sklearn.feature_extraction.text import TfidfVectorizer
ti = TfidfVectorizer()
ti.fit(corpus)
ti.transform(corpus).toarray()

array([[0.        , 0.32528549, 0.        , 0.62334157, 0.        ,
        0.39787085, 0.        , 0.        , 0.32528549, 0.        ,
        0.49144966],
       [0.        , 0.32528549, 0.        , 0.        , 0.        ,
        0.39787085, 0.        , 0.62334157, 0.32528549, 0.        ,
        0.49144966],
       [0.41634142, 0.21726422, 0.41634142, 0.        , 0.41634142,
        0.26574533, 0.        , 0.        , 0.43452845, 0.41634142,
        0.        ],
       [0.        , 0.41988018, 0.        , 0.        , 0.        ,
        0.        , 0.8046125 , 0.        , 0.41988018, 0.        ,
        0.        ]])

#### HashingVectorizer
* 해쉬함수를 이용해서 BOW 벡터 생성
* 빠른 속도, 적은 메모리

In [23]:
from sklearn.datasets import fetch_20newsgroups
data = fetch_20newsgroups().data
len(data)

11314

In [24]:
%%time
CountVectorizer().fit(data).transform(data)

Wall time: 6.27 s


<11314x130107 sparse matrix of type '<class 'numpy.int64'>'
	with 1787565 stored elements in Compressed Sparse Row format>

In [25]:
from sklearn.feature_extraction.text import HashingVectorizer

In [27]:
%%time
HashingVectorizer(n_features=2000000).transform(data)

Wall time: 2.57 s


<11314x2000000 sparse matrix of type '<class 'numpy.float64'>'
	with 1786633 stored elements in Compressed Sparse Row format>