### BOW (Bag Of Words)
- 단어의 출현빈도를 수치화
- 단어의 인덱스를 기준으로 단어(토큰)의 출현빈도를 나타낸 벡터

In [3]:
# DictVectorize
# 문서에서 단어의 빈도를 딕셔너리로 입력받아 BOW 벡터를 생성해줌
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
d = [{'java':1, 'python':2, 'mysql':3}, {'mysql':4, 'linux':5, 'html':6}]
x = v.fit_transform(d)

In [5]:
x

array([[0., 1., 0., 3., 2.],
       [6., 0., 5., 4., 0.]])

In [6]:
v.feature_names_

['html', 'java', 'linux', 'mysql', 'python']

In [8]:
v.transform({'html':5, 'oracle':3})

array([[5., 0., 0., 0., 0.]])

In [18]:
# CountVectorizer
# 문서에서 단어(토큰)을 리스트로 생성하고, 각 단어의 수를 BOW로 생성
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'this is the first document',
    'this is the second document',
    'and the third document',
    'is the first document',
    'last document'
]
v = CountVectorizer()
v.fit(corpus)
v.vocabulary_

{'this': 8,
 'is': 3,
 'the': 6,
 'first': 2,
 'document': 1,
 'second': 5,
 'and': 0,
 'third': 7,
 'last': 4}

In [19]:
v.transform(['this is the fourth document']).toarray()

array([[0, 1, 0, 1, 0, 0, 1, 0, 1]], dtype=int64)

In [16]:
# 토큰
v = CountVectorizer(analyzer='word', ngram_range=(2,2)).fit(corpus)  
# analyzer 옵션 : char, word
# ngram_range : 단어의 순서도 고려하기 위한 옵션
v.vocabulary_

{'this is': 9,
 'is the': 2,
 'the first': 5,
 'first document': 1,
 'the second': 6,
 'second document': 4,
 'and the': 0,
 'the third': 7,
 'third document': 8,
 'last document': 3}

In [20]:
# TfidfVectorizer
# Tf-idf (Term Frequency - Inverse Document Frequency)
# 단어의 가중치를 조절해서 BOW 벡터 생성
# 단순 단어의 개수로만 보는게 아니라, 모든 문서에 들어있는 단어의 가중치를 줄이는 방식
# tf(단어의 빈도), idf(특정단어가 들어있는 문서의 수에 반비례 = 문서수/단어가포함된문서수)
from sklearn.feature_extraction.text import TfidfVectorizer
v = TfidfVectorizer().fit(corpus)
v.transform(corpus).toarray()

array([[0.        , 0.3145539 , 0.53258605, 0.44209453, 0.        ,
        0.        , 0.37190386, 0.        , 0.53258605],
       [0.        , 0.29305311, 0.        , 0.41187593, 0.        ,
        0.61500487, 0.34648301, 0.        , 0.49618205],
       [0.62690599, 0.29872406, 0.        , 0.        , 0.        ,
        0.        , 0.3531879 , 0.62690599, 0.        ],
       [0.        , 0.371648  , 0.62925477, 0.5223383 , 0.        ,
        0.        , 0.43940744, 0.        , 0.        ],
       [0.        , 0.43016528, 0.        , 0.        , 0.90275015,
        0.        , 0.        , 0.        , 0.        ]])