# BOW
Document Term Matrix: 개별 문서(또는 문장)을 단어들의 횟수나 정규화 변환된 횟수로 표현

- 장점
  - 쉽고 빠른 구축
  - 예상보다 문서의 특징을 잘 나타내어 전통적으로 여러 분야에서 활용도가 높음

- 단점
  - 문맥 의미(Semantic Context) 반영 문제
  - 희소 행렬 문제

# BOW 피처 벡터화 유형

- 단순 카운트 기반의 벡터화
  - 단어 피처에 값을 부여할 때 각 문서에서 해당 단어가 나타나는 횟수, 즉 Count를 부여하는 경우를 카운트 벡터화라고 합니다. 카운트 벡터화에서는 카운트 값이 높을수록 중요한 단어로 인식됩니다.

- TF-IDF 벡터화
  - 카운트만 부여할 경우 그 문서의 특징을 나타내기보다는 언어의
    특성상 문장에서 가장 자주 사용될 수 밖에 없는 단어까지 높은
    값을 부여하게 됩니다. 이러한 문제를 보완하기 위해 TF-IDF(Term
    Frequency Inverse Document Frequency) 벡터화를 사용합니다.
    TF-IDF는 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되
    , 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는
    패널티를 주는 방식으로 값을 부여합니다.
  - 특정 단어가 다른 문서에는 나타나지 않고 특정 문서에서만 자주
    사용된다면 해당 단어는 해당 문서를 잘 특징짓는 중요 단어일 가
    능성이 높음
  - 특정 단어가 매우 많은 여러 문서에서 빈번히 나타난다면 해당
    단어는 개별 문서를 특징짓는 정보로서의 의미를 상실

- TF(Term Frequency)
  - 문서에서 해당 단어가 얼마나 나왔는지를 나타내는 지표

- DF(Document Frequency)
  - 해당 단어가 몇 개의 문서에서 나타났는지를 나타내는 지표

- IDF(Inverse Document Frequency)
  - DF의 역수로서 전체 문서수/DF

In [2]:
import nltk


### 사이킷런 CounterVectorizer 테스트

In [4]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room.\
                  You can see it out your window or on your television. \
                  Your feel it when you go to work, or go to church or pay your taxes.'
text_sample_02 = 'You take the blue pill and the story ends. You wake in your bed and you believe whatever you want to believe \
                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'
text = []
text.append(text_sample_01); text.append(text_sample_02)
print(text,"\n", len(text))

['The Matrix is everywhere its all around us, here even in this room.                  You can see it out your window or on your television.                   Your feel it when you go to work, or go to church or pay your taxes.', 'You take the blue pill and the story ends. You wake in your bed and you believe whatever you want to believe                   You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'] 
 2


### CounterVectorizer 객체 생성 후 fit(), transform()으로 텍스트에 대한 feature vectorization 수행

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행
cnt_vect = CountVectorizer()
cnt_vect.fit(text)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [7]:
ftr_vect = cnt_vect.transform(text)

### 피처 벡터화 후 데이터 유형 및 여러 속성 확인

In [8]:
print(type(ftr_vect), ftr_vect.shape)
print(ftr_vect)

<class 'scipy.sparse.csr.csr_matrix'> (2, 51)
  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (0, 13)	2
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	2
  (0, 21)	1
  (0, 22)	1
  (0, 23)	1
  (0, 24)	3
  (0, 25)	1
  (0, 26)	1
  (0, 30)	1
  (0, 31)	1
  (0, 36)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	2
  :	:
  (1, 1)	4
  (1, 3)	1
  (1, 4)	2
  (1, 5)	1
  (1, 8)	1
  (1, 9)	1
  (1, 14)	1
  (1, 16)	1
  (1, 17)	1
  (1, 18)	2
  (1, 27)	2
  (1, 28)	1
  (1, 29)	1
  (1, 32)	1
  (1, 33)	1
  (1, 34)	1
  (1, 35)	2
  (1, 38)	4
  (1, 40)	1
  (1, 42)	1
  (1, 43)	1
  (1, 44)	1
  (1, 47)	1
  (1, 49)	7
  (1, 50)	1


In [9]:
print(cnt_vect.vocabulary_)

{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


In [12]:
cnt_vect = CountVectorizer(max_features=5, stop_words='english')
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse.csr.csr_matrix'> (2, 5)
{'window': 4, 'pill': 1, 'wake': 2, 'believe': 0, 'want': 3}


### ngram_range 확인

In [15]:
cnt_vect = CountVectorizer(ngram_range=(1,3))
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse.csr.csr_matrix'> (2, 201)
{'the': 129, 'matrix': 77, 'is': 66, 'everywhere': 40, 'its': 74, 'all': 0, 'around': 11, 'us': 150, 'here': 51, 'even': 37, 'in': 59, 'this': 140, 'room': 106, 'you': 174, 'can': 25, 'see': 109, 'it': 69, 'out': 90, 'your': 191, 'window': 165, 'or': 83, 'on': 80, 'television': 126, 'feel': 43, 'when': 162, 'go': 46, 'to': 143, 'work': 171, 'church': 28, 'pay': 93, 'taxes': 125, 'the matrix': 132, 'matrix is': 78, 'is everywhere': 67, 'everywhere its': 41, 'its all': 75, 'all around': 1, 'around us': 12, 'us here': 151, 'here even': 52, 'even in': 38, 'in this': 60, 'this room': 141, 'room you': 107, 'you can': 177, 'can see': 26, 'see it': 110, 'it out': 70, 'out your': 91, 'your window': 199, 'window or': 166, 'or on': 86, 'on your': 81, 'your television': 197, 'television your': 127, 'your feel': 194, 'feel it': 44, 'it when': 72, 'when you': 163, 'you go': 179, 'go to': 47, 'to work': 148, 'work or': 172, 'or go': 84, 'to church': 146,