# BOW

- Bag of Words
- 문서를 분리하여 단어를 피처로 만드는 방식
- 값으로는 단어의 반복횟수 등을 넣어 단어피처에 대한 벡터화를 수행한다.
- 각 문장의 피처단어의 반복횟수를 판단할 근거를 제공하여, 문서의 속성을 단어의 반복에 따라 정의할 수 있다.

### 단점
- 문맥이 생략되는 문제가 있다.
- 희소행렬 문제: 문장에 피처단어가 없는 경우가 많으므로 빈값(0)이 많이 발생한다.


In [2]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room. \
                  You can see it out your window or on your television.\
                  You feel it when you go to work, or go to church or pay your taxes.'
text_sample_02 = 'You take the blue pill and story ends. You wake in your bed and you believe whatever you want to believe\
                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'

text = []
text.append(text_sample_01)
text.append(text_sample_02)
print(text, "\n", len(text))


['The Matrix is everywhere its all around us, here even in this room.                   You can see it out your window or on your television.                  You feel it when you go to work, or go to church or pay your taxes.', 'You take the blue pill and story ends. You wake in your bed and you believe whatever you want to believe                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'] 
 2


## Count 방식

- 단어의 반복횟수를 기반으로 값을 측정한다.

### 희소행렬 방식
- 기본적으로 0 이 아닌값만 행렬로 저장하는데 초점을 둔다.

#### COO
- 0이 아닌 값의 행의 위치만 기록하는 배열 1개, 열의 위치만 기록하는 배열 1개를 만든다.
- 그리고, 실제 카운팅 값을 기록하는 배열 1개까지 합하여 총 3개의 배열에 정보를 기록한다.

#### CSR
- COO 에서 행위치의 배열을 한번더 압축한 방식
- 행위치가 변하는 부분만 기록하는 배열을 사용한다.


In [3]:
from sklearn.feature_extraction.text import CountVectorizer

In [4]:
cnt_vect = CountVectorizer()
cnt_vect.fit(text)

CountVectorizer()

In [5]:
ftr_vect = cnt_vect.transform(text)

In [6]:
print(type(ftr_vect), ftr_vect.shape)
print(ftr_vect)

<class 'scipy.sparse.csr.csr_matrix'> (2, 51)
  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (0, 13)	2
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	2
  (0, 21)	1
  (0, 22)	1
  (0, 23)	1
  (0, 24)	3
  (0, 25)	1
  (0, 26)	1
  (0, 30)	1
  (0, 31)	1
  (0, 36)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	2
  :	:
  (1, 1)	4
  (1, 3)	1
  (1, 4)	2
  (1, 5)	1
  (1, 8)	1
  (1, 9)	1
  (1, 14)	1
  (1, 16)	1
  (1, 17)	1
  (1, 18)	2
  (1, 27)	2
  (1, 28)	1
  (1, 29)	1
  (1, 32)	1
  (1, 33)	1
  (1, 34)	1
  (1, 35)	2
  (1, 38)	3
  (1, 40)	1
  (1, 42)	1
  (1, 43)	1
  (1, 44)	1
  (1, 47)	1
  (1, 49)	7
  (1, 50)	1


In [7]:
print(cnt_vect.vocabulary_)

{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


In [8]:
cnt_vect = CountVectorizer(max_features=5)
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse.csr.csr_matrix'> (2, 5)
{'the': 2, 'you': 3, 'your': 4, 'or': 1, 'and': 0}


In [9]:
cnt_vect = CountVectorizer(ngram_range=(1, 2))
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse.csr.csr_matrix'> (2, 124)
{'the': 82, 'matrix': 49, 'is': 42, 'everywhere': 25, 'its': 47, 'all': 0, 'around': 6, 'us': 93, 'here': 32, 'even': 23, 'in': 38, 'this': 87, 'room': 67, 'you': 109, 'can': 15, 'see': 69, 'it': 44, 'out': 57, 'your': 119, 'window': 103, 'or': 53, 'on': 51, 'television': 80, 'feel': 27, 'when': 101, 'go': 29, 'to': 89, 'work': 107, 'church': 17, 'pay': 59, 'taxes': 79, 'the matrix': 84, 'matrix is': 50, 'is everywhere': 43, 'everywhere its': 26, 'its all': 48, 'all around': 1, 'around us': 7, 'us here': 94, 'here even': 33, 'even in': 24, 'in this': 39, 'this room': 88, 'room you': 68, 'you can': 111, 'can see': 16, 'see it': 70, 'it out': 45, 'out your': 58, 'your window': 123, 'window or': 104, 'or on': 55, 'on your': 52, 'your television': 122, 'television you': 81, 'you feel': 112, 'feel it': 28, 'it when': 46, 'when you': 102, 'you go': 113, 'go to': 30, 'to work': 92, 'work or': 108, 'or go': 54, 'to church': 91, 'church or': 18, 'o

#### COO 형식

In [10]:
import numpy as np

In [11]:
dense = np.array([[3, 0, 1], [0, 2, 0]])

In [12]:
from scipy import sparse

In [13]:
data = np.array([3, 1, 2])

row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [14]:
print(type(sparse_coo))
print(sparse_coo)
dense01 = sparse_coo.toarray()
print(type(dense01), "\n", dense01)

<class 'scipy.sparse.coo.coo_matrix'>
  (0, 0)	3
  (0, 2)	1
  (1, 1)	2
<class 'numpy.ndarray'> 
 [[3 0 1]
 [0 2 0]]


#### CSR 형식

In [15]:
from scipy import sparse

In [21]:
dense2 = np.array([[0, 0, 1, 0, 0, 5],
                  [1, 4, 0, 3, 2, 5],
                  [0, 6, 0, 3, 0, 0],
                  [2, 0, 0, 0, 0, 0],
                  [0, 0, 0, 7, 0, 8],
                  [1, 0, 0, 0, 0, 0]])
# 0 이 아닌 값
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행위치/열위치
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# coo 방식
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# csr 방식
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense 로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense 로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense 로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense 로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [22]:
print(sparse_csr)

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


## TF-IDF 방식

- Term Frequency Inverse Document Frequency
- TF: 하나의 문서에 단어가 반복된 횟수
- IDF: DF 는 단어가 전체 문서에서 반복된 횟수로, 이를 (전체문서)/DF 와 같이 역수로 만든지표
- 전체 문서에서 발생빈도가 높은것은 의미를 낮추고, 단일 문서에서 반복된 단어에 가중치를 부여하는 방식
