# BOW(Bag Of Words)
- 문서의 모든 단어에 대해 문맥, 순서 무시하고 단어 빈도 값을 부여하여 feature value 추출
    - 쉽고 빠른 구축이 가능하다
    - 단어의 순서를 무시하므로 문맥적 의미가 무시된다(해결하기 위하여 n-gram 기법 활용)
    - 희소(sparse) 행렬 문제(매우 많은 단어가 칼럼으로 만들어져 0으로 채워진 칸이 많고 이에 따라 수행 시간이 증가하고 예측 성능이 감소한다)

- 피처 백터화
    - 모든 단어를 column으로 나열
    - 각 문서에서 해당 단어의 횟쉬 또는 정규화된 빈도를 값으로 부여
    - 카운트 기반의 벡터화
        - 단어가 나타나는 횟수를 부여
        - 언어 특성상 자주 사용될 수밖에 없는 단어까지 높은 값 부여
    - TF-IDF(Term Frequency Inverse Document Frequency) 기반의 벡터화
        - 개별 문서에서 자주 나타나는 단어에 높은 가중치
        - 모든 문서에서 자주 나타나는 단어에는 패널티

- BOW 벡터화를 위한 희소 행렬
    - 모든 문서의 단어를 feature로 변환
        - 수십만 개의 column(단어)
        - 대부분 0으로 채워진 희소 행렬
        - 메모리 낭비, 데이터 엑세스 시간 증가
        - 적은 메모리를 사용하도록 변환 -> COO, CSR 형식

### COO(Coordinate) 형식
- 0이 아닌 데이터만 별도의 배열에 저장
- 그 데이터를 가리키는 행과 열을 별도의 배열로 저장

In [3]:
import numpy as np 

# dense array를 COO 형식으로 나타낼 것임
dense = np.array([[3, 0, 1], [0, 2, 0]])
dense

array([[3, 0, 1],
       [0, 2, 0]])

In [2]:
from scipy import sparse

data = np.array([3, 1, 2])
rows = np.array([0, 0, 1])
cols = np.array([0, 2, 1])

sparse_coo = sparse.coo_matrix((data, (rows, cols)))
print(sparse_coo)

  (0, 0)	3
  (0, 2)	1
  (1, 1)	2


In [4]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

### CSR(Compressed Sparse Row) 형식
- COO 방식의 문제점 개선, COO 방식은 row array에서 같은 값이 반복된다. 이를 바뀐 숫자 위치만 기록하고 항목 개수를 마지막에 추가하는 방식

In [5]:
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])
rows = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
cols = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

sparse_coo = sparse.coo_matrix((data2, (rows, cols)))
rows_index = np.array([0, 2, 7, 9, 10, 12, 13])
sparse_csr = sparse.csr_matrix((data2, cols, rows_index))

print('COO\n', sparse_coo.toarray())
print('CSR\n', sparse_csr.toarray())

COO
 [[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR
 [[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
