# chapter 8. Text Analysis

## Bag of Words - BOW

**BOW는 문서가 가지는 모든 단어를 문맥이나 순서를 무시한채 일괄적으로 단어의 빈도수를 부여해 Feature 값을 추출하는 Model**이다. <br>
1. 문장1과 문장2에 있는 모든 단어에서 중복을 제거하고, 각 단어를 Column 형태로 나열한다. 
2. 각 단어에 대해 고유 Index를 부여한다.
3. 개별 문장에서 해당 단어가 나타나는 횟수를 각 단어(단어 Index)에 기재한다.

**BOW 기반 NLP 연구 제한사항**
- 문맥 의미 반영 부족
- 희소 행렬 문제 : BOW로 Feature Vetorization을 수행하면 희소 행렬 형태의 데이터 세트가 만들어지기 쉽다. 매우 많은 문서에서 단어의 총 갯수는 수만-수십만개가 될 수 있는데, 하나의 문서에 있는 단어는 이 중 극히 일부분이므로 대부분의 데이터는 0값으로 채워지게 된다. 

### BOW Feature Vectorization

머신러닝 알고리즘은 일반적으로 숫자형 Feature를 데이터로 입력받아 동작하기 때문에 텍스트와 같은 데이터는 머신러닝 알고리즘에 바로 입력할 수 없다. <br>
따라서 **텍스트는 특정 의미를 가지는 숫자형 값이 Vector 값으로 변환**이 필요하고, 이것을 **Feature Vectorization**이라고 한다. <br>
각 문서의 텍스트를 단어로 추출해 Feature로 할당하고, 각 단어의 발생 빈도와 같은 값을 이 Feature 값으로 부여해 각 문서를 이 단어의 Feature 발생 빈도 값으로 구성된 Vector로 만드는 기법이다. <br>

**BOW Model에서 Feature Vectorization을 수행한다는 것**은 모든 문서에서 모든 단어를 Column 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트를 Model로 변경하는 것이다. 

일반적으로 **BOW의 Feature Vectorization은 두 가지 방식**이 있다. 
1. Count 기반의 Vectorization : 단어 Feature에 값을 부여할 때 각 문서에서 해당 단어가 나타나는 횟수, Count 값을 부여하는 경우 
2. TF-IDF(Term Frequency - Inverse Document Frequency) : Count만 부여할 경우 문서의 특징을 나타내기보다는 언어의 특성상 자주 사용될 수 밖에 없는 단어까지 높은 값을 부여하게 된다. 이를 보완하기 위해 TF-IDF를 사용한다. <br>
TF-IDF는 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 패널티를 주는 방식으로 값을 부여한다.  

### 사이킷런의 Count 및 TF-IDF Vectorization : CounterVectorizer, TdidfVectorizer

사이킷런의 **CountVectorizer** Class는 Count 기반의 Vetorization을 구현한 Class이다. 단지 Feature Vectorization만 수행하지는 않으며 소문자 일괄 변환, 토큰화, 스톱 워드 필터링 등의 텍스트 전처리도 함께 수행한다. <br>
CountVectorier도 다른 Feature 변환 Class와 마찬가지로 fit()과 transform()을 통해 Feature Vectorization 된 객체를 반환한다. 

**CountVectorizer를 이용한 Feature Vectorization**
1. 사전 데이터 가공 : 모든 문자를 소문자로 변환하는 등의 사전 작업을 수행한다. (Defualt로 lowcase = True이다.)
2. 토큰화 : Defualt는 단어 기준, analyzer = Ture이며 n_gram_range를 반영하여 토큰화를 수행한다.
3. 텍스트 정규화 : Stop Words Filtering만 수행한다. Stemmer, Lemmatize는 CountVectorizer 자체에서는 지원되지 않는다. 이를 위한 함수를 만들거나 외부 패키지로 미리 Text Normalzation 수행이 필요하다.
4. Feature Vectorization : max_df, min_df, max_features 등의 파라미터를 반영하여 토큰화된 단어들을 Feture Extraction 후 Vectorization 적용

사이킷런에서 TF-IDF Vectorization은 **TfidfVectorizer** Class를 이용, 파라미터와 변환 방법은 CountVectorizer와 동일하다. 

### 사이킷런 CountVetcorizer Test

In [4]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room. \
                  You can see it out your window or on your television. \
                  You feel it when you go to work, or go to church or pay your taxes.'
text_sample_02 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe\
                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'
text = []
text.append(text_sample_01); text.append(text_sample_02)
print(text,"\n", len(text))

['The Matrix is everywhere its all around us, here even in this room.                   You can see it out your window or on your television.                   You feel it when you go to work, or go to church or pay your taxes.', 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'] 
 2


**CountVectorizer객체 생성 후 fit(), transform()으로 텍스트에 대한 Feature Vectorization 수행**

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행
cnt_vect = CountVectorizer()
cnt_vect.fit(text)

In [6]:
ftr_vect = cnt_vect.transform(text)

**Feature Vectorization 후 데이터 유형 및 여러 속성 확인**

In [7]:
print(type(ftr_vect), ftr_vect.shape)
print(ftr_vect)

<class 'scipy.sparse._csr.csr_matrix'> (2, 51)
  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (0, 13)	2
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	2
  (0, 21)	1
  (0, 22)	1
  (0, 23)	1
  (0, 24)	3
  (0, 25)	1
  (0, 26)	1
  (0, 30)	1
  (0, 31)	1
  (0, 36)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	2
  :	:
  (1, 1)	4
  (1, 3)	1
  (1, 4)	2
  (1, 5)	1
  (1, 8)	1
  (1, 9)	1
  (1, 14)	1
  (1, 16)	1
  (1, 17)	1
  (1, 18)	2
  (1, 27)	2
  (1, 28)	1
  (1, 29)	1
  (1, 32)	1
  (1, 33)	1
  (1, 34)	1
  (1, 35)	2
  (1, 38)	4
  (1, 40)	1
  (1, 42)	1
  (1, 43)	1
  (1, 44)	1
  (1, 47)	1
  (1, 49)	7
  (1, 50)	1


In [8]:
print(cnt_vect.vocabulary_)

{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


In [9]:
cnt_vect = CountVectorizer(max_features = 5, stop_words = 'english')
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse._csr.csr_matrix'> (2, 5)
{'window': 4, 'pill': 1, 'wake': 2, 'believe': 0, 'want': 3}


**ngram_range 확인**

In [10]:
cnt_vect = CountVectorizer(ngram_range = (1, 3))
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse._csr.csr_matrix'> (2, 201)
{'the': 129, 'matrix': 77, 'is': 66, 'everywhere': 40, 'its': 74, 'all': 0, 'around': 11, 'us': 150, 'here': 51, 'even': 37, 'in': 59, 'this': 140, 'room': 106, 'you': 174, 'can': 25, 'see': 109, 'it': 69, 'out': 90, 'your': 193, 'window': 165, 'or': 83, 'on': 80, 'television': 126, 'feel': 43, 'when': 162, 'go': 46, 'to': 143, 'work': 171, 'church': 28, 'pay': 93, 'taxes': 125, 'the matrix': 132, 'matrix is': 78, 'is everywhere': 67, 'everywhere its': 41, 'its all': 75, 'all around': 1, 'around us': 12, 'us here': 151, 'here even': 52, 'even in': 38, 'in this': 60, 'this room': 141, 'room you': 107, 'you can': 177, 'can see': 26, 'see it': 110, 'it out': 70, 'out your': 91, 'your window': 199, 'window or': 166, 'or on': 86, 'on your': 81, 'your television': 197, 'television you': 127, 'you feel': 179, 'feel it': 44, 'it when': 72, 'when you': 163, 'you go': 181, 'go to': 47, 'to work': 148, 'work or': 172, 'or go': 84, 'to church': 146, 

### BOW Vectorization을 위한 희소 행렬

대규모 행렬의 대부분의 값을 0이 차지하는 행렬을 가리켜 **희소 행렬**이라고 한다. <br>
**BOW 형태를 가진 언어 모델의 Feature Vectorization은 대부분 희소행렬**이다. 희소 행렬은 너무 많은 불필요한 0 값이 메모리 공간에 할당되어 많은 메모리 공간을 필요로하며, 행렬의 크기가 너무 커서 연산 시에도 데이터를 엑세스하기 위한 시간이 많이 소모된다. <br>
이러한 희소 행렬을 물리적으로 적은 메모리를 사용하도록 변환해야하고 **COO 형식**과 **CSR 형식**을 사용한다. 

### 희소 행렬 - COO 형식 

**COO(Coordinate) 형식은 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식**이다. <br>
Python에서는 희소 행렬 변환을 위해 주로 Scipy를 이용한다. Scipy의 sparse 패키지는 희소 행렬 변환을 위한 다양한 모듈을 제공한다. <br>
0이 아닌 데이터를 별도의 배열 데이터로 만들고, 행 위치 배열과 열 위치 배열을 각각 만든 후 **coo_matrix()** 내에 생성 파라미터로 입력하면 된다. 

In [11]:
import numpy as np

dense = np.array([[3, 0, 1], 
                    [0, 2, 0]])

In [19]:
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3, 1, 2])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [18]:
print(type(sparse_coo))
print(sparse_coo)
dense01 = sparse_coo.toarray()
print(type(dense01), "\n", dense01)

<class 'scipy.sparse._coo.coo_matrix'>
  (0, 0)	3
  (0, 2)	1
  (1, 1)	2
<class 'numpy.ndarray'> 
 [[3 0 1]
 [0 2 0]]


### 희소 행렬 - CSR 형식

**CSR(Compressed Sparse Row) 형식은 COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야하는 문제점을 해결한 방식**이다. <br>
0이 아닌 데이터를 배열과 열의 위치 배열, 그리고 행의 위치 배열의 고유한 값의 시작 위치 배열을 **csr_matrix()** 생성 파라미터로 입력하면 된다. 

In [14]:
from scipy import sparse

dense2 = np.array([[0, 0, 1, 0, 0, 5],
             [1, 4, 0, 3, 2, 5], 
             [0, 6, 0, 3, 0, 0],
             [2, 0, 0, 0, 0, 0],
             [0, 0, 0, 7, 0, 8],
             [1, 0, 0, 0, 0, 0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [15]:
print(sparse_csr)

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


In [16]:
dense3 = np.array([[0, 0, 1, 0, 0, 5],
             [1, 4, 0, 3, 2, 5],
             [0, 6, 0, 3, 0, 0],
             [2, 0, 0, 0, 0, 0],
             [0, 0, 0, 7, 0, 8],
             [1, 0, 0, 0, 0, 0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)