## BOW (Bag of Words)

**단어들의 문맥이나 순서를 무시하고, 단어들에 대한 빈도 값을 부여해 변수를 만드는 방법**<br><br>
빈도에 기반하여 텍스트 -> 숫자 변환 / 단어의 특징을 나타낼 수 있어 활용도 높음<br><br>
##### 단점
- 문맥 의미를 완벽하게 반영할 수 없다 : 순서 고려하지 않기 때문. 보완위해 n_gram 기법 활용 가능하나 제한적.
- 희소 행렬 문제 : 단어가 굉장히 많은 데이터에서 BOW로 텍스트 데이터를 벡터화하면 행렬 대부분의 값이 0으로 채워진 희소 행렬 형태로 변환. 일반적으로 머신러닝의 성능 저하

#### BOW의 피처 벡터화
1. 카운트 기반 벡터화 ( CountVectorizer )
2. TF-IDF ( Term Frequency - Inverse Document Frequency )

### 1. CountVectorizer

**단어에 값을 부여할 때 각 문장에서 해당 단어가 나타나는 횟수**<br>
Count를 부여하는 경우 -> `카운트 벡터화`    /   높을수록 중요한 단어

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

In [3]:
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
    'The last document?',
]
vect = CountVectorizer()

In [4]:
print(vect.fit_transform(corpus).toarray())

[[0 1 1 1 0 0 0 1 0 1]
 [0 1 0 1 0 0 2 1 0 1]
 [1 0 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 0 1 0 1]
 [0 1 0 0 1 0 0 1 0 0]]


In [5]:
vect.vocabulary_

{'this': 9,
 'is': 3,
 'the': 7,
 'first': 2,
 'document': 1,
 'second': 6,
 'and': 0,
 'third': 8,
 'one': 5,
 'last': 4}

In [8]:
import pandas as pd

train = pd.read_csv('train.csv',usecols = ['category','data'])
test = pd.read_csv('test.csv',usecols = ['data'])

In [12]:
# 결측치는 없어야 함
train.fillna(' ',inplace= True)

In [13]:
train.tail(3)

Unnamed: 0,category,data
39997,2,무서운데 지켜야 할게 있어요 도와주세요. 안녕하세요 . 한부모엄마 입니다.\n양육비...
39998,2,교복에 고정식 이름표를 달게 하는 것을 금지해 주세요.. 교복에 이름표를 박아놓아...
39999,0,합의성관계 가능 나이연령을 올리십시오. 제가 형법공부를하다가 문제를풀고있는데\n금지...


In [18]:
vect = CountVectorizer()
train_x = vect.fit_transform(train['data'])
train_x.shape

(40000, 742720)

In [17]:
test_x =  vect.transform(test['data'])
test_x.shape

(5000, 742720)

---

### 2. TF-IDF

단어의 빈도만 고려한다면 모든 문서에서 자주 쓰일 수 밖에 없는 단어들이 자칫 중요하다고 인식될 수 있음.<br><br>
> 개별 문서에서는 높은 가중치, 모든 문서에서는 패널티

모든 문서에서 등장하는 단어보다 특정 문서에서 빈번히 등장하는 단어를 높게 부여

In [19]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [20]:
tfidf = TfidfVectorizer()
tfidf.fit_transform(corpus).toarray()

array([[0.        , 0.38947624, 0.55775063, 0.4629834 , 0.        ,
        0.        , 0.        , 0.32941651, 0.        , 0.4629834 ],
       [0.        , 0.24151532, 0.        , 0.28709733, 0.        ,
        0.        , 0.85737594, 0.20427211, 0.        , 0.28709733],
       [0.55666851, 0.        , 0.        , 0.        , 0.        ,
        0.55666851, 0.        , 0.26525553, 0.55666851, 0.        ],
       [0.        , 0.38947624, 0.55775063, 0.4629834 , 0.        ,
        0.        , 0.        , 0.32941651, 0.        , 0.4629834 ],
       [0.        , 0.45333103, 0.        , 0.        , 0.80465933,
        0.        , 0.        , 0.38342448, 0.        , 0.        ]])

In [21]:
tfidf.vocabulary_

{'this': 9,
 'is': 3,
 'the': 7,
 'first': 2,
 'document': 1,
 'second': 6,
 'and': 0,
 'third': 8,
 'one': 5,
 'last': 4}

In [24]:
vect = TfidfVectorizer()
train_x_2 = vect.fit_transform(train['data'])
test_x_2 = vect.transform(test['data'])

In [25]:
train_x_2.shape

(40000, 742720)