# BOW(Bag of Words)

+ 이번 과정에서는 BOW(Bag of Words) 뭔지 배워 보겠습니다.
+ BOW(Bag of Words) 말이 자주 나오는데
+ Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
+ 즉, 문장을 토큰화하고 각 단어의 빈도수를 나타낸것이라고 보면 됩니다.
+ 문서(document)를 분류하기 위한 방법으로 사용
+ 글에 포함된 단어(word)들의 분포를 보고 이 문서가 어떤 종류의 문서인지를 판단하는 기법으로 사용
+ 결국, 컴퓨터가 문장을 이해하도록 단어의 빈도수로 문장을 벡터 표현합니다.

![그림](https://github.com/gzone2000/TEMP_TEST/raw/master/BOW.PNG)

### 학습목차
1. CountVectorizer 이용하여 BoW 만들기
2. 불용어("the", "a", "an", "is", "not"등)를 제거한 BoW 만들기

---------------------

## 1. CountVectorizer 이용하여 BoW 만들기

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [3]:
corpus = ['you know I want your love. because I love you.']

In [4]:
# 말뭉치를 단어 토큰화 > 각 단어에 정수 매핑 > 단어사전 만들기 
vector = CountVectorizer()
vector.fit(corpus)

CountVectorizer()

In [5]:
# 단어사전 보여주기 
print(vector.vocabulary_) 

{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


In [6]:
# type 확인
type(vector.vocabulary_)

dict

In [7]:
# value값으로 정렬
sorted(vector.vocabulary_.items(), key=lambda x : x[1] )

[('because', 0),
 ('know', 1),
 ('love', 2),
 ('want', 3),
 ('you', 4),
 ('your', 5)]

In [8]:
# transform 함수를 통해 코퍼스로부터 각 단어의 빈도 수를 계산한다.
# 2번(love), 4번(you) 인덱스가 2번 발생

print(vector.transform(corpus)) 

  (0, 0)	1
  (0, 1)	1
  (0, 2)	2
  (0, 3)	1
  (0, 4)	2
  (0, 5)	1


## 2. 불용어를 제거한 BoW 만들기

#### 1) 사용자가 직접 정의한 불용어 사용

In [9]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
vect.fit(text)

print(vect.vocabulary_)
print(vect.transform(text))

{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}
  (0, 0)	1
  (0, 1)	1
  (0, 2)	1
  (0, 3)	1
  (0, 4)	1


#### 2) nltk에서 제공하는 자체 불용어 사용

In [10]:
# !pip install nltk
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [11]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text=["Family is not an important thing. It's everything."]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words=sw)
vect.fit(text)

print(vect.vocabulary_)
print(vect.transform(text)) 

{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
  (0, 0)	1
  (0, 1)	1
  (0, 2)	1
  (0, 3)	1


In [12]:
# stop word 리스트
sw[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

## 배운 내용 정리
1. BOW(Bag of Words) : 문장을 토큰화하고 각 단어의 빈도수를 수치화
2. 문서분류 방법중의 하나로 , 단어(word)들의 분포를 보고 이 문서가 어떤 종류의 문서인지를 판단하는 기법으로 사용
3. CountVectorizer 이용하여 BoW 구현
4. CountVectorizer 사용시 불용어(stopword)을 자체적으로 정의하거나 ntlk stopword를 활용해 보았습니다.