## Bag of Words란?

In [None]:
from konlpy.tag import Okt
import re  
okt = Okt()  

doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
token = re.sub("(\.)","",doc1)      # 정규 표현식을 통해 온점을 제거하는 정제(Cleaning) 작업.  

token = okt.morphs(token)   # Mecab 형태소 분석기를 통해 토큰화 작업을 수행.  

word2index = {}  
bow = []

for voca in token:  
    if voca not in word2index.keys():  
        word2index[voca] = len(word2index)  
        bow.insert(len(word2index)-1,1)    # BoW 전체에 전부 기본값 1을 넣는다. 단어의 개수는 최소 1개 이상이기 때문.  
    else:
        index = word2index.get(voca)       # 재등장하는 단어의 Index를 받아온다.
        bow[index] = bow[index] + 1        # 재등장한 단어는 해당하는 Index의 위치에 1을 더해준다. 즉, 단어의 개수를 세는 것  

print(word2index)  

In [None]:
bow

## CountVectorizer 클래스로 BoW 만들기

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()

print(vector.fit_transform(corpus).toarray())        # Corpus로부터 각 단어의 빈도 수 기록.
print(vector.vocabulary_)                            # 각 단어의 Index가 어떻게 부여되었는지 출력

## 불용어를 제거한 BoW만들기

### 1)사용자가 직접 정의한 불용서 사용

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])

print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

### 2)CounterVectorizer에서 제공하는 자체 불용어 사용

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

### 3)NLTK에서 지원하는 불용서 사용

In [None]:
import nltk
nltk.download('stopwords')

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text=["Family is not an important thing. It's everything."]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

## Scikit-learn을 이용한 DTM과 TF-IDF 실습

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())    # Corpus로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_)                        # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())
print(tfidfv.vocabulary_)