####  Bag of Words란
-  단어의 등장 순서를 고려하지 않는 빈도수 기반의 단어 표현 방법
 - 우선, 각 단어에 고유한 정수 인덱스를 부여합니다.
 - 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듭니다.

In [12]:
from konlpy.tag import Okt
import re  
okt=Okt()  
token="정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
token=okt.morphs(token)  
# OKT 형태소 분석기를 통해 토큰화 작업을 수행한 뒤에, token에다가 넣습니다. 

In [13]:
token

['정부',
 '가',
 '발표',
 '하는',
 '물가상승률',
 '과',
 '소비자',
 '가',
 '느끼는',
 '물가상승률',
 '은',
 '다르다',
 '.']

In [14]:
token=re.sub("(\.)","","정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.")  
# 정규 표현식을 통해 온점을 제거하는 정제 작업입니다.  

In [15]:
token

'정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다'

In [16]:
token=okt.morphs(token)
token

['정부', '가', '발표', '하는', '물가상승률', '과', '소비자', '가', '느끼는', '물가상승률', '은', '다르다']

In [18]:
word2index={}  
bow=[]  
for voca in token:  
         if voca not in word2index.keys():  
             word2index[voca]=len(word2index)  
# token을 읽으면서, word2index에 없는 (not in) 단어는 새로 추가하고, 이미 있는 단어는 넘깁니다.   
             bow.insert(len(word2index)-1,1)
# BoW 전체에 전부 기본값 1을 넣어줍니다.
# 단어의 개수는 최소 1개 이상이기 때문입니다. 
# len은 1,2,3 으로 나가나, 인덱스는 0,1,2 이기 때문에 -1 해줌
         else:
            index=word2index.get(voca)
# 재등장하는 단어의 인덱스를 받아옵니다.
            bow[index]=bow[index]+1
# 재등장한 단어는 해당하는 인덱스의 위치에 1을 더해줍니다. 
# (단어의 개수를 세는 것입니다.)  
print(word2index)  

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}


In [20]:
word2index

{'정부': 0,
 '가': 1,
 '발표': 2,
 '하는': 3,
 '물가상승률': 4,
 '과': 5,
 '소비자': 6,
 '느끼는': 7,
 '은': 8,
 '다르다': 9}

In [21]:
# ('발표': 0, '가': 1, '정부': 2, '하는': 3, '소비자': 4, '과': 5, '물가상승률': 6, '느끼는': 7, '은': 8, '다르다': 9) 
bow

[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]

- 해석
 - 물가상승률의 인덱스는 4이며, 문서1에서 물가상승률은 2번 언급되었기 때문에 인덱스 4(다섯번째 값)에 해당하는 값이 2임을 알 수 있음

#### CountVectorizer 클래스로 BoW 만들기

In [24]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()

In [25]:
vector.fit_transform(corpus).toarray()

array([[1, 1, 2, 1, 2, 1]], dtype=int64)

In [26]:
vector.vocabulary_

{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}

In [23]:
print(vector.fit_transform(corpus).toarray()) 
# 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) 
# 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


In [29]:
# 한국어 적용 

corpus = token 
vector = CountVectorizer()

In [30]:
vector.fit_transform(corpus).toarray()

array([[0, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1],
       [0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0]], dtype=int64)

In [31]:
vector.vocabulary_

{'정부': 5, '발표': 3, '하는': 6, '물가상승률': 2, '소비자': 4, '느끼는': 0, '다르다': 1}

In [32]:
st = ' '.join(token)
st

'정부 가 발표 하는 물가상승률 과 소비자 가 느끼는 물가상승률 은 다르다'

In [34]:
corpus = [st]
vector = CountVectorizer()
vector.fit_transform(corpus).toarray()

array([[1, 1, 2, 1, 1, 1, 1]], dtype=int64)

In [35]:
vector.vocabulary_

{'정부': 5, '발표': 3, '하는': 6, '물가상승률': 2, '소비자': 4, '느끼는': 0, '다르다': 1}

#### 불용어를 제거한 BoW 만들기

(1) 사용자가 직접 정의한 불용어 사용

In [36]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]

vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


(2) CountVectorizer에서 제공하는 자체 불용어 사용

In [38]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]

vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


(3) NLTK에서 지원하는 불용어 사용

In [39]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text=["Family is not an important thing. It's everything."]

sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}


#### TF-IDF(Term Frequency-Inverse Document Frequency)

- 전체 문서에서 특정단어가 나오면 : 가중치가 적게
- 특정 문서에서 특정단어가 나오면 : 가중치가 높게

In [40]:
import pandas as pd # 데이터프레임 사용을 위해
from math import log # IDF 계산을 위해

In [43]:
docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
] 
vocab = list(set(w for doc in docs for w in doc.split()))
# set() : 중복 제거 
vocab.sort()
vocab

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

In [44]:
# TF, IDF, TF-IDF 구하는 함수

N = len(docs) # 총 문서의 수

def tf(t, d):   #t: 찾고자 하는 단어, d: 문서(document)
    return d.count(t) 
    # 문서에서 특정 단어가 몇 번 나오는가?

def idf(t):   # 가중치 계산 
    df = 0
    for doc in docs:
        df += t in doc  # True(1), False(0)
    return log(N/(df + 1))

def tfidf(t, d):
    return tf(t,d)* idf(t)

In [47]:
# TF 구하기

result = []
for i in range(N): 
    # 각 문서에 대해서 아래 명령을 수행 (문서의 수만큼)
    result.append([])
    d = docs[i]
    for j in range(len(vocab)): # vocab 길이만큼 
        t = vocab[j]        
        result[-1].append(tf(t, d)) # 맨 뒤의 첫번째 거에 붙이기

In [48]:
result

[[0, 0, 0, 1, 0, 1, 1, 0, 0],
 [0, 0, 0, 1, 1, 0, 1, 0, 0],
 [0, 1, 1, 0, 2, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0, 0, 1, 1]]

In [45]:
tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [50]:
# IDF 값 구하기 
result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

In [51]:
result

[0.6931471805599453,
 0.6931471805599453,
 0.6931471805599453,
 0.28768207245178085,
 0.28768207245178085,
 0.6931471805599453,
 0.28768207245178085,
 0.6931471805599453,
 0.6931471805599453]

In [52]:
idf_ = pd.DataFrame(result, index = vocab, columns = ["IDF"])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [54]:
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]

        result[-1].append(tfidf(t,d))

In [55]:
result

[[0.0,
  0.0,
  0.0,
  0.28768207245178085,
  0.0,
  0.6931471805599453,
  0.28768207245178085,
  0.0,
  0.0],
 [0.0,
  0.0,
  0.0,
  0.28768207245178085,
  0.28768207245178085,
  0.0,
  0.28768207245178085,
  0.0,
  0.0],
 [0.0,
  0.6931471805599453,
  0.6931471805599453,
  0.0,
  0.5753641449035617,
  0.0,
  0.0,
  0.0,
  0.0],
 [0.6931471805599453,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.6931471805599453,
  0.6931471805599453]]

In [56]:
tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


#### 사이킷런을 이용한 DTM과 TF-IDF 실습

In [57]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) 
# 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) 
# 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [58]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]
tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())
print(tfidfv.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
