---
---
---
# ***Count based Word Representation***
---
---
---

1. *Expression of various words*
2. *Bag of Words, BoW*
3. *Document-Term Matrix, DTM*
4. *Term Frequency-Inverse Document Frequency, TF-IDF*


---
## ***1. Expression of various words***
---

<br>

> #### Local Representation 
 - 이산 표현(Discrete Representation)
 - 해당 단어 그 자체만 보고, 특정값을 맵핑하여 단어를 표현하는 방법
 - puppy(강아지), cute(귀여운), lovely(사랑스러운)라는 단어가 있을 때 각 단어에 1번, 2번, 3번 등과 같은 숫자를 맵핑(mapping)하여 부여하는 방법

> #### Distributed Representation
 - 연속 표현(Continuous Represnetation)
 - 그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법
 - puppy(강아지)라는 단어 근처에는 주로 cute(귀여운), lovely(사랑스러운)이라는 단어가 자주 등장하므로, puppy라는 단어는 cute, lovely한 느낌이다로 단어를 정의
 
<br>
 
##### ***`Categorization of word expressions`*** <br> <br>
![](https://wikidocs.net/images/page/31767/wordrepresentation.PNG)

---
## ***2. Bag of Words, BoW***
---

<br>

#### 1. ***What is Bag of Words?***
- Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
1. 우선, 각 단어에 고유한 정수 인덱스를 부여
2. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듬

> 주로 어떤 단어가 얼마나 등장했는지를 기준으로 문서가 어떤 성격의 문서인지를 판단하는 작업에 쓰임 <br>
즉, 분류 문제나 여러 문서 간의 유사도를 구하는 문제에 주로 쓰일 수 있음 <br>
가령, '달리기', '체력', '근력'과 같은 단어가 자주 등장하면 해당 문서를 체육 관련 문서로 분류할 수 있을 것이며, <br>
'미분', '방정식', '부등식'과 같은 단어가 자주 등장한다면 수학 관련 문서로 분류할 수 있음

In [9]:
from konlpy.tag import Okt
import re  

def bow(sentence):
    okt=Okt()  

    token=re.sub("(\.)","",sentence)  
#     print('re.sub(\.)', token)
    # 정규 표현식을 통해 온점을 제거하는 정제 작업입니다.  
    token=okt.morphs(token)  
#     print('okt.morphs', token)
    # OKT 형태소 분석기를 통해 토큰화 작업을 수행한 뒤에, token에다가 넣습니다.  

    word2index={}  
    bow=[]  
    for voca in token:  
             if voca not in word2index.keys():  
                 word2index[voca]=len(word2index)  
    # token을 읽으면서, word2index에 없는 (not in) 단어는 새로 추가하고, 이미 있는 단어는 넘깁니다.   
                 bow.insert(len(word2index)-1,1)
    # BoW 전체에 전부 기본값 1을 넣어줍니다. 단어의 개수는 최소 1개 이상이기 때문입니다.  
             else:
                index=word2index.get(voca)
    # 재등장하는 단어의 인덱스를 받아옵니다.
                bow[index]=bow[index]+1
    # 재등장한 단어는 해당하는 인덱스의 위치에 1을 더해줍니다. (단어의 개수를 세는 것입니다.)  
    print(word2index)  
    print(bow)

In [10]:
text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
print('***** 문장 1 *****', text)
bow(text)

text = "소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다."
print('***** 문장 2 *****', text)
bow(text)

text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다."
print('***** 문장 3 *****', text)
bow(text)

***** 문장 1 ***** 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.
{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]
***** 문장 2 ***** 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.
{'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}
[1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]
***** 문장 3 ***** 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.
{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
[1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


<br>

#### 2. ***CountVectorizer class***
- 길이가 2이상인 문자에 대해서만 토큰으로 인식
- 띄어쓰기만을 기준으로 단어를 자르는 낮은 수준의 토큰화를 진행
- 한국어에 CountVectorizer를 적용하면, 조사 등의 이유로 제대로 BoW가 만들어지지 않음을 의미

In [11]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know I want your love. because I love you.'] # I 단어는 토큰에서 제외됨
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


<br>

#### 3. ***불용어를 제거한 BoW 만들기***

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

# 불용어 직접 지정
text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


In [13]:
# CountVectorizer에서 제공하는 자체 불용어 사용
text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


In [14]:
from nltk.corpus import stopwords

# NLTK에서 지원하는 불용어 사용
text=["Family is not an important thing. It's everything."]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}


---
## ***3. Document-Term Matrix, DTM***
---

<br>

#### 1. ***DTM의 표기법***
