# https://wikidocs.net/22650 참고링크

# Bow 란 무엇인가? 
- Bow는 Bag Of Word의 약자로 , 직역으로 해석하면 책속의 언어이다.
- 이는 아래의 그림처럼 어떤 Object를 쪼개서 가방에 넣는다는 것이라 생각하면 된다.
- 자연어 처리에 매우 유용하게 사용됨

>![](https://img1.daumcdn.net/thumb/R800x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F253363395302B4A60F)

- Bow는 장 , 문단, 문장 , 서식과 같은 텍스트의 구조를 제외하고 , 각 단어가 이 말뭉치에 얼마나 많이 나타나는지만 헤아림
- 그래서 단어의 순서가 무시된다는 단점이 있다 . 
    - ex)
        - It's bad , not good at all.
        - It's good , not bad at all.
        - 위 두 문장은 의미가 정 반대이지만 , Bow관점에서는 똑같다
- 위와 같은 단점을 보환하기 위해 `n-gram`이라는 개념을 사용

####  N-gram
- n-gram 언어 모델은 카운트에 기반한 통계적 접근을 사용
- 모든 단어를 고려하는 것이 아니라 , 일부 단어만 고려하는 접근방법을 사용
- 이때 일부 단어 몇개를 보느냐를 결정하는데 , 이것이 n-gram에서의 n이 가지는 의미이다
- 하지만 , 한계점이 많은 모델이라 잘 사용되지는 않는다고 함

# Bow를 만드는 과정
(1) 우선 , 각 단어에 고유한 정수 인덱스를 부여함
(2) 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듭니다.

# 예시 

### 삭제

In [5]:
import pandas as pd
x = pd.read_csv('C:/Users/병현/Desktop/멀티미디어 컴퓨팅/프로젝트/뉴스데이터2018년.csv' , index_col = 0)
x

Unnamed: 0,date,url,content
0,2017-12-31,"['https://v.daum.net/v/20171231233314485', 'ht...","장애인연금, 새해부터 월 소득 121만원 이하면 받는다추자도 인근서 어선 전복 한..."
1,2018-01-01,"['https://v.daum.net/v/20180101234557269', 'ht...","미국 기업, 삼성전자 하이닉스 제소 삼성 하이닉스가 특허 침해 작년 수출 5..."
2,2018-01-02,"['https://v.daum.net/v/20180102235903800', 'ht...","마켓인사이트 단독 한투증권, 현대상선 3000만주 블록딜뉴욕증시, 올해 ..."
3,2018-01-03,"['https://v.daum.net/v/20180103235736826', 'ht...",정부 업계 세탁기 수입규제 시 수출 이익에도 악영향 신입 구직자 희망연봉 ...
4,2018-01-04,"['https://v.daum.net/v/20180104235903448', 'ht...",코스닥 기업공시 4일 에임하이 등 유가증권 기업공시 4일 넥스원 ...
...,...,...,...
361,2018-12-27,"['https://v.daum.net/v/20181227235700604', 'ht...",고액연봉에도 성과급 임금피크제 갈등아동정책 통합추진 아동권리보장원 설립된다 가상...
362,2018-12-28,"['https://v.daum.net/v/20181228233100581', 'ht...","가상화폐 뉴스 12월 28일 23시 30분 비트코인 3 4 , 스트리머 5 ..."
363,2018-12-29,"['https://v.daum.net/v/20181229235411660', 'ht...",해수부 남극 네이처지 2019년 주목해야할 이슈 선정 가상화폐 뉴스 ...
364,2018-12-30,"['https://v.daum.net/v/20181230233901335', 'ht...","기재부 사무관 , 사장교체 지시 신간 소개 새롭게 보는 베트남 ..."


In [8]:
text = x['content'][0]

In [14]:
from konlpy.tag import Okt
import re
okt = Okt()

#text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다"

# 온점 제거 과정
token = re.sub("(\.)", "" , text)

token = okt.morphs(token)

word2index = {}
bow = []
for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
#token을 읽으면서 , word2index에 없는 (not in )단어는 새로 추가하고 ,이미 있으면 pass

        bow.insert(len(word2index)-1 , 1)
        # Bow 전체에 전부 기본값 1을 넣어줌 . 단어의 개수는 최소1개이상이므로
        
    else:
        index = word2index.get(voca) #재등장하는 단어의 인덱스를 받아옴
        
        bow[index] = bow[index] + 1
#재등장한 단어는 해당하는 인덱스 위치에 1을 더해줌
print(word2index , '\n\n' , bow)

{'장애인': 0, '연금': 1, ',': 2, '새해': 3, '부터': 4, '월': 5, '소득': 6, '121만원': 7, '이하': 8, '면': 9, '받는다': 10, '추자도': 11, '인근': 12, '서': 13, '어선': 14, '전복': 15, '한국인': 16, '7': 17, '명': 18, '등': 19, '8': 20, '탑승': 21, '여성': 22, '운전자': 23, '자동차': 24, '핑크': 25, '보다': 26, '블랙': 27, '화이트': 28, '가': 29, '좋아요': 30, '연간': 31, '해외': 32, '여행객': 33, '2천': 34, '400만': 35, '첫': 36, '돌파': 37, '정기예금': 38, '금리': 39, '연': 40, '2': 41, '육박': 42, '32': 43, '개월': 44, '만에': 45, '최고': 46, '문': 47, '창용': 48, '캠코': 49, '사장': 50, '사회': 51, '경제': 52, '적': 53, '가치': 54, '를': 55, '높이는': 56, '공적': 57, '자산': 58, '관리': 59, '전문': 60, '기관': 61, '으로': 62, '도약': 63, '하는': 64, '해': 65, '될': 66, '것': 67, '김용덕': 68, '손해': 69, '보험': 70, '협회장': 71, '소비자': 72, '입장': 73, '에서': 74, '업계': 75, '현안': 76, '해결': 77, '책': 78, '찾아야': 79, '신용': 80, '길': 81, '생명보험': 82, '17': 83, '경': 84, '영': 85, '전반': 86, '에': 87, '상당한': 88, '영향': 89, '줄것': 90, '선제': 91, '준비': 92, '필요': 93, '김태영': 94, '은행': 95, '연합': 96, '회장': 97, '금융': 98, '산업': 99, '생존': 1

In [23]:
import numpy as np

np.argwhere(max(np.array(bow)))

array([], shape=(1, 0), dtype=int64)

In [26]:
np.array(bow)

array([ 1,  1, 75, ...,  1,  1,  1])

In [20]:
from collections import Counter

Counter(word2index)

Counter({'장애인': 0,
         '연금': 1,
         ',': 2,
         '새해': 3,
         '부터': 4,
         '월': 5,
         '소득': 6,
         '121만원': 7,
         '이하': 8,
         '면': 9,
         '받는다': 10,
         '추자도': 11,
         '인근': 12,
         '서': 13,
         '어선': 14,
         '전복': 15,
         '한국인': 16,
         '7': 17,
         '명': 18,
         '등': 19,
         '8': 20,
         '탑승': 21,
         '여성': 22,
         '운전자': 23,
         '자동차': 24,
         '핑크': 25,
         '보다': 26,
         '블랙': 27,
         '화이트': 28,
         '가': 29,
         '좋아요': 30,
         '연간': 31,
         '해외': 32,
         '여행객': 33,
         '2천': 34,
         '400만': 35,
         '첫': 36,
         '돌파': 37,
         '정기예금': 38,
         '금리': 39,
         '연': 40,
         '2': 41,
         '육박': 42,
         '32': 43,
         '개월': 44,
         '만에': 45,
         '최고': 46,
         '문': 47,
         '창용': 48,
         '캠코': 49,
         '사장': 50,
         '사회': 51,
         '경제': 52,


In [15]:
from sklearn.feature_extraction.text import CountVectorizer

#text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words = ["the","a", "an" , "is" ,"not"])
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

ValueError: Iterable over raw text documents expected, string object received.

In [10]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know I want your love . because I love you.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())

print(vector.vocabulary_)

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


### 삭제

In [16]:
from konlpy.tag import Okt
import re
okt = Okt()

text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다"

# 온점 제거 과정
token = re.sub("(\.)", "" , text)

token = okt.morphs(token)

word2index = {}
bow = []
for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
#token을 읽으면서 , word2index에 없는 (not in )단어는 새로 추가하고 ,이미 있으면 pass

        bow.insert(len(word2index)-1 , 1)
        # Bow 전체에 전부 기본값 1을 넣어줌 . 단어의 개수는 최소1개이상이므로
        
    else:
        index = word2index.get(voca) #재등장하는 단어의 인덱스를 받아옴
        
        bow[index] = bow[index] + 1
#재등장한 단어는 해당하는 인덱스 위치에 1을 더해줌
print(word2index , '\n\n' , bow)

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9} 

 [1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


>- 위를 통해 문장에 단어가 출현한 횟수를 알 수 있다.

# CounterVectorizer  

- 위의 과정을 사이킷런 모듈에서 쉽게 만들어주는 CounterVectorizer클래스가 존재한다.

In [24]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know I want your love . because I love you.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())

print(vector.vocabulary_)

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


# 불용어를 제거한 Bow 만들기
- 불용어 : 자연어 처리에서 별로 의미를 갖지 않는 단어들
- ex) 은 , 는 , 이 , 가 ... 기타등등 , 영어로는 the , a , an , is 

#### (1) 사용자가 직접 정의한 불용어 사용

In [26]:
from sklearn.feature_extraction.text import CountVectorizer

text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words = ["the","a", "an" , "is" ,"not"])
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


#### (2) CounterVectorizer에서 제공하는 자체 불용어 사용

In [27]:
from sklearn.feature_extraction.text import CountVectorizer

text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words = "english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


#### (3) NLTK에서 지원하는 불용어 사용

In [30]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text=["Family is not an important thing. It's everything."]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
