In [1]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.2 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 60.0 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [3]:
from konlpy.tag import Okt
import re

okt = Okt()

# 정규표현식을 통해 온정을 제거하는 정제 작업
token = re.sub("(\,)", "", "소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.")

token = okt.morphs(token)

In [4]:
token

['소비자', '는', '주로', '소비', '하는', '상품', '을', '기준', '으로', '물가상승률', '을', '느낀다', '.']

In [5]:
word2index = {}
bow = []

for voca in token:
  if voca not in word2index.keys():
    word2index[voca] = len(word2index)
    # token을 읽으면서, word2index에 없는 단어는 새로 추가하고, 이미 있는 단어는 넘긴다.

    bow.insert(len(word2index)-1, 1)
    # bow 전체에 전부 기본값을 1을 넣어준다. 단어개수는 최소 1개 이상이기 때문에

  else:
    index = word2index.get(voca)
    # 재 등장하는 단어의 인덱스를 받아오기
    bow[index] = bow[index]+1
    # 재 등장하는 단어는 해당하는 인덱스의 위치에 1을 더해줌. (단어 개수를 세는 것)

print(word2index)

{'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10, '.': 11}


In [6]:
bow

[1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1]

## tensorflow의 keras Tokenizer를 활용한 BOW

In [7]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [13]:
sentence = {
    "John likes to watch movies. \
    Mary likes movies too! \
    Mary also likes to watch football games."
}


In [16]:
def print_bow(sentence):
  tokenizer = Tokenizer()
  tokenizer.fit_on_texts(sentence)
  bow = dict(tokenizer.word_counts) # 각 단어와 각 단어의 빈도를 bow에 저장

  print("Bag of words : ", bow)
  print(len(tokenizer.word_counts)) # w중복을 제거한 단어들의 개수

In [17]:
print_bow(sentence)

Bag of words :  {'john': 1, 'likes': 3, 'to': 2, 'watch': 2, 'movies': 2, 'mary': 2, 'too': 1, 'also': 1, 'football': 1, 'games': 1}
10


## scikit_learn의 counteVectorizer을 활용한 bow

In [18]:
from sklearn.feature_extraction.text import CountVectorizer

In [19]:
sentence = {
    "John likes to watch movies. \
    Mary likes movies too! \
    Mary also likes to watch football games."
}

In [20]:
vector=CountVectorizer()

In [22]:
print("Bac of words : ", vector.fit_transform(sentence).toarray()) # 코퍼스로부터 각 단어의 빈도수를 기록
print("각 단어의 인덱스:", vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되는지를 보여줌

Bac of words :  [[1 1 1 1 3 2 2 2 1 2]]
각 단어의 인덱스: {'john': 3, 'likes': 4, 'to': 7, 'watch': 9, 'movies': 6, 'mary': 5, 'too': 8, 'also': 0, 'football': 1, 'games': 2}


# 1-1. 불용어를 제거한 bow 만들기

In [23]:
from sklearn.feature_extraction.text import CountVectorizer

text = ["Family is not an important thing. It's everything"]

vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"]) # 불용어 지정

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


## CountVectorizer에서 제공하는 자체 불용어 사용

In [24]:
from sklearn.feature_extraction.text import CountVectorizer

text = ["Family is not an important thing. It's everything"]

vect = CountVectorizer(stop_words="english") # 불용어 지정

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


## NLTK에서 지원하는 불용어 사용

In [25]:
pip install nltk



In [26]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [31]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text = ["Family is not an important thing. It's everything"]

sw = stopwords.words('english') # nltk 안에 자체 정의한 불용어

vect = CountVectorizer(stop_words= sw)

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}


# DTM(Document-Term-Matrix)

In [32]:
import pandas as pd # DTM은 이런 식이다~를 시각화 하는 과정(실제 DTM과 연관이 없다)
content = [[0,1,1,1],[1,0,1,1],[2,0,2,2]]
df = pd.DataFrame(content)