## 7장 문장의 표현

#### BoW(Bag of Words)

In [1]:
import pandas

In [3]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

### 띄어쓰기 단위로 토큰화

In [14]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

### 각 고유 토큰에 인덱스 지정

In [19]:
from collections  import defaultdict

word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc]
word2id

defaultdict(<function __main__.<lambda>>,
            {'동물원에서': 1,
             '바나나를': 6,
             '봤어': 3,
             '오늘': 0,
             '원숭이를': 2,
             '원숭이에게': 5,
             '줬어': 7,
             '코끼리를': 4})

### BoW 생성

In [9]:
import numpy as np

In [20]:
BoW_ls = []

for i, doc in enumerate(doc_ls):
  bow = np.zeros(len(word2id), dtype=int)
  for token in doc:
    bow[word2id[token]] += 1
  BoW_ls.append(bow.tolist())
BoW_ls

[[1, 1, 1, 1, 0, 0, 0, 0], [1, 1, 0, 2, 1, 0, 0, 0], [0, 1, 0, 0, 0, 1, 2, 1]]

In [24]:
from IPython.core import display as ICD
import pandas as pd

sorted_vocab = sorted((value, key) for key, value in word2id.items())

vocab = [v[1] for v in sorted_vocab]

for i in range(len(docs)):
    print("문서{} :{}".format(i, docs[i]))
    ICD.display(pd.DataFrame([BoW_ls[i]],columns = vocab))
    print("\n\n")

문서0 :오늘 동물원에서 원숭이를 봤어


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,1,1,1,1,0,0,0,0





문서1 :오늘 동물원에서 코끼리를 봤어 봤어


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,1,1,0,2,1,0,0,0





문서2 :동물원에서 원숭이에게 바나나를 줬어 바나나를


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,0,1,0,0,0,1,2,1







## 단어 순서를 고려하지 않은 BoW

In [25]:
docs = ['나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
        '나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해']

### 띄어쓰기 단위로 토큰화

In [27]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '치킨을', '싫어해'],
 ['나는', '후라이드', '치킨을', '좋아해', '하지만', '양념', '치킨을', '싫어해']]

### 각 고유 토큰에 인덱스 지정

In [28]:
from collections import defaultdict

word2id = defaultdict(lambda: len(word2id))
[word2id[token] for doc in doc_ls for token in doc]
word2id

defaultdict(<function __main__.<lambda>>,
            {'나는': 0,
             '싫어해': 6,
             '양념': 1,
             '좋아해': 3,
             '치킨을': 2,
             '하지만': 4,
             '후라이드': 5})

### BoW 생성

In [30]:
import numpy as np

BoW_ls = []

for doc in doc_ls:
  bow = np.zeros(len(word2id),dtype=int)
  for token in doc:
    bow[word2id[token]] += 1
  BoW_ls.append(bow.tolist())
BoW_ls

[[1, 1, 2, 1, 1, 1, 1], [1, 1, 2, 1, 1, 1, 1]]

In [37]:
from IPython.core import display as ICD

sorted_vocab = sorted((value, key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]

for i in range(len(docs)):
  print("문서{}: {}".format(i,docs[i]))
  ICD.display(pd.DataFrame([BoW_ls[i]],columns=vocab))
  print("\n\n")

문서0: 나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해


Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
0,1,1,2,1,1,1,1





문서1: 나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해


Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
0,1,1,2,1,1,1,1







### sklearn 활용

In [38]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [40]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
BoW = count_vect.fit_transform(docs)
BoW.toarray()

array([[1, 0, 1, 1, 1, 0, 0, 0],
       [1, 0, 2, 1, 0, 0, 0, 1],
       [1, 2, 0, 0, 0, 1, 1, 0]])

In [42]:
from IPython.core import display as ICD

vocab = count_vect.get_feature_names()
for i in range(len(docs)):
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([BoW.toarray()[i]],columns=vocab))
    print('\n\n')

문서0 : 오늘 동물원에서 원숭이를 봤어


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,1,0,1,1,1,0,0,0





문서1 : 오늘 동물원에서 코끼리를 봤어 봤어


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,1,0,2,1,0,0,0,1





문서2 : 동물원에서 원숭이에게 바나나를 줬어 바나나를


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,1,2,0,0,0,1,1,0







### gensim 활용

In [43]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [56]:
import gensim
from gensim import corpora

doc_ls = [doc.split() for doc in docs]
id2word = corpora.Dictionary(doc_ls)
TDM = [id2word.doc2bow(doc) for doc in doc_ls]
TDM

[[(0, 1), (1, 1), (2, 1), (3, 1)],
 [(0, 1), (1, 2), (2, 1), (4, 1)],
 [(0, 1), (5, 2), (6, 1), (7, 1)]]

In [60]:
import pandas as pd
import numpy as np
from gensim.matutils import sparse2full

doc_names = ['문서'+ str(i) for i in range(len(doc_ls))]
vocab = [id2word[i] for i in id2word.keys()]
DTM_matrix = [sparse2full(doc, len(vocab)).tolist() for doc in TDM]

df_TDM = pd.DataFrame(np.array(DTM_matrix, dtype=int).T, columns=doc_names)
df_TDM['단어'] = vocab
df_TDM.set_index('단어')

Unnamed: 0_level_0,문서0,문서1,문서2
단어,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
동물원에서,1,1,1
봤어,1,2,0
오늘,1,1,0
원숭이를,1,0,0
코끼리를,0,1,0
바나나를,0,0,2
원숭이에게,0,0,1
줬어,0,0,1


# 3 TF-IDF (Term Frequency-Inverse Document Frequency)

In [61]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [62]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

In [65]:
from collections import defaultdict

word2id = defaultdict(lambda: len(word2id))
[word2id[token] for doc in doc_ls for token in doc]
word2id

defaultdict(<function __main__.<lambda>>,
            {'동물원에서': 1,
             '바나나를': 6,
             '봤어': 3,
             '오늘': 0,
             '원숭이를': 2,
             '원숭이에게': 5,
             '줬어': 7,
             '코끼리를': 4})

In [69]:
import numpy as np

DTM = np.zeros((len(doc_ls),len(word2id)), dtype=int)
for i, doc in enumerate(doc_ls):
  for token in doc:
    DTM[i, word2id[token]]+=1
DTM

array([[1, 1, 1, 1, 0, 0, 0, 0],
       [1, 1, 0, 2, 1, 0, 0, 0],
       [0, 1, 0, 0, 0, 1, 2, 1]])

In [71]:
def computeTF(DTM):
  doc_len = len(DTM)
  word_len = len(DTM[0])

  tf = np.zeros((doc_len, word_len))

  for doc_i in range(doc_len):
    for word_i in range(word_len):
      tf[doc_i, word_i] = DTM[doc_i, word_i]/DTM[doc_i].sum()

  return tf
tf = computeTF(DTM)
tf

array([[0.25, 0.25, 0.25, 0.25, 0.  , 0.  , 0.  , 0.  ],
       [0.2 , 0.2 , 0.  , 0.4 , 0.2 , 0.  , 0.  , 0.  ],
       [0.  , 0.2 , 0.  , 0.  , 0.  , 0.2 , 0.4 , 0.2 ]])

In [74]:
import math

def computeIDF(DTM):
    doc_len = len(DTM)
    word_len = len(DTM[0])

    idf = np.zeros(word_len)
    for i in range(word_len):
        idf[i] = -math.log10(np.count_nonzero(DTM[:,i])/doc_len)

    return idf

computeIDF(DTM)

array([ 0.17609126, -0.        ,  0.47712125,  0.17609126,  0.47712125,
        0.47712125,  0.47712125,  0.47712125])

In [75]:
def computeTFIDF(DTM):
    td = computeTF(DTM)
    idf = computeIDF(DTM)

    tfidf = np.zeros(tf.shape)
    for doc_i in range(tf.shape[0]):
      for word_i in range(tf.shape[1]):
        tfidf[doc_i, word_i] = tf[doc_i, word_i] * idf[word_i]
    return tfidf
computeTFIDF(DTM)

array([[ 0.04402281, -0.        ,  0.11928031,  0.04402281,  0.        ,
         0.        ,  0.        ,  0.        ],
       [ 0.03521825, -0.        ,  0.        ,  0.0704365 ,  0.09542425,
         0.        ,  0.        ,  0.        ],
       [ 0.        , -0.        ,  0.        ,  0.        ,  0.        ,
         0.09542425,  0.1908485 ,  0.09542425]])

In [79]:
import pandas as pd

sorted_vocab = sorted((value,key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]

tdidf = computeTFIDF(DTM)
pd.DataFrame(tdidf, columns=vocab)

Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,0.044023,-0.0,0.11928,0.044023,0.0,0.0,0.0,0.0
1,0.035218,-0.0,0.0,0.070437,0.095424,0.0,0.0,0.0
2,0.0,-0.0,0.0,0.0,0.0,0.095424,0.190849,0.095424


## 3.2 직접계산하기2

In [80]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [85]:
from math import log10
import numpy as np
from collections import defaultdict

# document 내 토큰이 등장한 빈도수 계산
def f(t, d):
  return d.count(t)

# tf 계산
def tf(t, d):
  return 0.5 + 0.5 * f(t,d) / max([f(w, d) for w in d])

# idf 계산
def idf(t, D):
    num = len(D)
    den = 1 + len([True for d in D if t in d])
    return 1+ log10(num/den)

# td-idf 계산
def tfidf_score(t,d,D):
  return tf(t,d)*idf(t, D)

def tokenizer(d):
  return d.split()

# tfidf 계산  
def tfidfScorer(D):
  D_ls = [tokenizer(d) for d in D]
  vocab = list(set().union(*D_ls)) 
  word2id = defaultdict(lambda : len(word2id))
  [word2id[v]  for v in vocab]

  # print(word2id)

  tfidf = np.zeros((len(D_ls), len(vocab)))
  for i in range(len(D_ls)):
    for t in D_ls[i]:
      tfidf[i, word2id[t]] = tfidf_score(t, D_ls[i], D)
  
  return tfidf, vocab

tfidfScorer(docs)

(array([[0.87506126, 1.        , 0.        , 0.        , 0.        ,
         1.        , 0.        , 1.17609126],
        [0.65629595, 0.75      , 0.88206844, 0.        , 0.        ,
         1.        , 0.        , 0.        ],
        [0.65629595, 0.        , 0.        , 0.88206844, 1.17609126,
         0.        , 0.88206844, 0.        ]]),
 ['동물원에서', '오늘', '코끼리를', '원숭이에게', '바나나를', '봤어', '줬어', '원숭이를'])

In [88]:
import pandas as pd
tfidf, vocab = tfidfScorer(docs)
pd.DataFrame(tfidf, columns=vocab)

Unnamed: 0,동물원에서,오늘,코끼리를,원숭이에게,바나나를,봤어,줬어,원숭이를
0,0.875061,1.0,0.0,0.0,0.0,1.0,0.0,1.176091
1,0.656296,0.75,0.882068,0.0,0.0,1.0,0.0,0.0
2,0.656296,0.0,0.0,0.882068,1.176091,0.0,0.882068,0.0


In [89]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [91]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer()
tfidf = tfidf_vect.fit_transform(docs)
print(tfidf_vect.get_feature_names())
tfidf.todense()

['동물원에서', '바나나를', '봤어', '오늘', '원숭이를', '원숭이에게', '줬어', '코끼리를']


matrix([[0.37311881, 0.        , 0.4804584 , 0.4804584 , 0.63174505,
         0.        , 0.        , 0.        ],
        [0.28680065, 0.        , 0.73861611, 0.36930805, 0.        ,
         0.        , 0.        , 0.48559571],
        [0.2344005 , 0.79374908, 0.        , 0.        , 0.        ,
         0.39687454, 0.39687454, 0.        ]])

In [94]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

count_vect = CountVectorizer()
BoW = count_vect.fit_transform(docs)
tfidf_trans = TfidfTransformer()
tfidf = tfidf_trans.fit_transform(BoW)
print(tfidf)
tfidf.todense()

  (0, 4)	0.6317450542765208
  (0, 3)	0.4804583972923858
  (0, 2)	0.4804583972923858
  (0, 0)	0.3731188059313277
  (1, 7)	0.48559571020624154
  (1, 3)	0.3693080540613576
  (1, 2)	0.7386161081227152
  (1, 0)	0.2868006489817671
  (2, 6)	0.3968745408286403
  (2, 5)	0.3968745408286403
  (2, 1)	0.7937490816572806
  (2, 0)	0.23440049712476196


matrix([[0.37311881, 0.        , 0.4804584 , 0.4804584 , 0.63174505,
         0.        , 0.        , 0.        ],
        [0.28680065, 0.        , 0.73861611, 0.36930805, 0.        ,
         0.        , 0.        , 0.48559571],
        [0.2344005 , 0.79374908, 0.        , 0.        , 0.        ,
         0.39687454, 0.39687454, 0.        ]])

In [95]:
count_vect.get_feature_names()

['동물원에서', '바나나를', '봤어', '오늘', '원숭이를', '원숭이에게', '줬어', '코끼리를']

In [97]:
import pandas as pd

vocab = count_vect.get_feature_names()
pd.DataFrame(tfidf.todense(), columns=vocab)

Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,0.373119,0.0,0.480458,0.480458,0.631745,0.0,0.0,0.0
1,0.286801,0.0,0.738616,0.369308,0.0,0.0,0.0,0.485596
2,0.2344,0.793749,0.0,0.0,0.0,0.396875,0.396875,0.0


In [101]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [102]:
import gensim
from gensim import corpora
from gensim.models import TfidfModel

doc_ls = [doc.split() for doc in docs]
id2word = corpora.Dictionary(doc_ls)
TDM = [id2word.doc2bow(doc) for doc in doc_ls]
model = TfidfModel(TDM)
tfidf = model[TDM]
tfidf[0]

[(1, 0.32718457421365993), (2, 0.32718457421365993), (3, 0.8865102981879297)]

In [103]:
from gensim.matutils import sparse2full

vocab = [id2word[i] for i in id2word.keys()]
TDM_matrix = [ sparse2full(doc, len(vocab)) for doc in tfidf]

pd.DataFrame(TDM_matrix, columns=vocab)

Unnamed: 0,동물원에서,봤어,오늘,원숭이를,코끼리를,바나나를,원숭이에게,줬어
0,0.0,0.327185,0.327185,0.88651,0.0,0.0,0.0,0.0
1,0.0,0.569307,0.284654,0.0,0.771272,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.816497,0.408248,0.408248


## 8장 핵심 키워드 추출

### 8-0 데이터 준비

In [105]:
!sudo apt-get install g++ openjdk-7-jdk # Install Java 1.7+
!sudo apt-get install python-dev; pip install konlpy     # Python 2.x
!sudo apt-get install python3-dev; pip3 install konlpy   # Python 3.x
!sudo apt-get install curl
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

Reading package lists... Done
Building dependency tree       
Reading state information... Done
Package openjdk-7-jdk is not available, but is referred to by another package.
This may mean that the package is missing, has been obsoleted, or
is only available from another source

E: Package 'openjdk-7-jdk' has no installation candidate
Reading package lists... Done
Building dependency tree       
Reading state information... Done
python-dev is already the newest version (2.7.15~rc1-1).
The following package was automatically installed and is no longer required:
  libnvidia-common-440
Use 'sudo apt autoremove' to remove it.
0 upgraded, 0 newly installed, 0 to remove and 35 not upgraded.
Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.3MB/s 
[?25hCollecting tweepy>=3.7.0
  Downloading https://files.

### 8-1 TF-IDF 활용 핵심키워드 추출

In [106]:
import requests 
from bs4 import BeautifulSoup

def get_news_by_url(url):
  res = requests.get(url)
  bs = BeautifulSoup(res.content, 'html.parser')

  title = bs.select('h3#articleTitle')[0].text #제목
  content = bs.select('#articleBodyContents')[0].get_text().replace('\n', " ") #본문
  content = content.replace("// flash 오류를 우회하기 위한 함수 추가 function _flash_removeCallback() {}", "")
  return  content.strip()

docs = []
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&oid=018&aid=0004430108') )
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=001&aid=0011614790') )
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=102&oid=014&aid=0004424362') )
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=119&aid=0002402191') )
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002882728') )
len(docs)

5

### (1) 전처리

In [109]:
from konlpy.tag  import Mecab
mecab = Mecab()

preprocessed_docs = []
for doc in docs:
    preprocessed_docs.append(' '.join([token[0] for token in mecab.pos(doc) if token[1][0] in ['N','V']]))
preprocessed_docs

['과기 정통부 일 유영민 장관 등 참석 기념행사 년 억 원 투입 여종 데이터 구축 민간 클라우드 통한 외부 연계 체계 개방 강화 데일리 이재운 기자 국가 차원 빅 데이터 활용 시대 열린다 새로운 산업 창출 기존 산업 변화 이르 혁신 장 위한 센터 문 연다 개 분야 걸쳐 데이터 경제 발전 위한 정부 청사진 현실 구현 데 앞장선다는 계획 이 일 과학 기술 정보 통신부 서울 중구 대한 상공 회의소 데이터 생태 조성 혁신 성장 기반 마련 위한 빅 데이터 플랫 폼 센터 출범식 행사 개최 유영민 과기 정통부 장관 노웅래 국회 과학 기술 정보 방송 통신 위원회 위원장 등 명 참가 개 분야 개 센터 년 간 억 원 투입 이미지 픽사 베이 빅 데이터 데이터 활용 통해 혁신 장 이루 문재 인 정부 경제 성장 핵심 요소 중 하나 다 문재인 대통령 올 들 데이터 활용 이 따른 정보 보호 보안 대한 중요 강조 했 맥락 속 빅 데이터 센터 공공 민간 협업 활용 높 양질 데이터 생산 구축 플랫 폼 이 수집 분석 유통 역할 담당 과기 정통부 분야 플랫 폼 개소 이 연계 기관 센터 개소 구축 데 년 억 원 투입 계획 이 올해 억 원 규모 사업 추진 있 대상 분야 금융 카드 환경 한국 수자원 공사 문화 한국 문화 정보원 교통 한국 교통 연구원 헬 스케어 국립암센터 유통 소비 매일 방송 통신 중소기업 존 비즈 온 지역 경제 경기도 청 산림 한국 임업 흥원 등 차 공모 통해 개 빅 데이터 센터 선정 다음 달 일 차 공모 통해 개 추가 선정 개 지원 운영 계획 이 이 통해 데이터 생태계 혁신 기업 경쟁력 제고 역할 수행 주요 활용 전략 사례 보 빅 데이터 활용 통해 신 新 시장 창출 방안 담 있 금융 플랫 폼 경우 소 상공 인 신용 평가 고도 등 통해 금융 취약 계층 대상 중 금리 대출 자를 절감 연간 조 원 신규 대출 창출 전망 이 유통 소비 중소기업 플랫 폼 소상 공인 중소기업 폐업 감소 문화 플랫 폼 문화 예술 관람 생활 체육 참여 높이 방안 모색 의료비 절감 헬스 케어 기업 매출 향상 통한

### (2) TF-IDF 계산