In [None]:
"""
bow : 단어의 순서 고려 x, 단어의 빈도수를 기반으로 만든 행렬
1) 단어 추출 -> 단어에 대해 정수 인덱스 설정
2) 단어의 등장 횟수를 저장한 벡터를 생성
"""

In [4]:
text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."

In [9]:
# 퀴즈1. text에서 .(마침표)을 제거
text.split(".")[0]

text[:-1]

'정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다'

In [12]:
text = "정부가 .발표하는. 물가상승률과 .소비자가 느끼는 .물가상승률은 .다르다."

In [13]:
import re
token = re.sub("\.", "", text)

# 장점 : .이 어디에 있든 다 제거할 수 있음

In [14]:
from konlpy.tag import Okt

In [15]:
okt = Okt()

In [16]:
token = okt.morphs(token)

In [21]:
token

['정부', '가', '발표', '하는', '물가상승률', '과', '소비자', '가', '느끼는', '물가상승률', '은', '다르다']

In [26]:
word2index = {} # [정부 : 0, 가 :1, ... 단어 : 인덱스번호, ...]
bow = [] # [1, 1, ...단어빈도수, 단어빈도수, ...]

In [27]:
for v in token :
    if v not in word2index.keys() :
        word2index[v] = len(word2index)
        bow.insert(len(word2index) - 1, 1)
    else :
        idx = word2index.get(v) # get함수 : 키에 해당되는 값을 리턴
        bow[idx] = bow[idx] + 1
print(word2index)
print(bow)

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


In [None]:
# 전체문서(n개 문서) = [d1, d2, ..., dn]
# 단어집합(m개 단어) = [t1, t2, ..., tm]
# Xij = 문서 di에 있는 단어 tj의 출현 빈도수

In [32]:
# DictVectorizer : 문서에서 단어의 빈도가 저장된 딕셔너리로부터 bow 생성
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse = False) # True : 텍스트 데이터를 압축해서 bow생성(메모리 효율)
d = [{'a' : 1, 'b' : 2}, {'b' : 3, 'c' : 1}] # [문서1, 문서2]  {단어1 : 빈도수, 단어2 : 빈도수}
d
print(v.fit_transform(d)) # bow가 만들어짐
print(v.feature_names_)

# bow에 새로운 문서 데이터를 전달하여 변환
print(v.transform({'c' : 5, 'd' : 2})) # bow에는 a, b, c 단어만 존재
# a : 0, b : 0, c : 5

[[1. 2. 0.]
 [0. 3. 1.]]
['a', 'b', 'c']
[[0. 0. 5.]]


In [33]:
# CountVectorizer
# 1) 문서 -> 토큰 변환  2) 토큰의 빈도수  3) bow 벡터 생성
from sklearn.feature_extraction.text import CountVectorizer

In [34]:
corpus = ['This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
    'The last document?']

In [55]:
v = CountVectorizer(min_df = 2, max_df = 4)
v.fit(corpus)
v.vocabulary_, v.stop_words_

({'this': 3, 'is': 2, 'first': 1, 'document': 0},
 {'and', 'last', 'one', 'second', 'the', 'third'})

In [49]:
v = CountVectorizer(ngram_range = (1, 2), token_pattern = "t\w+") # 최소 : 1, 최대 : 2 => n값이 2인 gram = 2gram (bigram)
v.fit(corpus)
v.vocabulary_

{'this': 3, 'the': 0, 'this the': 4, 'third': 2, 'the third': 1}

In [48]:
# ngram_range = (n, m) 의미? 최소 n개 최대 m개의 단어들을 묶어서 1개의 단어로 취급하여 bow를 생성

# 두 단어가 1개의 단어로 사용
v = CountVectorizer(ngram_range = (1, 2)) # 최소 : 1, 최대 : 2 => n값이 2인 gram = 2gram (bigram)
v.fit(corpus)
v.vocabulary_

{'this': 21,
 'is': 5,
 'the': 14,
 'first': 3,
 'document': 2,
 'this is': 22,
 'is the': 6,
 'the first': 15,
 'first document': 4,
 'second': 11,
 'the second': 17,
 'second second': 13,
 'second document': 12,
 'and': 0,
 'third': 19,
 'one': 10,
 'and the': 1,
 'the third': 18,
 'third one': 20,
 'is this': 7,
 'this the': 23,
 'last': 8,
 'the last': 16,
 'last document': 9}

In [45]:
v = CountVectorizer(token_pattern = "t\w+")
v.fit(corpus)
v.vocabulary_

{'this': 2, 'the': 0, 'third': 1}

In [44]:
v = CountVectorizer(analyzer = 'char')
v.fit(corpus)
v.vocabulary_

{'t': 16,
 'h': 8,
 'i': 9,
 's': 15,
 ' ': 0,
 'e': 6,
 'f': 7,
 'r': 14,
 'd': 5,
 'o': 13,
 'c': 4,
 'u': 17,
 'm': 11,
 'n': 12,
 '.': 1,
 'a': 3,
 '?': 2,
 'l': 10}

In [43]:
v = CountVectorizer(stop_words = 'english')
v.fit(corpus)
v.vocabulary_

{'document': 0, 'second': 1}

In [42]:
v = CountVectorizer(stop_words = ['and', 'is', 'the', 'this'])
v.fit(corpus)
v.vocabulary_

{'first': 1, 'document': 0, 'second': 4, 'third': 5, 'one': 3, 'last': 2}

In [36]:
v = CountVectorizer()
v.fit(corpus)
v.vocabulary_

{'this': 9,
 'is': 3,
 'the': 7,
 'first': 2,
 'document': 1,
 'second': 6,
 'and': 0,
 'third': 8,
 'one': 5,
 'last': 4}

In [38]:
v.transform(corpus).toarray()
# 'This is the first document.'

array([[0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 1, 0, 0, 2, 1, 0, 1],
       [1, 0, 0, 0, 0, 1, 0, 1, 1, 0],
       [0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 1, 0, 0]], dtype=int64)

In [39]:
# 새로운 문서가 입력 -> bow 변환
"This is the second document."

v.transform(["This is the second document."]).toarray()

array([[0, 1, 0, 1, 0, 0, 1, 1, 0, 1]], dtype=int64)

In [40]:
v.transform(["Something new"]).toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

In [None]:
# tf-idf
# dtm에서는 각각의 단어에 대한 중요도가 없음

# dtm(단어 빈도수만 저장)
#       t1...  tm
# d1    3
# d2
# ...
# dn


# tf-idf(단어빈도-역문서빈도) : dtm에 있는 각 단어들마다 중요도를 계산
# dtm을 생성한 후, tf-idf를 생성

# tf(d, t) : 문서 d에서 단어 t의 등장 횟수
# df(t) : 단어 t가 등장한 문서의 개수(여러 번 단어가 등장한 경우에도 1로 카운트)

# idf(d, t) : df(t)의 반비례하는 수

idf(d, t) = log(n / (1 + df(t)))

n / (1 + df(t))

ex) n : 100만
idf(d, f) = 100만 / 1 = 100만
idf(d, f) = 100만 / 100 = 1만
idf(d, f) = 100만 / 100만 = 1
...

ex) n : 100만
idf(d, f) = log(100만 / 1) = 6
idf(d, f) = log(100만 / 100) = 4
idf(d, f) = log(100만 / 10만) = 1
...
idf(d, f) = log(100만 / 100만) = 0

tfidf는 모든 문서에서 자주 등장하는 단어라면 중요도가 낮다고 판단,
특정 문서에서만 등장하는 단어라면 중요도가 높다고 판단
tfidf값이 낮(높)으면 -> 단어의 중요도가 낮(높)다

In [56]:
import pandas as pd
from math import log

In [57]:
log(4/(2+1))

0.28768207245178085

In [58]:
docs = [# 문서 4개
    '먹고 싶은 사과',
    '먹고 싶은 바나나',
    '길고 노란 바나나 바나나',
    '저는 과일이 좋아요'
]
# tf(dtm), idf, tfidf

In [62]:
v = CountVectorizer()
v.fit(docs)
v.vocabulary_

{'먹고': 3,
 '싶은': 6,
 '사과': 5,
 '바나나': 4,
 '길고': 1,
 '노란': 2,
 '저는': 7,
 '과일이': 0,
 '좋아요': 8}

In [67]:
array = v.transform(docs).toarray()

In [68]:
columns = sorted(v.vocabulary_)

In [71]:
df = pd.DataFrame(array, columns = columns, index = ['문서1', '문서2', '문서3', '문서4'])
df

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
문서1,0,0,0,1,0,1,1,0,0
문서2,0,0,0,1,1,0,1,0,0
문서3,0,1,1,0,2,0,0,0,0
문서4,1,0,0,0,0,0,0,1,1


In [84]:
idf = df.apply(lambda x : log(len(df) / (1 + (x != 0).sum())))
idf

과일이    0.693147
길고     0.693147
노란     0.693147
먹고     0.287682
바나나    0.287682
사과     0.693147
싶은     0.287682
저는     0.693147
좋아요    0.693147
dtype: float64

In [87]:
tfidf = df.apply(lambda x : x * log(len(df) / (1 + (x != 0).sum())))
tfidf

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
문서1,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
문서2,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
문서3,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
문서4,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147
