단어의 표현 (Word Representation)

- 기계는 문자를 그대로 인식할 수 없기 때문에 숫자로 변환

1. TF-IDF를 활용한 단어 벡터

1-1 직접 구현하기 - 사이킷런과 젠심을 활용해서 구할 예정

weighting schema|weight|설명
--|--|--
term frequency|<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/91699003abf4fe8bdf861bbce08e73e71acf5fd4" />|=토큰빈도/문서내토큰빈도
inverse document frequency|<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/864fcfdc0c16344c11509f724f1aa7081cf9f657" />|=log(총문서갯수/(토큰이 등장한 문서수))

In [1]:
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog" 

1-2 sklearn 활용

In [3]:
#CountVectorizer를 사용하여 텍스트 데이터를 BoW 형태로 변환

from sklearn.feature_extraction.text import CountVectorizer

#두 개의 문서(d1, d2)로 구성된 corpus 정의 
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"
corpus = [d1, d2]

count_vect = CountVectorizer()
countv = count_vect.fit_transform(corpus) #corpus를 입력받아 CounterVectorizer를 훈련 -> corpus를 BoW행렬로 변환
print(countv.toarray()) #BoW행렬 -> Numpy배열
print(count_vect.vocabulary_) #각 단어의 인덱스가 어떻게 부여되었는지 확인

#corpus: 텍스트 데이터의 모음. 자연어 처리에서 사용되는 용어. 일반적으로 문장, 문서, 뉴스기사 등의 텍스트 데이터를 모아서 corpus 구성

[[0 2 0 1 1 0 1 1 1 1]
 [1 0 2 0 0 1 1 1 1 1]]
{'the': 9, 'cat': 1, 'sat': 8, 'on': 7, 'my': 6, 'face': 3, 'hate': 4, 'dog': 2, 'bed': 0, 'love': 5}


In [4]:
#TfidfVectorizer를 사용하여 텍스트 데이터를 TF-IDF 형태로 변환

from sklearn.feature_extraction.text import TfidfVectorizer

d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"
corpus = [d1, d2]

tfidf_vect = TfidfVectorizer().fit(corpus)
tfidfv = tfidf_vect.transform(corpus) #corpus -> TF-IDF 행렬
print(tfidfv.toarray()) #TF-IDF 행렬 -> Numpy 배열
print(tfidf_vect.vocabulary_) #vocabulary_속성(=단어와 해당하는 인덱스를 나타내는 딕셔너리로 구성)을 출력하여 각 단어의 인덱스가 어떻게 부여되었는지 확인

[[0.         0.70600557 0.         0.35300279 0.35300279 0.
  0.25116439 0.25116439 0.25116439 0.25116439]
 [0.35300279 0.         0.70600557 0.         0.         0.35300279
  0.25116439 0.25116439 0.25116439 0.25116439]]
{'the': 9, 'cat': 1, 'sat': 8, 'on': 7, 'my': 6, 'face': 3, 'hate': 4, 'dog': 2, 'bed': 0, 'love': 5}


1-3 gensim 활용

In [6]:
#Gensim을 사용하여 TF-IDF모델을 생성하고, 이를 corpus에 적용하여 TF-IDF 벡터를 생성

from gensim.models import TfidfModel
from gensim import corpora

#두 개의 문서(d1, d2)로 구성된 corpus 정의
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"
corpus = [d1, d2]

#각 문서를 단어 단위로 토큰화하여 doc_ls에 저장
doc_ls = [doc.split() for doc in corpus]

#corpora.Dictionary를 사용하여 각 단어에 고유한 아이디를 부여하는 딕셔너리(id2word) 생성
id2word = corpora.Dictionary(doc_ls)

#doc2bow 메소드를 사용하여 corpus -> BoW
corpus = [id2word.doc2bow(doc) for doc in doc_ls]

#TfidfModel을 사용하여 TF-IDF 모델(tfidf) 생성
tfidf = TfidfModel(corpus)

#TF-IDF 모델을 corpus에 적용하여 TF-IDF 벡터 생성
vector = tfidf[corpus[0]]

In [8]:
corpus

[[(0, 1), (1, 1), (2, 1), (3, 2), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1)],
 [(0, 1), (1, 1), (2, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 2), (11, 1)]]

In [9]:
tfidf[corpus[0]]

[(3, 0.8164965809277261), (4, 0.4082482904638631), (5, 0.4082482904638631)]