### TF-IDF 모델.

In [1]:
import nltk
import numpy as np
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer 
from sklearn.metrics import pairwise_distances

#### 1. TF-IDF 행렬 생성.

In [2]:
# 데이터.
my_docs = ["The economic slowdown is becoming more severe",
           "The movie was simply awesome",
           "I like cooking my own food",
           "Samsung is announcing a new technology",
           "Machine Learning is an example of awesome technology",
           "All of us were excited at the movie",
           "We have to do more to reverse the economic slowdown"]

In [3]:
# 간단한 전처리.
my_docs = [x.lower() for x in my_docs]

TfidfVectorizer()의 인자: <br>
- *max_features* : 고유한 단어의 최대 수. <br>
- *min_df* : DF의 최소값. 정수는 카운트를 의미하고, 실수(0~1)는 비율을 의미한다. <br> 
- *max_df* : DF의 최대값. 정수는 카운트를 의미하고, 실수(0~1)는 비율을 의미한다. 불용어 처리에 도움이 된다. <br> 

In [4]:
my_vectorizer = TfidfVectorizer(max_features = 10, min_df = 1, max_df = 3, stop_words = stopwords.words('english'))
X = my_vectorizer.fit_transform(my_docs).toarray()               # toarray() 메서드를 실행해서 밀집행렬로 변환한다.

In [5]:
# X 행렬의 크기 (m x n).
X.shape

(7, 10)

In [6]:
# Feature 출력.
print(my_vectorizer.get_feature_names())

['announcing', 'awesome', 'economic', 'movie', 'reverse', 'samsung', 'severe', 'simply', 'slowdown', 'technology']


In [7]:
# 문서 벡터 출력해 본다.
print(X[0])

[0.         0.         0.53828134 0.         0.         0.
 0.64846464 0.         0.53828134 0.        ]


#### 2. 코사인 유사도 계산.

In [8]:
# 소수점 이하 세자리 까지 출력.
np.set_printoptions(precision=3)

In [9]:
# 코사인 유사도 행렬.
1 - pairwise_distances(X, metric="cosine")

array([[1.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.579],
       [0.   , 1.   , 0.   , 0.   , 0.381, 0.538, 0.   ],
       [0.   , 0.   , 1.   , 0.   , 0.   , 0.   , 0.   ],
       [0.   , 0.   , 0.   , 1.   , 0.358, 0.   , 0.   ],
       [0.   , 0.381, 0.   , 0.358, 1.   , 0.   , 0.   ],
       [0.   , 0.538, 0.   , 0.   , 0.   , 1.   , 0.   ],
       [0.579, 0.   , 0.   , 0.   , 0.   , 0.   , 1.   ]])

In [10]:
# 두 문서 벡터 사이의 코사인 유사도 계산. 전치 불필요.
np.dot(X[0], X[6])

0.5794936078209331

In [11]:
# 두 문서 벡터 사이의 코사인 유사도 계산. 전치 불필요.
np.dot(X[3], X[4])

0.35793913951147677