In [1]:
import nltk
import numpy as np
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer #문서표현위함
from sklearn.metrics import pairwise_distances

## 1. TF IDF representation:

### 1.1. Create a TF IDF matrix: 

In [2]:
# The data.
my_docs = ["The economic slowdown is becoming more severe",
           "The movie was simply awesome",
           "I like cooking my own food",
           "Samsung is announcing a new technology",
           "Machine Learning is an example of awesome technology",
           "All of us were excited at the movie",
           "We have to do more to reverse the economic slowdown"]

#7개의 document

In [3]:
# A very simple pre-processing.
my_docs = [x.lower() for x in my_docs]

#소문자해서 정규화

TfidfVectorizer() arguments: <br>
- *max_features* : maximum number of features (distict words). <br>
- *min_df* : The minimum DF. Integer value means count and real number (0~1) means proportion. <br> 
- *max_df* : The maximum DF. Integer value means count and real number (0~1) means proportion. Helps to filter out the stop words. <br> 

In [4]:
vectorizer = TfidfVectorizer(max_features = 10, min_df = 1, max_df = 3, stop_words = stopwords.words('english'))
X = vectorizer.fit_transform(my_docs).toarray()               # Conversion to a dense matrix with toarray().

#vectorizer가 객체, TfidVectorizer는 클래스
#TfidVectorizer의 인자값 max_features 최댓값 10: 단어가 10개 이상이어도 10개까지만 나오게
#min_df,max_df: minimum document prequency(너무 작아도 안됨)
#stopwords.words('english'): nrk가 제공하는 영문


#fit_transform: 학습하면서 행렬로 변환까지함

In [5]:
# Size of the X matrix (m x n).
X.shape 

#문서개수*feature개수  
#문서 7개 feature 10개 (위에서 10개를 최대로 설정함)

(7, 10)

In [6]:
# Output the features.
print(vectorizer.get_feature_names())

#feature 이름들

['announcing', 'awesome', 'economic', 'movie', 'reverse', 'samsung', 'severe', 'simply', 'slowdown', 'technology']


In [7]:
# Output a vector corresponding to a document.
print(X[0]) #[0,:]도 넘피배열이라 같음

#첫번째문서 보기(첫번째 행) 
#결과는 10개의 성분으로 이뤄진 하나의 벡터

[0.         0.         0.53828134 0.         0.         0.
 0.64846464 0.         0.53828134 0.        ]


### 1.2. Calculate the cosine similarity: 코사인 유사도 계산

In [8]:
# The cosine similarity matrix.
1 - np.round(pairwise_distances(X, metric="cosine"),3)

#코사인 유사도는 distance와 반대임
#코사인 유사도는 클수록 좋음, 거리는 짧을수록 좋음: 그래서 1에서 빼줘야 함

array([[1.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.579],
       [0.   , 1.   , 0.   , 0.   , 0.381, 0.538, 0.   ],
       [0.   , 0.   , 1.   , 0.   , 0.   , 0.   , 0.   ],
       [0.   , 0.   , 0.   , 1.   , 0.358, 0.   , 0.   ],
       [0.   , 0.381, 0.   , 0.358, 1.   , 0.   , 0.   ],
       [0.   , 0.538, 0.   , 0.   , 0.   , 1.   , 0.   ],
       [0.579, 0.   , 0.   , 0.   , 0.   , 0.   , 1.   ]])

In [9]:
# Cosine similarity between two documents by linear algebra.
np.dot(X[0], X[6].T)

#첫번째 문서와 일곱번째 문서 간  dot 구해야함
#그런데 둘다 행이니 dot 불가능 -> 행과 열로 만들어줘야 함

#분모 구하기: 이미 길이가 1로 정규화 되어있어 분모가 둘 다 1임->나눠줄 필요 없음
#분자 구하기: dot가지고 코사인 유사도 구하면 됨

#1,2번째 문서는 유사성이 높은 편

0.5794936078209331

In [10]:
# Cosine similarity between two documents by linear algebra.
np.dot(X[3], X[4].T)

#3,4번째 문서는 유사성이 낮음

0.35793913951147677