In [9]:
docs = [
    '먹고 싶은 사과', # 문서0
    '먹고 싶은 바나나', # 문서1
    '길고 노란 바나나 바나나', # 문서2
    '저는 과일이 좋아요' # 문서3
]

In [7]:
from sklearn.feature_extraction.text import CountVectorizer # tf까지의 과정을 거친 Vectorizer
vect = CountVectorizer() # Counter Vectorizer 객체 생성

In [10]:
# 문장을 Counter Vetorizer 형태로 변형
countvect = vect.fit_transform(docs)
countvect # 4x9 : 4개의 문서와 9개의 단어

<4x9 sparse matrix of type '<class 'numpy.int64'>'
	with 12 stored elements in Compressed Sparse Row format>

In [11]:
# toarray()를 통해서 문장이 Vector 형태의 값을 얻을 수 있음
# 하지만, 각 인덱스와 컬럼이 무엇을 의미하는지에 대해서는 알 수가 없음
# sparse matrix -> numpy
countvect.toarray()

array([[0, 0, 0, 1, 0, 1, 1, 0, 0],
       [0, 0, 0, 1, 1, 0, 1, 0, 0],
       [0, 1, 1, 0, 2, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 1, 1]], dtype=int64)

In [12]:
vect.vocabulary_

{'먹고': 3,
 '싶은': 6,
 '사과': 5,
 '바나나': 4,
 '길고': 1,
 '노란': 2,
 '저는': 7,
 '과일이': 0,
 '좋아요': 8}

In [13]:
# sorted 함수를 통해서 단어를 정렬
sorted(vect.vocabulary_)

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

In [14]:
import pandas as pd
countvect_df = pd.DataFrame(countvect.toarray(), columns= sorted(vect.vocabulary_))
countvect_df.index = ['문서1','문서2','문서3','문서4']
countvect_df

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
문서1,0,0,0,1,0,1,1,0,0
문서2,0,0,0,1,1,0,1,0,0
문서3,0,1,1,0,2,0,0,0,0
문서4,1,0,0,0,0,0,0,1,1


In [15]:
# 위의 Data Frame 형태의 유사도를 계산
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(countvect_df, countvect_df)

array([[1.        , 0.66666667, 0.        , 0.        ],
       [0.66666667, 1.        , 0.47140452, 0.        ],
       [0.        , 0.47140452, 1.        , 0.        ],
       [0.        , 0.        , 0.        , 1.        ]])

In [None]:
# 문서1과 문서2가 유사하다
# 문서2와 문서3이 유사하다
# 위 결과로
# 문서1을 본 사람에게 문서2를 추천할 수 있다 (서로 유사하기 때문)
# 문서2을 본 사람에게 문서1과 뮨서3을 추천할 수 있다 (서로 유사하기 때문)
# 다만 의미없는 공통 단어(예. 조사 등)가 많이 나옴으로 그들을 제거해야 더 나은 품질릐 추천이 가능

In [19]:
# CountVecterizer -> TfidfVectorizer 로 변경
from sklearn.feature_extraction.text import TfidfVectorizer
vect = TfidfVectorizer()
tfidvect = vect.fit(docs)
tfidvect

TfidfVectorizer()

In [20]:
tfidvect_df = pd.DataFrame(tfidvect.transform(docs).toarray(), columns= sorted(vect.vocabulary_))
tfidvect_df.index = ['문서1','문서2','문서3','문서4']
tfidvect_df

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
문서1,0.0,0.0,0.0,0.526405,0.0,0.667679,0.526405,0.0,0.0
문서2,0.0,0.0,0.0,0.57735,0.57735,0.0,0.57735,0.0,0.0
문서3,0.0,0.47212,0.47212,0.0,0.74445,0.0,0.0,0.0,0.0
문서4,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.57735


In [21]:
cosine_similarity(tfidvect_df,tfidvect_df)

array([[1.        , 0.60784064, 0.        , 0.        ],
       [0.60784064, 1.        , 0.42980824, 0.        ],
       [0.        , 0.42980824, 1.        , 0.        ],
       [0.        , 0.        , 0.        , 1.        ]])

In [None]:
# idf값이 소프트웨어 마다 정의하는 값이 다를 수 있음으로 값이 환경에 따라 다를 수 있다