# 코사인 유사도(Cosine Similarity)

## '일상생활 속 기하' 보고서를 작성할 때 찾아본 코사인 유사도 이용해서 영화 추천 프로그램을 만들어보았다.

### 본격적으로 프로그램을 만들기 전  
### Numpy를 이용해 코사인 유사도를 계산하는 함수를 만들고 테스트

In [2]:
import numpy as np
from numpy import dot # 내적 함수
from numpy.linalg import norm # 벡터 정규화

# 코사인 유사도 함수
def coSim(a, b):
    return dot(a, b)/(norm(a)*norm(b))

doc1 = np.array([1, 1, 1, 1]) # 숫자는 단어의 빈도를 나타냄
doc2 = np.array([1, 0, 1, 1])
doc3 = np.array([2, 2, 2, 2])

print('문서 1, 2의 유사도: ', coSim(doc1, doc2))
print('문서 1, 3의 유사도: ', coSim(doc1, doc3))
print('문서 2, 3의 유사도: ', coSim(doc2, doc3))

문서 1, 2의 유사도:  0.8660254037844387
문서 1, 3의 유사도:  1.0
문서 2, 3의 유사도:  0.8660254037844387


여기서 문서 1, 2의 유사도, 문서 2, 3의 유사도가 같다.  
배열에 들어있는 숫자는 문서에서 단어 빈도인데, 코사인 유사도는 벡터의 크기가 아니라 벡터의 방향에 초점을 두기 때문에 유사도가 같게 나타난다.

## 프로그램 제작

### 캐글 영화 데이터 샘플 확인
데이터 다운로드 링크: https://www.kaggle.com/rounakbanik/the-movies-dataset

In [3]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

data = pd.read_csv('movies_metadata.csv', low_memory=False)
data.head(2)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0


In [14]:
data = data.head(20000)

### 데이터 overwiew 열에 Null 값이 있는지 확인

In [15]:
print('overview 열의 결측값 수:', data['overview'].isnull().sum())

overview 열의 결측값 수: 0


In [16]:
# 빈 값으로 대체
data['overview'] = data['overview'].fillna('')

In [17]:
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(data['overview'])
print('TF-IDF 행렬의 크기(shape):', tfidf_matrix.shape)

TF-IDF 행렬의 크기(shape): (20000, 47487)


In [18]:
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
print('코사인 유사도 연산 결과:', cosine_sim.shape)

MemoryError: Unable to allocate 2.98 GiB for an array with shape (20000, 20000) and data type float64

https://wikidocs.net/24603