<a href="https://colab.research.google.com/github/hyunicecream/Natural-Language-Processing-NLP-/blob/main/7_6_%EC%9B%94(Movie_'Avatar').ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

data = pd.read_csv('/content/drive/MyDrive/머신러닝/tmdb_5000_movies.csv')

print(data['title'])
print(data['overview'])

0                                         Avatar
1       Pirates of the Caribbean: At World's End
2                                        Spectre
3                          The Dark Knight Rises
4                                    John Carter
                          ...                   
4798                                 El Mariachi
4799                                   Newlyweds
4800                   Signed, Sealed, Delivered
4801                            Shanghai Calling
4802                           My Date with Drew
Name: title, Length: 4803, dtype: object
0       In the 22nd century, a paraplegic Marine is di...
1       Captain Barbossa, long believed to be dead, ha...
2       A cryptic message from Bond’s past sends him o...
3       Following the death of District Attorney Harve...
4       John Carter is a war-weary, former military ca...
                              ...                        
4798    El Mariachi just wants to play his guitar and ...
4799    A newl

In [None]:
# null 값 확인 overview = 3 개, title = 0개
data['overview'].isnull().sum()
data['title'].isnull().sum()

0

In [None]:
# overview의 null 값을 빈 공백으로 채워준다. 
data['overview'] = data['overview'].fillna('')
data['overview'].isnull().sum()

0

In [None]:
# overview에 대해서 tf-idf 수행
# 벡터라이저가 단어들을 학습시킨다
tfidf = TfidfVectorizer(stop_words='english') 
# stop_words='english' 문서에 단어장을 생성할 때 무시할 수 있는 단어를 말한다. 
tfidf_matrix = tfidf.fit_transform(data['overview'])
tfidf.vocabulary_ # 벡터라이저가 학습된 단어를 출력한다. 
sorted(tfidf.vocabulary_.items()) # 단어사전을 정렬한다. 
print(tfidf_matrix.shape)
# 4803개의 영화를 표현하기 위해 총 21262개의 단어가 사용되어 있음

(4803, 20978)


In [None]:
# sklearn.metrics.pairwise의 cosine_similarity 을 통해서 기존에 만들어 놓은 tfidf_matrix를 넣으면 코사인 유사도가 계산된다. 
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
title_list = pd.Series(data.index, index=data['title'])
print(title_list.head())

title
Avatar                                      0
Pirates of the Caribbean: At World's End    1
Spectre                                     2
The Dark Knight Rises                       3
John Carter                                 4
dtype: int64


In [None]:
def get_recommendations(title, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당되는 인덱스를 받아옵니다. 이제 선택한 영화를 가지고 연산할 수 있다.
    idx = title_list[title]

    # 모든 영화에 대해서 해당 영화와의 유사도를 구한다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬힌디. 
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아온다.
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 인덱스를 받아온다.
    movie_indices = [i[0] for i in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴한다.
    return data['title'].iloc[movie_indices]
    

In [None]:
get_recommendations('Avatar')

3604                       Apollo 18
2130                    The American
634                       The Matrix
1341            The Inhabited Island
529                 Tears of the Sun
1610                           Hanna
311     The Adventures of Pluto Nash
847                         Semi-Pro
775                        Supernova
2628             Blood and Chocolate
Name: title, dtype: object