In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

data = pd.read_csv('../data/movies_metadata.csv', low_memory=False)
data.head(2)

data = data.head(3000)

data['overview'].isnull().sum()

# overview에서 Null 값을 가진 경우에는 Null 값을 제거
data['overview'] = data['overview'].fillna('')

tfidf = TfidfVectorizer(stop_words='english')
# overview에 대해서 tf-idf 수행
tfidf_matrix = tfidf.fit_transform(data['overview'])
print(tfidf_matrix.shape)
# overview 열에 대해서 tf-idf를 수행했습니다. 20,000개의 영화를 표현하기위해 총 47,487개의 단어가 사용되었음을 보여주고 있습니다.
# 이제 코사인 유사도를 사용하면 바로 문서의 유사도를 구할 수 있습니다.

cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)
# 코사인 유사도를 구합니다.

indices = pd.Series(data.index, index=data['title']).drop_duplicates()
print(indices.head())
# 영화의 타이틀과 인덱스를 가진 테이블을 만듭니다. 이 중 5개만 출력해보도록 하겠습니다.
# 이 테이블의 용도는 영화의 타이틀을 입력하면 인덱스를 리턴하기 위함입니다.

idx = indices['Father of the Bride Part II']
print(idx)

# 이제 선택한 영화에 대해서 코사인 유사도를 이용하여, 가장 overview가 유사한 10개의 영화를 찾아내는 함수를 만듭니다.
def get_recommendations(title, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당되는 인덱스를 받아옵니다. 이제 선택한 영화를 가지고 연산할 수 있습니다.
    idx = indices[title]

    # 모든 영화에 대해서 해당 영화와의 유사도를 구합니다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬합니다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아옵니다.
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 인덱스를 받아옵니다.
    movie_indices = [i[0] for i in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴합니다.
    return data['title'].iloc[movie_indices]

get_recommendations('Toy Story')

(3000, 17186)
title
Toy Story                      0
Jumanji                        1
Grumpier Old Men               2
Waiting to Exhale              3
Father of the Bride Part II    4
dtype: int64
4


2997              Toy Story 2
1071    Rebel Without a Cause
485                    Malice
1932                Condorman
448         For Love or Money
1032            The Sunchaser
2157        Indecent Proposal
1884           Child's Play 3
2635               Radio Days
2681               Funny Farm
Name: title, dtype: object

In [4]:
print(type(data['overview']))

<class 'pandas.core.series.Series'>


In [2]:
import pandas as pd
data2 = pd.read_csv('../smart_refrigerator/output/냉장고재료test용.csv', low_memory=False)
s = ' '.join(data2['ingredient'])
data.loc[400] = ['냉장고재료',s,s,s,s]

FileNotFoundError: [Errno 2] No such file or directory: '../smart_refrigerator/output/냉장고재료test용.csv'

In [29]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

# data = pd.read_csv('../smart_refrigerator/output/test.csv', low_memory=False)
data2 = pd.read_csv('../smart_refrigerator/output/냉장고재료test용.csv', low_memory=False)

data['ingredient'] = data['ingredint_name'].fillna('')
data2['ingredient'] = data2['ingredient'].fillna('')

tfidf = TfidfVectorizer()
# overview에 대해서 tf-idf 수행
tfidf_matrix = tfidf.fit_transform(data['ingredient'])
tfidf_matrix2 = tfidf.fit_transform(data2['ingredient'])

print(tfidf_matrix.shape)
print(tfidf_matrix2.shape)
# overview 열에 대해서 tf-idf를 수행했습니다. 20,000개의 영화를 표현하기위해 총 47,487개의 단어가 사용되었음을 보여주고 있습니다.
# 이제 코사인 유사도를 사용하면 바로 문서의 유사도를 구할 수 있습니다.

cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)
# 코사인 유사도를 구합니다.

indices = pd.Series(data.index, index=data['food'])
print(indices.head())
# 영화의 타이틀과 인덱스를 가진 테이블을 만듭니다. 이 중 5개만 출력해보도록 하겠습니다.
# 이 테이블의 용도는 영화의 타이틀을 입력하면 인덱스를 리턴하기 위함입니다.


# 이제 선택한 영화에 대해서 코사인 유사도를 이용하여, 가장 overview가 유사한 10개의 영화를 찾아내는 함수를 만듭니다.
def get_recommendations(food, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당되는 인덱스를 받아옵니다. 이제 선택한 영화를 가지고 연산할 수 있습니다.
    idx = indices[food]

    # 모든 영화에 대해서 해당 영화와의 유사도를 구합니다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬합니다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아옵니다.
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 인덱스를 받아옵니다.
    movie_indices = [i[0] for i in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴합니다.
    return data['food'].iloc[movie_indices]

get_recommendations('냉장고재료')

(401, 455)
(10, 9)
food
소고기 버섯전골 레시피 맛있게 만드는 법                       0
완전맛있는 차돌박이찜! 미소된장마요소스도 함께~                   1
가지등심카나페                                      2
소고기두부볶음 - 아이들 반찬/이유식 반찬으로도 최고죠~옛생각이 절로...    3
담백한 차돌박이부추말이찜 레시피                            4
dtype: int64


34                             차돌박이덮밥 간단한요리
100    (집에서 즐기는 술안주) 스키야키 / 일본식 전골 - 홈파티 요리
65          차돌박이 된장찌개 레시피ㅣ고깃집에서 먹던 바로 그 맛!ㅣ
322                               차돌박이 된장찌개
112                    (간장양념) 차돌박이 볶음우동 만들기
265     밀푀유나베, 소스도 맛있는 밀푀유나베 만드는 법, 손님상 집들이
170                    너~~~무 맛있는 간단한 차돌된장찌개
79                                   차돌된장찌개
70                                쇠고기 달걀 덮밥
268                     아이가 좋아하는 두부 소보로 비빔밥
Name: food, dtype: object