# 1. 컨텐츠 기반 모델
1. 정의
    - 참고 : recommendation systems handbook(Francesco Ricci)
    - 컨텐츠 기반 추천시스템은 사용자가 이전에 구매한 상품중에서 좋아하는 상품들과 유사한 상품들을 추천하는 방법
2. Represented Items
    - Items을 벡터 형태로 표현. 도메인에 따라 다른 방법이 적용
    - `텍스트` -> TF-IDF, BERT, Word2Vec, CounterVectorizer(빈도수 기반) 자연어처리 모델을 통해 벡터화 가능
    - `이미지` -> CNN, VGG (딥러닝 기반 모델) 벡터화 가능
    - 아이템 > 벡터화 > 벡터들간의 유사도를 계산 > 벡터1부터 N까지 자신과 유사한 벡터를 추출

# 2. 유사도 함수
- 참고 : https://cmry.github.io/notes/euclidean-v-cosine
- 참고 : https://bab2min.tistory.com/566
1. 유클리디안 유사도
    - 문서간의 유사도를 계산
    - 유클리디안 유사도 = 1 / (유클리디안 거리 + 1e-05)
    - 장점 : 계산하기가 쉬움
        - 각각의 요소 (컬럼 하나하나)가 크기에 민감하거나 중요한 경우 효과를 볼 수 있다. 
    - 단점 : p와 q의 분포가 다르거나 범위가 다른 경우에 상관성을 놓침
2. 코사인 유사도
    - 문서간의 유사도를 계산
    - 장점 : 벡터의 크기가 중요하지 않은 경우에 거리를 측정하기 위한 메트릭으로 사용
        - 예) 문서 내에서 단어의 빈도수
        -   문서들의 길이가 고르지 않더라도 문서내에서 얼마나 나왔는지라는 비율을 확인하기 때문에 상관없음
    - 단점 : 벡터의 크기가 중요한 경우에 대해서 잘 작동하지 않음
3. 피어슨 유사도
    - 문서간의 유사도를 계산
4. 자카드 유사도
    - 문서간의 유사도를 계산

# 3-1. 자연어 처리 알고리즘 - TF-IDF
- 참고 : https://wikidocs.net/31698
1. 정의
    - TF-IDF는 특정 문서 내에 특정 단어가 얼마나 자주 등장하는지를 의미하는 **단어 빈도(TF)**
    -   전체 문서에서 특정 단어가 얼마나 자주 등장하는지를 의미하는 역문서 빈도(DF)
    -   "다른 문서에는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어"를 찾아서 문서 내 가중치를 계산하는 방법
2. 용도 
    - 문서의 핵심어를 추출, 문서들 사시의 유사도를 계산, 검색 결과의 중요도를 정하는 작업 등에 활용
3. TF, DF, IDF 정의
    - `TF`(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수
    - `DF`(t) : 특정 단어 t가 등장한 문서의 수
    - `IDF`(d, t) : DF(t)에 반비례하는 수
    - TF(d,t) * IDF(d,t) = TF-IDF(d,t)

# 3-2. TF-IDF를 사용하는 이유
- 참고 : https://chan-lab.tistory.com/24
1. Item이라는 컨텐츠를 벡터로 "Feature Extract" 과정을 수행해준다.
2. 빈도수를 기반으로 많이 나오는 중요한 단어들을 잡아준다. => Counter Vectorizer
3. Counter Vectorizer는 단순 빈도만을 계산
    - 조사, 관사처럼 의미는 없지만 문장에 많이 등장하는 단어들도 높게 쳐주는 한계가 있음
    - 이러한 단어들에는 패널티를 줘서 적절하게 중요한 단어만을 잡아내는 것이 TF-IDF 기법이다.

# 3-3. TF-IDF의 장점과 단점
1. 장점
    - 직관적인 해석이 가능
2. 단점
    - 대규모 말뭉치를 다룰 때 메모리 상의 문제가 발생
    - 높은 차원을 가짐
    - 매우 sparse한 형태의 데이터

# 4. TF-IDF 코드 연습

In [4]:
docs = [
    '먹고 싶은 사과',
    '먹고 싶은 바나나',
    '길고 노란 바나나 바나나',
    '저는 과일이 좋아요'
]
docs

['먹고 싶은 사과', '먹고 싶은 바나나', '길고 노란 바나나 바나나', '저는 과일이 좋아요']

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

In [6]:
# 문장을 Counter Vectorizer 형태로 변형
countvect = vect.fit_transform(docs)
countvect   # 4 * 9 : 4개의 문서에 9개의 단어

<4x9 sparse matrix of type '<class 'numpy.int64'>'
	with 12 stored elements in Compressed Sparse Row format>

In [7]:
# toarray()를 통해서 문장이 Vector 형태의 값을 얻을 수 있음
# 하지만, 각 인덱스와 컬럼이 무엇을 의미하는지에 대해서는 알 수가 없음
# sparse matrix -> numpy
countvect.toarray()

array([[0, 0, 0, 1, 0, 1, 1, 0, 0],
       [0, 0, 0, 1, 1, 0, 1, 0, 0],
       [0, 1, 1, 0, 2, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 1, 1]], dtype=int64)

In [8]:
# dict 형태로, 각각의 단어가 인덱스를 가지고 있다는 것을 알 수 있음
# 즉, 각 단어가 어떤 컬럼에 위치하는지를 알 수 있다. 
vect.vocabulary_

{'먹고': 3,
 '싶은': 6,
 '사과': 5,
 '바나나': 4,
 '길고': 1,
 '노란': 2,
 '저는': 7,
 '과일이': 0,
 '좋아요': 8}

In [9]:
# sorted라는 함수를 통해서 단어를 정렬
# value 값을 기준으로 순서대로 정렬
sorted(vect.vocabulary_)

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

In [10]:
import pandas as pd
countvect_df = pd.DataFrame(countvect.toarray(), columns=sorted(vect.vocabulary_))
countvect_df.index = ["문서1", "문서2", "문서3", "문서4"]
countvect_df

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
문서1,0,0,0,1,0,1,1,0,0
문서2,0,0,0,1,1,0,1,0,0
문서3,0,1,1,0,2,0,0,0,0
문서4,1,0,0,0,0,0,0,1,1


In [11]:
# 코사인 유사도를 사용하여 유사도 측정
#   0번 문서는 1번과 유사하다는 결론을 얻을 수 있다. 
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(countvect_df, countvect_df)

array([[1.        , 0.66666667, 0.        , 0.        ],
       [0.66666667, 1.        , 0.47140452, 0.        ],
       [0.        , 0.47140452, 1.        , 0.        ],
       [0.        , 0.        , 0.        , 1.        ]])

In [12]:
# CountVectorizer -> TfidVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
vect = TfidfVectorizer()
tfvect = vect.fit(docs)

In [13]:
tfidf_df = pd.DataFrame(tfvect.transform(docs).toarray(), columns=sorted(vect.vocabulary_))
tfidf_df.index = ["문서1", "문서2", "문서3", "문서4"]
tfidf_df

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
문서1,0.0,0.0,0.0,0.526405,0.0,0.667679,0.526405,0.0,0.0
문서2,0.0,0.0,0.0,0.57735,0.57735,0.0,0.57735,0.0,0.0
문서3,0.0,0.47212,0.47212,0.0,0.74445,0.0,0.0,0.0,0.0
문서4,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.57735


In [14]:
# 유사도 측정
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_df, tfidf_df)

array([[1.        , 0.60784064, 0.        , 0.        ],
       [0.60784064, 1.        , 0.42980824, 0.        ],
       [0.        , 0.42980824, 1.        , 0.        ],
       [0.        , 0.        , 0.        , 1.        ]])

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer
vect = TfidfVectorizer(max_features=4)
tfvect = vect.fit(docs)

In [16]:
tfidv_df = pd.DataFrame(tfvect.transform(docs).toarray(), columns = sorted(vect.vocabulary_))
tfidv_df.index = ['문서1', '문서2', '문서3', '문서4']
tfidv_df

Unnamed: 0,과일이,먹고,바나나,싶은
문서1,0.0,0.707107,0.0,0.707107
문서2,0.0,0.57735,0.57735,0.57735
문서3,0.0,0.0,1.0,0.0
문서4,1.0,0.0,0.0,0.0


# 5. TF-IDF 코드 연습

- 예제 : https://wikidocs.net/24603

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [9]:
data = pd.read_csv('../kaggle/movies_metadata.csv')
data.head(2)

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41,Unnamed: 42,Unnamed: 43,Unnamed: 44
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000.0,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,,,,,,,,,,
1,False,,65000000.0,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,,,,,,,,,,


In [12]:
data["overview"].head()

0    Led by Woody, Andy's toys live happily in his ...
1    When siblings Judy and Peter discover an encha...
2    A family wedding reignites the ancient feud be...
3    Cheated on, mistreated and stepped on, the wom...
4    Just when George Banks has recovered from his ...
Name: overview, dtype: object

In [13]:
data.columns

Index(['adult', 'belongs_to_collection', 'budget', 'genres', 'homepage', 'id',
       'imdb_id', 'original_language', 'original_title', 'overview',
       'popularity', 'poster_path', 'production_companies',
       'production_countries', 'release_date', 'revenue', 'runtime',
       'spoken_languages', 'status', 'tagline', 'title', 'video',
       'vote_average', 'vote_count', 'Unnamed: 24', 'Unnamed: 25',
       'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29',
       'Unnamed: 30', 'Unnamed: 31', 'Unnamed: 32', 'Unnamed: 33',
       'Unnamed: 34', 'Unnamed: 35', 'Unnamed: 36', 'Unnamed: 37',
       'Unnamed: 38', 'Unnamed: 39', 'Unnamed: 40', 'Unnamed: 41',
       'Unnamed: 42', 'Unnamed: 43', 'Unnamed: 44'],
      dtype='object')

In [15]:
# overview의 결측치가 있는 항목은 모두 제거
data = data[data['overview'].notnull()].reset_index(drop=True)
data.shape

(44502, 45)

In [24]:
data = data.loc[:10000].reset_index(drop=True)

In [16]:
# .notnull() : 결측치가 없으면 True, 있으면 False
data['overview'].notnull()

0        True
1        True
2        True
3        True
4        True
         ... 
44497    True
44498    True
44499    True
44500    True
44501    True
Name: overview, Length: 44502, dtype: bool

In [29]:
# 불용어 : 유의미하지 않은 단어 토큰을 제거
# https://wikidocs.net/22530
tfidf = TfidfVectorizer(stop_words='english')

# overview에 대해서 tf-idf 수행
tfidf_matrix = tfidf.fit_transform(data["overview"])
print(tfidf_matrix.shape)

(10001, 32196)


In [30]:
# 유사도 구하기
from sklearn.metrics.pairwise import cosine_similarity
cosine_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix)

# 메모리 에러가 발생한다면, TF-IDF의 파라미터를 수정
#   위의 경우 에러 발생한다면, 문서의 수를 조금 줄여서 실행 시도해보기

In [31]:
cosine_matrix.shape

(10001, 10001)

In [None]:
# cosine_matrix
# 인덱스 0 -> 1 -> 2 -> ... -> n
# 0 인덱스 : 0번째 id 영화

In [32]:
np.round(cosine_matrix, 4)

array([[1.    , 0.0168, 0.    , ..., 0.    , 0.    , 0.    ],
       [0.0168, 1.    , 0.0488, ..., 0.    , 0.    , 0.    ],
       [0.    , 0.0488, 1.    , ..., 0.    , 0.005 , 0.    ],
       ...,
       [0.    , 0.    , 0.    , ..., 1.    , 0.    , 0.    ],
       [0.    , 0.    , 0.005 , ..., 0.    , 1.    , 0.    ],
       [0.    , 0.    , 0.    , ..., 0.    , 0.    , 1.    ]])

In [34]:
# movie title와 id를 매핑할 dictionary를 생성해준다.
movie2id = {}
for i, c in enumerate(data["title"]):
    movie2id[i] = c

In [35]:
# id와 movie title을 매핑할 dictionary를 생성해준다.
id2movie = {}
for i, c in movie2id.items():
    id2movie[c] = i

In [36]:
movie2id

{0: 'Toy Story',
 1: 'Jumanji',
 2: 'Grumpier Old Men',
 3: 'Waiting to Exhale',
 4: 'Father of the Bride Part II',
 5: 'Heat',
 6: 'Sabrina',
 7: 'Tom and Huck',
 8: 'Sudden Death',
 9: 'GoldenEye',
 10: 'The American President',
 11: 'Dracula: Dead and Loving It',
 12: 'Balto',
 13: 'Nixon',
 14: 'Cutthroat Island',
 15: 'Casino',
 16: 'Sense and Sensibility',
 17: 'Four Rooms',
 18: 'Ace Ventura: When Nature Calls',
 19: 'Money Train',
 20: 'Get Shorty',
 21: 'Copycat',
 22: 'Assassins',
 23: 'Powder',
 24: 'Leaving Las Vegas',
 25: 'Othello',
 26: 'Now and Then',
 27: 'Persuasion',
 28: 'The City of Lost Children',
 29: 'FALSE',
 30: 'Dangerous Minds',
 31: 'Twelve Monkeys',
 32: 'Babe',
 33: 'Carrington',
 34: 'Dead Man Walking',
 35: 'Across the Sea of Time',
 36: 'It Takes Two',
 37: 'Clueless',
 38: 'Cry, the Beloved Country',
 39: 'Richard III',
 40: 'Dead Presidents',
 41: 'Restoration',
 42: 'Mortal Kombat',
 43: 'To Die For',
 44: 'How To Make An American Quilt',
 45: 'Se7e

In [37]:
id2movie

{'Toy Story': 0,
 'Jumanji': 1,
 'Grumpier Old Men': 2,
 'Waiting to Exhale': 3,
 'Father of the Bride Part II': 4,
 'Heat': 5,
 'Sabrina': 876,
 'Tom and Huck': 7,
 'Sudden Death': 8,
 'GoldenEye': 9,
 'The American President': 10,
 'Dracula: Dead and Loving It': 11,
 'Balto': 12,
 'Nixon': 13,
 'Cutthroat Island': 14,
 'Casino': 15,
 'Sense and Sensibility': 16,
 'Four Rooms': 17,
 'Ace Ventura: When Nature Calls': 18,
 'Money Train': 19,
 'Get Shorty': 20,
 'Copycat': 21,
 'Assassins': 22,
 'Powder': 23,
 'Leaving Las Vegas': 24,
 'Othello': 2714,
 'Now and Then': 26,
 'Persuasion': 27,
 'The City of Lost Children': 28,
 'FALSE': 9823,
 'Dangerous Minds': 30,
 'Twelve Monkeys': 31,
 'Babe': 32,
 'Carrington': 33,
 'Dead Man Walking': 34,
 'Across the Sea of Time': 35,
 'It Takes Two': 36,
 'Clueless': 37,
 'Cry, the Beloved Country': 38,
 'Richard III': 7159,
 'Dead Presidents': 40,
 'Restoration': 41,
 'Mortal Kombat': 42,
 'To Die For': 43,
 'How To Make An American Quilt': 44,
 '

In [33]:
# enumerate 함수
for i, c in enumerate(data["title"]):
    print(i)    # 0번째 for 문
    print(c)
    break

0
Toy Story


In [38]:
# ToyStory 인덱스 추출
idx = id2movie["Toy Story"]
idx

0

In [44]:
# Toy Story의 id 추출
idx = id2movie["Toy Story"]     # Toy Story : 0번 인덱스

In [42]:
# 자기 자신을 제외한 영화들의 유사도 및 인덱스를 추출
# i는 for문이 돌아가는 순서, c는 코사인 값
sim_scores = [(i, c) for i,c in enumerate(cosine_matrix[idx]) if i != idx]
sim_scores

[(1, 0.016807085204502855),
 (2, 0.0),
 (3, 0.0),
 (4, 0.0),
 (5, 0.0),
 (6, 0.0),
 (7, 0.0),
 (8, 0.0),
 (9, 0.0),
 (10, 0.0),
 (11, 0.0),
 (12, 0.0),
 (13, 0.0),
 (14, 0.0),
 (15, 0.0),
 (16, 0.0),
 (17, 0.043525638955352226),
 (18, 0.0),
 (19, 0.0),
 (20, 0.010511312286368242),
 (21, 0.0),
 (22, 0.0),
 (23, 0.0),
 (24, 0.0),
 (25, 0.0),
 (26, 0.0),
 (27, 0.0),
 (28, 0.0),
 (29, 0.0),
 (30, 0.0),
 (31, 0.0),
 (32, 0.02053007393763285),
 (33, 0.0),
 (34, 0.0),
 (35, 0.0),
 (36, 0.0),
 (37, 0.0),
 (38, 0.0),
 (39, 0.0),
 (40, 0.0),
 (41, 0.006246310190744452),
 (42, 0.0),
 (43, 0.0),
 (44, 0.009704884995573093),
 (45, 0.0),
 (46, 0.0),
 (47, 0.0),
 (48, 0.014902408058206902),
 (49, 0.010296680922177188),
 (50, 0.011400011746956994),
 (51, 0.0),
 (52, 0.0),
 (53, 0.02012544061231694),
 (54, 0.0),
 (55, 0.02544545209158266),
 (56, 0.02146657747119586),
 (57, 0.0),
 (58, 0.03571931653201298),
 (59, 0.0),
 (60, 0.0),
 (61, 0.00901184025722227),
 (62, 0.0),
 (63, 0.010443927965980824),
 (64

- Toy Story overview 기준으로 TF-IDF 정렬한 결과

In [43]:
# 유사도가 높은 순서대로 정렬
# lambda x: x[1] --> key가 아닌 value 값으로 정렬이 가능하다.
sim_scores = sorted(sim_scores, key = lambda x: x[1], reverse=True)
sim_scores[0:10]    # 상위 10개의 인덱스와 유사도를 추출

[(2978, 0.4560256291620608),
 (8301, 0.21234153912957457),
 (1058, 0.18320385773422146),
 (3038, 0.14778930874265994),
 (1916, 0.14169676763323638),
 (483, 0.14111028386666163),
 (5775, 0.136456306862921),
 (7228, 0.13001606154168252),
 (6918, 0.1261275708516441),
 (7589, 0.12445937669265004)]