# 1. 컨텐츠 기반 모델
1. 정의
    - 참고 : recommendation systems handbook(Francesco Ricci)
    - 컨텐츠 기반 추천시스템은 사용자가 이전에 구매한 상품중에서 좋아하는 상품들과 유사한 상품들을 추천하는 방법
2. Represented Items
    - Items을 벡터 형태로 표현. 도메인에 따라 다른 방법이 적용
    - `텍스트` -> TF-IDF, BERT, Word2Vec, CounterVectorizer(빈도수 기반) 자연어처리 모델을 통해 벡터화 가능
    - `이미지` -> CNN, VGG (딥러닝 기반 모델) 벡터화 가능
    - 아이템 > 벡터화 > 벡터들간의 유사도를 계산 > 벡터1부터 N까지 자신과 유사한 벡터를 추출

# 2. 유사도 함수
- 참고 : https://cmry.github.io/notes/euclidean-v-cosine
- 참고 : https://bab2min.tistory.com/566
1. 유클리디안 유사도
    - 문서간의 유사도를 계산
    - 유클리디안 유사도 = 1 / (유클리디안 거리 + 1e-05)
    - 장점 : 계산하기가 쉬움
        - 각각의 요소 (컬럼 하나하나)가 크기에 민감하거나 중요한 경우 효과를 볼 수 있다. 
    - 단점 : p와 q의 분포가 다르거나 범위가 다른 경우에 상관성을 놓침
2. 코사인 유사도
    - 문서간의 유사도를 계산
    - 장점 : 벡터의 크기가 중요하지 않은 경우에 거리를 측정하기 위한 메트릭으로 사용
        - 예) 문서 내에서 단어의 빈도수
        -   문서들의 길이가 고르지 않더라도 문서내에서 얼마나 나왔는지라는 비율을 확인하기 때문에 상관없음
    - 단점 : 벡터의 크기가 중요한 경우에 대해서 잘 작동하지 않음
3. 피어슨 유사도
    - 문서간의 유사도를 계산
4. 자카드 유사도
    - 문서간의 유사도를 계산

# 3-1. 자연어 처리 알고리즘 - TF-IDF
- 참고 : https://wikidocs.net/31698
1. 정의
    - TF-IDF는 특정 문서 내에 특정 단어가 얼마나 자주 등장하는지를 의미하는 **단어 빈도(TF)**
    -   전체 문서에서 특정 단어가 얼마나 자주 등장하는지를 의미하는 역문서 빈도(DF)
    -   "다른 문서에는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어"를 찾아서 문서 내 가중치를 계산하는 방법
2. 용도 
    - 문서의 핵심어를 추출, 문서들 사시의 유사도를 계산, 검색 결과의 중요도를 정하는 작업 등에 활용
3. TF, DF, IDF 정의
    - `TF`(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수
    - `DF`(t) : 특정 단어 t가 등장한 문서의 수
    - `IDF`(d, t) : DF(t)에 반비례하는 수
    - TF(d,t) * IDF(d,t) = TF-IDF(d,t)

# 3-2. TF-IDF를 사용하는 이유
- 참고 : https://chan-lab.tistory.com/24
1. Item이라는 컨텐츠를 벡터로 "Feature Extract" 과정을 수행해준다.
2. 빈도수를 기반으로 많이 나오는 중요한 단어들을 잡아준다. => Counter Vectorizer
3. Counter Vectorizer는 단순 빈도만을 계산
    - 조사, 관사처럼 의미는 없지만 문장에 많이 등장하는 단어들도 높게 쳐주는 한계가 있음
    - 이러한 단어들에는 패널티를 줘서 적절하게 중요한 단어만을 잡아내는 것이 TF-IDF 기법이다.

# 3-3. TF-IDF의 장점과 단점
1. 장점
    - 직관적인 해석이 가능
2. 단점
    - 대규모 말뭉치를 다룰 때 메모리 상의 문제가 발생
    - 높은 차원을 가짐
    - 매우 sparse한 형태의 데이터

# 4. TF-IDF 코드 연습

In [4]:
docs = [
    '먹고 싶은 사과',
    '먹고 싶은 바나나',
    '길고 노란 바나나 바나나',
    '저는 과일이 좋아요'
]
docs

['먹고 싶은 사과', '먹고 싶은 바나나', '길고 노란 바나나 바나나', '저는 과일이 좋아요']

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

In [6]:
# 문장을 Counter Vectorizer 형태로 변형
countvect = vect.fit_transform(docs)
countvect   # 4 * 9 : 4개의 문서에 9개의 단어

<4x9 sparse matrix of type '<class 'numpy.int64'>'
	with 12 stored elements in Compressed Sparse Row format>

In [7]:
# toarray()를 통해서 문장이 Vector 형태의 값을 얻을 수 있음
# 하지만, 각 인덱스와 컬럼이 무엇을 의미하는지에 대해서는 알 수가 없음
# sparse matrix -> numpy
countvect.toarray()

array([[0, 0, 0, 1, 0, 1, 1, 0, 0],
       [0, 0, 0, 1, 1, 0, 1, 0, 0],
       [0, 1, 1, 0, 2, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 1, 1]], dtype=int64)

In [8]:
# dict 형태로, 각각의 단어가 인덱스를 가지고 있다는 것을 알 수 있음
# 즉, 각 단어가 어떤 컬럼에 위치하는지를 알 수 있다. 
vect.vocabulary_

{'먹고': 3,
 '싶은': 6,
 '사과': 5,
 '바나나': 4,
 '길고': 1,
 '노란': 2,
 '저는': 7,
 '과일이': 0,
 '좋아요': 8}

In [9]:
# sorted라는 함수를 통해서 단어를 정렬
# value 값을 기준으로 순서대로 정렬
sorted(vect.vocabulary_)

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

In [10]:
import pandas as pd
countvect_df = pd.DataFrame(countvect.toarray(), columns=sorted(vect.vocabulary_))
countvect_df.index = ["문서1", "문서2", "문서3", "문서4"]
countvect_df

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
문서1,0,0,0,1,0,1,1,0,0
문서2,0,0,0,1,1,0,1,0,0
문서3,0,1,1,0,2,0,0,0,0
문서4,1,0,0,0,0,0,0,1,1


In [11]:
# 코사인 유사도를 사용하여 유사도 측정
#   0번 문서는 1번과 유사하다는 결론을 얻을 수 있다. 
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(countvect_df, countvect_df)

array([[1.        , 0.66666667, 0.        , 0.        ],
       [0.66666667, 1.        , 0.47140452, 0.        ],
       [0.        , 0.47140452, 1.        , 0.        ],
       [0.        , 0.        , 0.        , 1.        ]])

In [12]:
# CountVectorizer -> TfidVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
vect = TfidfVectorizer()
tfvect = vect.fit(docs)

In [13]:
tfidf_df = pd.DataFrame(tfvect.transform(docs).toarray(), columns=sorted(vect.vocabulary_))
tfidf_df.index = ["문서1", "문서2", "문서3", "문서4"]
tfidf_df

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
문서1,0.0,0.0,0.0,0.526405,0.0,0.667679,0.526405,0.0,0.0
문서2,0.0,0.0,0.0,0.57735,0.57735,0.0,0.57735,0.0,0.0
문서3,0.0,0.47212,0.47212,0.0,0.74445,0.0,0.0,0.0,0.0
문서4,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.57735


In [14]:
# 유사도 측정
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_df, tfidf_df)

array([[1.        , 0.60784064, 0.        , 0.        ],
       [0.60784064, 1.        , 0.42980824, 0.        ],
       [0.        , 0.42980824, 1.        , 0.        ],
       [0.        , 0.        , 0.        , 1.        ]])

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer
vect = TfidfVectorizer(max_features=4)
tfvect = vect.fit(docs)

In [16]:
tfidv_df = pd.DataFrame(tfvect.transform(docs).toarray(), columns = sorted(vect.vocabulary_))
tfidv_df.index = ['문서1', '문서2', '문서3', '문서4']
tfidv_df

Unnamed: 0,과일이,먹고,바나나,싶은
문서1,0.0,0.707107,0.0,0.707107
문서2,0.0,0.57735,0.57735,0.57735
문서3,0.0,0.0,1.0,0.0
문서4,1.0,0.0,0.0,0.0


# 5. TF-IDF 코드 연습

- 예제 : https://wikidocs.net/24603

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [8]:
data = pd.read_csv('../kaggle/movies_metadata.csv')
data.head()

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41,Unnamed: 42,Unnamed: 43,Unnamed: 44
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000.0,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,,,,,,,,,,
1,False,,65000000.0,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,,,,,,,,,,
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0.0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,,,,,,,,,,
3,False,,16000000.0,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,,,,,,,,,,
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0.0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,,,,,,,,,,
