<a href="https://colab.research.google.com/github/hdpark1208/StudyCode/blob/main/NLP/NLP_VectorSimilarity%26LevenshteinDistance.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 코사인 유사도

* Cosine Similarity
![image.png](attachment:image.png)

* TF-IDF 적용

In [None]:
from numpy import dot
from numpy.linalg import norm
import numpy as np
def cos_sim(A, B):
       return dot(A, B)/(norm(A)*norm(B))
doc1=np.array([0,1,1,1])
doc2=np.array([1,0,1,1])
doc3=np.array([2,0,2,2])

In [None]:
print(cos_sim(doc1, doc2)) #문서1과 문서2의 코사인 유사도
print(cos_sim(doc1, doc3)) #문서1과 문서3의 코사인 유사도
print(cos_sim(doc2, doc3)) #문서2과 문서3의 코사인 유사도

0.6666666666666667
0.6666666666666667
1.0000000000000002


* 코사인 유사도는 문서의 길이가 다른 상황에서 비교적 공정한 비교가 가능하다
> 두 벡터의 사이의 각에 따른 값이므로

* 활용) 유사도를 이용한 추천 시스템 구현

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

In [None]:
data = pd.read_csv('C:/Users/User/0_NLP/movies_metadata.csv',low_memory=False)
data.head(2)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45466 non-null  object 
 1   belongs_to_collection  4494 non-null   object 
 2   budget                 45466 non-null  object 
 3   genres                 45466 non-null  object 
 4   homepage               7782 non-null   object 
 5   id                     45466 non-null  object 
 6   imdb_id                45449 non-null  object 
 7   original_language      45455 non-null  object 
 8   original_title         45466 non-null  object 
 9   overview               44512 non-null  object 
 10  popularity             45461 non-null  object 
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date           45379 non-null  object 
 15  re

In [None]:
data = data.head(20000)
data['overview'].isnull().sum()

135

In [None]:
data['overview'] = data['overview'].fillna('') # Null 값을 empty value 로 대체
data['overview'].isnull().sum()

0

In [None]:
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(data['overview']) # overview에 대해서 tf-idf 수행
print(tfidf_matrix.shape) # 20000개의 'overview' 문장에 총 47,487개의 단어가 쓰였다

(20000, 47487)


In [None]:
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)
type(cosine_sim)

numpy.ndarray

In [None]:
cosine_sim[:3]

array([[1.        , 0.01575748, 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.01575748, 1.        , 0.04907345, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.04907345, 1.        , ..., 0.        , 0.        ,
        0.        ]])

In [None]:
list(enumerate(cosine_sim[0])) # enumerate 를 통해 인덱스를 부여한 튜플로 받고 다시 리스트로 변환

<class 'list'>


[(0, 1.0),
 (1, 0.01575747731678539),
 (2, 0.0),
 (3, 0.0),
 (4, 0.0),
 (5, 0.0),
 (6, 0.0),
 (7, 0.0),
 (8, 0.0),
 (9, 0.0),
 (10, 0.0),
 (11, 0.0),
 (12, 0.0),
 (13, 0.0),
 (14, 0.0),
 (15, 0.0),
 (16, 0.0),
 (17, 0.04113995020790759),
 (18, 0.0),
 (19, 0.0),
 (20, 0.009940909498428007),
 (21, 0.0),
 (22, 0.0),
 (23, 0.0),
 (24, 0.0),
 (25, 0.0),
 (26, 0.0),
 (27, 0.0),
 (28, 0.0),
 (29, 0.0),
 (30, 0.0),
 (31, 0.0),
 (32, 0.0),
 (33, 0.019830795451996588),
 (34, 0.0),
 (35, 0.0),
 (36, 0.0),
 (37, 0.0),
 (38, 0.0),
 (39, 0.0),
 (40, 0.0),
 (41, 0.0),
 (42, 0.0063477440216163795),
 (43, 0.0),
 (44, 0.0),
 (45, 0.00932055532825944),
 (46, 0.0),
 (47, 0.0),
 (48, 0.0),
 (49, 0.013821954288971787),
 (50, 0.00985720337272072),
 (51, 0.010960042528831586),
 (52, 0.0),
 (53, 0.0),
 (54, 0.019958825373755495),
 (55, 0.0),
 (56, 0.02534679843095959),
 (57, 0.020764246377724643),
 (58, 0.0),
 (59, 0.03424230329305141),
 (60, 0.0),
 (61, 0.0),
 (62, 0.00860978874084069),
 (63, 0.0),
 (64, 0.01

In [None]:
# 영화의 타이틀과 인덱스를 가진 테이블을 생성
indices  = pd.Series(data.index, index=data['title']).drop_duplicates()
indices.head()
# 영화의 타이틀을 입력하면 인덱스를 리턴하기 위해

title
Toy Story                      0
Jumanji                        1
Grumpier Old Men               2
Waiting to Exhale              3
Father of the Bride Part II    4
dtype: int64

In [None]:
idx = indices['Father of the Bride Part II']
idx

4

In [None]:
def get_recommendations(title, cosine_sim=cosine_sim):
    
    idx = indices[title] # 선택한 영화의 타이틀을 입력하면 해당하는 인덱스를 저장
    
    sim_scores = list(enumerate(cosine_sim[idx]))
    
    sim_scores = sorted(sim_scores, key=lambda x:x[1],reverse = True) # 유사도에 따라 정렬
    
    sim_scores = sim_scores[1:11] # 가장 유사한 10개 저장 (0 은 자기 자신)
    
    movie_indices = [i[0] for i in sim_scores] # 뽑힌 영화들의 인덱스 저장
    
    return data['title'].iloc[movie_indices]

In [None]:
get_recommendations('The Dark Knight Rises') # 'The Dark Knight Rises' 와 overview가 유사한 영화

12481                            The Dark Knight
150                               Batman Forever
1328                              Batman Returns
15511                 Batman: Under the Red Hood
585                                       Batman
9230          Batman Beyond: Return of the Joker
18035                           Batman: Year One
19792    Batman: The Dark Knight Returns, Part 1
3095                Batman: Mask of the Phantasm
10122                              Batman Begins
Name: title, dtype: object

## 유클리드 거리를 이용한 유사도

![image.png](attachment:image.png)

## 자카드 유사도

![image.png](attachment:image.png)

In [None]:
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화를 수행합니다.
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

# 토큰화 결과 출력
print(tokenized_doc1)
print(tokenized_doc2)

['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [None]:
union = set(tokenized_doc1).union(set(tokenized_doc2))
print(union)

{'everyone', 'you', 'like', 'holder', 'watch', 'likey', 'card', 'coupon', 'apple', 'passport', 'love', 'banana'}


In [None]:
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print(intersection)

{'apple', 'banana'}


In [None]:
print(len(intersection)/len(union))

0.16666666666666666


## 레벤슈타인 거리 (편집 거리)
> 편집할 때 몇 번의 문자열 조작이 필요하지 계산

In [None]:
test = [['n'] for i in range(5)]
test

[['n'], ['n'], ['n'], ['n'], ['n']]

In [None]:
for i in range(5):
    test[i]=[0 for j in range(3)]
print(test)
print(len(test))
print(len(test[0]))

[[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]]
5
3


In [None]:
for i in range(5):
    test[i][0]=i
for j in range(3):
    test[0][j]=j
print(test)
test_ = pd.DataFrame(test)

[[0, 1, 2], [1, 0, 0], [2, 0, 0], [3, 0, 0], [4, 0, 0]]


In [None]:
test_

Unnamed: 0,0,1,2
0,0,1,2
1,1,0,0
2,2,0,0
3,3,0,0
4,4,0,0


In [None]:
def levenshtein_distance(a,b):
    if a==b: return 0
    a_len=len(a)
    b_len=len(b)
    if a=="": return b_len # 문자열 a가 공집합인 경우 레벤슈타인 거리는 b_len
    if b=="": return a_len # 문자열 b가 공집합인 경우 레벤슈타인 거리는 a_len    
    
    # 2차원 표 ((a_len+1) X (b_len+1)) 준비 (공집합부터 비교하기 때문에 길이 +1)
    matrix = [[] for i in range(a_len+1)]
    for i in range(a_len+1):
        matrix[i]=[0 for j in range(b_len+1)] # b_len+1 만큼 0을 넣어 초기화
    
    for i in range(a_len+1):
        matrix[i][0]=i
    for j in range(b_len+1):
        matrix[0][j]=j
    
    # 표 채우기
    for i in range(1,a_len+1):
        ac=a[i-1] # 비교할 문자 세팅
        for j in range(1,b_len+1):
            bc=b[j-1] # 비교할 문자 세팅
            cost=0 if (ac==bc) else 1 # 비교 문자 같으면 코스트 0 아니면 1
            matrix[i][j]=min([
                matrix[i-1][j]+1, # 문자 삽입
                matrix[i][j-1]+1, # 문자 제거
                matrix[i-1][j-1]+cost # 문자 변경
            ])
    return matrix[a_len][b_len],matrix

In [None]:
levenshtein_distance('가나다라','가마바라')

(2,
 [[0, 1, 2, 3, 4],
  [1, 0, 1, 2, 3],
  [2, 1, 1, 2, 3],
  [3, 2, 2, 2, 3],
  [4, 3, 3, 3, 2]])

In [None]:
levenshtein_distance('가 다라','가마바라')

(2,
 [[0, 1, 2, 3, 4],
  [1, 0, 1, 2, 3],
  [2, 1, 1, 2, 3],
  [3, 2, 2, 2, 3],
  [4, 3, 3, 3, 2]])

In [None]:
levenshtein_distance('당신과 나는 다르다','당신은 나를 몰라')

(5,
 [[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
  [1, 0, 1, 2, 3, 4, 5, 6, 7, 8],
  [2, 1, 0, 1, 2, 3, 4, 5, 6, 7],
  [3, 2, 1, 1, 2, 3, 4, 5, 6, 7],
  [4, 3, 2, 2, 1, 2, 3, 4, 5, 6],
  [5, 4, 3, 3, 2, 1, 2, 3, 4, 5],
  [6, 5, 4, 4, 3, 2, 2, 3, 4, 5],
  [7, 6, 5, 5, 4, 3, 3, 2, 3, 4],
  [8, 7, 6, 6, 5, 4, 4, 3, 3, 4],
  [9, 8, 7, 7, 6, 5, 5, 4, 4, 4],
  [10, 9, 8, 8, 7, 6, 6, 5, 5, 5]])