## 학습목표
- 단어 유사도 분석을 할 수 있다
- 유사도 개념을 이해할 수 있다
- 워드임베딩 개념을 이해하고 활용 할 수 있다

### 유사도(Similarity)

#### Euclidean Distance
- 피타고라스의 정리를 기반으로 두 점의 거리를 계산하는 알고리즘
- 거리 값이 가까울 수록 유사하다고 판단한다
- 희소한(sparse)한 데이터에서는 잘 동작하지 않음
- Data scale에 민감하게 동작한다.

![image.png](attachment:80c9136e-ecea-475c-92a6-edd5dfb66427.png)

In [4]:
# 유클리디언 유사도 공식
import numpy as np

def euclidean_sim(A, B):
    return ((A-B)**2).sum()**0.5

doc1 = np.array([0,1,1,1])
doc2 = np.array([1,0,1,1])
doc3 = np.array([3,0,3,3])

# 데이터 스케일에 민감하다
print('문서 1과 문서2의 유사도 :',euclidean_sim(doc1, doc2))
print('문서 1과 문서3의 유사도 :',euclidean_sim(doc1, doc3))
print('문서 2와 문서3의 유사도 :',euclidean_sim(doc2, doc3))

문서 1과 문서2의 유사도 : 1.4142135623730951
문서 1과 문서3의 유사도 : 4.242640687119285
문서 2와 문서3의 유사도 : 3.4641016151377544


#### Cosine Similarity
- 두 벡터 사이 각도의 코사인으로 유사성을 계산
- -1 ~ 1 사이 값을 가짐
- 문장의 길이, 단어의 빈도 수 등에 덜 민감하게 동작

![image.png](attachment:5055a098-8e81-47c5-ab22-83ff21f2d1ed.png)

In [6]:
# 코사인 유사도 공식
import numpy as np
from numpy import dot
from numpy.linalg import norm

def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

doc1 = np.array([0,1,1,1])
doc2 = np.array([1,0,1,1])
doc3 = np.array([2,0,2,2])

print('문서 1과 문서2의 유사도 :',cos_sim(doc1, doc2))
print('문서 1과 문서3의 유사도 :',cos_sim(doc1, doc3))
print('문서 2와 문서3의 유사도 :',cos_sim(doc2, doc3))

문서 1과 문서2의 유사도 : 0.6666666666666667
문서 1과 문서3의 유사도 : 0.6666666666666667
문서 2와 문서3의 유사도 : 1.0000000000000002


### 워드임베딩(Word Embedding)
- 인공지능 학습을 이용해서 단어를 수치화화하는 기법
- 지정된 벡터공간에 단어의 정보를 표현하는 숫자를 이식한다

#### Word2vec 모델 사용
- 문장이 구성될 때 근처에 배치된 단어끼리는 관련이 있다.

In [9]:
!pip install gensim
!pip install numpy==1.24.4



In [10]:
import pandas as pd

In [11]:
# 데이터 로딩
data  = pd.read_csv("./data/naver_shopping.txt", delimiter="\t", header = None)
data

Unnamed: 0,0,1
0,5,배공빠르고 굿
1,2,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고
2,5,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...
3,2,선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다. 전...
4,5,민트색상 예뻐요. 옆 손잡이는 거는 용도로도 사용되네요 ㅎㅎ
...,...,...
199995,2,장마라그런가!!! 달지않아요
199996,5,다이슨 케이스 구매했어요 다이슨 슈퍼소닉 드라이기 케이스 구매했어요가격 괜찮고 배송...
199997,5,로드샾에서 사는것보다 세배 저렴하네요 ㅜㅜ 자주이용할께요
199998,5,넘이쁘고 쎄련되보이네요~


In [12]:
# 문장에서 명사와 형용사만 추출하기
from kiwipiepy import Kiwi

In [13]:
kiwi = Kiwi()

https://github.com/bab2min/Kiwi?tab=readme-ov-file#%ED%92%88%EC%82%AC-%ED%83%9C%EA%B7%B8

In [15]:
from tqdm import tqdm

In [16]:
# total = [] # 형태소로 분리된 문장이 들어갈 리스트
# for doc in tqdm(data[1]) : # 전체데이터 반복
#     rs = kiwi.tokenize(doc) # 형태소로 분리
#     temp = []
#     for token in rs : # 한 문장에서 쪼개진 토큰을 확인
#         if  token.tag in ['NNG','VV','VA'] :
#             temp.append(token.form) # 단어토큰 리스트에 추가
#     total.append(" ".join(temp))

In [17]:
# import pickle
# with open("./naver_morphs.pkl", "wb") as f :
#     pickle.dump(total,f)

In [20]:
from gensim.models import Word2Vec

  "class": algorithms.Blowfish,


ImportError: cannot import name 'triu' from 'scipy.linalg' (C:\Users\USER\anaconda3\Lib\site-packages\scipy\linalg\__init__.py)

In [26]:
import scipy
print(f"scipy version: {scipy.__version__}")

scipy version: 1.14.1


In [28]:
import scipy.linalg
print(dir(scipy.linalg))



In [30]:
import pkg_resources
installed_packages = [d for d in pkg_resources.working_set]
for package in installed_packages:
    print(f"{package.project_name}=={package.version}")

Orange3-ImageAnalytics==0.12.4
Orange3-Text==1.15.0
beautifulsoup4==4.12.3
biopython==1.84
click==8.1.7
conllu==4.5.3
defusedxml==0.7.1
docx2txt==0.8
gensim==4.3.2
intel-openmp==2021.4.0
jellyfish==1.0.4
langdetect==1.0.9
lemmagen3==3.5.1
mkl==2021.4.0
ndf==0.1.4
nltk==3.8.1
oauthlib==3.2.2
odfpy==1.4.1
owlready2==0.46
pybind11==2.13.1
pypdf==4.2.0
regex==2024.5.15
requests-oauthlib==1.3.1
segtok==1.5.11
shapely==2.0.4
simhash==2.1.2
smart-open==7.0.4
soupsieve==2.5
tabulate==0.9.0
tbb==2021.13.0
torch==2.3.1
torchvision==0.18.1
tqdm==4.66.4
trimesh==4.4.1
tweepy==4.14.0
ufal.udpipe==1.3.1.1
ultralytics==8.2.59
ultralytics-thop==2.0.0
wikipedia==1.4.0
wrapt==1.16.0
yake==0.4.8
Automat==20.2.0
Babel==2.11.0
Bottleneck==1.3.7
Brotli==1.0.9
Flask==2.2.5
GitPython==3.1.37
HeapDict==1.0.1
Jinja2==3.1.3
Markdown==3.4.1
MarkupSafe==2.1.3
Protego==0.1.16
PyDispatcher==2.0.5
PyJWT==2.4.0
PyNaCl==1.5.0
PyQt5==5.15.10
PyQt5-sip==12.13.0
PyQtWebEngine==5.15.6
PySocks==1.7.1
PyYAML==6.0.1
Pygments=

In [32]:
import sys
print(sys.path)

['C:\\Users\\USER\\Desktop\\Python_Study\\02. ML', 'C:\\Users\\USER\\anaconda3\\python311.zip', 'C:\\Users\\USER\\anaconda3\\DLLs', 'C:\\Users\\USER\\anaconda3\\Lib', 'C:\\Users\\USER\\anaconda3', '', 'C:\\Users\\USER\\AppData\\Roaming\\Python\\Python311\\site-packages', 'C:\\Users\\USER\\anaconda3\\Lib\\site-packages', 'C:\\Users\\USER\\anaconda3\\Lib\\site-packages\\win32', 'C:\\Users\\USER\\anaconda3\\Lib\\site-packages\\win32\\lib', 'C:\\Users\\USER\\anaconda3\\Lib\\site-packages\\Pythonwin']


In [34]:
!pip uninstall scipy -y
!pip install scipy==1.14.1

Found existing installation: scipy 1.14.1
Uninstalling scipy-1.14.1:
  Successfully uninstalled scipy-1.14.1


You can safely remove it manually.
You can safely remove it manually.


Collecting scipy==1.14.1
  Using cached scipy-1.14.1-cp311-cp311-win_amd64.whl.metadata (60 kB)
Using cached scipy-1.14.1-cp311-cp311-win_amd64.whl (44.8 MB)
Installing collected packages: scipy
Successfully installed scipy-1.14.1


ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
orange3-imageanalytics 0.12.4 requires AnyQt, which is not installed.
orange3-imageanalytics 0.12.4 requires orange-canvas-core>=0.1.28, which is not installed.
orange3-imageanalytics 0.12.4 requires orange-widget-base>=4.20.0, which is not installed.
orange3-imageanalytics 0.12.4 requires Orange3>=3.35.0, which is not installed.
orange3-imageanalytics 0.12.4 requires requests-cache, which is not installed.
orange3-text 1.15.0 requires anyqt, which is not installed.
orange3-text 1.15.0 requires orange-canvas-core, which is not installed.
orange3-text 1.15.0 requires orange-widget-base>=4.20.0, which is not installed.
orange3-text 1.15.0 requires Orange3>=3.34.0, which is not installed.
orange3-text 1.15.0 requires pyqtgraph, which is not installed.
orange3-text 1.15.0 requires serverfiles, which is not installed.
