In [1]:
# https://pypi.org/project/sentence-transformers/

In [3]:
from sentence_transformers import SentenceTransformer
model =  SentenceTransformer('all-MiniLM-L6-v2')

In [4]:
sentence1 = "나는 오늘 밖에서 산책을 하고 왔어요."
sentence2 = "나는 오늘 산책을 하러 밖으로 나갔다가 돌아왔어요."
sentence3 = "오늘 날씨가 좋아서 친구들과 축구를 하고 왔어요."
sentences = [sentence1,sentence2,sentence3]

In [5]:
embeddings = model.encode(sentences) # encode: 문자열(텍스트) -> 숫자로 표현 (각 문장이 1차원 배열로 표현됨)
embeddings.shape

(3, 384)

In [6]:
type(embeddings)

numpy.ndarray

In [7]:
# 첫번째 문장(나는 오늘 밖에서 ~~~)을 표현한 부분을 슬라이싱
embeddings[0,:][:10] 

array([-0.0096758 ,  0.07206888,  0.07584959, -0.02166713,  0.04789053,
       -0.00552095,  0.14857401, -0.03138147,  0.00882863, -0.02247093],
      dtype=float32)

In [8]:
# 두번째 문장
embeddings[1,:][:10]

array([-0.00782712,  0.07168449,  0.0678198 , -0.00636469,  0.03987648,
        0.00212855,  0.14215377, -0.02266318,  0.00170444, -0.02498905],
      dtype=float32)

In [9]:
# 세번째 문장
embeddings[2,:][:10]

array([ 0.01489156,  0.04087714,  0.0300377 ,  0.01795065, -0.04303961,
       -0.06410957,  0.10573622,  0.01578558, -0.01983637, -0.0280314 ],
      dtype=float32)

In [10]:
# shape이 (384,) 1차원 -> 2차원 (1, 384)
embeddings[0,:].shape 

(384,)

In [11]:
embeddings[0,:].reshape(1,-1).shape

(1, 384)

In [12]:
from sklearn.metrics.pairwise import cosine_similarity

In [13]:
# 첫번째 문장과 두번째 문장의 거리(Cosine Similarity)
cosine_similarity(embeddings[0,:].reshape(1,-1), 
                  embeddings[1,:].reshape(1,-1))

array([[0.9711698]], dtype=float32)

In [14]:
cosine_similarity([embeddings[0,:]], 
                  [embeddings[1,:],embeddings[2,:]])

array([[0.9711698, 0.6614153]], dtype=float32)

In [15]:
sentence1 = "나는 오늘 밖에서 산책을 하고 왔어요."
sentence2 = "나는 오늘 산책을 하러 밖으로 나갔다가 돌아왔어요."
sentence3 = "오늘 날씨가 좋아서 친구들과 축구를 하고 왔어요."
sentence4 = '나는 오늘 친구들과 날씨가 좋아서 축구를 하다가 넘어졌다'
sentences = [sentence1,sentence2,sentence3,sentence4]
embeddings = model.encode(sentences)
embeddings.shape

(4, 384)

In [16]:
# 1번째 문장의 거리와 4번째 문장의 거리
cosine_similarity([embeddings[3,:]], [embeddings[0,:]])

array([[0.7713584]], dtype=float32)

In [17]:
# 3번째 문장의 거리와 4번째 문장의 거리
cosine_similarity([embeddings[3,:]], [embeddings[2,:]])

array([[0.9010253]], dtype=float32)

In [18]:
# 4번째 문장과, 1번째와 3번째 문장과의 거리를 한 번에 비교 
cosine_similarity([embeddings[3,:]], [embeddings[0,:],embeddings[2,:]])

array([[0.7713584, 0.9010253]], dtype=float32)

In [19]:
# 복습: 축(axis에 대한 참고)
embeddings.shape

(4, 384)

In [20]:
# 열(컬럼) 별로 평균 -> (,384) 1차원 배열
embeddings.mean(axis=0).shape

(384,)

In [21]:
# 행 별로 평균 -> (4,) 1차원 배열
embeddings.mean(axis=1).shape

(4,)