In [2]:
# sentence_transformers -- see https://www.sbert.net/
from sentence_transformers import SentenceTransformer

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
from sklearn.metrics.pairwise import cosine_similarity
from itertools import combinations

def get_cosine_similarity(feature_vec_1, feature_vec_2):
    return cosine_similarity(feature_vec_1.reshape(1, -1),
                             feature_vec_2.reshape(1, -1))[0][0]

def print_cosine_similarities(sentences, model):
    print(str(len(sentences)) + " unique sentences:\n")
    sentence_combinations = combinations(sentences, 2)
    for sc1, sc2 in sentence_combinations:
        print(sc1)
        print(sc2)
        print(get_cosine_similarity(model.encode(sc1), model.encode(sc2)))
        print("")

In [4]:
### Example 1 : English and Chinese sentence similarities based on symanto/sn-xlm-roberta-base-snli-mnli-anli-xnli

In [6]:
# It takes about 8 minutes to download this model on my machine
model = SentenceTransformer('symanto/sn-xlm-roberta-base-snli-mnli-anli-xnli')

In [7]:
# Our sentences to be encoded for comparison
sentences = ['It was the best of times, it was the worst of times.',
    'It was the most wonderful of times, it was the most terrible of times.',
    'The quick brown fox jumps over the lazy dog.']

In [8]:
# model.encode() is the function to generate embeddings

# Let's look at one of the embeddings (768 dimension vector space representation)

print(model.encode(sentences[0]))

[ 2.50901014e-01 -4.95345145e-01 -3.83129179e-01  1.72620133e-01
 -5.14223099e-01 -8.17937374e-01  4.86572683e-01  2.51585931e-01
 -4.42775860e-02 -7.61624157e-01 -2.20850587e-01  3.56779784e-01
  6.90085173e-01 -1.39515251e-01  2.05145357e-03  5.57796240e-01
  5.79888165e-01 -6.93349540e-02  5.64711653e-02 -3.40196565e-02
 -1.08363140e+00  7.06133783e-01 -3.14310282e-01 -8.37070167e-01
 -7.55413949e-01 -2.11377144e-01  7.94892088e-02  1.47514760e+00
  6.13214731e-01 -9.92747843e-02 -6.49675727e-01 -1.84605107e-01
 -1.20658845e-01 -4.75708008e-01  6.63432062e-01 -4.30449545e-01
  3.87071908e-01 -1.82513684e-01 -4.24757063e-01 -4.19244528e-01
 -1.34427977e+00  5.05983829e-01  2.71409571e-01 -6.65539861e-01
  2.08860263e-01  7.81138912e-02  1.48075327e-01 -6.61494672e-01
  1.03798285e-01  2.13886090e-02  2.12491173e-02 -3.46575648e-01
  2.15835288e-01  1.29546940e-01 -8.07509065e-01  2.48795629e-01
  2.05604762e-01 -5.94698250e-01  1.20265424e+00  5.95342442e-02
  1.42865270e-01 -8.64881

In [10]:
# Our custom function then prints the similarity scores for each of all possible sentence pairs
print_cosine_similarities(sentences, model)

3 unique sentences:

It was the best of times, it was the worst of times.
It was the most wonderful of times, it was the most terrible of times.
0.65519917

It was the best of times, it was the worst of times.
The quick brown fox jumps over the lazy dog.
0.079226926

It was the most wonderful of times, it was the most terrible of times.
The quick brown fox jumps over the lazy dog.
-0.053706758



In [11]:
#Our Chinese sentences to be encoded for comparison
sentences_zh = ['你是不是我最好的朋友？',
             '你是不是我很好的朋友？',
             '你是我最好的朋友。',
             '你最好的朋友是誰？',
             '我從來沒去過北京。']

In [12]:
print_cosine_similarities(sentences_zh, model)

5 unique sentences:

你是不是我最好的朋友？
你是不是我很好的朋友？
0.9146868

你是不是我最好的朋友？
你是我最好的朋友。
0.77957195

你是不是我最好的朋友？
你最好的朋友是誰？
0.7554399

你是不是我最好的朋友？
我從來沒去過北京。
0.07990318

你是不是我很好的朋友？
你是我最好的朋友。
0.73332465

你是不是我很好的朋友？
你最好的朋友是誰？
0.67725575

你是不是我很好的朋友？
我從來沒去過北京。
0.10294634

你是我最好的朋友。
你最好的朋友是誰？
0.57173395

你是我最好的朋友。
我從來沒去過北京。
0.049912184

你最好的朋友是誰？
我從來沒去過北京。
0.08454116



In [13]:
### Example 2 : Chinese sentence similarities based on GanymedeNil/text2vec-large-chinese

In [16]:
# It takes about 10 minutes to download this model on my machine
model2 = SentenceTransformer('GanymedeNil/text2vec-large-chinese')

No sentence-transformers model found with name /Users/jcarlsen/.cache/torch/sentence_transformers/GanymedeNil_text2vec-large-chinese. Creating a new one with MEAN pooling.


In [17]:
#Our sentences to be encoded for comparison
sentences_zh2 = ['你是不是我最好的朋友？',
             '你是不是我很好的朋友？',
             '你是我最好的朋友。',
             '你最好的朋友是誰？',
             '我從來沒去過北京。']

In [18]:
print_cosine_similarities(sentences_zh2, model2)

5 unique sentences:

你是不是我最好的朋友？
你是不是我很好的朋友？
0.91629004

你是不是我最好的朋友？
你是我最好的朋友。
0.8234312

你是不是我最好的朋友？
你最好的朋友是誰？
0.77070975

你是不是我最好的朋友？
我從來沒去過北京。
0.2941748

你是不是我很好的朋友？
你是我最好的朋友。
0.72643745

你是不是我很好的朋友？
你最好的朋友是誰？
0.64323497

你是不是我很好的朋友？
我從來沒去過北京。
0.3013143

你是我最好的朋友。
你最好的朋友是誰？
0.79469883

你是我最好的朋友。
我從來沒去過北京。
0.20941043

你最好的朋友是誰？
我從來沒去過北京。
0.19224429

