<a href="https://colab.research.google.com/github/Jasper-Hewitt/Wind_project/blob/main/similarity_with_sentence_transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
#insert sentences
"""
This is a simple application for sentence embeddings: semantic search

We have a corpus with various sentences. Then, for a given query sentence,
we want to find the most similar sentence in this corpus.

This script outputs for various queries the top 5 most similar sentences in the corpus.
"""
from sentence_transformers import SentenceTransformer, util
import torch

embedder = SentenceTransformer('all-MiniLM-L6-v2')

# Corpus with example sentences
corpus = ["2021年末開始大量現身金門、馬祖的澳洲龍蝦，因地緣政治角力、中國抵制澳龍，讓金馬與中國間的走私增加了一個新品項。",
          "早在1990年，中國來的走私船隻就能直接開到金門岸邊上下貨，1992年金馬的戰地政務解除後，走私開始頻繁。",
          "2001年小三通開啟，卻存在許多限制，走私仍是日常；甚至，金門貢糖裡的花生不少是來自廈門。",
          "但不論是從中國或金馬的角度，長期存在的非法進出口，對各自來說，少了稅收，也不利於食品安全的把關。",
          "是怎麼樣的歷史與地理因素，讓走私日益壯大？金門、馬祖的走私日常會有改變的一天嗎？"
          "「全球化已死。」這句話出自世界最大的晶圓代工工廠創辦人張忠謀。",
          "他的經驗認知正好經歷了三個時代：亞洲經濟崛起、全球化及供應鏈達到高峰、80年來全球最大的金融風暴。",
          "台積電的崛起，就剛好卡在人類全球化經濟史某一個「幸運」及「不幸」的區間。",
          "如今，時代變了。原因當然主要還是美國的經濟停滯、貧富差距、資本主義危機、中產階級衰落⋯⋯，這些社會矛盾甚至威脅了美國的民主制度。",
          "於是自1948年，由美國杜魯門總統主導的GATT，尤其1995年柯林頓政府一手打造人類史上最大的「全球貿易秩序機構」WTO，幾乎已經變成日內瓦的「無用風景」。",
          "誰也不知道這樣非法進口的行為什麼時候才結束"
          ]
corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)

# Query sentences:
queries = ['走私.', '金門','馬祖']


# Find the closest 5 sentences of the corpus for each query sentence based on cosine similarity
top_k = min(10, len(corpus))
for query in queries:
    query_embedding = embedder.encode(query, convert_to_tensor=True)

    # We use cosine-similarity and torch.topk to find the highest 5 scores
    cos_scores = util.cos_sim(query_embedding, corpus_embeddings)[0]
    top_results = torch.topk(cos_scores, k=top_k)

    print("\n\n======================\n\n")
    print("Query:", query)
    print("\nTop 5 most similar sentences in corpus:")

    for score, idx in zip(top_results[0], top_results[1]):
        print(corpus[idx], "(Score: {:.4f})".format(score))

    """
    # Alternatively, we can also use util.semantic_search to perform cosine similarty + topk
    hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=5)
    hits = hits[0]      #Get the hits for the first query
    for hit in hits:
        print(corpus[hit['corpus_id']], "(Score: {:.4f})".format(hit['score']))
    """





Query: 走私.

Top 5 most similar sentences in corpus:
誰也不知道這樣非法進口的行為什麼時候才結束 (Score: 0.4056)
是怎麼樣的歷史與地理因素，讓走私日益壯大？金門、馬祖的走私日常會有改變的一天嗎？「全球化已死。」這句話出自世界最大的晶圓代工工廠創辦人張忠謀。 (Score: 0.3631)
於是自1948年，由美國杜魯門總統主導的GATT，尤其1995年柯林頓政府一手打造人類史上最大的「全球貿易秩序機構」WTO，幾乎已經變成日內瓦的「無用風景」。 (Score: 0.3473)
他的經驗認知正好經歷了三個時代：亞洲經濟崛起、全球化及供應鏈達到高峰、80年來全球最大的金融風暴。 (Score: 0.3472)
但不論是從中國或金馬的角度，長期存在的非法進出口，對各自來說，少了稅收，也不利於食品安全的把關。 (Score: 0.3288)
早在1990年，中國來的走私船隻就能直接開到金門岸邊上下貨，1992年金馬的戰地政務解除後，走私開始頻繁。 (Score: 0.2833)
台積電的崛起，就剛好卡在人類全球化經濟史某一個「幸運」及「不幸」的區間。 (Score: 0.2750)
2001年小三通開啟，卻存在許多限制，走私仍是日常；甚至，金門貢糖裡的花生不少是來自廈門。 (Score: 0.2605)
2021年末開始大量現身金門、馬祖的澳洲龍蝦，因地緣政治角力、中國抵制澳龍，讓金馬與中國間的走私增加了一個新品項。 (Score: 0.2576)
如今，時代變了。原因當然主要還是美國的經濟停滯、貧富差距、資本主義危機、中產階級衰落⋯⋯，這些社會矛盾甚至威脅了美國的民主制度。 (Score: 0.2282)




Query: 金門

Top 5 most similar sentences in corpus:
2001年小三通開啟，卻存在許多限制，走私仍是日常；甚至，金門貢糖裡的花生不少是來自廈門。 (Score: 0.5249)
2021年末開始大量現身金門、馬祖的澳洲龍蝦，因地緣政治角力、中國抵制澳龍，讓金馬與中國間的走私增加了一個新品項。 (Score: 0.5096)
早在1990年，中國來的走私船隻就能直接開到金門岸邊上下貨，1992年金馬的戰地政務解除後，走私開始頻繁。 (Score

In [6]:
#calculate similarity per keyword
# Create a dictionary to store the scores for each sentence
sentence_scores = {sentence:[] for sentence in corpus}

# Iterate through the queries and find the top 5 most similar sentences in the corpus
top_k = min(5, len(corpus))
for query in queries:
    query_embedding = embedder.encode(query, convert_to_tensor=True)

    # We use cosine-similarity and torch.topk to find the highest 5 scores
    cos_scores = util.cos_sim(query_embedding, corpus_embeddings)[0]
    top_results = torch.topk(cos_scores, k=top_k)

    # Iterate through the top results and add the scores to the corresponding sentence in the dictionary
    for score, idx in zip(top_results[0], top_results[1]):
        sentence_scores[corpus[idx]].append(score)

# Create a list of tuples to store the mean scores and sentences
mean_scores = []

# Iterate through the dictionary and calculate the mean score for each sentence
for sentence, scores in sentence_scores.items():
    mean_score = sum(scores) / len(scores)
    mean_scores.append((mean_score, sentence))

# Sort the list of tuples based on the mean score
mean_scores.sort(reverse=True)

# Print the overall similarity overview
print("Overall similarity overview:")
for mean_score, sentence in mean_scores:
    print("Sentence:", sentence)
    print("Mean score: {:.4f}\n".format(mean_score))


ZeroDivisionError: ignored

In [7]:
#calculate average score of all the sentences (per query). It is even able to detect the sentence that I made up and contains no words that are also in the queries. it just contains 非法進口. 

# Create a list of tuples to store the mean scores and sentences
mean_scores = []

# Iterate through the dictionary and calculate the mean score for each sentence
for sentence, scores in sentence_scores.items():
    if len(scores) == 0:
        mean_score = 0
    else:
        mean_score = sum(scores) / len(scores)
    mean_scores.append((mean_score, sentence))

# Sort the list of tuples based on the mean score
mean_scores.sort(reverse=True)

# Print the overall similarity overview
print("Overall similarity overview:")
for mean_score, sentence in mean_scores:
    print("Sentence:", sentence)
    print("Mean score: {:.4f}\n".format(mean_score))


Overall similarity overview:
Sentence: 2021年末開始大量現身金門、馬祖的澳洲龍蝦，因地緣政治角力、中國抵制澳龍，讓金馬與中國間的走私增加了一個新品項。
Mean score: 0.5299

Sentence: 2001年小三通開啟，卻存在許多限制，走私仍是日常；甚至，金門貢糖裡的花生不少是來自廈門。
Mean score: 0.5249

Sentence: 早在1990年，中國來的走私船隻就能直接開到金門岸邊上下貨，1992年金馬的戰地政務解除後，走私開始頻繁。
Mean score: 0.4733

Sentence: 是怎麼樣的歷史與地理因素，讓走私日益壯大？金門、馬祖的走私日常會有改變的一天嗎？「全球化已死。」這句話出自世界最大的晶圓代工工廠創辦人張忠謀。
Mean score: 0.4605

Sentence: 但不論是從中國或金馬的角度，長期存在的非法進出口，對各自來說，少了稅收，也不利於食品安全的把關。
Mean score: 0.4165

Sentence: 誰也不知道這樣非法進口的行為什麼時候才結束
Mean score: 0.4056

Sentence: 於是自1948年，由美國杜魯門總統主導的GATT，尤其1995年柯林頓政府一手打造人類史上最大的「全球貿易秩序機構」WTO，幾乎已經變成日內瓦的「無用風景」。
Mean score: 0.3857

Sentence: 他的經驗認知正好經歷了三個時代：亞洲經濟崛起、全球化及供應鏈達到高峰、80年來全球最大的金融風暴。
Mean score: 0.3472

Sentence: 如今，時代變了。原因當然主要還是美國的經濟停滯、貧富差距、資本主義危機、中產階級衰落⋯⋯，這些社會矛盾甚至威脅了美國的民主制度。
Mean score: 0.0000

Sentence: 台積電的崛起，就剛好卡在人類全球化經濟史某一個「幸運」及「不幸」的區間。
Mean score: 0.0000

