**SBert**

SBert ist ein Verfahren, das Sätze auf ihre Ähnlichkeit hin vergleichen kann. Es wurde von Reimers und Gurevych (2020) bereitgestellt.

Quellen:

https://www.sbert.net/docs/quickstart.html

Und das zugehörige Paper: Reimers, N. und Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In den Proceedings der 2019 Conference on Empirical Methods in Natural Language Processing. Hong Kong: Association for Computational Linguistics.

Wie vorhin bei keyBERT, wird zuerst die Bibliothek sentence-transformers installiert.

In [1]:
#pip install -U sentence-transformers

Anschließend können wir SBert importieren und einen Test ausführen.

In [3]:
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer('all-MiniLM-L6-v2')

sentences = ['A man is eating food.',
          'A man is eating a piece of bread.',
          'The girl is carrying a baby.',
          'A man is riding a horse.',
          'A woman is playing violin.',
          'Two men pushed carts through the woods.',
          'A man is riding a white horse on an enclosed ground.',
          'A monkey is playing drums.',
          'Someone in a gorilla costume is playing a set of drums.'
          ]

#Encode all sentences
embeddings = model.encode(sentences)

#Compute cosine similarity between all pairs
cos_sim = util.cos_sim(embeddings, embeddings)

#Add all pairs to a list with their cosine similarity score
all_sentence_combinations = []
for i in range(len(cos_sim)-1):
    for j in range(i+1, len(cos_sim)):
        all_sentence_combinations.append([cos_sim[i][j], i, j])

#Sort list by the highest cosine similarity score
all_sentence_combinations = sorted(all_sentence_combinations, key=lambda x: x[0], reverse=True)

print("Top-5 most similar pairs:")
for score, i, j in all_sentence_combinations[0:5]:
    print("{} \t {} \t {:.4f}".format(sentences[i], sentences[j], cos_sim[i][j]))

Top-5 most similar pairs:
A man is eating food. 	 A man is eating a piece of bread. 	 0.7553
A man is riding a horse. 	 A man is riding a white horse on an enclosed ground. 	 0.7369
A monkey is playing drums. 	 Someone in a gorilla costume is playing a set of drums. 	 0.6433
A woman is playing violin. 	 Someone in a gorilla costume is playing a set of drums. 	 0.2564
A man is eating food. 	 A man is riding a horse. 	 0.2474


Ich habe die Skripte angepasst, wie auf www.sbert.net angegeben werden. 

Mit dem Skript im nächsten Feld können deutsche Texte verarbeitet werden.

Das Skript liest zwei Input-Texte ein:

seed_file: Eine Textdatei, die vielleicht 4 Sätze enthält; jeweils ein Satz in einer Zeile
corpus_file: Eine längere Textdatei, die mehrere Sätze enthält; jeweils ein Satz in einer Zeile.

ABER: Die Dateien müssen noch eingelesen werden. Bitte ergänzen Sie das Skript. 

In [14]:
from sentence_transformers import SentenceTransformer


seed_file = 'sample_data/seed_file.txt'
corpus_file = 'sample_data/corpus_file.txt'


seeds = []
corpus = []

#seeds = FEHLT
#corpus = FEHLT


for seed in seeds:
    seedcolumn = []
    for entry in corpus:
        seedcolumn.append(seed)

    #Compute embedding for both lists
    seed_embeddings = model.encode(seedcolumn, convert_to_tensor=True)
    corpus_embeddings = model.encode(corpus, convert_to_tensor=True)

    #Compute cosine sims
    cosine_scores = util.pytorch_cos_sim(seed_embeddings, corpus_embeddings)
    #Output the pairs with their score
    for i in range(len(corpus)):
        print(float(cosine_scores[i][i]), corpus[i], seed, sep='\t')

0.24410642683506012	zum Inhalt:<br /><br />Sommerferien mal anders?<br />Kein Problem.<br /><br />Maik Klingenberg, 14, wohlhabend, zerrüttete Familie- aber ein Langweiler.<br />Dies ändert sich sofort als Tschick, sein neuer Mitschüler, am Anfang der Sommerferien mit einem geklauten Auto vor seiner Tür steht.<br /><br />Gemeinsam erleben sie einen Road-Trip der besonderen Art.<br /><br />Meine Meinung:<br />Schon mal davon geträumt einfach ins Auto zu steigen und gen Süden zu fahren?!<br /><br />Der Inhalt des Buches gefällt mir wahnsinnig gut.<br />2 Burschen die unterschiedlicher nicht sein könnten, begeben sich auf einen aufregenden Road-Trip um in die Walachei zu kommen.<br />Sie erleben allerhand Abenteuer, lernen verrückte Leute kennen, kommen in verzwickte Situationen- der Autor beschreibt die Reise so einzigartig, dass man sich mittendrin fühlt.<br /><br />Es geht um Mondlandschaften, schreckliche Gewitter, verrückte Straßennamen und um eigenartige Leute mit Gewehren.<br />Sel

Das untere Skript zeigt eine zweite Anwendung von SBERT: Clustering. Die vorhin eingegebene Textsammlung wird verarbeitet. Texte/Sätze mit einer Kosinusähnlichkeit >= 0.6 werden **geclustert**.

In [16]:
# Quellen
# Code: https://www.sbert.net/examples/applications/paraphrase-mining/README.html
# Clustering: https://github.com/UKPLab/sentence-transformers/blob/master/examples/applications/clustering/fast_clustering.py
# BERT-Modell: https://www.sbert.net/docs/pretrained_models.html


from sys import argv
from sentence_transformers import SentenceTransformer, util
import numpy as np
import os
import csv
import time

filename = 'sample_data/corpus_file.txt'

sentences = []
with open(filename, "r") as file_content:
    for line in file_content.readlines():
        line = line.strip("")
        sentences.append(line)


threshold = 0.6
min_community_size = 2


model = SentenceTransformer('paraphrase-xlm-r-multilingual-v1')


embeddings = model.encode(sentences)


def community_detection(embeddings, threshold, min_community_size):
    """
    Function for Fast Community Detection
    Finds in the embeddings all communities, i.e. embeddings that are close (closer than threshold).
    Returns only communities that are larger than min_community_size. The communities are returned
    in decreasing order. The first element in each list is the central point in the community.
    """



    # Compute cosine similarity scores
    cos_scores = util.pytorch_cos_sim(embeddings, embeddings)

    # Minimum size for a community
    top_k_values, _ = cos_scores.topk(min_community_size, largest=True)

    # Added
    init_max_size = 1000
    if len(top_k_values) < 1000:
        init_max_size = len(top_k_values)

    # Filter for rows >= min_threshold
    extracted_communities = []
    for i in range(len(top_k_values)):

        if top_k_values[i][-1] >= threshold:
            new_cluster = []

            # Only check top k most similar entries
            top_val_large, top_idx_large = cos_scores[i].topk(k=init_max_size, largest=True)
            top_idx_large = top_idx_large.tolist()
            top_val_large = top_val_large.tolist()

            if top_val_large[-1] < threshold:
                for idx, val in zip(top_idx_large, top_val_large):
                    if val < threshold:
                        break

                    new_cluster.append(idx)
            else:
                # Iterate over all entries (slow)
                for idx, val in enumerate(cos_scores[i].tolist()):
                    if val >= threshold:
                        new_cluster.append(idx)

            extracted_communities.append(new_cluster)

    # Largest cluster first
    extracted_communities = sorted(extracted_communities, key=lambda x: len(x), reverse=True)

    # Step 2) Remove overlapping communities
    unique_communities = []
    extracted_ids = set()

    for community in extracted_communities:
        add_cluster = True
        for idx in community:
            if idx in extracted_ids:
                add_cluster = False
                break

        if add_cluster:
            unique_communities.append(community)
            for idx in community:
                extracted_ids.add(idx)

    return unique_communities



#Two parameter to tune:
#min_cluster_size: Only consider cluster that have at least 25 elements (30 similar sentences)
#threshold: Consider sentence pairs with a cosine-similarity larger than threshold as similar
clusters = community_detection(embeddings, threshold, min_community_size)



#Print all cluster / communities
for i, cluster in enumerate(clusters):
    print ('# in Cluster: '+str(len(cluster))+', Cluster ID: '+str(i))
    for sentence_id in cluster:
        print (sentences[sentence_id].strip())

Downloading:   0%|          | 0.00/345 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/3.74k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/718 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/150 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/550 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/229 [00:00<?, ?B/s]

# in Cluster: 162, Cluster ID: 0
Ich bin jetzt erst bei der Hälfte aber das Buch ist wirklich genial! Total gut geschrieben und bringt super ans Thema ran (vorallem auch alltagsbezogen) ! Ich würde es jedem empfehlen
Das Buch gefällt mir sehr gut. Es hat meine Erwartungen voll erfüllt. Ich kann es nur an Interessierte weiterempfehlen. Danke
Das Buch ist einfach nur genial.. Super gut geschrieben, einfach gut zu verstehen, Umsetzung sehr einfach möglich, sehr anschaulich dargestellt! Ich würde es jeden nur empfehlen zu lesen der sein Unternehmen noch etwas mehr an &#34;+&#34; verleihen möchte oder sich & sein Unternehmen weiter entwickel möchte..
Auch dieses Buch toll gefertigt, toll zu lesen, einfach eine sch&ouml;ne Ausgabe mit Sammlerwertcharakter. F&uuml;r Englischliebhaber sehr zu empfehlen. Viel Spass beim Lesen.
der absolute Wahnsinn! Ich konnte das Buch einfach nicht mehr ablegen, ist wirklich sehr fesselnd geschrieben :)<br />Und vor allem aus der Frauen-Sicht ist alles perfekt