In [12]:
import time
import pandas as pd

def jaccard_similarity(text1, text2):
    words_text1 = set(text1.split())
    words_text2 = set(text2.split())
    intersection = words_text1.intersection(words_text2)
    union = words_text1.union(words_text2)
    return len(intersection) / len(union) if len(union) > 0 else 0

# Load the CSV file with test sentences
df = pd.read_csv('testsätze.csv')

# Prepare results
results = []

# Iterate over each row to compare the sentences
for index, row in df.iterrows():
    # Compare Satz 1 with Satz 2
    satz1 = row.get('Satz 1', "")
    satz2 = row.get('Satz 2', "")
    satz3 = row.get('Satz 3', "")

    comparisons = [("Satz 1 mit Satz 2", satz1, satz2), 
                   ("Satz 1 mit Satz 3", satz1, satz3),
                   ("Satz 2 mit Satz 3", satz2, satz3)]
    
    for comparison_label, text1, text2 in comparisons:
        if not text1 or not text2:
            continue
        
        start_time = time.perf_counter()
        jaccard_coefficient = jaccard_similarity(text1, text2)
        end_time = time.perf_counter()
        
        elapsed_time_ms = round((end_time - start_time) * 1000, 9)
        
        results.append({
            "Vergleich": comparison_label,
            "Jaccard-Koeffizient": jaccard_coefficient,
            "Berechnungszeit (ms)": elapsed_time_ms
        })

# Create a DataFrame from results
results_df = pd.DataFrame(results)

# Erstelle einen DataFrame aus den Ergebnissen
df = pd.DataFrame(results)

print(df.to_string(index=False))

        Vergleich  Jaccard-Koeffizient  Berechnungszeit (ms)
Satz 1 mit Satz 2             0.933333              0.029700
Satz 1 mit Satz 3             0.304348              0.015400
Satz 2 mit Satz 3             0.291667              0.010801


In [13]:
import time
import pandas as pd
from Levenshtein import distance as levenshtein_distance

def levenshtein_similarity(text1, text2):
    return levenshtein_distance(text1, text2)

# Load the CSV file with test sentences
df = pd.read_csv('testsätze.csv')

# Prepare results
results = []

# Iterate over each row to compare the sentences
for index, row in df.iterrows():
    # Compare Satz 1 with Satz 2
    satz1 = row.get('Satz 1', "")
    satz2 = row.get('Satz 2', "")
    satz3 = row.get('Satz 3', "")

    comparisons = [("Satz 1 mit Satz 2", satz1, satz2), 
                   ("Satz 1 mit Satz 3", satz1, satz3),
                   ("Satz 2 mit Satz 3", satz2, satz3)]
    
    for comparison_label, text1, text2 in comparisons:
        if not text1 or not text2:
            continue
        
        start_time = time.perf_counter()
        levenshtein_sim = levenshtein_similarity(text1, text2)
        end_time = time.perf_counter()
        
        elapsed_time_ms = round((end_time - start_time) * 1000, 9)
        
        results.append({
            "Vergleich": comparison_label,
            "Levenshtein_Distanz": levenshtein_sim,
            "Berechnungszeit (ms)": elapsed_time_ms
        })

# Create a DataFrame from results
results_df = pd.DataFrame(results)

# Erstelle einen DataFrame aus den Ergebnissen
df = pd.DataFrame(results)

print(df.to_string(index=False))

        Vergleich  Levenshtein_Distanz  Berechnungszeit (ms)
Satz 1 mit Satz 2                   18              0.013000
Satz 1 mit Satz 3                   43              0.002299
Satz 2 mit Satz 3                   48              0.005800
