## String and comparison evaluation

In [None]:
import json
from dotenv import load_dotenv

load_dotenv()

### Embedding Distance Evaluator
Embedding Distance Evaluator porównuje dwie odpowiedzi, zamieniając je na wektory osadzeń (embeddings) i mierząc odległość lub podobieństwo kosinusowe. Dzięki temu ocenia semantyczną bliskość treści, a nie tylko dopasowanie słów.

In [6]:
from langchain.evaluation import load_evaluator

evaluator = load_evaluator("embedding_distance", embeddings_model="openai")

result1 = evaluator.evaluate_strings(
    prediction="Stolica Polski to Warszawa",
    reference="Stolica Polski to Warszawa"
)

result2 = evaluator.evaluate_strings(
    prediction="Stolica Polski to Warszawa",
    reference="Stolica Polski nosi nazwę Warszawa"
)

result3 = evaluator.evaluate_strings(
    prediction="Stolica Polski to Warszawa",
    reference="Stolica Burkina Faso nosi nazwę Wagadugu"
)

print(round(result1["score"], 4))
print(round(result2["score"], 4))
print(round(result3["score"], 4))


-0.0
0.0508
0.1318


### String Comparison
Ewaluator porównuje dwa teksty przy użyciu metryki BLEU, która mierzy n-gramowe podobieństwo wygenerowanej odpowiedzi do odpowiedzi referencyjnej.

In [7]:
evaluator = load_evaluator("string_distance", metric="bleu")

result1 = evaluator.evaluate_strings(
    prediction="Stolica Polski to Warszawa",
    reference="Stolica Polski to Warszawa"
)

result2 = evaluator.evaluate_strings(
    prediction="Stolicą Polski jest Warszawa",
    reference="Stolica Polski to Warszawa"
)

result3 = evaluator.evaluate_strings(
    prediction="Stolica Polski to Warszawa",
    reference="Warszawa jest stolicą Polski"
)

print(round(result1["score"], 4))
print(round(result2["score"], 4))
print(round(result3["score"], 4))


0.0
0.069
0.4991


### String Comparison: BLUE, ROUGE, METEOR

In [8]:
from langchain.evaluation import load_evaluator

# BLEU evaluator
bleu_eval = load_evaluator("string_distance", metric="bleu")

result_bleu = bleu_eval.evaluate_strings(
    prediction="Warsaw is the capital of Poland",
    reference="The capital of Poland is Warsaw"
)
print("BLEU:", result_bleu)

# ROUGE evaluator
rouge_eval = load_evaluator("string_distance", metric="rouge")

result_rouge = rouge_eval.evaluate_strings(
    prediction="Warsaw is capital",
    reference="Warsaw is the capital of Poland"
)
print("ROUGE:", result_rouge)

# METEOR evaluator
meteor_eval = load_evaluator("string_distance", metric="meteor")

result_meteor = meteor_eval.evaluate_strings(
    prediction="The dog runs quickly",
    reference="The dog is running fast"
)
print("METEOR:", result_meteor)


BLEU: {'score': 0.28903225806451616}
ROUGE: {'score': 0.11385199240986721}
METEOR: {'score': 0.30186335403726705}


### Testy A/B
PairwiseStringEvaluator służy do porównywania dwóch odpowiedzi tekstowych względem jednej referencji, aby wybrać lepszą. Dzięki temu można automatycznie ocenić, która z odpowiedzi jest bliższa oczekiwanemu wynikowi.

In [9]:
from langchain.evaluation import load_evaluator

evaluator = load_evaluator("labeled_pairwise_string")

result = evaluator.evaluate_string_pairs(
    input="What is the capital of Poland?",
    prediction="Warsaw is the capital of Poland",
    prediction_b="I don't know",
    reference="Warsaw is Poland's capital"
)

print(json.dumps(result, indent=4))

{
    "reasoning": "Assistant A's response is helpful, relevant, correct, and accurate. It directly answers the user's question about the capital of Poland. On the other hand, Assistant B's response is not helpful or accurate. It does not provide the user with the information they were seeking. Therefore, Assistant A's response is superior in this case. \n\nFinal verdict: [[A]]",
    "value": "A",
    "score": 1
}
