In [10]:
import pandas as pd
import numpy as np
import os

# Konfiguracja ścieżek
DATASET_PATH = "data/dataset.csv"
RESULTS_PART1_PATH = "data/evaluation_results.csv"
RESULTS_PART2_PATH = "data/evaluation_results_2.csv"
OUTPUT_DETAILED_PATH = "data/evaluation_metrics_detailed.csv"


In [21]:
import os

if os.path.basename(os.getcwd()) == "evaluation":
    os.chdir("..")


In [22]:
# Słownik mapujący polskie nazwy miast na angielskie
CITY_MAPPING = {
    "warszawa": "warsaw",
    "rzym": "rome",
    "paryż": "paris",
    "londyn": "london",
    "nowy jork": "new york",
    "barcelona": "barcelona",
    "tokio": "tokyo",
    "berlin": "berlin",
    "sydney": "sydney",
    "radom": "radom"
}

def normalize_city_name(city_val):
    """Pomocnicza funkcja do normalizacji nazwy miasta."""
    if pd.isna(city_val):
        return None
    clean_city = str(city_val).strip().lower()
    return CITY_MAPPING.get(clean_city, clean_city)

def check_numeric(row, col_expected, col_extracted):
    """
    Sprawdza równość liczbową dla nocy i osób.
    ZASADA: None lub NaN traktujemy jako 0.0.
    Dzięki temu: None == 0 daje True.
    """
    val_exp = row[col_expected]
    val_ext = row[col_extracted]

    # Konwersja na float, zamieniając None/NaN na 0.0
    num_exp = 0.0 if pd.isna(val_exp) else float(val_exp)
    num_ext = 0.0 if pd.isna(val_ext) else float(val_ext)

    # Porównanie z tolerancją
    return 1 if abs(num_exp - num_ext) < 0.001 else 0

def check_currency(row, col_expected, col_extracted):
    """
    Sprawdza walutę.
    ZASADA: Brak waluty (None/NaN) traktujemy domyślnie jako 'PLN'.
    """
    val_exp = row[col_expected]
    val_ext = row[col_extracted]

    # Normalizacja: None/NaN zamieniamy na "PLN", resztę uppercase
    curr_exp = "PLN" if pd.isna(val_exp) else str(val_exp).strip().upper()
    curr_ext = "PLN" if pd.isna(val_ext) else str(val_ext).strip().upper()

    return 1 if curr_exp == curr_ext else 0

def check_city(row, col_expected, col_extracted):
    """
    Sprawdza miasto.
    ZASADA: None == None -> 1
    Inne przypadki: Case insensitive + mapping
    """
    val_exp = row[col_expected]
    val_ext = row[col_extracted]

    # Jeśli oba są puste -> 1
    if pd.isna(val_exp) and pd.isna(val_ext):
        return 1

    # Jeśli tylko jeden jest pusty -> 0
    if pd.isna(val_exp) or pd.isna(val_ext):
        return 0

    norm_exp = normalize_city_name(val_exp)
    norm_ext = normalize_city_name(val_ext)

    return 1 if norm_exp == norm_ext else 0


In [24]:
if os.path.exists(DATASET_PATH):
    df_dataset = pd.read_csv(DATASET_PATH)
    print(f"Dataset wczytany: {len(df_dataset)} wierszy.")
else:
    raise FileNotFoundError(f"Brak pliku dataset: {DATASET_PATH}")

results_frames = []

if os.path.exists(RESULTS_PART1_PATH):
    df_part1 = pd.read_csv(RESULTS_PART1_PATH)
    df_part1 = df_part1.head(31)
    results_frames.append(df_part1)
    print(f"Wczytano część 1 ({len(df_part1)} wierszy).")
else:
    print(f"⚠Brak pliku części 1: {RESULTS_PART1_PATH}")

# Plik 2
if os.path.exists(RESULTS_PART2_PATH):
    df_part2 = pd.read_csv(RESULTS_PART2_PATH)
    results_frames.append(df_part2)
    print(f"Wczytano część 2 ({len(df_part2)} wierszy).")
else:
    print(f"Brak pliku części 2: {RESULTS_PART2_PATH}")

if not results_frames:
    raise ValueError("Nie znaleziono żadnych plików z wynikami!")



Dataset wczytany: 54 wierszy.
Wczytano część 1 (31 wierszy).
Wczytano część 2 (23 wierszy).


In [28]:
# 3. Konkatenacja
df_results = pd.concat(results_frames, ignore_index=True)
df_results

Unnamed: 0,id,prompt,expected_currency,agent_output,extracted_cost,extracted_city,extracted_num_nights,extracted_num_people,extracted_target_currency,tools_used,error
0,1,Ile kosztuje 4-dniowy pobyt w Warsaw dla 1 oso...,EUR,**MYŚLENIE:** Użytkownik chce pełną wycenę 4‑d...,,,,,,[],False
1,2,Planuję wyjazd do Paryża na 3 noce. Jedziemy w...,EUR,Znalazłem hotel **Pullman Bercy** w Paryżu (ce...,1.0,Paris,3.0,5.0,EUR,"['search_hotels', 'get_exchange_rate', 'calcul...",False
2,3,Planuję wyjazd do Warsaw na 9 nocy. Jedziemy w...,USD,Znalazłem hotel **InterContinental** w Warszaw...,0.25,Warsaw,9.0,2.0,USD,"['search_hotels', 'get_exchange_rate', 'calcul...",False
3,4,Planuję wyjazd do Paris na 2 nocy. Jedziemy w ...,EUR,Znalazłem hotel **Pullman Bercy** w Paryżu (ce...,1.0,Paris,2.0,4.0,EUR,"['search_hotels', 'get_exchange_rate', 'calcul...",False
4,5,Planuję wyjazd do London na 13 nocy. Jedziemy ...,EUR,Znalazłem hotel **Generator Hostel** w Londyni...,1.1531,London,13.0,6.0,EUR,"['search_hotels', 'get_exchange_rate', 'get_ex...",False
5,6,Ile zapłacę za 5 nocy dla 2 osób w mieście Rom...,USD,Znalazłem hotel **YellowSquare Hostel** w Rzym...,55.0,Rome,5.0,2.0,USD,"['search_hotels', 'get_exchange_rate', 'calcul...",False
6,7,Planuję wyjazd do Rome na 10 nocy. Jedziemy w ...,EUR,Znalazłem hotel **NH Collection** w Rzymie (ce...,0.2367,Rome,10.0,2.0,EUR,"['search_hotels', 'get_exchange_rate', 'calcul...",False
7,8,Jaki jest koszt pobytu w New York (hotel: budż...,PLN,Znalazłem hotel **Pod 51** w New York (cena: 1...,3.6314,New York,8.0,6.0,PLN,"['search_hotels', 'get_exchange_rate', 'calcul...",False
8,9,Czy znajdziesz ekskluzywny nocleg w Rome? Poby...,PLN,Znalazłem hotel **Hassler Roma** w Rzymie (cen...,4.2252,Rome,1.0,4.0,PLN,"['search_hotels', 'get_exchange_rate', 'calcul...",False
9,10,Planuję wyjazd do Barcelona na 12 nocy. Jedzie...,JPY,Znalazłem hotel **H10 Marina** w Barcelonie (c...,183.7222,Barcelona,12.0,4.0,JPY,"['search_hotels', 'get_exchange_rate', 'calcul...",False


In [31]:
merged = pd.merge(
    df_dataset,
    df_results,
    on="id",
    how="inner",
    suffixes=('', '_extracted')
)

merged.head(54)



Unnamed: 0,id,prompt,city,sort_order,num_nights,num_people,target_currency,prompt_extracted,expected_currency,agent_output,extracted_cost,extracted_city,extracted_num_nights,extracted_num_people,extracted_target_currency,tools_used,error
0,1,Ile kosztuje 4-dniowy pobyt w Warsaw dla 1 oso...,Warsaw,optimal,4,1,EUR,Ile kosztuje 4-dniowy pobyt w Warsaw dla 1 oso...,EUR,**MYŚLENIE:** Użytkownik chce pełną wycenę 4‑d...,,,,,,[],False
1,2,Planuję wyjazd do Paryża na 3 noce. Jedziemy w...,Paris,optimal,3,5,EUR,Planuję wyjazd do Paryża na 3 noce. Jedziemy w...,EUR,Znalazłem hotel **Pullman Bercy** w Paryżu (ce...,1.0,Paris,3.0,5.0,EUR,"['search_hotels', 'get_exchange_rate', 'calcul...",False
2,3,Planuję wyjazd do Warsaw na 9 nocy. Jedziemy w...,Warsaw,optimal,9,2,USD,Planuję wyjazd do Warsaw na 9 nocy. Jedziemy w...,USD,Znalazłem hotel **InterContinental** w Warszaw...,0.25,Warsaw,9.0,2.0,USD,"['search_hotels', 'get_exchange_rate', 'calcul...",False
3,4,Planuję wyjazd do Paris na 2 nocy. Jedziemy w ...,Paris,optimal,2,4,EUR,Planuję wyjazd do Paris na 2 nocy. Jedziemy w ...,EUR,Znalazłem hotel **Pullman Bercy** w Paryżu (ce...,1.0,Paris,2.0,4.0,EUR,"['search_hotels', 'get_exchange_rate', 'calcul...",False
4,5,Planuję wyjazd do London na 13 nocy. Jedziemy ...,London,optimal,13,6,EUR,Planuję wyjazd do London na 13 nocy. Jedziemy ...,EUR,Znalazłem hotel **Generator Hostel** w Londyni...,1.1531,London,13.0,6.0,EUR,"['search_hotels', 'get_exchange_rate', 'get_ex...",False
5,6,Ile zapłacę za 5 nocy dla 2 osób w mieście Rom...,Rome,optimal,5,2,USD,Ile zapłacę za 5 nocy dla 2 osób w mieście Rom...,USD,Znalazłem hotel **YellowSquare Hostel** w Rzym...,55.0,Rome,5.0,2.0,USD,"['search_hotels', 'get_exchange_rate', 'calcul...",False
6,7,Planuję wyjazd do Rome na 10 nocy. Jedziemy w ...,Rome,cheapest,10,2,EUR,Planuję wyjazd do Rome na 10 nocy. Jedziemy w ...,EUR,Znalazłem hotel **NH Collection** w Rzymie (ce...,0.2367,Rome,10.0,2.0,EUR,"['search_hotels', 'get_exchange_rate', 'calcul...",False
7,8,Jaki jest koszt pobytu w New York (hotel: budż...,New York,cheapest,8,6,PLN,Jaki jest koszt pobytu w New York (hotel: budż...,PLN,Znalazłem hotel **Pod 51** w New York (cena: 1...,3.6314,New York,8.0,6.0,PLN,"['search_hotels', 'get_exchange_rate', 'calcul...",False
8,9,Czy znajdziesz ekskluzywny nocleg w Rome? Poby...,Rome,most_expensive,1,4,PLN,Czy znajdziesz ekskluzywny nocleg w Rome? Poby...,PLN,Znalazłem hotel **Hassler Roma** w Rzymie (cen...,4.2252,Rome,1.0,4.0,PLN,"['search_hotels', 'get_exchange_rate', 'calcul...",False
9,10,Planuję wyjazd do Barcelona na 12 nocy. Jedzie...,Barcelona,optimal,12,4,JPY,Planuję wyjazd do Barcelona na 12 nocy. Jedzie...,JPY,Znalazłem hotel **H10 Marina** w Barcelonie (c...,183.7222,Barcelona,12.0,4.0,JPY,"['search_hotels', 'get_exchange_rate', 'calcul...",False


In [33]:
# 2. Tworzenie ramki szczegółowej
detailed_df = pd.DataFrame()
detailed_df['id'] = merged['id']
detailed_df['prompt'] = merged['prompt']

# 3. Aplikowanie logiki porównań (tworzenie kolumn 0/1)
detailed_df['correct_city'] = merged.apply(
    lambda row: check_city(row, 'city', 'extracted_city'), axis=1
)

detailed_df['correct_num_nights'] = merged.apply(
    lambda row: check_numeric(row, 'num_nights', 'extracted_num_nights'), axis=1
)

detailed_df['correct_num_people'] = merged.apply(
    lambda row: check_numeric(row, 'num_people', 'extracted_num_people'), axis=1
)

detailed_df['correct_currency'] = merged.apply(
    lambda row: check_currency(row, 'target_currency', 'extracted_target_currency'), axis=1
)

detailed_df.head(54)



Unnamed: 0,id,prompt,correct_city,correct_num_nights,correct_num_people,correct_currency
0,1,Ile kosztuje 4-dniowy pobyt w Warsaw dla 1 oso...,0,0,0,0
1,2,Planuję wyjazd do Paryża na 3 noce. Jedziemy w...,1,1,1,1
2,3,Planuję wyjazd do Warsaw na 9 nocy. Jedziemy w...,1,1,1,1
3,4,Planuję wyjazd do Paris na 2 nocy. Jedziemy w ...,1,1,1,1
4,5,Planuję wyjazd do London na 13 nocy. Jedziemy ...,1,1,1,1
5,6,Ile zapłacę za 5 nocy dla 2 osób w mieście Rom...,1,1,1,1
6,7,Planuję wyjazd do Rome na 10 nocy. Jedziemy w ...,1,1,1,1
7,8,Jaki jest koszt pobytu w New York (hotel: budż...,1,1,1,1
8,9,Czy znajdziesz ekskluzywny nocleg w Rome? Poby...,1,1,1,1
9,10,Planuję wyjazd do Barcelona na 12 nocy. Jedzie...,1,1,1,1


In [None]:
# Zapis do pliku
detailed_df.to_csv(OUTPUT_DETAILED_PATH, index=False)
print(f"\nZapisano szczegółowy raport do: {OUTPUT_DETAILED_PATH}")

In [30]:
cols_to_evaluate = [
    'correct_currency',
    'correct_num_nights',
    'correct_num_people',
    'correct_city'
]

print("=== WYNIKI METRYK (ACCURACY) ===")
print(f"Analiza na podstawie {len(detailed_df)} rekordów.\n")

metrics_summary = {}

for col in cols_to_evaluate:
    if col in detailed_df.columns:
        # Średnia z kolumny 0/1 to procent poprawnych odpowiedzi
        score = detailed_df[col].mean()
        metrics_summary[col] = score

        # Ładne formatowanie
        print(f"{col.ljust(20)}: {score:.2%}")

# Opcjonalnie: ogólny wynik (średnia ze wszystkich metryk)
avg_score = np.mean(list(metrics_summary.values()))
print(f"\n{'AVERAGE SCORE'.ljust(20)}: {avg_score:.2%}")

=== WYNIKI METRYK (ACCURACY) ===
Analiza na podstawie 54 rekordów.

correct_currency    : 74.07%
correct_num_nights  : 75.93%
correct_num_people  : 77.78%
correct_city        : 77.78%

AVERAGE SCORE       : 76.39%
