# Анализ ошибок

In [3]:
import pandas as pd
import sys
import os

# Добавляем путь к проекту, чтобы можно было импортировать из utils
try:
    CURRENT_DIR = os.path.dirname(os.path.abspath(__file__))
except NameError:
    CURRENT_DIR = os.getcwd()
    
BASE_DIR = os.path.abspath(os.path.join(CURRENT_DIR, "..", ".."))
if BASE_DIR not in sys.path:
    sys.path.insert(0, BASE_DIR)
from utils.config import AGENT_RESULTS_DIR, EXPERIMENTS_DIR, RELEVANCE_COL  
from utils.inspector import inspect_row
from utils.unify_columns import unify_df

In [54]:
df_baseline_val = pd.read_csv(os.path.join(EXPERIMENTS_DIR, "baseline_val_predictions.csv"))
df_val1 = pd.read_csv(os.path.join(AGENT_RESULTS_DIR, "agent_val_predictions_v1.csv"))
df_val2 = pd.read_csv(os.path.join(AGENT_RESULTS_DIR, "agent_val_predictions_v2.csv"))
df_val3 = pd.read_csv(os.path.join(AGENT_RESULTS_DIR, "agent_val_predictions_v3.csv"))
df_baseline_test = pd.read_csv(os.path.join(EXPERIMENTS_DIR, "baseline_test_predictions.csv"))
df_test1 = pd.read_csv(os.path.join(AGENT_RESULTS_DIR, "agent_test_predictions_v1.csv"))
df_test2 = pd.read_csv(os.path.join(AGENT_RESULTS_DIR, "agent_test_predictions_v2.csv"))
df_test3 = pd.read_csv(os.path.join(AGENT_RESULTS_DIR, "agent_test_predictions_v3.csv"))

In [55]:
# Применяем ко всем датасетам
for df_name in ['df_val1', 'df_val2', 'df_val3', 'df_baseline_val', 'df_test1', 'df_test2', 'df_test3', 'df_baseline_test']:
    globals()[df_name] = unify_df(globals()[df_name])

for df_name in ['df_val1', 'df_val2', 'df_val3', 'df_baseline_val', 'df_test1', 'df_test2', 'df_test3', 'df_baseline_test']:
    df = globals()[df_name]
    if 'model_response' in df.columns:
        globals()[df_name] = df.drop(columns=['model_response'])

In [56]:
exclude_cols = ['agent_log', 'pred_relevance']

def clean_df(df):
    return df.drop(columns=exclude_cols, errors='ignore').fillna('nan')

assert all(
    clean_df(df_val1).equals(clean_df(df))
    for df in [df_val2, df_val3, df_baseline_val]
), "Валидационные датасеты не идентичны"

assert all(
    clean_df(df_test1).equals(clean_df(df))
    for df in [df_test2, df_test3, df_baseline_test]
), "Тестовые датасеты не идентичны"

In [57]:
shapes = {
    "размер валидации": df_baseline_val.shape,
    "размер теста": df_baseline_test.shape,
}

shape_df = pd.DataFrame(shapes, index=["rows", "columns"]).T
shape_df

Unnamed: 0,rows,columns
размер валидации,299,10
размер теста,500,10


In [59]:
dfs = {
    "распределение таргета на валидации": df_baseline_val,
    "распределение таргета на тесте": df_test1,
}

balance_table = pd.DataFrame({
    name: df['relevance_new'].value_counts(normalize=True)
    for name, df in dfs.items()
}).fillna(0).T

balance_table = (balance_table * 100).round(2)
balance_table

relevance_new,1.0,0.0
распределение таргета на валидации,57.53,42.47
распределение таргета на тесте,63.4,36.6


In [60]:
pred_balance_table = pd.DataFrame({
    name: df['pred_relevance'].value_counts(normalize=True)
    for name, df in dfs.items()
}).fillna(0).T

pred_balance_table = (pred_balance_table * 100).round(2)
pred_balance_table

pred_relevance,1.0,0.0
распределение таргета на валидации,66.22,33.78
распределение таргета на тесте,70.2,29.8


In [67]:
metrics = [
    ("val", "baseline", df_baseline_val, "pred_relevance", "gpt + few-shot in-context learning prompt"),
    ("val", "agent1", df_val1, "pred_relevance", "агент 1 версия"),
    ("val", "agent2", df_val2, "pred_relevance", "агент 2 версия"),
    ("val", "agent3", df_val3, "pred_relevance", "агент 3 версия"),
    ("test", "baseline", df_baseline_test, "pred_relevance", "gpt + few-shot in-context learning prompt"),
    ("test", "agent1", df_test1, "pred_relevance", "агент 1 версия"),
    ("test", "agent2", df_test2, "pred_relevance", "агент 2 версия"),
    ("test", "agent3", df_test3, "pred_relevance", "агент 3 версия"),
]

rows = []

for split, model, df, pred_col, desc in metrics:
    acc = (df[RELEVANCE_COL] == df[pred_col]).mean()
    rows.append({"split": split, "model": model, "description": desc, "accuracy": round(acc, 4)})

acc_df = pd.DataFrame(rows)
print('=== Сравнение бейзлайна и версий агента ===\n')
acc_df

=== Сравнение бейзлайна и версий агента ===



Unnamed: 0,split,model,description,accuracy
0,val,baseline,gpt + few-shot in-context learning prompt,0.6856
1,val,agent1,агент 1 версия,0.6957
2,val,agent2,агент 2 версия,0.6221
3,val,agent3,агент 3 версия,0.6288
4,test,baseline,gpt + few-shot in-context learning prompt,0.784
5,test,agent1,агент 1 версия,0.764
6,test,agent2,агент 2 версия,0.736
7,test,agent3,агент 3 версия,0.764


In [70]:
def evaluate_models(df_baseline, df_agent1, df_agent2, df_agent3=None, name='val'):
    id_col = 'permalink'
    label_col = RELEVANCE_COL
    pred_col = 'pred_relevance'

    # Убедимся, что индекс уникальный
    for df in (df_baseline, df_agent1, df_agent2) + ((df_agent3,) if df_agent3 is not None else ()):
        if not df.index.is_unique:
            df.reset_index(drop=True, inplace=True)

    # Проверка совпадения id и меток
    for df in (df_agent1, df_agent2) + ((df_agent3,) if df_agent3 is not None else ()):
        assert (df[id_col].reset_index(drop=True) == df_baseline[id_col].reset_index(drop=True)).all(), f'{name}: ID не совпадают'
        assert (df[label_col].reset_index(drop=True) == df_baseline[label_col].reset_index(drop=True)).all(), f'{name}: метки не совпадают'

    df = df_baseline[[id_col, label_col]].copy()
    df['baseline_pred'] = df_baseline[pred_col].values
    df['agent1_pred'] = df_agent1[pred_col].values
    df['agent2_pred'] = df_agent2[pred_col].values
    if df_agent3 is not None:
        df['agent3_pred'] = df_agent3[pred_col].values

    # Ошибки предсказания
    df['baseline_error'] = df['baseline_pred'] != df[label_col]
    df['agent1_error'] = df['agent1_pred'] != df[label_col]
    df['agent2_error'] = df['agent2_pred'] != df[label_col]
    if df_agent3 is not None:
        df['agent3_error'] = df['agent3_pred'] != df[label_col]

    # Консенсус ошибок (все ошибаются и предсказания совпадают)
    if df_agent3 is not None:
        df['consensus'] = (
            df['baseline_error'] &
            df['agent1_error'] &
            df['agent2_error'] &
            df['agent3_error'] &
            (df['baseline_pred'] == df['agent1_pred']) &
            (df['baseline_pred'] == df['agent2_pred']) &
            (df['baseline_pred'] == df['agent3_pred'])
        )
    else:
        df['consensus'] = (
            df['baseline_error'] &
            df['agent1_error'] &
            df['agent2_error'] &
            (df['baseline_pred'] == df['agent1_pred']) &
            (df['baseline_pred'] == df['agent2_pred'])
        )

    # Ошибки только одного агента
    if df_agent3 is not None:
        df['only_baseline_wrong'] = df['baseline_error'] & ~df['agent1_error'] & ~df['agent2_error'] & ~df['agent3_error']
        df['only_agent1_wrong'] = ~df['baseline_error'] & df['agent1_error'] & ~df['agent2_error'] & ~df['agent3_error']
        df['only_agent2_wrong'] = ~df['baseline_error'] & ~df['agent1_error'] & df['agent2_error'] & ~df['agent3_error']
        df['only_agent3_wrong'] = ~df['baseline_error'] & ~df['agent1_error'] & ~df['agent2_error'] & df['agent3_error']
    else:
        df['only_baseline_wrong'] = df['baseline_error'] & ~df['agent1_error'] & ~df['agent2_error']
        df['only_agent1_wrong'] = ~df['baseline_error'] & df['agent1_error'] & ~df['agent2_error']
        df['only_agent2_wrong'] = ~df['baseline_error'] & ~df['agent1_error'] & df['agent2_error']

    total = len(df)
    summary = {
        'baseline_errors': df['baseline_error'].sum(),
        'agent1_errors': df['agent1_error'].sum(),
        'agent2_errors': df['agent2_error'].sum(),
        'consensus_errors': df['consensus'].sum(),
        'consensus_fraction': df['consensus'].mean(),
        'only_baseline_wrong': df['only_baseline_wrong'].sum(),
        'only_agent1_wrong': df['only_agent1_wrong'].sum(),
        'only_agent2_wrong': df['only_agent2_wrong'].sum(),
    }
    if df_agent3 is not None:
        summary['agent3_errors'] = df['agent3_error'].sum()
        summary['only_agent3_wrong'] = df['only_agent3_wrong'].sum()

    print(f'\n{name.upper()} SET')
    print(f"Total samples: {total}")
    print(f"Baseline errors: {summary['baseline_errors']}")
    print(f"Agent1 errors: {summary['agent1_errors']}")
    print(f"Agent2 errors: {summary['agent2_errors']}")
    if df_agent3 is not None:
        print(f"Agent3 errors: {summary['agent3_errors']}")
    print(f"Consensus errors: {summary['consensus_errors']} ({summary['consensus_fraction']:.2%})")
    print(f"Only baseline wrong: {summary['only_baseline_wrong']}")
    print(f"Only agent1 wrong: {summary['only_agent1_wrong']}")
    print(f"Only agent2 wrong: {summary['only_agent2_wrong']}")
    if df_agent3 is not None:
        print(f"Only agent3 wrong: {summary['only_agent3_wrong']}")

    save_dir = os.path.join(CURRENT_DIR, 'analysis_errors', name)
    os.makedirs(save_dir, exist_ok=True)

    def save_rows(mask, source_df, suffix):
        idxs = df[mask].index
        full = source_df.loc[idxs].copy()
        full.to_csv(os.path.join(save_dir, f'{suffix}.csv'), index=False)

    consensus_idxs = df[df['consensus']].index
    consensus_rows = df_baseline.loc[consensus_idxs].copy()
    consensus_rows.to_csv(os.path.join(save_dir, 'consensus_errors.csv'), index=False)

    save_rows(df['only_baseline_wrong'], df_baseline, 'only_baseline_wrong')
    save_rows(df['only_agent1_wrong'], df_agent1, 'only_agent1_wrong')
    save_rows(df['only_agent2_wrong'], df_agent2, 'only_agent2_wrong')
    if df_agent3 is not None:
        save_rows(df['only_agent3_wrong'], df_agent3, 'only_agent3_wrong')

    for model_name, source_df in zip(
        ['baseline', 'agent1', 'agent2'] + (['agent3'] if df_agent3 is not None else []),
        [df_baseline, df_agent1, df_agent2] + ([df_agent3] if df_agent3 is not None else [])
    ):
        save_rows(df['consensus'], source_df, f'{model_name}_consensus_error')

    ret = {
        'name': name,
        'summary': summary,
        'df': df,
        'consensus_errors': df[df['consensus']].copy(),
        'only_baseline_wrong': df[df['only_baseline_wrong']].copy(),
        'only_agent1_wrong': df[df['only_agent1_wrong']].copy(),
        'only_agent2_wrong': df[df['only_agent2_wrong']].copy(),
    }
    if df_agent3 is not None:
        ret['only_agent3_wrong'] = df[df['only_agent3_wrong']].copy()

    return ret


def evaluate_models_both(
    df_baseline_val, df_val1, df_val2, df_val3,
    df_baseline_test, df_test1, df_test2, df_test3
):
    res_val = evaluate_models(df_baseline_val, df_val1, df_val2, df_val3, name='val')
    res_test = evaluate_models(df_baseline_test, df_test1, df_test2, df_test3, name='test')
    return res_val, res_test

In [71]:
val_results, test_results = evaluate_models_both(
    df_baseline_val, df_val1, df_val2, df_val3,
    df_baseline_test, df_test1, df_test2, df_test3
)


VAL SET
Total samples: 299
Baseline errors: 94
Agent1 errors: 91
Agent2 errors: 113
Agent3 errors: 111
Consensus errors: 72 (24.08%)
Only baseline wrong: 2
Only agent1 wrong: 3
Only agent2 wrong: 5
Only agent3 wrong: 3

TEST SET
Total samples: 500
Baseline errors: 108
Agent1 errors: 118
Agent2 errors: 132
Agent3 errors: 118
Consensus errors: 64 (12.80%)
Only baseline wrong: 11
Only agent1 wrong: 15
Only agent2 wrong: 11
Only agent3 wrong: 5


In [9]:
# Анализ валидации
val_results = evaluate_models(df_baseline_val, df_val1, df_val2, name='val')
test_results = evaluate_models(df_baseline_test, df_test1, df_test2, name='test')


VAL SET
Total samples: 299
Baseline errors: 94
Agent1 errors: 91
Agent2 errors: 113
Consensus errors: 73 (24.41%)
Only baseline wrong: 3
Only agent1 wrong: 4
Only agent2 wrong: 24

TEST SET
Total samples: 500
Baseline errors: 108
Agent1 errors: 118
Agent2 errors: 132
Consensus errors: 73 (14.60%)
Only baseline wrong: 11
Only agent1 wrong: 17
Only agent2 wrong: 37


In [72]:
val_consensus_ids = set(val_results['consensus_errors']['permalink'])
test_consensus_ids = set(test_results['consensus_errors']['permalink'])

common_consensus = val_consensus_ids.intersection(test_consensus_ids)
print(f'Общее количество консенсусных ошибок валидации и теста: {len(common_consensus)}')

Общее количество консенсусных ошибок валидации и теста: 0


In [73]:
print("Валидация, примеры консенсусных ошибок:")
print(val_results['consensus_errors'][['permalink', 'baseline_pred', 'agent1_pred', 'agent2_pred', 'relevance_new']].head())

print("\nТест, примеры консенсусных ошибок:")
print(test_results['consensus_errors'][['permalink', 'baseline_pred', 'agent1_pred', 'agent2_pred', 'relevance_new']].head())


Валидация, примеры консенсусных ошибок:
       permalink  baseline_pred  agent1_pred  agent2_pred  relevance_new
1   147723830462            1.0          1.0          1.0            0.0
3    82384383021            1.0          1.0          1.0            0.0
9    50346991306            1.0          1.0          1.0            0.0
11   39635130831            1.0          1.0          1.0            0.0
13  219333709839            1.0          1.0          1.0            0.0

Тест, примеры консенсусных ошибок:
       permalink  baseline_pred  agent1_pred  agent2_pred  relevance_new
18    1023322799            0.0          0.0          0.0            1.0
22  191911060743            1.0          1.0          1.0            0.0
24   56786709858            1.0          1.0          1.0            0.0
33   51133035864            0.0          0.0          0.0            1.0
37   35528407986            1.0          1.0          1.0            0.0


In [65]:
print('Валидация консенсусные ошибки по предсказаниям:\n', val_results['consensus_errors']['baseline_pred'].value_counts())
print('Тест консенсусные ошибки по предсказаниям:\n', test_results['consensus_errors']['baseline_pred'].value_counts())

Валидация консенсусные ошибки по предсказаниям:
 baseline_pred
1.0    49
0.0    23
Name: count, dtype: int64
Тест консенсусные ошибки по предсказаниям:
 baseline_pred
1.0    39
0.0    25
Name: count, dtype: int64


Убедимся, что permalink одинаковые в наборах для валидации для всех моделей

In [74]:
assert set(df_baseline_val['permalink']) == set(df_val1['permalink']) == set(df_val2['permalink'])

In [15]:
file_path = os.path.join(CURRENT_DIR, "analysis_errors", "val", "only_agent2_wrong.csv")
unique_error_agent2 = pd.read_csv(file_path)
unique_error_agent2['permalink'] = unique_error_agent2['permalink'].astype(int)
unique_error_agent2.shape

(24, 11)

# Анализ ошибок агента 2 

In [16]:
# список хранения ошибок асессора и истинных ошибок модели по ID организациям
assessors_errors = [] 
model_errors = []

Видимо, модель спутала "многоэтажку" с частью адреса...

In [17]:
model_errors.append(int(unique_error_agent2.loc[1]['permalink']))

In [18]:
inspect_row(unique_error_agent2, idx=1)

### Обрывок в запросе \ неосмысленный запрос

По идее в запросе недостаточно информации, чтобы принять однозначное решение и это скорее 0.1..

In [19]:
assessors_errors.append(int(unique_error_agent2.loc[0]['permalink']))

In [20]:
inspect_row(unique_error_agent2, idx=0)

Если в поиске посмотреть, то магазин работает до 24. Так что это снова ошибка асессора. Но информации нет о часах работы...и по идее должен был бы поиск. Возможно стоит убрать из промта фразу в пункте о том, когда не нужен поиск: 1. Рубрика явно соответствует или не соответствует запросу.

In [21]:
assessors_errors.append(int(unique_error_agent2.loc[2]['permalink']))
assessors_errors

[1016540818, 164859734866]

In [22]:
inspect_row(unique_error_agent2, idx=2)

### Латентная релевантность раскрыта агентом
Ниже прекрасный пример того, как успешно сработал агент и нашел актуальную информацию о том, что больше не работает заведение! Метка асессора неактуальная...

In [23]:
inspect_row(unique_error_agent2, idx=3)

Еще пример ошибки асессора. В запросе стоит "Москва", а организация в Московской области, Химки

In [24]:
assessors_errors.append(int(unique_error_agent2.loc[4]['permalink']))

In [25]:
inspect_row(unique_error_agent2, idx=4)

Так же ошибка асессора

In [26]:
assessors_errors.append(int(unique_error_agent2.loc[5]['permalink']))
assessors_errors

[1016540818, 164859734866, 192790449567, 95131072317]

In [27]:
inspect_row(unique_error_agent2, idx=5)

Ошибка асессора - не учтено, что кухня мексиканская в запросе, а ресторан предлагает блюда американской кухни судя по названию. В поиск можно было бы конечно и сходить и перепроверить

In [28]:
assessors_errors.append(int(unique_error_agent2.loc[6]['permalink']))
assessors_errors

[1016540818, 164859734866, 192790449567, 95131072317, 1301781059]

In [29]:
inspect_row(unique_error_agent2, idx=6)

Возможно, упоминание адреса имело больший вес у модели при принятии решения

In [30]:
model_errors.append(int(unique_error_agent2.loc[7]['permalink']))

In [31]:
inspect_row(unique_error_agent2, idx=7)

Не сказано об услуге "копирование документов", видимо, фокус внимания модели был на географии в запросе - она точно угадана...

In [32]:
model_errors.append(int(unique_error_agent2.loc[8]['permalink']))

In [33]:
inspect_row(unique_error_agent2, idx=8)

неоднозначный кейс - возможно, какое-то народное название этого магазина, которое модель воспринимает буквально...

In [34]:
model_errors.append(int(unique_error_agent2.loc[9]['permalink']))

In [35]:
inspect_row(unique_error_agent2, idx=9)

### Латентная релевантность раскрыта агентом
Отличный пример того, что агент помогает в задаче. Агентом найдена информация о том, что можно снимать на час 

In [36]:
assessors_errors.append(int(unique_error_agent2.loc[10]['permalink']))

In [37]:
inspect_row(unique_error_agent2, idx=10)

Есть конкретный магазин с Спб, который так и называется но адрес другой

In [38]:
assessors_errors.append(int(unique_error_agent2.loc[11]['permalink']))

In [39]:
inspect_row(unique_error_agent2, idx=11)

### Попадание строк с nMissing в результаты поиска

Попадание "nMissing: кружек подписями" в запрос повлияло на решение модели. Нужно отфильтровывать эти строки. 

In [40]:
model_errors.append(int(unique_error_agent2.loc[12]['permalink']))

In [41]:
inspect_row(unique_error_agent2, idx=12)

### Малоинформативный/общий запрос пользователя 
Агент перестраховывается в сторону 0.0

In [42]:
model_errors.append(int(unique_error_agent2.loc[13]['permalink']))

In [43]:
inspect_row(unique_error_agent2, idx=13)

В интернете в списках модных не замечен

In [44]:
assessors_errors.append(int(unique_error_agent2.loc[14]['permalink']))

In [45]:
inspect_row(unique_error_agent2, idx=14)

### Латентная релевантность раскрыта агентом
Агент обнаружил интернет-магазин МосТабак ОПТ со ссылкой на этот адрес: https://mostabak-opt.ru/contacts/stores/moskva/19573/!
В целом релевантность есть

In [46]:
assessors_errors.append(int(unique_error_agent2.loc[15]['permalink']))

In [47]:
inspect_row(unique_error_agent2, idx=15)

### Обрывок в запросе \ неосмысленный

In [48]:
model_errors.append(int(unique_error_agent2.loc[16]['permalink']))

In [49]:
inspect_row(unique_error_agent2, idx=16)

Похоже, модель не распознала "андролока". Проверила на отдельном тесте

In [50]:
model_errors.append(int(unique_error_agent2.loc[17]['permalink']))

In [51]:
inspect_row(unique_error_agent2, idx=17)

Явная ошибка асессора - не учтена география в самом запросе

In [52]:
assessors_errors.append(int(unique_error_agent2.loc[18]['permalink']))

In [53]:
inspect_row(unique_error_agent2, idx=18)

### Модель пропустила важный модификатор в запросе

Однозначная ошибка модели: видимо, модель поддалась лексическому совпадению — увидела много упоминаний "женских стрижек" и решила, что салон связан с запросом, проигнорировав "обучение"

In [54]:
model_errors.append(int(unique_error_agent2.loc[19]['permalink']))

In [55]:
inspect_row(unique_error_agent2, idx=19)

Ресторан не входит в список лучших 2016 года

In [56]:
assessors_errors.append(int(unique_error_agent2.loc[20]['permalink']))

In [57]:
inspect_row(unique_error_agent2, idx=20)

In [58]:
model_errors.append(int(unique_error_agent2.loc[21]['permalink']))

Агент скорее всего счёл "говяжью вырезку" из выдачи поисковика эквивалентом стейка, что в контексте пользовательского запроса — ошибка (поисковое намерение указывает на формат заведения, а не просто наличие говядины).

In [59]:
inspect_row(unique_error_agent2, idx=21)

### Обрывок\неосмысленный запрос

Слишком короткий и неясный запрос: в запросе: ша → трактовка как населённый пункт возможна. Скорее всего, агент перестраховался. 

In [60]:
model_errors.append(int(unique_error_agent2.loc[22]['permalink']))

In [61]:
inspect_row(unique_error_agent2, idx=22)

In [62]:
model_errors.append(int(unique_error_agent2.loc[23]['permalink']))

Возможно, английское слово "outlet" не доверяется как признак + Локация на границе Москвы → подозрение на несоответствие

In [63]:
inspect_row(unique_error_agent2, idx=23)

In [64]:
total_unique = len(unique_error_agent2)
num_model_errors = len(model_errors)
num_assessor_errors = len(assessors_errors)

print(f"Всего уникальных ошибок агента 2: {total_unique}")
print(f"Из них модельных ошибок: {num_model_errors} ({num_model_errors / total_unique:.1%})")
print(f"Ошибок аннотаций: {num_assessor_errors} ({num_assessor_errors / total_unique:.1%})")

# Проверка: пересекаются ли model_errors и assessors_errors (не должно быть)
intersection = set(model_errors) & set(assessors_errors)
if intersection:
    print(f"⚠️ Пересечения в списках model_errors и assessors_errors: {len(intersection)}")

Всего уникальных ошибок агента 2: 24
Из них модельных ошибок: 12 (50.0%)
Ошибок аннотаций: 11 (45.8%)


### Вывод 
Агент стоит улучшения, но и разметка датасета требует внимания.

# Анализ консенсусных ошибок на валидации

In [65]:
model_consensus_errors = []
assessors_errors_consensus = []

In [66]:
file_path = os.path.join(CURRENT_DIR, "analysis_errors", "val", "agent2_consensus_error.csv")
agent2_consensus_error = pd.read_csv(file_path)
f'Количество примеров на валидации, в которых ошибаются и agent1 и бейзлайн: {agent2_consensus_error.shape[0]}'

'Количество примеров на валидации, в которых ошибаются и agent1 и бейзлайн: 73'

Ошибка асессора. Elasti_city. Студия растяжки и фитнеса. ул Кастанаевская, д 39. Модель распознает по названию.

In [67]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[0]['permalink']))

In [68]:
inspect_row(agent2_consensus_error, idx=0)

### Модель упустила важный модификатор в запросе

Похоже, модель посчитала совпадение по адресу и тематике достаточно весомым, не выявила, что организация не удовлетворяет требование дежурности.

Возможно, стоит добавить в промт явно учитывать ключевые уточнения в запросе — например, "дежурная", "круглосуточная", "24 часа" — и требовать подтверждения этих условий в описании/отзывах.

In [69]:
model_consensus_errors.append(int(agent2_consensus_error.loc[1]['permalink']))

In [70]:
inspect_row(agent2_consensus_error, idx=1)

### Малоинформативный/общий запрос пользователя

В запросе «центр рязань» слово «центр» очень общее, а рубрика организации — «Медцентр, клиника». +  
В запросе есть «рязань», адрес организации тоже в Рязани — это усилило уверенность модели, что организация релевантна.


In [71]:
model_consensus_errors.append(int(agent2_consensus_error.loc[2]['permalink']))

In [72]:
inspect_row(agent2_consensus_error, idx=2)

### Справочный/агрегирующий запрос

В целом указан зоомагазин. Скорее ошибка асессора. Точно какая-то релевантность есть!

In [73]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[3]['permalink']))

In [74]:
inspect_row(agent2_consensus_error, idx=3)

### Модель упустила важный модификатор в запросе

Видимо, необходимо уточнить промт и в явном виде подсветить модели правило о формате услуге:

Если в запросе указана особенность формата услуги (например, "на колесах", "выездной", "доставка", "24/7"), организация считается RELEVANT_PLUS только если эта особенность явно подтверждается — в отзывах, описании или результатах поиска. При отсутствии подтверждения — IRRELEVANT.


In [75]:
model_consensus_errors.append(int(agent2_consensus_error.loc[4]['permalink']))

In [76]:
inspect_row(agent2_consensus_error, idx=4)

Учтено указание на адрес в запросе. Ошибка асессора. 

In [77]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[5]['permalink']))

In [78]:
inspect_row(agent2_consensus_error, idx=5)

In [79]:
model_consensus_errors.append(int(agent2_consensus_error.loc[6]['permalink']))

In [80]:
inspect_row(agent2_consensus_error, idx=6)

In [81]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[7]['permalink']))

In [82]:
inspect_row(agent2_consensus_error, idx=7)

### Малоинформативный/общий запрос пользователя
Тут совпали и географический признак и в целом в рубрику попадает. Скорее ошибка асессора, на мой взгляд, какой-то процент релевантности точно есть

In [83]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[8]['permalink']))

In [84]:
inspect_row(agent2_consensus_error, idx=8)

Высокие цены точно отмечены в отзыве - модель не игнорирует

In [85]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[9]['permalink']))

In [86]:
inspect_row(agent2_consensus_error, idx=9)

### Модель упустила важный модификатор в запросе

Как в случае с "обучением женских стрижек" тут модель проигнорировала модификатор "выкуп"

In [87]:
model_consensus_errors.append(int(agent2_consensus_error.loc[10]['permalink']))

In [88]:
inspect_row(agent2_consensus_error, idx=10)

В поисковике есть указание на страны, а значит релевантность точно не нулевая... Запрос удовлетворяет организации при перепроверки

In [89]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[11]['permalink']))

In [90]:
inspect_row(agent2_consensus_error, idx=11)

### Модель упустила важный модификатор 
возможно, тут нужно сначала парсить запрос, искать в нем ключевые слова (круглосуточный, 24 часа...) и менять запрос в поисковик, чтобы точно искать часы работы

In [91]:
model_consensus_errors.append(int(agent2_consensus_error.loc[12]['permalink']))

In [92]:
inspect_row(agent2_consensus_error, idx=12)

### Модели не хватило информации

In [93]:
model_consensus_errors.append(int(agent2_consensus_error.loc[13]['permalink']))

In [94]:
inspect_row(agent2_consensus_error, idx=13)

### Попадание строк с nMissing в результаты поиска

In [95]:
model_consensus_errors.append(int(agent2_consensus_error.loc[14]['permalink']))

In [96]:
inspect_row(agent2_consensus_error, idx=14)

Учтены все ключевые факторы в запросе - ошибка асессора! 

In [97]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[15]['permalink']))

In [98]:
inspect_row(agent2_consensus_error, idx=15)

In [99]:
model_consensus_errors.append(int(agent2_consensus_error.loc[16]['permalink']))

In [100]:
inspect_row(agent2_consensus_error, idx=16)

Сложно решить

In [101]:
model_consensus_errors.append(int(agent2_consensus_error.loc[17]['permalink']))

In [102]:
inspect_row(agent2_consensus_error, idx=17)

Учтена локация  в запросе

In [103]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[18]['permalink']))

In [104]:
inspect_row(agent2_consensus_error, idx=18)

### Латентная релевантность раскрыта агентом

В поисковике найдена необходимая информация

In [105]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[19]['permalink']))

In [106]:
inspect_row(agent2_consensus_error, idx=19)

In [107]:
model_consensus_errors.append(int(agent2_consensus_error.loc[20]['permalink']))

In [108]:
inspect_row(agent2_consensus_error, idx=20)

In [109]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[21]['permalink']))

In [110]:
inspect_row(agent2_consensus_error, idx=21)

### Попадание строк с nMissing в результаты поиска

In [111]:
model_consensus_errors.append(int(agent2_consensus_error.loc[22]['permalink']))

In [112]:
inspect_row(agent2_consensus_error, idx=22)

### Справочный/агрегирующий запрос

Модель восприняла частичное тематическое совпадение как достаточное; не распознала ключевой объект интереса — "сушилка"

In [113]:
model_consensus_errors.append(int(agent2_consensus_error.loc[23]['permalink']))

In [114]:
inspect_row(agent2_consensus_error, idx=23)

### Латентная релевантность раскрыта агентом

In [115]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[24]['permalink']))

In [116]:
inspect_row(agent2_consensus_error, idx=24)

In [117]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[25]['permalink']))

In [118]:
inspect_row(agent2_consensus_error, idx=25)

Все признаки из запроса учтены

In [119]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[26]['permalink']))

In [120]:
inspect_row(agent2_consensus_error, idx=26)

In [121]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[27]['permalink']))

Модель учла локацию - ошибка асессора

In [122]:
inspect_row(agent2_consensus_error, idx=27)

Модель все признаки учла - ошибка асессора

In [123]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[28]['permalink']))

In [124]:
inspect_row(agent2_consensus_error, idx=28)

### Латентная релевантность раскрыта агентом

In [125]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[29]['permalink']))

In [126]:
inspect_row(agent2_consensus_error, idx=29)

### Латентная релевантность раскрыта агентом

In [127]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[30]['permalink']))

In [128]:
inspect_row(agent2_consensus_error, idx=30)

Учтена локация в запросе

In [129]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[31]['permalink']))

In [130]:
inspect_row(agent2_consensus_error, idx=31)

### Модель упустила важный модификатор в запросе

указание на часы работы
похож на справочный\агрегирующий вопрос

In [131]:
model_consensus_errors.append(int(agent2_consensus_error.loc[32]['permalink']))

In [132]:
inspect_row(agent2_consensus_error, idx=32)

### Обрывок\неосмысленный запрос

In [133]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[33]['permalink']))

In [134]:
inspect_row(agent2_consensus_error, idx=33)

Здесь учтены все неоценочные факторы. Точно имеет какую-то релевантность

In [135]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[34]['permalink']))

In [136]:
inspect_row(agent2_consensus_error, idx=34)

Учтены все ключевые факторы

In [137]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[35]['permalink']))

In [138]:
inspect_row(agent2_consensus_error, idx=35)

### Малоинформативный/общий запрос пользователя

С этим типом запросов как правило разметка в сторону 0.0, а модель склонна ставить релевантность. В целом какая-то релевантность таки есть

In [139]:
assessors_errors_consensus.append(int(agent2_consensus_error.loc[36]['permalink']))

In [140]:
inspect_row(agent2_consensus_error, idx=36)

In [141]:
total_unique = len(agent2_consensus_error[:36])
num_model_errors = len(model_consensus_errors)
num_assessor_errors = len(assessors_errors_consensus)

print(f"Всего уникальных ошибок агента 2: {total_unique}")
print(f"Из них модельных ошибок: {num_model_errors} ({num_model_errors / total_unique:.1%})")
print(f"Ошибок аннотаций: {num_assessor_errors} ({num_assessor_errors / total_unique:.1%})")

# Проверка: пересекаются ли model_errors и assessors_errors (не должно быть)
intersection = set(model_errors) & set(assessors_errors)
if intersection:
    print(f"⚠️ Пересечения в списках model_errors и assessors_errors: {len(intersection)}")

Всего уникальных ошибок агента 2: 36
Из них модельных ошибок: 14 (38.9%)
Ошибок аннотаций: 23 (63.9%)


## Анализ ошибок агента 1

In [153]:
file_path = os.path.join(CURRENT_DIR, "analysis_errors", "val", "only_agent1_wrong.csv")
unique_error_agent1 = pd.read_csv(file_path)
unique_error_agent1.shape

(4, 11)

In [163]:
assessors_errors_1 = [] 
model_errors_1 = []

### Модель упустила важный модификатор в запросе

Не учла фактор "ремонт A&D" , только локацию

In [164]:
model_errors_1.append(int(unique_error_agent1.loc[0]['permalink']))

In [155]:
inspect_row(unique_error_agent1, idx=0)

### Модель упустила важный модификатор в запросе

In [165]:
model_errors_1.append(int(unique_error_agent1.loc[1]['permalink']))

In [159]:
inspect_row(unique_error_agent1, idx=1)

In [None]:
assessors_errors_1.append(int(assessors_errors_1.loc[2]['permalink']))

Ошибка асессора. Указание на то, что дорого, есть и в отзывах.

In [166]:
inspect_row(unique_error_agent1, idx=2)

In [None]:
model_errors_1.append(int(unique_error_agent1.loc[3]['permalink']))

Указание на то что недорого, есть в отзывах

In [167]:
inspect_row(unique_error_agent1, idx=3)

In [177]:
# копии без столбца agent_log
df1 = agent1_consensus_error.drop(columns=['agent_log'])
df2 = agent2_consensus_error.drop(columns=['agent_log'])

# сравниваем
if df1.equals(df2):
    print("консенсусные датасеты (без agent_log) идентичны")
else:
    print("консенсусные датасеты ( различаются")

консенсусные датасеты (без agent_log) идентичны


# Выводы

In [142]:
acc_df

Unnamed: 0,split,model,description,accuracy
0,val,baseline,gpt + few-shot in-context learning prompt,0.6856
1,val,agent1,агент 1 версия,0.6957
2,val,agent2,агент 2 версия,0.6221
3,test,baseline,gpt + few-shot in-context learning prompt,0.784
4,test,agent1,агент 1 версия,0.764
5,test,agent2,агент 2 версия,0.736


In [146]:
# Общая статистика
total_all = len(unique_error_agent2)
model_all = len(model_errors)
annot_all = len(assessors_errors)
intersect_all = set(model_errors) & set(assessors_errors)

# Консенсусная подвыборка
consensus_subset = agent2_consensus_error[:36]
total_consensus = len(consensus_subset)
model_consensus = len(model_consensus_errors)
annot_consensus = len(assessors_errors_consensus)
intersect_consensus = set(model_consensus_errors) & set(assessors_errors_consensus)

# Сводная таблица
df = pd.DataFrame({
    "Всего ошибок": [total_all, total_consensus],
    "Ошибки агента": [model_all, model_consensus],
    "% агентных ошибок": [f"{model_all / total_all:.1%}", f"{model_consensus / total_consensus:.1%}"],
    "Ошибки аннотаций": [annot_all, annot_consensus],
    "% аннотационных ошибок": [f"{annot_all / total_all:.1%}", f"{annot_consensus / total_consensus:.1%}"],
    "Пересечения": [len(intersect_all), len(intersect_consensus)]
}, index=["Количество уникальных ошибок агента 2", "Консенсус (36 из 73)"])
df

Unnamed: 0,Всего ошибок,Ошибки агента,% агентных ошибок,Ошибки аннотаций,% аннотационных ошибок,Пересечения
Количество уникальных ошибок агента 2,24,12,50.0%,11,45.8%,0
Консенсус (36 из 73),36,14,38.9%,23,63.9%,0


In [144]:
balance_table

relevance_new,1.0,0.0
df_baseline_val,57.53,42.47
df_val1,57.53,42.47
df_val2,57.53,42.47
df_baseline_test,63.4,36.6
df_test1,63.4,36.6
df_test2,63.4,36.6


In [145]:
pred_balance_table

pred_relevance,1.0,0.0
df_baseline_val,66.22,33.78
df_val1,67.89,32.11
df_val2,62.54,37.46
df_baseline_test,65.8,34.2
df_test1,70.2,29.8
df_test2,64.2,35.8


In [148]:
def count_fp_fn(df):
    fp = ((df["pred_relevance"] == 1.0) & (df[RELEVANCE_COL] == 0.0)).sum()
    fn = ((df["pred_relevance"] == 0.0) & (df[RELEVANCE_COL] == 1.0)).sum()
    return fp, fn

fp_all, fn_all = count_fp_fn(unique_error_agent2)
fp_consensus, fn_consensus = count_fp_fn(agent2_consensus_error)

df_fp_fn = pd.DataFrame({
    "False Positives": [fp_all, fp_consensus],
    "False Negatives": [fn_all, fn_consensus],
    "Всего ошибок": [len(unique_error_agent2), len(agent2_consensus_error)]
}, index=["Уникальные ошибки Agent2", "Консенсусные ошибки (36 из 73)"])

df_fp_fn["% FP"] = [f"{fp / total:.1%}" for fp, total in zip(df_fp_fn["False Positives"], df_fp_fn["Всего ошибок"])]
df_fp_fn["% FN"] = [f"{fn / total:.1%}" for fn, total in zip(df_fp_fn["False Negatives"], df_fp_fn["Всего ошибок"])]
df_fp_fn

Unnamed: 0,False Positives,False Negatives,Всего ошибок,% FP,% FN
Уникальные ошибки Agent2,7,17,24,29.2%,70.8%
Консенсусные ошибки (36 из 73),50,23,73,68.5%,31.5%


Проанализировала вручную только половину консенсусных примеров. В 58% случаев к провалу модели приводит ошибки в аннотациях. Если ВСЕ модели делают одну и ту же “ошибку” — велика вероятность, что ошибка в разметке. 68.5% таких ошибок — ложноположительные, то есть модели "видят" релевантность.

В неконсенсусных ошибках — 50% ошибок из-за модели. Есть "уникальные" провалы, свойственные конкретному агенту. И это требует доработки. Агент точно стоит улучшения, но и датасет требует внимания.

In [184]:
unique_error_agent2[((unique_error_agent2["pred_relevance"] == 0.0) & (unique_error_agent2[RELEVANCE_COL] == 1.0))]

Unnamed: 0,text,address,name,normalized_main_rubric_name_ru,permalink,prices_summarized,relevance,reviews_summarized,relevance_new,agent_log,pred_relevance
0,стройматериалы на ул,"Москва, улица Николая Химушина, 2/7с7",Строительный мир; Stroitelny mir; Strmir; Стро...,Строительный магазин,1016540818,«Строительный мир» предлагает широкий спектр т...,1.0,Организация занимается продажей строительных м...,1.0,"{'need_search_decision': 'NO', 'search_prompt'...",0.0
1,ресторан на многоэтажке,"Москва, Космодамианская набережная, 52, стр. 6",City Space Bar & Restaurant; City Space; City ...,Ресторан,141571391125,,1.0,"Организация занимается ресторанным бизнесом, п...",1.0,"{'need_search_decision': 'NO', 'search_prompt'...",0.0
2,Цветы 24,"Московская область, Одинцово, улица Говорова, 40А",Li Lar,Магазин цветов,164859734866,Магазин цветов и подарков Li Lar предлагает ра...,1.0,Организация занимается продажей цветов и букет...,1.0,"{'need_search_decision': 'NO', 'search_prompt'...",0.0
3,суши бар спб,"Санкт-Петербург, улица Композиторов, 12",Важная рыба; Vazhnaya ryba; Важная Рыба,Доставка еды и обедов,1177899932,"«Важная рыба» предлагает суши, роллы, супы, за...",1.0,Организация занимается доставкой суши и роллов...,1.0,"{'need_search_decision': 'YES', 'search_prompt...",0.0
4,кафе с кошками москва,"Московская область, Химки, улица Горшина, 2",Котокафе Муркино; Murkino; CatCafe; Муркино; К...,Антикафе,192790449567,,1.0,Котокафе «Муркино» предлагает общение с кошкам...,1.0,"{'need_search_decision': 'YES', 'search_prompt...",0.0
5,франшиза итальянского ресторана,"Москва, улица Большая Полянка, 30",Сиеста вино & паста; Siesta wine & pasta; Кули...,Ресторан,95131072317,Ресторан «Сиеста вино & паста» предлагает широ...,1.0,Организация «Сиеста вино & паста» занимается р...,1.0,"{'need_search_decision': 'NO', 'search_prompt'...",0.0
9,магазин типа,"Омский район, село Лузино, Комсомольская улица...",Тип-топ; Tip-Top; Тип-Топ,Магазин продуктов,1710504954,,1.0,Организация «Тип-топ» занимается продажей прод...,1.0,"{'need_search_decision': 'NO', 'search_prompt'...",0.0
11,Магазин Телерадиотовары,"Санкт-Петербург, Коломяжский проспект, 26",РадиоДетали; RadioDetali; Радиодетали; Магазин...,Магазин радиодеталей,1025472097,Компания «Диод» предлагает широкий ассортимент...,1.0,Организация занимается продажей электронных пр...,1.0,"{'need_search_decision': 'NO', 'search_prompt'...",0.0
12,заказ кружек с подписями,"Санкт-Петербург, Масляный переулок, 8",TooManyGifts,Изготовление и оптовая продажа сувениров,169019301542,TooManyGifts занимается изготовлением и оптово...,1.0,Организация занимается изготовлением и оптовой...,1.0,"{'need_search_decision': 'YES', 'search_prompt...",0.0
13,банки,"Ненецкий автономный округ, Заполярный район, П...",Сбербанк России; Sberbank; Сбербанк; Сбербанк ...,Банк,1068311375,,1.0,Организация занимается банковскими услугами. Т...,1.0,"{'need_search_decision': 'NO', 'search_prompt'...",0.0
