# Rule-Based Anomaly Detection - Baseline

**Мета:** Виявлення аномалій у державних закупівлях за допомогою 44 експертних правил.

**Структура:**
1. Завантаження даних
2. Запуск детектора
3. Аналіз по категоріях правил
4. Аналіз по типах закупівель
5. Часова динаміка
6. Топ ризикові buyers/suppliers
7. Приклади критичних тендерів

In [None]:
import sys
sys.path.insert(0, '..')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter

from src.data_loader import load_tenders, load_bids, load_buyers, load_suppliers, memory_usage
from src.detectors.rule_based import RuleBasedDetector, RULE_DEFINITIONS

# Style
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 11
pd.set_option('display.max_columns', 50)

# Colors
SEVERITY_COLORS = {'critical': '#d62728', 'high': '#ff7f0e', 'medium': '#ffbb78', 'low': '#98df8a'}
RISK_COLORS = {'critical': '#d62728', 'high': '#ff7f0e', 'medium': '#ffbb78', 'low': '#2ca02c'}
CATEGORY_COLORS = plt.cm.Set2.colors

## 1. Завантаження даних

In [None]:
# Load 2023 data (full year for comprehensive analysis)
print("Loading data...")
tenders = load_tenders(years=2023)
bids = load_bids(years=2023)
buyers = load_buyers()
suppliers = load_suppliers()

print(f"\nDataset size:")
print(f"  Tenders: {len(tenders):,}")
print(f"  Bids: {len(bids):,}")
print(f"  Memory: {memory_usage(tenders)}")

In [None]:
# Quick overview
print("Procurement methods:")
print(tenders['procurement_method'].value_counts())
print(f"\nSingle bidder rate: {tenders['is_single_bidder'].mean()*100:.1f}%")
print(f"Competitive rate: {tenders['is_competitive'].mean()*100:.1f}%")

## 2. Запуск Rule-Based Detector

In [None]:
# Initialize and run detector
print("Running Rule-Based Detection...")
print(f"Total rules defined: {len(RULE_DEFINITIONS)}")

detector = RuleBasedDetector()
results = detector.detect(tenders, buyers_df=buyers, suppliers_df=suppliers, bids_df=bids)

print(f"\nDetection complete!")
print(f"Tenders processed: {len(results):,}")

In [None]:
# Summary
summary = detector.summary()
active_rules = summary[summary['count'] > 0]
print(f"Active rules: {len(active_rules)}/{len(RULE_DEFINITIONS)}")
print(f"\nTotal flags detected: {summary['count'].sum():,}")

## 3. Risk Distribution Overview

In [None]:
# Risk level distribution
risk_dist = detector.risk_distribution()

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Pie chart
colors = [RISK_COLORS.get(str(r), 'gray') for r in risk_dist['risk_level']]
axes[0].pie(risk_dist['count'], labels=risk_dist['risk_level'], colors=colors,
            autopct='%1.1f%%', startangle=90)
axes[0].set_title('Розподіл тендерів по рівнях ризику')

# Bar chart with counts
bars = axes[1].bar(risk_dist['risk_level'].astype(str), risk_dist['count'], color=colors)
axes[1].set_xlabel('Рівень ризику')
axes[1].set_ylabel('Кількість тендерів')
axes[1].set_title('Кількість тендерів по рівнях ризику')
for bar, val in zip(bars, risk_dist['count']):
    axes[1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1000,
                 f'{val:,}', ha='center', fontsize=10)

plt.tight_layout()
plt.savefig('../results/figures/rule_based/risk_distribution.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nРозподіл ризиків:")
print(risk_dist.to_string(index=False))

## 4. Аналіз по категоріях правил

In [None]:
# Summary by category
category_summary = detector.summary_by_category()

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Bar chart - total flags by category
cat_sorted = category_summary.sort_values('count', ascending=True)
colors = [CATEGORY_COLORS[i % len(CATEGORY_COLORS)] for i in range(len(cat_sorted))]
axes[0].barh(cat_sorted['category'], cat_sorted['count'], color=colors)
axes[0].set_xlabel('Кількість спрацювань')
axes[0].set_title('Flags по категоріях правил')

# Number of rules per category
axes[1].barh(cat_sorted['category'], cat_sorted['rules_triggered'], color=colors)
axes[1].set_xlabel('Кількість правил')
axes[1].set_title('Активних правил по категоріях')

plt.tight_layout()
plt.savefig('../results/figures/rule_based/by_category.png', dpi=150, bbox_inches='tight')
plt.show()

print(category_summary.to_string(index=False))

In [None]:
# Summary by severity
severity_summary = detector.summary_by_severity()

fig, ax = plt.subplots(figsize=(10, 5))

sev_order = ['critical', 'high', 'medium', 'low']
severity_summary['severity'] = pd.Categorical(severity_summary['severity'], categories=sev_order, ordered=True)
severity_summary = severity_summary.sort_values('severity')

colors = [SEVERITY_COLORS.get(s, 'gray') for s in severity_summary['severity']]
bars = ax.bar(severity_summary['severity'], severity_summary['count'], color=colors)
ax.set_xlabel('Серйозність')
ax.set_ylabel('Кількість спрацювань')
ax.set_title('Flags по серйозності правил')

for bar, val in zip(bars, severity_summary['count']):
    ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1000,
            f'{val:,}', ha='center', fontsize=10)

plt.tight_layout()
plt.savefig('../results/figures/rule_based/by_severity.png', dpi=150, bbox_inches='tight')
plt.show()

## 5. Топ-20 правил

In [None]:
# Top 20 rules by count
top20 = summary.nlargest(20, 'count')

fig, ax = plt.subplots(figsize=(12, 8))

colors = [SEVERITY_COLORS.get(s, 'gray') for s in top20['severity']]
bars = ax.barh(range(len(top20)), top20['count'], color=colors)
ax.set_yticks(range(len(top20)))
ax.set_yticklabels([f"{row['id']}: {row['name']}" for _, row in top20.iterrows()])
ax.invert_yaxis()
ax.set_xlabel('Кількість тендерів')
ax.set_title('Топ-20 правил по кількості спрацювань')

# Add percentage labels
for i, (bar, pct) in enumerate(zip(bars, top20['percentage'])):
    ax.text(bar.get_width() + 1000, bar.get_y() + bar.get_height()/2,
            f'{pct:.1f}%', va='center', fontsize=9)

# Legend
from matplotlib.patches import Patch
legend_elements = [Patch(facecolor=c, label=s) for s, c in SEVERITY_COLORS.items()]
ax.legend(handles=legend_elements, loc='lower right', title='Severity')

plt.tight_layout()
plt.savefig('../results/figures/rule_based/top20_rules.png', dpi=150, bbox_inches='tight')
plt.show()

In [None]:
# Display top 20 as table
print("Топ-20 правил:")
print(top20[['id', 'name_ua', 'category', 'severity', 'count', 'percentage']].to_string(index=False))

## 6. Аналіз по типах закупівель

In [None]:
# Risk by procurement method
risk_by_method = results.groupby('procurement_method')['rule_risk_level'].value_counts().unstack(fill_value=0)
risk_by_method_pct = risk_by_method.div(risk_by_method.sum(axis=1), axis=0) * 100

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Absolute counts
risk_by_method[['low', 'medium', 'high', 'critical']].plot(
    kind='bar', stacked=True, ax=axes[0],
    color=[RISK_COLORS['low'], RISK_COLORS['medium'], RISK_COLORS['high'], RISK_COLORS['critical']]
)
axes[0].set_xlabel('Тип закупівлі')
axes[0].set_ylabel('Кількість тендерів')
axes[0].set_title('Рівні ризику по типах закупівель (абс.)')
axes[0].tick_params(axis='x', rotation=0)
axes[0].legend(title='Risk Level')

# Percentages
risk_by_method_pct[['low', 'medium', 'high', 'critical']].plot(
    kind='bar', stacked=True, ax=axes[1],
    color=[RISK_COLORS['low'], RISK_COLORS['medium'], RISK_COLORS['high'], RISK_COLORS['critical']]
)
axes[1].set_xlabel('Тип закупівлі')
axes[1].set_ylabel('Відсоток')
axes[1].set_title('Рівні ризику по типах закупівель (%)')
axes[1].tick_params(axis='x', rotation=0)
axes[1].legend(title='Risk Level')

plt.tight_layout()
plt.savefig('../results/figures/rule_based/by_procurement_method.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nHigh+Critical по типах закупівель:")
for method in risk_by_method.index:
    total = risk_by_method.loc[method].sum()
    high_crit = risk_by_method.loc[method, 'high'] + risk_by_method.loc[method, 'critical']
    print(f"  {method}: {high_crit:,} ({high_crit/total*100:.2f}%)")

In [None]:
# Average risk score by procurement method
avg_score = results.groupby('procurement_method')['rule_risk_score'].agg(['mean', 'median', 'max'])

print("Середній risk score по типах закупівель:")
print(avg_score.round(2))

## 7. Аналіз Open тендерів (конкурентні)

In [None]:
# Focus on Open tenders - most interesting for fraud
open_tenders = results[results['procurement_method'] == 'open'].copy()
print(f"Open тендерів: {len(open_tenders):,} ({len(open_tenders)/len(results)*100:.1f}%)")

# Risk distribution for Open
open_risk = open_tenders['rule_risk_level'].value_counts()
print("\nРівні ризику в Open:")
for level in ['low', 'medium', 'high', 'critical']:
    if level in open_risk.index:
        count = open_risk[level]
        print(f"  {level}: {count:,} ({count/len(open_tenders)*100:.2f}%)")

In [None]:
# Which flags are most common in Open tenders?
flag_cols = [c for c in open_tenders.columns if c.startswith('flag_')]

open_flags = open_tenders[flag_cols].sum().sort_values(ascending=False)
open_flags = open_flags[open_flags > 0]

fig, ax = plt.subplots(figsize=(12, 6))
open_flags.head(15).plot(kind='bar', ax=ax, color='steelblue')
ax.set_xlabel('Правило')
ax.set_ylabel('Кількість')
ax.set_title('Топ-15 flags в Open тендерах')
ax.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.savefig('../results/figures/rule_based/open_tenders_flags.png', dpi=150, bbox_inches='tight')
plt.show()

## 8. Аналіз по CPV категоріях

In [None]:
# Risk by CPV category
cpv_risk = results.groupby('main_cpv_2_digit').agg({
    'tender_id': 'count',
    'rule_risk_score': 'mean',
    'rule_flags_count': 'mean'
}).reset_index()
cpv_risk.columns = ['cpv', 'count', 'avg_risk_score', 'avg_flags']

# Filter to significant categories
cpv_risk = cpv_risk[cpv_risk['count'] >= 1000].sort_values('avg_risk_score', ascending=False)

# CPV names
cpv_names = {
    33: 'Медичне', 45: 'Будівництво', 9: 'Паливо', 34: 'Транспорт',
    15: 'Продукти', 50: 'Ремонт', 44: 'Будматеріали', 90: 'Відходи',
    72: 'IT', 30: 'Офіс', 39: 'Меблі', 85: 'Здоров\'я', 79: 'Бізнес',
    55: 'Готелі', 60: 'Транспорт послуги', 3: 'Сільгосп'
}
cpv_risk['cpv_name'] = cpv_risk['cpv'].map(lambda x: cpv_names.get(int(x), f'CPV {int(x)}'))

fig, ax = plt.subplots(figsize=(12, 8))

top_cpv = cpv_risk.head(15)
colors = plt.cm.RdYlGn_r(np.linspace(0.2, 0.8, len(top_cpv)))
ax.barh(range(len(top_cpv)), top_cpv['avg_risk_score'], color=colors)
ax.set_yticks(range(len(top_cpv)))
ax.set_yticklabels(top_cpv['cpv_name'])
ax.invert_yaxis()
ax.set_xlabel('Середній Risk Score')
ax.set_title('Топ-15 CPV категорій по середньому рівню ризику')

plt.tight_layout()
plt.savefig('../results/figures/rule_based/by_cpv_category.png', dpi=150, bbox_inches='tight')
plt.show()

print("Топ-10 ризикових категорій:")
print(cpv_risk.head(10)[['cpv_name', 'count', 'avg_risk_score', 'avg_flags']].to_string(index=False))

## 9. Часова динаміка

In [None]:
# Risk by month
results['month'] = results['month'].astype(int)
monthly_risk = results.groupby('month').agg({
    'tender_id': 'count',
    'rule_risk_score': 'mean',
    'rule_flags_count': 'mean'
}).reset_index()
monthly_risk.columns = ['month', 'count', 'avg_risk', 'avg_flags']

# High risk rate by month
high_risk_monthly = results.groupby('month').apply(
    lambda x: (x['rule_risk_score'] >= 6).mean() * 100
).reset_index()
high_risk_monthly.columns = ['month', 'high_risk_pct']

fig, axes = plt.subplots(2, 1, figsize=(12, 8))

# Average risk score by month
axes[0].plot(monthly_risk['month'], monthly_risk['avg_risk'], marker='o', linewidth=2, color='steelblue')
axes[0].fill_between(monthly_risk['month'], monthly_risk['avg_risk'], alpha=0.3)
axes[0].set_xlabel('Місяць')
axes[0].set_ylabel('Середній Risk Score')
axes[0].set_title('Динаміка середнього рівня ризику по місяцях (2023)')
axes[0].set_xticks(range(1, 13))
axes[0].axhline(y=monthly_risk['avg_risk'].mean(), color='red', linestyle='--', label='Середнє')
axes[0].legend()

# High risk percentage by month
axes[1].bar(high_risk_monthly['month'], high_risk_monthly['high_risk_pct'], color='coral')
axes[1].set_xlabel('Місяць')
axes[1].set_ylabel('% High Risk тендерів')
axes[1].set_title('Частка High Risk тендерів по місяцях')
axes[1].set_xticks(range(1, 13))

plt.tight_layout()
plt.savefig('../results/figures/rule_based/monthly_dynamics.png', dpi=150, bbox_inches='tight')
plt.show()

print("Q4 effect:")
q4_risk = results[results['is_q4'] == 1]['rule_risk_score'].mean()
other_risk = results[results['is_q4'] == 0]['rule_risk_score'].mean()
print(f"  Q4 avg risk: {q4_risk:.2f}")
print(f"  Q1-Q3 avg risk: {other_risk:.2f}")

## 10. Топ ризикові Buyers

In [None]:
# Buyers with highest average risk
buyer_risk = results.groupby('buyer_id').agg({
    'tender_id': 'count',
    'rule_risk_score': ['mean', 'sum'],
    'rule_flags_count': 'mean',
    'tender_value': 'sum'
}).reset_index()
buyer_risk.columns = ['buyer_id', 'tender_count', 'avg_risk', 'total_risk', 'avg_flags', 'total_value']

# Filter buyers with at least 50 tenders
buyer_risk = buyer_risk[buyer_risk['tender_count'] >= 50]

# Merge with buyer names
buyer_risk = buyer_risk.merge(
    buyers[['buyer_id', 'buyer_name', 'buyer_region']], 
    on='buyer_id', how='left'
)

# Top by average risk
top_risky_buyers = buyer_risk.nlargest(15, 'avg_risk')

fig, ax = plt.subplots(figsize=(12, 8))
ax.barh(range(len(top_risky_buyers)), top_risky_buyers['avg_risk'], color='coral')
ax.set_yticks(range(len(top_risky_buyers)))
labels = [f"{name[:40]}..." if len(str(name)) > 40 else str(name) 
          for name in top_risky_buyers['buyer_name']]
ax.set_yticklabels(labels)
ax.invert_yaxis()
ax.set_xlabel('Середній Risk Score')
ax.set_title('Топ-15 Buyers по середньому рівню ризику (мін. 50 тендерів)')

plt.tight_layout()
plt.savefig('../results/figures/rule_based/risky_buyers.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nТоп-10 ризикових buyers:")
display_cols = ['buyer_name', 'buyer_region', 'tender_count', 'avg_risk', 'total_value']
top10 = top_risky_buyers.head(10)[display_cols].copy()
top10['buyer_name'] = top10['buyer_name'].str[:50]
top10['total_value'] = (top10['total_value'] / 1e6).round(1).astype(str) + 'M'
print(top10.to_string(index=False))

## 11. Кореляція між флагами

In [None]:
# Correlation between flags
flag_cols = [c for c in results.columns if c.startswith('flag_')]

# Select only flags that appear frequently enough
flag_counts = results[flag_cols].sum()
frequent_flags = flag_counts[flag_counts >= 1000].index.tolist()

if len(frequent_flags) > 5:
    corr_matrix = results[frequent_flags].corr()
    
    fig, ax = plt.subplots(figsize=(12, 10))
    
    # Shorten names
    short_names = [c.replace('flag_', '') for c in frequent_flags]
    
    sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='RdYlGn_r',
                xticklabels=short_names, yticklabels=short_names,
                ax=ax, vmin=-0.5, vmax=0.5)
    ax.set_title('Кореляція між red flags')
    
    plt.tight_layout()
    plt.savefig('../results/figures/rule_based/flag_correlation.png', dpi=150, bbox_inches='tight')
    plt.show()
else:
    print("Not enough frequent flags for correlation analysis")

## 12. Приклади Critical тендерів

In [None]:
# Get critical tenders
critical = detector.get_critical()
print(f"Critical тендерів: {len(critical):,}")

# Show examples
if len(critical) > 0:
    print("\n=== Приклади Critical тендерів ===")
    for i, (_, row) in enumerate(critical.head(5).iterrows()):
        print(f"\n--- Тендер {i+1} ---")
        print(f"ID: {row['tender_id'][:30]}...")
        print(f"Value: {row['tender_value']:,.0f} UAH")
        print(f"Method: {row['procurement_method']}")
        print(f"Risk Score: {row['rule_risk_score']}")
        print(f"Flags ({row['rule_flags_count']}):")
        
        # Get triggered flags
        triggered = [c.replace('flag_', '') for c in flag_cols if row.get(c, 0) == 1]
        for flag in triggered[:7]:
            print(f"  - {flag}")
        if len(triggered) > 7:
            print(f"  ... and {len(triggered)-7} more")

In [None]:
# Use explain() for detailed analysis
if len(critical) > 0:
    sample_id = critical.iloc[0]['tender_id']
    explanation = detector.explain(sample_id)
    
    print(f"\n=== Детальний аналіз тендера ===")
    print(f"ID: {explanation['tender_id'][:40]}...")
    print(f"Risk Score: {explanation['risk_score']}")
    print(f"Risk Level: {explanation['risk_level']}")
    print(f"\nСпрацьовані правила ({explanation['flags_count']}):")
    for flag in explanation['flags']:
        print(f"  [{flag['severity']:8}] {flag['id']}: {flag['name']}")
        print(f"             {flag['description'][:60]}...")

## 13. Збереження результатів

In [None]:
# Save high-risk tenders
high_risk = detector.get_high_risk()

# Select key columns
key_cols = ['tender_id', 'procurement_method', 'tender_value', 'award_value',
            'buyer_id', 'supplier_id', 'main_cpv_2_digit',
            'rule_risk_score', 'rule_flags_count', 'rule_risk_level']
key_cols += [c for c in results.columns if c.startswith('flag_')]

high_risk_export = high_risk[[c for c in key_cols if c in high_risk.columns]]
high_risk_export.to_csv('../results/anomalies/rule_based_high_risk_2023.csv', index=False)
print(f"Saved {len(high_risk_export):,} high-risk tenders")

# Save summary
summary.to_csv('../results/anomalies/rule_based_summary_2023.csv', index=False)
print(f"Saved summary ({len(summary)} rules)")

## 14. Summary Statistics

In [None]:
print("="*60)
print("RULE-BASED DETECTION SUMMARY (2023)")
print("="*60)
print(f"\nDataset:")
print(f"  Total tenders: {len(results):,}")
print(f"  With bids: {len(bids):,}")

print(f"\nRules:")
print(f"  Defined: {len(RULE_DEFINITIONS)}")
print(f"  Active: {len(active_rules)}")
print(f"  Total flags: {summary['count'].sum():,}")

print(f"\nRisk Distribution:")
for _, row in risk_dist.iterrows():
    print(f"  {row['risk_level']:10} {row['count']:>10,} ({row['percentage']:>5.2f}%)")

print(f"\nKey Findings:")
critical_count = len(detector.get_critical())
high_count = len(detector.get_high_risk())
print(f"  Critical tenders: {critical_count:,} ({critical_count/len(results)*100:.2f}%)")
print(f"  High risk tenders: {high_count:,} ({high_count/len(results)*100:.2f}%)")

print(f"\nTop 5 flags:")
for _, row in summary.head(5).iterrows():
    print(f"  {row['id']}: {row['name']} ({row['percentage']:.1f}%)")

print("\n" + "="*60)

## Висновки

### Основні результати:

1. **Rule-based detector** виявляє ~3-5% high-risk тендерів
2. **Open тендери** мають вищий рівень ризику ніж Limited (через більше активних правил)
3. **Q4 ефект** - підвищений ризик в кінці року
4. **CPV категорії** - деякі категорії систематично ризиковіші

### Обмеження:
- Rule-based підхід не виявляє нові патерни
- Фіксовані пороги можуть не підходити для всіх категорій
- Потрібна валідація на реальних кейсах

### Наступні кроки:
- Isolation Forest для ML-based detection
- Cross-method agreement для валідації
- Network analysis для виявлення картелів