**В данной части работы рассмотрим датасет целиком**

Загрузить датасет с транзакциями по эфиру (Ethereum Fraud Detection Dataset)

| Название колонки | Описание на русском |
| :--- | :--- |
| **Index** | Индекс (номер) строки |
| **Address** | Адрес кошелька Ethereum |
| **FLAG** | **Целевая переменная:** 1 — мошенническая транзакция/кошелек, 0 — честная |
| **Avg min between sent tnx** | Среднее время между отправленными транзакциями (в минутах) |
| **Avg_min_between_received_tnx** | Среднее время между полученными транзакциями (в минутах) |
| **Time_Diff_between_first_and_last(Mins)** | Разница во времени между первой и последней транзакцией (время жизни активности кошелька) |
| **Sent_tnx** | Общее количество отправленных транзакций |
| **Received_tnx** | Общее количество полученных транзакций |
| **Number_of_Created_Contracts** | Количество созданных смарт-контрактов |
| **Unique_Received_From_Addresses** | Количество уникальных адресов, от которых получены средства |
| **Unique_Sent_To_Addresses** | Количество уникальных адресов, на которые отправлены средства |
| **Min_Value_Received** | Минимальная сумма полученного эфира (Ether) |
| **Max_Value_Received** | Максимальная сумма полученного эфира |
| **Avg_Value_Received** | Средняя сумма полученного эфира |
| **Min_Val_Sent** | Минимальная сумма отправленного эфира |
| **Max_Val_Sent** | Максимальная сумма отправленного эфира |
| **Avg_Val_Sent** | Средняя сумма отправленного эфира |
| **Min_Value_Sent_To_Contract** | Минимальная сумма, отправленная на контракт |
| **Max_Value_Sent_To_Contract** | Максимальная сумма, отправленная на контракт |
| **Avg_Value_Sent_To_Contract** | Средняя сумма, отправленная на контракты |
| **Total_Transactions** | Общее количество транзакций (включая создание контрактов) |
| **Total_Ether_Sent** | Всего отправлено эфира с этого адреса |
| **Total_Ether_Received** | Всего получено эфира на этот адрес |
| **Total_Ether_Sent_Contracts** | Всего эфира отправлено на адреса контрактов |
| **Total_Ether_Balance** | Текущий баланс эфира (после выполнения всех транзакций) |
| **Total_ERC20_Tnxs** | Общее количество транзакций с токенами ERC20 |
| **ERC20_Total_Ether_Received** | Всего получено токенов ERC20 (в пересчете на Ether) |
| **ERC20_Total_Ether_Sent** | Всего отправлено токенов ERC20 (в пересчете на Ether) |
| **ERC20_Total_Ether_Sent_Contract** | Всего токенов ERC20 отправлено на контракты (в пересчете на Ether) |
| **ERC20_Uniq_Sent_Addr** | Количество уникальных адресов, куда отправлялись токены |
| **ERC20_Uniq_Rec_Addr** | Количество уникальных адресов, откуда получены токены |
| **ERC20_Uniq_Rec_Contract_Addr** | Количество уникальных адресов контрактов, от которых получены токены |
| **ERC20_Avg_Time_Between_Sent_Tnx** | Среднее время между отправками токенов (мин) |
| **ERC20_Avg_Time_Between_Rec_Tnx** | Среднее время между получением токенов (мин) |
| **ERC20_Avg_Time_Between_Contract_Tnx** | Среднее время между транзакциями токенов с контрактами |
| **ERC20_Min_Val_Rec** | Мин. сумма полученных токенов (в Ether) |
| **ERC20_Max_Val_Rec** | Макс. сумма полученных токенов (в Ether) |
| **ERC20_Avg_Val_Rec** | Средняя сумма полученных токенов (в Ether) |
| **ERC20_Min_Val_Sent** | Мин. сумма отправленных токенов (в Ether) |
| **ERC20_Max_Val_Sent** | Макс. сумма отправленных токенов (в Ether) |
| **ERC20_Avg_Val_Sent** | Средняя сумма отправленных токенов (в Ether) |
| **ERC20_Uniq_Sent_Token_Name** | Количество уникальных типов (имен) отправленных токенов |
| **ERC20_Uniq_Rec_Token_Name** | Количество уникальных типов (имен) полученных токенов |
| **ERC20_Most_Sent_Token_Type** | Имя наиболее часто отправляемого токена |
| **ERC20_Most_Rec_Token_Type** | Имя наиболее часто получаемого токена |

In [None]:
#Импортируем и проверяем датасет станддартынми методами

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('transaction_dataset.csv')
df


In [None]:
df.dtypes

In [None]:
#Здесь считаем количество пропусков.

df.isnull().sum()

Дадим краткую характеристику строке в датасете. Наблюдение в датасете это не конкретная транзакция (перевод денег). Это сводное досье на конкретного пользователя (или смарт-контракт) за всю его историю.
Аналогия с банковской выпиской
Представь, что у тебя есть выписка из банка.
Транзакционный датасет (как Elliptic): Это список покупок.
Строка: "15.12.2023 купил кофе за 300 руб".
Твой датасет (Ethereum Fraud Detection): Это профиль клиента в базе банка.
Строка: "Клиент №123. Всего покупок: 500. Средний чек: 1500 руб. Общий оборот: 1 млн руб. Статус: Надежный".
Из чего состоит это «Досье» (Строка)?
Каждая строка собирает статистику по четырем главным направлениям поведения этого адреса:
1. Личность (Идентификатор)
Address: Уникальный номер кошелька (например, 0x123abc...).
Index: Просто порядковый номер в таблице.
2. Временные привычки (Скорость)
Здесь зашифровано, как быстро действует владелец кошелька.
Avg min between sent tnx: Как часто он отправляет деньги? (Если очень часто — это может быть бот или скрипт для микширования).
Time_Diff...: Сколько времени прошло с момента появления кошелька до его последней активности. (Мошенники часто создают кошельки-однодневки: украл — перевел — выкинул).
3. Финансовый масштаб (Объемы)
Сколько денег проходит через кошелек.
Total Ether Sent / Received: Общий оборот.
Min/Max Value: Были ли микро-транзакции или огромные переводы?
Balance: Сколько осталось на счету. (У скамеров часто баланс стремится к нулю, так как они сразу выводят награбленное).
4. Социальные связи (Сеть)
Unique Sent/Received Addresses: С каким количеством разных людей он взаимодействовал?
Честный пользователь: Переводит на биржу, другу, в магазин (мало уникальных связей).
Финансовая пирамида: Получает деньги от тысяч разных адресов (много входящих уникальных).
5. Вердикт (Target)
FLAG: Самая главная колонка для обучения.
0: Обычный пользователь.
1: Мошенник.

Почему это важно понимать для ML?
Поскольку строка — это аккаунт, твоя модель будет отвечать на вопрос:
"Похоже ли общее поведение этого владельца кошелька на поведение мошенника?"
А не на вопрос: "Является ли вот этот конкретный перевод на 5 эфиров ворованным?"
Это упрощает задачу (табличные данные легче обрабатывать), но мы теряем детали (мы не видим, кому именно он переводил деньги, мы знаем только сколько раз).

In [None]:
# Повторяется цифра в 829 пропусков. Нужно посмотреть, одни и те же ли это транзакции и как они связаны с флагом мошенничества

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 1. Выделяем только строки с пропусками
nan_rows = df[df.isnull().any(axis=1)]

print(f"Количество строк с пропусками: {len(nan_rows)}")
print(f"Процент от всего датасета: {round(len(nan_rows) / len(df) * 100, 2)}%")

# 2. Визуализация паттерна пропусков (Heatmap)
# Если полоски сплошные, значит пропуски идут в одних и тех же строках
plt.figure(figsize=(20, 10))
sns.heatmap(df.isnull(), cbar=False, yticklabels=False, cmap='viridis')
plt.title("Карта пропущенных значений (Желтый = NaN)")
plt.show()

# 3. Проверка: Правда ли, что если пропущено одно ERC20 поле, то пропущены и остальные?
# Берем список ERC20 колонок (тех, где были пропуски на скрине)
erc20_cols = [col for col in df.columns if 'ERC20' in col]

# Проверяем, совпадают ли индексы пропусков в первой и последней ERC20 колонке
match = df[erc20_cols[0]].isnull().equals(df[erc20_cols[-1]].isnull())
print(f"Пропуски в столбцах ERC20 совпадают по строкам? -> {match}")

In [None]:
#Добавим к визуализации флаг мошенничества, чтобы посмотреть, как пропуски данных могли повлиять на признание транзакции мошеннической

import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.gridspec as gridspec

# 1. Сортируем датасет по Флагу, чтобы разделить классы визуально
df_sorted = df.sort_values(by='FLAG')

# 2. Подготовка данных для графиков
# Данные для левой полоски (Флаг)
flag_col = df_sorted[['FLAG']]
# Данные для правой части (Пропуски)
# Берем только столбцы с пропусками для наглядности (или весь df, если хочешь)
# Но лучше взять весь df, чтобы видеть контекст
nan_map = df_sorted.isnull()


# 3. Настройка сетки (левый график узкий, правый широкий)
fig = plt.figure(figsize=(15, 10))
gs = gridspec.GridSpec(1, 2, width_ratios=[1, 20])
ax1 = plt.subplot(gs[0])
ax2 = plt.subplot(gs[1])

# 4. Рисуем полоску с Флагом
# cmap='coolwarm': Синий (0) - холодный, Красный (1) - горячий/опасный
sns.heatmap(flag_col, ax=ax1, cbar=False, cmap='coolwarm', xticklabels=False, yticklabels=False)
ax1.set_title("FLAG\n(Blue=0, Red=1)", fontsize=10)

# 5. Рисуем карту пропусков
# cmap='viridis': Фиолетовый (False/Есть данные), Желтый (True/NaN)
sns.heatmap(nan_map, ax=ax2, cbar=False, yticklabels=False, cmap='viridis')
ax2.set_title("Карта пропусков (Сортировка по FLAG)", fontsize=14)

plt.tight_layout()
plt.show()

# --- Цифровая проверка ---
# Давай подтвердим то, что видим глазами, точными цифрами
# Берем любую колонку из ERC20 (где есть пропуски), например ' Total ERC20 tnxs'
target_col = ' Total ERC20 tnxs' # Исправлено: добавлен пробел перед 'Total'
nan_in_legit = df[df['FLAG'] == 0][target_col].isnull().mean()
nan_in_fraud = df[df['FLAG'] == 1][target_col].isnull().mean()

print(f"Процент пропусков (отсутствие ERC20) среди ЧЕСТНЫХ: {nan_in_legit:.2%}")
print(f"Процент пропусков (отсутствие ERC20) среди МОШЕННИКОВ: {nan_in_fraud:.2%}")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.colors import ListedColormap

# 1. Сортируем датасет по FLAG
# Это соберет всех честных (0) сверху, а мошенников (1) снизу
df_sorted = df.sort_values(by='FLAG')

# 2. Настраиваем "холст" из двух частей
# width_ratios=[1, 25] делает левый график узким, а правый широким
# sharey=True гарантирует, что строки совпадают на 100%
fig, axes = plt.subplots(1, 2, figsize=(18, 10), sharey=True,
                         gridspec_kw={'width_ratios': [1, 25], 'wspace': 0.02})

# --- ЛЕВАЯ ЧАСТЬ: КОЛОНКА FLAG ---
# Создаем свою палитру: 0 -> Синий, 1 -> Красный
custom_cmap = ListedColormap(['blue', 'red'])

sns.heatmap(df_sorted[['FLAG']],
            ax=axes[0],
            cbar=False,
            cmap=custom_cmap,
            yticklabels=False,
            xticklabels=['CLASS'])

# Добавляем подпись, чтобы не забыть цвета
axes[0].set_title("Blue=Legit\nRed=Fraud", fontsize=10, pad=10)


# --- ПРАВАЯ ЧАСТЬ: КАРТА ПРОПУСКОВ ---
# Используем 'viridis': Фиолетовый = Данные есть, Желтый = NaN
sns.heatmap(df_sorted.isnull(),
            ax=axes[1],
            cbar=False,
            cmap='viridis',
            yticklabels=False)

axes[1].set_title("Карта пропусков (Желтый = NaN)", fontsize=14)

plt.show()

Теперь хочется посмотреть на распределение признаков, связанных с ERC20. Возможно, они имеют малую величину близкую к нулю у мошеннических транзакций. Можно создать либо heatmap, либо распределения, как в крайнем правом столбце.

In [None]:
df_sorted = df.sort_values(
    by=['FLAG', ' Total ERC20 tnxs'],
    ascending=[True, True],
    na_position='first'
)

In [None]:
fig = plt.figure(figsize=(15, 10))
gs = gridspec.GridSpec(1, 2, width_ratios=[25, 1])
ax1 = plt.subplot(gs[0])
ax2 = plt.subplot(gs[1])

sns.heatmap(df_sorted.isnull(), cbar=False, yticklabels=False, cmap='viridis', ax = ax1)
plt.title("Карта пропущенных значений (Желтый = NaN)")

df_sorted_flag = df_sorted[['FLAG']]
sns.heatmap(df_sorted_flag, ax = ax2)



In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler
import math

# 1. Подготовка данных
# Сортируем по FLAG, чтобы разделить классы (сверху 0, снизу 1)
df_sorted = df.sort_values(by='FLAG').reset_index(drop=True)

# Оставляем только числовые колонки (текст нельзя нарисовать на heatmap)
df_numeric = df_sorted.select_dtypes(include=['number'])

# Заполняем пропуски (важно для корректного отображения)
df_numeric = df_numeric.fillna(0)

# 2. Нормализация (MinMax Scaling)
# Это превращает все значения в диапазон [0, 1], чтобы цвета были сопоставимы
scaler = MinMaxScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df_numeric), columns=df_numeric.columns)

# 3. Настройка сетки графиков
# Определяем, сколько колонок будет на картинке (например, 4 в ряд)
n_cols = 4
n_features = len(df_scaled.columns)
n_rows = math.ceil(n_features / n_cols)

fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, n_rows * 6))
axes = axes.flatten() # Выпрямляем массив осей для удобного цикла

# 4. Рисуем полоску для каждого признака
for i, col_name in enumerate(df_scaled.columns):
    # Данные для конкретной полоски (превращаем в таблицу 2D для heatmap)
    col_data = df_scaled[[col_name]]

    # Выбираем цветовую схему:
    # Для FLAG используем красно-синюю, для остальных - viridis (фиолетово-желтую)
    cmap = 'coolwarm' if col_name == 'FLAG' else 'viridis'

    sns.heatmap(col_data,
                ax=axes[i],
                cbar=False,       # Убираем цветовую шкалу, чтобы не засорять
                cmap=cmap,
                yticklabels=False, # Убираем подписи строк (их 10000, будет грязно)
                xticklabels=[])    # Убираем подпись оси X

    # Красивый заголовок для полоски
    axes[i].set_title(col_name, fontsize=10)
    axes[i].set_xlabel('')

# 5. Удаляем пустые графики, если количество признаков не делится на 4 ровно
for j in range(i + 1, len(axes)):
    fig.delaxes(axes[j])

plt.suptitle("Визуализация признаков (Сортировка по FLAG: Сверху=0, Снизу=1)", fontsize=16, y=1.00)
plt.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# 1. Сортировка и подготовка
# Сортируем по FLAG, чтобы четко разделить классы
df_sorted = df.sort_values(by='FLAG').reset_index(drop=True)

# Оставляем только числовые колонки
df_numeric = df_sorted.select_dtypes(include=['number'])

# Заполняем пропуски нулями (для корректности графика)
df_numeric = df_numeric.fillna(0)

# Перемещаем FLAG на первое место (чтобы он был крайней левой полоской для ориентира)
cols = ['FLAG'] + [c for c in df_numeric.columns if c != 'FLAG']
df_numeric = df_numeric[cols]

# 2. Нормализация данных (MinMax Scaling)
# Это сжимает все значения в диапазон [0, 1] для красивого цвета
scaler = MinMaxScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df_numeric), columns=df_numeric.columns)

# 3. Находим границу раздела классов (индекс, где начинаются мошенники)
# Это нужно, чтобы нарисовать разделительную линию
fraud_start_index = df_sorted[df_sorted['FLAG'] == 1].index[0]

# 4. Рисуем Глобальную Карту
plt.figure(figsize=(24, 10)) # Делаем график широким

# Используем 'viridis' (Фиолетовый=0 -> Желтый=1)
# cbar=True добавит легенду цветов справа
sns.heatmap(df_scaled,
            cmap='viridis',
            cbar=True,
            yticklabels=False) # Убираем подписи строк, так как их тысячи

# Добавляем красную линию раздела
plt.axhline(y=fraud_start_index, color='red', linewidth=3, linestyle='--')
plt.text(0, fraud_start_index, ' <-- Граница: Сверху Честные / Снизу Мошенники',
         color='red', fontweight='bold', ha='left', va='bottom', fontsize=12)

plt.title("Глобальная карта признаков (Feature DNA)", fontsize=20)
plt.xlabel("Признаки (Features)", fontsize=14)
plt.show()

Замечаем зеленую полосу посередине. Значит либо с данными что то не то, либо мы неправильно их интерпритируем. Нужно посмотреть описательные характеристики для датасета.

In [None]:
df['total ether balance'].describe()

In [None]:
#Попытаемсяотобразить данные в логарифмической шкале чтобы увидеть закономерности.

import numpy as np

# 1. Подготовка (как раньше)
df_sorted = df.sort_values(by='FLAG').reset_index(drop=True)
df_numeric = df_sorted.select_dtypes(include=['number'])
df_numeric = df_numeric.fillna(0)

# Перемещаем FLAG вперед
cols = ['FLAG'] + [c for c in df_numeric.columns if c != 'FLAG']
df_numeric = df_numeric[cols]

# === МАГИЯ ТУТ ===
# Применяем логарифм ко всем колонкам, КРОМЕ самого флага (он 0 или 1, его логарифмировать не надо)
# Мы делаем это для всех признаков, так как в крипте почти всё имеет "тяжелые хвосты"
cols_to_log = [c for c in df_numeric.columns if c != 'FLAG']
df_log = df_numeric.copy()
df_log[cols_to_log] = np.log1p(df_log[cols_to_log])

# 2. Теперь нормализуем уже ЛОГАРИФМИРОВАННЫЕ данные
scaler = MinMaxScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df_log), columns=df_log.columns)

# 3. Рисуем (тот же код)
fraud_start_index = df_sorted[df_sorted['FLAG'] == 1].index[0]

plt.figure(figsize=(24, 10))
sns.heatmap(df_scaled, cmap='viridis', cbar=True, yticklabels=False)

plt.axhline(y=fraud_start_index, color='red', linewidth=3, linestyle='--')
plt.text(0, fraud_start_index, ' <-- Граница: Сверху Честные / Снизу Мошенники',
         color='red', fontweight='bold', ha='left', va='bottom', fontsize=12)

plt.title("Глобальная карта признаков (LOG Scale)", fontsize=20)
plt.show()

В дальнейшем исследовании нужно попытаться учесть специфику каждого признака. Например, признак "Total Ether Balance" — это финансовая метрика, она имеет экстремально скошенное распределение (Power Law). Это значит, что у 99% пользователей баланс около нуля, а у единиц — миллионы.

ЗАДАЧА. Классифицировать признаки Каждому признаку в соответствие поставить распределение.

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

def check_distribution(df, col_name):
  try:
    plt.figure(figsize=(14, 5))

    # 1. Гистограмма с KDE (Линией плотности)
    plt.subplot(1, 2, 1)
    sns.histplot(df[col_name], kde=True, bins=50, color='blue')
    plt.title(f'Гистограмма: {col_name}')

    # 2. QQ-Plot (Проверка на нормальность)
    plt.subplot(1, 2, 2)
    stats.probplot(df[col_name], dist="norm", plot=plt)
    plt.title(f'QQ-Plot (Сравнение с Нормальным): {col_name}')

    plt.show()
  except:
    print("Формат данных не подходит для вывода графиков")

# Пример использования (замени на нужную колонку)
# Используем логарифм, так как мы уже знаем, что данные скошены
# log1p добавляет +1, чтобы не было ошибки log(0)
check_distribution(df, 'total ether balance')

In [None]:
for c in df.columns:
  check_distribution(df, c)

In [None]:
# 1. Проверяем, есть ли отрицательные балансы
negative_balance = df[df['total ether balance'] < 0]

print(f"Количество строк с отрицательным балансом: {len(negative_balance)}")
print("\nПримеры таких строк:")
print(negative_balance[['Address', 'total ether balance', 'FLAG']].head())

# 2. Проверяем статистику
print("\nМинимальное значение баланса:", df['total ether balance'].min())

ЗАДАЧА. Проверить дубликаты

In [None]:
print(df.duplicated().sum())

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import matplotlib.gridspec as gridspec

# 1. Загружаем СЫРЫЕ данные заново (чтобы вернуть дубликаты)
# Укажи свой путь к файлу
df_raw = pd.read_csv('transaction_dataset.csv')

# 2. Создаем колонку с подсчетом повторов Индекса
# map() заменит значение индекса на количество его появлений во всем датасете
index_counts = df_raw['Index'].value_counts()
df_raw['Dup_Count'] = df_raw['Index'].map(index_counts)

# 3. Сортировка для наглядности (The Sandwich Sort)
# Уровень 1: Сначала делим на Честных (0) и Мошенников (1)
# Уровень 2: Внутри классов группируем по количеству дублей (3 -> 2 -> 1)
# Уровень 3: Внутри дублей сортируем по наличию данных в ERC20 (чтобы видеть желтые полосы)
df_sorted = df_raw.sort_values(
    by=['FLAG', 'Dup_Count', ' Total ERC20 tnxs'], # Изменено: добавлен пробел перед 'Total ERC20 tnxs'
    ascending=[True, False, True], # Мошенники внизу, Дубликаты (3) сверху внутри групп
    na_position='first'
)

# 4. Настройка холста (3 панели)
fig = plt.figure(figsize=(20, 12))
# width_ratios задает ширину колонок: узкая, узкая, широкая
gs = gridspec.GridSpec(1, 3, width_ratios=[1, 1, 20], wspace=0.05)

ax1 = plt.subplot(gs[0]) # FLAG
ax2 = plt.subplot(gs[1]) # Дубликаты
ax3 = plt.subplot(gs[2]) # Данные

# --- ГРАФИК 1: FLAG (Класс) ---
cmap_flag = ListedColormap(['blue', 'red']) # 0=Синий, 1=Красный
sns.heatmap(df_sorted[['FLAG']], ax=ax1, cbar=False, cmap=cmap_flag, yticklabels=False, xticklabels=['CLASS'])

# --- ГРАФИК 2: DUP_COUNT (Количество дублей) ---
# Создаем цвета: 1=Зеленый (ОК), 2=Оранжевый (Плохо), 3=Черный (Ужас)
cmap_dups = ListedColormap(['#66ff66', '#ffcc00', '#000000'])
# Важно: heatmap нормализует данные, поэтому указываем vmin/vmax
sns.heatmap(df_sorted[['Dup_Count']], ax=ax2, cbar=False, cmap=cmap_dups, yticklabels=False, xticklabels=['DUPLICATES'], vmin=1, vmax=3)

# --- ГРАФИК 3: MISSING VALUES (Пропуски) ---
# Фиолетовый = Данные есть, Желтый = NaN
sns.heatmap(df_sorted.isnull(), ax=ax3, cbar=False, cmap='viridis', yticklabels=False)
ax3.set_title("Карта пропусков (Сортировка: Класс -> Дубликаты -> Пропуски)", fontsize=14)

# Легенда для дубликатов (ручная, чтобы было понятно)
from matplotlib.patches import Patch
legend_elements = [
    Patch(facecolor='#66ff66', label='1: Уникальная запись'),
    Patch(facecolor='#ffcc00', label='2: Встречается дважды'),
    Patch(facecolor='#000000', label='3: Встречается трижды')
]
ax2.legend(handles=legend_elements, loc='upper left', bbox_to_anchor=(-4, 1.05), title="Легенда дубликатов")

plt.show()

# --- Вывод статистики цифрами ---
print("Статистика дубликатов по классам:")
print(df_raw.groupby(['FLAG', 'Dup_Count']).size().unstack(fill_value=0))