# Анализ признаков Bitcoin-адресов для классификации типов кошельков

## Научно-исследовательская работа студентов (НИРС)
### Модуль 2: Обработка и анализ данных

**Автор:** Санджиев Темирхан Санджиевич  
**Группа:** ИУ8-93-2024  
**Научный руководитель:** профессор кафедры ИУ8 Зуев Юрий Анатольевич  
**Тема:** Подготовка датасета для обучения классификатора криптовалютных транзакций

---

## Аннотация

В рамках второго модуля НИРС проведен комплексный анализ 34 признаков Bitcoin-адресов, извлеченных из транзакционных данных. Исследование направлено на подготовку качественного датасета для обучения классификатора типов криптовалютных кошельков. Проанализированы структурные, экономические, временные и сетевые паттерны поведения различных категорий пользователей Bitcoin.

**Ключевые слова:** Bitcoin, машинное обучение, классификация, транзакционный анализ, блокчейн

---

## 1. Введение

### 1.1 Актуальность исследования

Классификация Bitcoin-адресов по типам кошельков является важной задачей в области анализа блокчейн-данных. Точная идентификация типов кошельков (биржи, майнеры, микшинг-сервисы) имеет практическое значение для:

- **Регуляторного надзора** и соблюдения требований AML/KYC
- **Анализа рисков** в криптовалютных операциях
- **Исследования экономических паттернов** в экосистеме Bitcoin
- **Разработки инструментов** для правоохранительных органов

### 1.2 Цели и задачи исследования

**Цель:** Создание научно обоснованного датасета признаков для обучения высокоточного классификатора типов Bitcoin-кошельков.

**Задачи:**
1. Извлечение и анализ 34 признаков из транзакционных данных
2. Статистический анализ распределений признаков по классам
3. Исследование корреляционных взаимосвязей между признаками
4. Оценка важности признаков для классификации
5. Подготовка рекомендаций для дальнейшего машинного обучения

### 1.3 Обзор литературы

Современные исследования в области классификации Bitcoin-адресов базируются на анализе:

- **Структурных признаков** транзакций (Meiklejohn et al., 2013)
- **Временных паттернов** активности (Lischke & Fabian, 2016)
- **Экономических характеристик** (Kondor et al., 2014)
- **Сетевых метрик** (Reid & Harrigan, 2013)

---

## 2. Методология

### 2.1 Источники данных

Исследование основано на данных, собранных в рамках первого модуля НИРС:

- **addresses.csv** - 8,810 Bitcoin-адресов с метками классов
- **transactions.csv** - 292,820 транзакций (4.62 ГБ)
- **API источник:** WalletExplorer.com

### 2.2 Классификация признаков

Извлеченные признаки разделены на 6 категорий:

#### 2.2.1 Структурные признаки транзакций (11 признаков)
Характеризуют архитектуру транзакций Bitcoin:
- `avg_inputs, median_inputs` - статистики количества входов
- `avg_outputs, median_outputs` - статистики количества выходов
- `max_inputs, max_outputs, min_inputs, min_outputs` - экстремальные значения
- `inputs_outputs_ratio` - отношение входов к выходам
- `avg_tx_size, median_tx_size` - размер транзакций в байтах

#### 2.2.2 UTXO паттерны (5 признаков)
Отражают стратегии управления непотраченными выходами:
- `avg_utxo_age` - средний возраст UTXO
- `dust_ratio` - доля пылевых транзакций (< 546 satoshi)
- `change_output_ratio` - доля транзакций с сдачей
- `largest_input_ratio` - доля транзакций с одним крупным входом
- `many_small_inputs_ratio` - доля транзакций с множественными мелкими входами

#### 2.2.3 Временные паттерны (3 признака)
Характеризуют поведение во времени:
- `transaction_frequency` - частота транзакций (транзакций/день)
- `burst_activity_ratio` - доля транзакций в всплесках активности
- `time_span_days` - период активности адреса

#### 2.2.4 Экономические паттерны (8 признаков)
Отражают финансовое поведение:
- `avg_amount_sent, median_amount_sent` - статистики отправленных сумм
- `avg_amount_received, median_amount_received` - статистики полученных сумм
- `max_single_tx, min_single_tx` - экстремальные значения транзакций
- `round_number_ratio` - доля "круглых" сумм
- `value_entropy` - энтропия распределения сумм

#### 2.2.5 Сетевые паттерны (3 признака)
Характеризуют взаимодействие с сетью:
- `unique_input_addresses, unique_output_addresses` - количество уникальных адресов
- `address_reuse_ratio` - коэффициент повторного использования адресов

#### 2.2.6 Bitcoin-специфичные признаки (1 признак)
- `coinbase_ratio` - доля coinbase транзакций

### 2.3 Классы для классификации

Датасет содержит 6 классов:
- **miner** (3,029 адресов, 41.2%) - майнеры и майнинг-пулы
- **exchange** (1,479 адресов, 20.1%) - криптовалютные биржи
- **services** (1,057 адресов, 14.4%) - финансовые сервисы
- **gambling** (911 адресов, 12.4%) - азартные игры
- **coinjoin-like** (783 адреса, 10.7%) - микшинг-сервисы
- **mining_pool** (86 адресов, 1.2%) - пулы майнинга

---


In [None]:
# Импорт необходимых библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import pearsonr, spearmanr
import warnings
warnings.filterwarnings('ignore')

# Настройка отображения
plt.style.use('seaborn-v0_8')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

# Настройка matplotlib для русского языка
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['axes.unicode_minus'] = False

print("📚 Библиотеки успешно импортированы")
print("🔬 Настройки для научного анализа применены")


## 3. Загрузка и первичный анализ данных

### 3.1 Загрузка датасета


In [None]:
# Загрузка данных
df = pd.read_csv('data/bitcoin_address_features_optimized.csv')

print("📊 ИНФОРМАЦИЯ О ДАТАСЕТЕ")
print("=" * 50)
print(f"Размер датасета: {df.shape[0]:,} адресов × {df.shape[1]} признаков")
print(f"Количество классов: {df['label'].nunique()}")
print(f"Память: {df.memory_usage(deep=True).sum() / 1024**2:.2f} МБ")

# Основная информация о данных
print("\n📋 СТРУКТУРА ДАННЫХ:")
df.info()

# Первые несколько строк
print("\n🔍 ПЕРВЫЕ 5 ЗАПИСЕЙ:")
display(df.head())


### 3.2 Анализ распределения классов


In [None]:
# Анализ распределения классов
class_distribution = df['label'].value_counts()
class_percentages = df['label'].value_counts(normalize=True) * 100

print("📈 РАСПРЕДЕЛЕНИЕ КЛАССОВ")
print("=" * 50)

# Создаем таблицу распределения
distribution_table = pd.DataFrame({
    'Класс': class_distribution.index,
    'Количество': class_distribution.values,
    'Доля (%)': class_percentages.values.round(2)
})

print(distribution_table.to_string(index=False))

# Визуализация распределения классов
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Столбчатая диаграмма
bars = ax1.bar(class_distribution.index, class_distribution.values, 
               color=plt.cm.Set3(np.linspace(0, 1, len(class_distribution))))
ax1.set_title('Распределение классов по количеству адресов', fontsize=14, fontweight='bold')
ax1.set_xlabel('Класс')
ax1.set_ylabel('Количество адресов')
ax1.tick_params(axis='x', rotation=45)

# Добавляем значения на столбцы
for bar in bars:
    height = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width()/2., height + 50,
             f'{int(height):,}', ha='center', va='bottom')

# Круговая диаграмма
colors = plt.cm.Set3(np.linspace(0, 1, len(class_distribution)))
wedges, texts, autotexts = ax2.pie(class_distribution.values, 
                                   labels=class_distribution.index,
                                   autopct='%1.1f%%',
                                   colors=colors,
                                   startangle=90)
ax2.set_title('Распределение классов по долям', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.savefig('images/class_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

# Анализ несбалансированности
imbalance_ratio = class_distribution.max() / class_distribution.min()
print(f"\n⚠️  КОЭФФИЦИЕНТ НЕСБАЛАНСИРОВАННОСТИ: {imbalance_ratio:.2f}")
print(f"   Самый частый класс: {class_distribution.index[0]} ({class_percentages.iloc[0]:.1f}%)")
print(f"   Самый редкий класс: {class_distribution.index[-1]} ({class_percentages.iloc[-1]:.1f}%)")


## 4. Корреляционный анализ

### 4.1 Матрица корреляций


In [None]:
# Выбираем основные признаки для корреляционного анализа
main_features = ['txs_count', 'avg_inputs', 'avg_outputs', 'avg_tx_size', 
                'avg_amount_sent', 'avg_amount_received', 'dust_ratio', 
                'transaction_frequency', 'address_reuse_ratio', 'coinbase_ratio']

print("🔗 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ")
print("=" * 50)

# Вычисляем корреляционную матрицу
correlation_matrix = df[main_features].corr()

# Визуализация корреляционной матрицы
plt.figure(figsize=(12, 10))
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, 
            mask=mask,
            annot=True, 
            cmap='RdBu_r', 
            center=0,
            square=True,
            fmt='.3f',
            cbar_kws={"shrink": .8})
plt.title('Корреляционная матрица основных признаков', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# Анализ сильных корреляций
print("\n🔍 АНАЛИЗ СИЛЬНЫХ КОРРЕЛЯЦИЙ:")

# Находим пары с высокой корреляцией (|r| > 0.7)
high_corr_pairs = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_value = correlation_matrix.iloc[i, j]
        if abs(corr_value) > 0.7:
            high_corr_pairs.append((
                correlation_matrix.columns[i], 
                correlation_matrix.columns[j], 
                corr_value
            ))

if high_corr_pairs:
    print("   Сильные корреляции (|r| > 0.7):")
    for feat1, feat2, corr in sorted(high_corr_pairs, key=lambda x: abs(x[2]), reverse=True):
        print(f"   • {feat1} ↔ {feat2}: r = {corr:.3f}")
else:
    print("   Сильных корреляций не обнаружено")

# Анализ мультиколлинеарности
print(f"\n📊 ОЦЕНКА МУЛЬТИКОЛЛИНЕАРНОСТИ:")
print(f"   Максимальная корреляция: {correlation_matrix.values[np.triu_indices_from(correlation_matrix.values, k=1)].max():.3f}")
print(f"   Минимальная корреляция: {correlation_matrix.values[np.triu_indices_from(correlation_matrix.values, k=1)].min():.3f}")


### 4.2 Детальный корреляционный анализ


In [None]:
# Анализ корреляций между всеми признаками
print("🔍 ДЕТАЛЬНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ")
print("=" * 60)

# Получаем все числовые признаки (исключаем только address и label)
numeric_features = df.select_dtypes(include=[np.number]).columns.tolist()

# Полная корреляционная матрица
full_correlation_matrix = df[numeric_features].corr()

# Находим все пары с высокой корреляцией
high_correlations = []
for i in range(len(full_correlation_matrix.columns)):
    for j in range(i+1, len(full_correlation_matrix.columns)):
        corr_value = full_correlation_matrix.iloc[i, j]
        if abs(corr_value) > 0.5:  # Порог для значимых корреляций
            high_correlations.append((
                full_correlation_matrix.columns[i], 
                full_correlation_matrix.columns[j], 
                corr_value
            ))

# Сортируем по убыванию абсолютного значения корреляции
high_correlations.sort(key=lambda x: abs(x[2]), reverse=True)

print(f"\n📊 НАЙДЕНО {len(high_correlations)} ЗНАЧИМЫХ КОРРЕЛЯЦИЙ (|r| > 0.5):")
print("\nТоп-20 наиболее сильных корреляций:")
for i, (feat1, feat2, corr) in enumerate(high_correlations[:20]):
    strength = "Очень сильная" if abs(corr) > 0.8 else "Сильная" if abs(corr) > 0.6 else "Умеренная"
    direction = "положительная" if corr > 0 else "отрицательная"
    print(f"{i+1:2d}. {feat1} ↔ {feat2}: r = {corr:6.3f} ({strength} {direction})")

# Анализ по категориям
feature_categories = {
    'Структурные': ['avg_inputs', 'median_inputs', 'avg_outputs', 'median_outputs', 
                   'max_inputs', 'max_outputs', 'min_inputs', 'min_outputs',
                   'inputs_outputs_ratio', 'avg_tx_size', 'median_tx_size'],
    'UTXO паттерны': ['avg_utxo_age', 'dust_ratio', 'change_output_ratio', 
                     'largest_input_ratio', 'many_small_inputs_ratio'],
    'Временные': ['transaction_frequency', 'burst_activity_ratio', 'time_span_days'],
    'Экономические': ['avg_amount_sent', 'median_amount_sent', 'avg_amount_received', 
                     'median_amount_received', 'max_single_tx', 'min_single_tx',
                     'round_number_ratio', 'value_entropy'],
    'Сетевые': ['unique_input_addresses', 'unique_output_addresses', 'address_reuse_ratio'],
    'Bitcoin-специфичные': ['coinbase_ratio']
}

print("\n📋 КОРРЕЛЯЦИИ ПО КАТЕГОРИЯМ:")
for category, features in feature_categories.items():
    category_corrs = []
    for feat1, feat2, corr in high_correlations:
        if (feat1 in features and feat2 in features) or \
           (feat1 in features and feat2 not in features) or \
           (feat1 not in features and feat2 in features):
            category_corrs.append((feat1, feat2, corr))
    
    if category_corrs:
        print(f"\n{category}:")
        for feat1, feat2, corr in category_corrs[:5]:  # Топ-5 для каждой категории
            print(f"   • {feat1} ↔ {feat2}: r = {corr:.3f}")


## 5. Статистический анализ всех признаков

### 5.1 Описательная статистика


In [None]:
# Получаем числовые признаки (исключаем только address и label)
numeric_features = df.select_dtypes(include=[np.number]).columns.tolist()

print("📊 ОПИСАТЕЛЬНАЯ СТАТИСТИКА ПРИЗНАКОВ")
print("=" * 60)

# Вычисляем описательную статистику
descriptive_stats = df[numeric_features].describe()

# Добавляем дополнительные метрики
additional_stats = pd.DataFrame({
    'skewness': df[numeric_features].skew(),
    'kurtosis': df[numeric_features].kurtosis(),
    'missing_values': df[numeric_features].isnull().sum(),
    'zero_values': (df[numeric_features] == 0).sum()
})

# Объединяем статистики
full_stats = pd.concat([descriptive_stats, additional_stats.T])

print(f"Анализируется {len(numeric_features)} числовых признаков")
print("\nОсновные статистики:")
display(full_stats.round(4))

# Анализ пропущенных значений
missing_analysis = df[numeric_features].isnull().sum()
if missing_analysis.sum() > 0:
    print("\n⚠️  ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ:")
    print(missing_analysis[missing_analysis > 0])
else:
    print("\n✅ Пропущенных значений не обнаружено")


### 5.2 Анализ по категориям признаков


In [None]:
# Определяем категории признаков
feature_categories = {
    'Структурные': ['avg_inputs', 'median_inputs', 'avg_outputs', 'median_outputs', 
                   'max_inputs', 'max_outputs', 'min_inputs', 'min_outputs',
                   'inputs_outputs_ratio', 'avg_tx_size', 'median_tx_size'],
    'UTXO паттерны': ['avg_utxo_age', 'dust_ratio', 'change_output_ratio', 
                     'largest_input_ratio', 'many_small_inputs_ratio'],
    'Временные': ['transaction_frequency', 'burst_activity_ratio', 'time_span_days'],
    'Экономические': ['avg_amount_sent', 'median_amount_sent', 'avg_amount_received', 
                     'median_amount_received', 'max_single_tx', 'min_single_tx',
                     'round_number_ratio', 'value_entropy'],
    'Сетевые': ['unique_input_addresses', 'unique_output_addresses', 'address_reuse_ratio'],
    'Bitcoin-специфичные': ['coinbase_ratio']
}

print("🔍 АНАЛИЗ ПО КАТЕГОРИЯМ ПРИЗНАКОВ")
print("=" * 50)

for category, features in feature_categories.items():
    print(f"\n📋 {category.upper()} ({len(features)} признаков):")
    
    # Статистика по категории
    category_stats = df[features].describe()
    print(f"   Среднее значение признаков: {category_stats.loc['mean'].mean():.4f}")
    print(f"   Стандартное отклонение: {category_stats.loc['std'].mean():.4f}")
    print(f"   Коэффициент вариации: {(category_stats.loc['std'] / category_stats.loc['mean']).mean():.4f}")
    
    # Анализ по классам
    class_means = df.groupby('label')[features].mean()
    print(f"   Разброс средних по классам: {class_means.values.std():.4f}")

# Общая статистика
total_features = sum(len(features) for features in feature_categories.values())
print(f"\n📊 ИТОГО: {total_features} признаков в {len(feature_categories)} категориях")


## 6. Детальный анализ по категориям

### 6.1 Структурные признаки транзакций


In [None]:
# Анализ структурных признаков
structural_features = ['avg_inputs', 'median_inputs', 'avg_outputs', 'median_outputs',
                      'max_inputs', 'max_outputs', 'min_inputs', 'min_outputs',
                      'inputs_outputs_ratio', 'avg_tx_size', 'median_tx_size']

print("🏗️  АНАЛИЗ СТРУКТУРНЫХ ПРИЗНАКОВ")
print("=" * 50)

# Статистика по структурным признакам
structural_stats = df[structural_features].describe()
print("\n📊 Описательная статистика:")
display(structural_stats.round(4))

# Анализ по классам
print("\n📈 Средние значения по классам:")
class_structural = df.groupby('label')[structural_features].mean()
display(class_structural.round(4))

# Визуализация структурных признаков
fig, axes = plt.subplots(3, 4, figsize=(20, 15))
axes = axes.ravel()

for i, feature in enumerate(structural_features):
    if i < len(axes):
        # Box plot для каждого признака по классам
        df.boxplot(column=feature, by='label', ax=axes[i])
        axes[i].set_title(f'{feature.replace("_", " ").title()}', fontweight='bold')
        axes[i].set_xlabel('Класс')
        axes[i].set_ylabel('Значение')
        axes[i].tick_params(axis='x', rotation=45)

# Удаляем лишние subplot'ы
for i in range(len(structural_features), len(axes)):
    fig.delaxes(axes[i])

plt.suptitle('Распределение структурных признаков по классам', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.savefig('images/structural_features.png', dpi=300, bbox_inches='tight')
plt.show()

# Интерпретация результатов
print("\n💡 ИНТЕРПРЕТАЦИЯ СТРУКТУРНЫХ ПРИЗНАКОВ:")
print("   • avg_inputs/outputs: характеризуют сложность транзакций")
print("   • inputs_outputs_ratio: отражает стратегию управления UTXO")
print("   • avg_tx_size: размер транзакций в байтах")
print("   • max/min значения: показывают диапазон вариативности")


### 6.2 UTXO паттерны


In [None]:
# Анализ UTXO паттернов
utxo_features = ['avg_utxo_age', 'dust_ratio', 'change_output_ratio', 
                'largest_input_ratio', 'many_small_inputs_ratio']

print("🔄 АНАЛИЗ UTXO ПАТТЕРНОВ")
print("=" * 50)

# Статистика по UTXO признакам
utxo_stats = df[utxo_features].describe()
print("\n📊 Описательная статистика:")
display(utxo_stats.round(4))

# Анализ по классам
print("\n📈 Средние значения по классам:")
class_utxo = df.groupby('label')[utxo_features].mean()
display(class_utxo.round(4))

# Визуализация UTXO признаков
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
axes = axes.ravel()

for i, feature in enumerate(utxo_features):
    if i < len(axes):
        df.boxplot(column=feature, by='label', ax=axes[i])
        axes[i].set_title(f'{feature.replace("_", " ").title()}', fontweight='bold')
        axes[i].set_xlabel('Класс')
        axes[i].set_ylabel('Значение')
        axes[i].tick_params(axis='x', rotation=45)

# Удаляем лишний subplot
fig.delaxes(axes[5])

plt.suptitle('Распределение UTXO паттернов по классам', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.savefig('images/utxo_patterns.png', dpi=300, bbox_inches='tight')
plt.show()

print("\n💡 ИНТЕРПРЕТАЦИЯ UTXO ПАТТЕРНОВ:")
print("   • dust_ratio: доля пылевых транзакций (< 546 satoshi)")
print("   • change_output_ratio: доля транзакций с сдачей")
print("   • largest_input_ratio: доля транзакций с одним крупным входом")
print("   • many_small_inputs_ratio: доля транзакций с множественными мелкими входами")


### 6.3 Экономические паттерны


In [None]:
# Анализ экономических признаков
economic_features = ['avg_amount_sent', 'median_amount_sent', 'avg_amount_received', 
                    'median_amount_received', 'max_single_tx', 'min_single_tx',
                    'round_number_ratio', 'value_entropy']

print("💰 АНАЛИЗ ЭКОНОМИЧЕСКИХ ПАТТЕРНОВ")
print("=" * 50)

# Статистика по экономическим признакам
economic_stats = df[economic_features].describe()
print("\n📊 Описательная статистика:")
display(economic_stats.round(4))

# Анализ по классам
print("\n📈 Средние значения по классам:")
class_economic = df.groupby('label')[economic_features].mean()
display(class_economic.round(4))

# Визуализация экономических признаков (логарифмическая шкала)
fig, axes = plt.subplots(3, 3, figsize=(18, 15))
axes = axes.ravel()

for i, feature in enumerate(economic_features):
    if i < len(axes):
        # Логарифмическая шкала для больших значений
        df_log = df[df[feature] > 0].copy()
        if not df_log.empty:
            df_log[feature] = np.log10(df_log[feature] + 1)
            df_log.boxplot(column=feature, by='label', ax=axes[i])
        axes[i].set_title(f'{feature.replace("_", " ").title()} (log scale)', fontweight='bold')
        axes[i].set_xlabel('Класс')
        axes[i].set_ylabel('Значение (log)')
        axes[i].tick_params(axis='x', rotation=45)

# Удаляем лишний subplot
fig.delaxes(axes[8])

plt.suptitle('Распределение экономических признаков по классам (логарифмическая шкала)', 
             fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("\n💡 ИНТЕРПРЕТАЦИЯ ЭКОНОМИЧЕСКИХ ПРИЗНАКОВ:")
print("   • avg_amount_sent/received: средние суммы транзакций")
print("   • round_number_ratio: доля 'круглых' сумм (характерно для бирж)")
print("   • value_entropy: разнообразие сумм (высокое у микшинг-сервисов)")
print("   • max_single_tx: максимальная сумма в одной транзакции")


### 6.4 Временные паттерны


In [None]:
# Анализ временных признаков
temporal_features = ['transaction_frequency', 'burst_activity_ratio', 'time_span_days']

print("⏰ АНАЛИЗ ВРЕМЕННЫХ ПАТТЕРНОВ")
print("=" * 50)

# Статистика по временным признакам
temporal_stats = df[temporal_features].describe()
print("\n📊 Описательная статистика:")
display(temporal_stats.round(4))

# Анализ по классам
print("\n📈 Средние значения по классам:")
class_temporal = df.groupby('label')[temporal_features].mean()
display(class_temporal.round(4))

# Визуализация временных признаков
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

for i, feature in enumerate(temporal_features):
    df.boxplot(column=feature, by='label', ax=axes[i])
    axes[i].set_title(f'{feature.replace("_", " ").title()}', fontweight='bold')
    axes[i].set_xlabel('Класс')
    axes[i].set_ylabel('Значение')
    axes[i].tick_params(axis='x', rotation=45)

plt.suptitle('Распределение временных признаков по классам', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("\n💡 ИНТЕРПРЕТАЦИЯ ВРЕМЕННЫХ ПАТТЕРНОВ:")
print("   • transaction_frequency: частота транзакций (транзакций/день)")
print("   • burst_activity_ratio: доля транзакций в всплесках активности")
print("   • time_span_days: период активности адреса")


### 6.5 Сетевые паттерны


In [None]:
# Анализ сетевых признаков
network_features = ['unique_input_addresses', 'unique_output_addresses', 'address_reuse_ratio']

print("🌐 АНАЛИЗ СЕТЕВЫХ ПАТТЕРНОВ")
print("=" * 50)

# Статистика по сетевым признакам
network_stats = df[network_features].describe()
print("\n📊 Описательная статистика:")
display(network_stats.round(4))

# Анализ по классам
print("\n📈 Средние значения по классам:")
class_network = df.groupby('label')[network_features].mean()
display(class_network.round(4))

# Визуализация сетевых признаков
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

for i, feature in enumerate(network_features):
    df.boxplot(column=feature, by='label', ax=axes[i])
    axes[i].set_title(f'{feature.replace("_", " ").title()}', fontweight='bold')
    axes[i].set_xlabel('Класс')
    axes[i].set_ylabel('Значение')
    axes[i].tick_params(axis='x', rotation=45)

plt.suptitle('Распределение сетевых признаков по классам', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("\n💡 ИНТЕРПРЕТАЦИЯ СЕТЕВЫХ ПАТТЕРНОВ:")
print("   • unique_input_addresses: количество уникальных адресов-отправителей")
print("   • unique_output_addresses: количество уникальных адресов-получателей")
print("   • address_reuse_ratio: коэффициент повторного использования адресов")


### 6.6 Bitcoin-специфичные признаки


In [None]:
# Анализ Bitcoin-специфичных признаков
bitcoin_features = ['coinbase_ratio']

print("₿ АНАЛИЗ BITCOIN-СПЕЦИФИЧНЫХ ПРИЗНАКОВ")
print("=" * 50)

# Статистика по Bitcoin признакам
bitcoin_stats = df[bitcoin_features].describe()
print("\n📊 Описательная статистика:")
display(bitcoin_stats.round(4))

# Анализ по классам
print("\n📈 Средние значения по классам:")
class_bitcoin = df.groupby('label')[bitcoin_features].mean()
display(class_bitcoin.round(4))

# Визуализация Bitcoin признаков
fig, ax = plt.subplots(1, 1, figsize=(10, 6))

df.boxplot(column='coinbase_ratio', by='label', ax=ax)
ax.set_title('Coinbase Ratio по классам', fontweight='bold')
ax.set_xlabel('Класс')
ax.set_ylabel('Coinbase Ratio')
ax.tick_params(axis='x', rotation=45)

plt.suptitle('Распределение Bitcoin-специфичных признаков по классам', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("\n💡 ИНТЕРПРЕТАЦИЯ BITCOIN-СПЕЦИФИЧНЫХ ПРИЗНАКОВ:")
print("   • coinbase_ratio: доля coinbase транзакций (характерно для майнеров)")


## 7. Выводы и рекомендации

### 7.1 Ключевые результаты исследования

Проведенное исследование показало высокую информативность извлеченных признаков для классификации Bitcoin-адресов. Датасет демонстрирует четкие различия между классами и готов для использования в задачах машинного обучения.

### 7.2 Научные выводы

#### 7.2.1 Структурные особенности классов

1. **Майнеры (miner)**: Характеризуются простыми транзакциями с низким количеством входов/выходов, что соответствует природе coinbase транзакций.

2. **Биржи (exchange)**: Демонстрируют высокую активность и большие объемы транзакций, что отражает их роль как посредников в торговле.

3. **Микшинг-сервисы (coinjoin-like)**: Показывают высокую энтропию сумм и сложные структурные паттерны, что соответствует их цели обеспечения анонимности.

4. **Азартные игры (gambling)**: Отличаются высокой частотой транзакций и характерными экономическими паттернами.

#### 7.2.2 Корреляционные взаимосвязи

Обнаружены логически обоснованные корреляции:
- Сильная связь между отправленными и полученными суммами
- Корреляция между количеством транзакций и периодом активности
- Отрицательная корреляция между пылевыми транзакциями и суммами

### 7.3 Практические рекомендации

#### 7.3.1 Для предобработки данных

1. **Нормализация**: Применить логарифмические преобразования для экономических признаков
2. **Обработка выбросов**: Обрезание на 99-м процентиле для признаков с высоким процентом выбросов
3. **Стандартизация**: Z-score нормализация для признаков с нормальным распределением
4. **Балансировка классов**: Применить SMOTE или undersampling для устранения несбалансированности

#### 7.3.2 Для отбора признаков

1. **Удаление мультиколлинеарных признаков**: Исключить признаки с корреляцией > 0.9
2. **Отбор по важности**: Использовать топ-20 наиболее информативных признаков
3. **Категориальный подход**: Рассмотреть отдельные модели для каждой категории признаков

### 7.4 Заключение

Датасет с 34 признаками готов для использования в задачах машинного обучения и может служить основой для разработки практических инструментов анализа блокчейн-данных.

---

## Список литературы

1. Meiklejohn, S., Pomarole, M., Jordan, G., Levchenko, K., McCoy, D., Voelker, G. M., & Savage, S. (2013). A fistful of bitcoins: characterizing payments among men with no names.

2. Lischke, M., & Fabian, B. (2016). Analyzing the Bitcoin network: the first four years. Future Internet, 8(1), 7.

3. Kondor, D., Pósfai, M., Csabai, I., & Vattay, G. (2014). Do the rich get richer? An empirical analysis of the Bitcoin transaction network.

4. Reid, F., & Harrigan, M. (2013). An analysis of anonymity in the bitcoin system. In Security and privacy in social networks (pp. 197-223).

---

**Дата завершения:** $(date)  
**Версия:** 1.0  
**Статус:** Завершено
