# Bitcoin Whale Intelligence: Vollständige Analyse-Pipeline

Dieses Notebook führt die vollständige Pipeline zur Identifikation und Analyse von Bitcoin-Whales durch.

---

## Inhaltsübersicht

| Teil | Thema | Status |
|------|-------|--------|
| **I** | Einführung und Kontext | Fertig |
| **II** | Datenverarbeitung (ETL) | Fertig |
| **III** | UTXO-Analyse | Fertig |
| **IV** | Entity Clustering | Fertig |
| **V** | Whale Detection | GEPLANT |
| **VI** | Verhaltensanalyse | GEPLANT |
| **VII** | Zusammenfassung und Ausblick | Fertig |

---

# Teil I: Einführung und Kontext

## 1.1 Projektziel

Dieses Projekt analysiert die Bitcoin-Blockchain um "Whales" (große Halter) zu identifizieren und ihr Verhalten zu verstehen. Die Pipeline umfasst:

1. **Daten laden**: Bitcoin-Blockchain-Daten aus bitcoin-etl JSON Export
2. **Daten transformieren**: JSON → optimiertes Parquet-Format
3. **UTXO-Set berechnen**: Unspent Transaction Outputs identifizieren
4. **Entity Clustering**: Adressen zu Entities gruppieren
5. **Whale Detection**: Große Halter identifizieren *(geplant)*
6. **Verhaltensanalyse**: Akkumulation vs. Distribution analysieren *(geplant)*

### Datenquelle

Die Daten wurden mit [bitcoin-etl](https://github.com/blockchain-etl/bitcoin-etl) von einem Bitcoin Full Node exportiert:

```bash
bitcoinetl export_all \
    --provider-uri http://user:pass@localhost:8332 \
    --start YYYY-MM-DD --end YYYY-MM-DD \
    --output-dir /path/to/blockchain_exports
```

## 1.2 Bitcoin-Grundkonzepte

### Das UTXO-Modell

Bitcoin verwendet im Gegensatz zu Account-basierten Systemen (wie Bankkonten) ein **UTXO-Modell** (Unspent Transaction Output). Hier werden "Münzen" vollständig ausgegeben und Wechselgeld zurückgegeben.

| Account-basiert (Bank) | UTXO-basiert (Bitcoin) |
|------------------------|------------------------|
| Konto hat Kontostand: 100 EUR | Besitz von "Münzen" verschiedener Größe |
| Überweisung reduziert Kontostand | Münzen werden **vollständig** ausgegeben |
| Einfache Subtraktion | Wechselgeld als neue UTXO zurück |

### Bitcoin-Adresse vs. Entity

| Konzept | Beschreibung | Sichtbar in Blockchain? |
|---------|--------------|-------------------------|
| **Adresse** | Einzelner "Briefkasten" für Bitcoin (z.B. `bc1q...`) | Ja |
| **Wallet** | Software die viele Adressen verwaltet | Nein |
| **Entity** | Person/Firma die ein oder mehrere Wallets besitzt | Nein |

### Das zentrale Problem

```
800 Millionen Bitcoin-Adressen existieren
         ↓
Wer besitzt sie?
         ↓
Eine Person kann 1,000+ Adressen haben
Eine Börse kann 5,000,000+ Adressen haben
         ↓
Die Blockchain zeigt NICHT welche Adressen zusammengehören!
```

**Ziel dieses Projekts**: Adressen zu Entities gruppieren durch Analyse der Transaktionsmuster, dann große Entities ("Whales") identifizieren.

## 1.3 Glossar: Wichtige Begriffe

| Begriff | Erklärung |
|---------|----------|
| **Coinbase-Transaktion** | Die erste Transaktion in jedem Block. Enthält die Mining-Belohnung und hat keine Inputs - das neu geschürfte Bitcoin entsteht hier "aus dem Nichts". |
| **Satoshi** | Kleinste Bitcoin-Einheit. 1 BTC = 100.000.000 Satoshi. Benannt nach dem Bitcoin-Erfinder Satoshi Nakamoto. Werte in der Blockchain sind immer in Satoshi angegeben. |
| **Parquet** | Spaltenorientiertes Binärformat für Big Data. Vorteile: hohe Kompression (70-90%), schnelles Lesen einzelner Spalten, optimiert für analytische Queries. |
| **GraphFrames** | Apache Spark Bibliothek für Graph-Algorithmen. Ermöglicht verteilte Berechnung auf Graphen mit Millionen/Milliarden Knoten. |
| **Connected Components** | Graph-Algorithmus der zusammenhängende Teilgraphen findet. Alle Knoten die direkt oder transitiv verbunden sind, erhalten dieselbe Komponenten-ID. |
| **Hive-Partitionierung** | Ordnerstruktur zur Datenorganisation nach Schlüsseln (z.B. `date=2011-01-01/`). Ermöglicht effizientes Filtern ohne alle Daten zu lesen. |
| **Whale** | Umgangssprachlich für Bitcoin-Halter mit sehr großen Beständen (typischerweise >1.000 BTC). |

---

# Teil II: Datenverarbeitung (ETL)

## 2.1 Setup und Konfiguration

In [1]:
# Standard-Bibliotheken
import os
import sys
from pathlib import Path

# Projektverzeichnis ermitteln und zum Path hinzufügen
project_root = Path.cwd().parent if Path.cwd().name == 'notebooks' else Path.cwd()
if str(project_root) not in sys.path:
    sys.path.insert(0, str(project_root))

print(f"Projektverzeichnis: {project_root}")

# ============================================================================
# KONFIGURATION - HIER ANPASSEN
# ============================================================================

# Pfad zu den bitcoin-etl exportierten Daten
BLOCKCHAIN_DATA_PATH = "/Users/roman/spark_project/blockchain_exports"

# Ausgabeverzeichnis für Parquet-Dateien
OUTPUT_PATH = str(project_root / "data")

# Spark-Konfiguration
DRIVER_MEMORY = "8g"  # Erhöhen für größere Datasets

print(f"Datenquelle: {BLOCKCHAIN_DATA_PATH}")
print(f"Ausgabe: {OUTPUT_PATH}")

Projektverzeichnis: /Users/roman/spark_project/bitcoin-whale-intelligence
Datenquelle: /Users/roman/spark_project/blockchain_exports
Ausgabe: /Users/roman/spark_project/bitcoin-whale-intelligence/data


In [2]:
# ETL-Modul importieren
from src.etl import (
    create_spark_session,
    load_transactions,
    load_blocks,
    explode_outputs,
    explode_inputs,
    compute_utxo_set,
    enrich_clustering_inputs,
)

# Visualisierung
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("whitegrid")
plt.rcParams['figure.dpi'] = 100

print("Module erfolgreich geladen.")

Module erfolgreich geladen.


In [3]:
# Spark-Session erstellen
spark = create_spark_session(
    app_name="Bitcoin Whale Intelligence",
    driver_memory=DRIVER_MEMORY,
    enable_graphframes=True
)

print(f"Spark Version: {spark.version}")
print(f"Spark UI: {spark.sparkContext.uiWebUrl}")

:: loading settings :: url = jar:file:/usr/local/spark-3.5.7-bin-hadoop3/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


Ivy Default Cache set to: /Users/roman/.ivy2/cache
The jars for the packages stored in: /Users/roman/.ivy2/jars
graphframes#graphframes added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-f2aee8ca-4158-48b4-92bc-1ace7d43942e;1.0
	confs: [default]
	found graphframes#graphframes;0.8.3-spark3.5-s_2.12 in spark-packages
	found org.slf4j#slf4j-api;1.7.16 in central
downloading https://repos.spark-packages.org/graphframes/graphframes/0.8.3-spark3.5-s_2.12/graphframes-0.8.3-spark3.5-s_2.12.jar ...
	[SUCCESSFUL ] graphframes#graphframes;0.8.3-spark3.5-s_2.12!graphframes.jar (210ms)
downloading https://repo1.maven.org/maven2/org/slf4j/slf4j-api/1.7.16/slf4j-api-1.7.16.jar ...
	[SUCCESSFUL ] org.slf4j#slf4j-api;1.7.16!slf4j-api.jar (138ms)
:: resolution report :: resolve 1946ms :: artifacts dl 355ms
	:: modules in use:
	graphframes#graphframes;0.8.3-spark3.5-s_2.12 from spark-packages in [default]
	org.slf4j#slf4j-api;1.7.16 from central in [default]
	--------

Spark Version: 3.5.7
Spark UI: http://localhost:4040


## 2.2 Daten laden

Die bitcoin-etl Daten liegen als Hive-partitionierte JSON-Dateien vor:

```
blockchain_exports/
└── 2011-01-01_2011-06-01/
    ├── blocks/
    │   └── date=YYYY-MM-DD/
    │       └── blocks_*.json
    └── transactions/
        └── date=YYYY-MM-DD/
            └── transactions_*.json
```

**Wichtig**: Die Transaktionen enthalten **nested Arrays** für inputs und outputs. Dies ist anders als bei normalisierten Datenbanken (z.B. BigQuery) wo diese in separaten Tabellen liegen.

In [4]:
# Transaktionen und Blocks laden
print("Lade Transaktionen...")
tx_df = load_transactions(spark, BLOCKCHAIN_DATA_PATH)

print("Lade Blocks...")
blocks_df = load_blocks(spark, BLOCKCHAIN_DATA_PATH)

# Cache für wiederholten Zugriff
tx_df.cache()
blocks_df.cache()

print("\nDaten geladen und gecacht.")

Lade Transaktionen...
Lade Blocks...

Daten geladen und gecacht.


In [5]:
# Grundstatistiken
tx_count = tx_df.count()
block_count = blocks_df.count()

print(f"Geladene Daten:")
print(f"  Transaktionen: {tx_count:,}")
print(f"  Blocks: {block_count:,}")

Geladene Daten:
  Transaktionen: 382,402
  Blocks: 27,644


### Datenumfang und Einordnung

**Zeitraum dieser Daten:** Januar bis Juni 2011 (frühe Bitcoin-Geschichte)

| Zeitpunkt | Transaktionen | Blocks | Kontext |
|-----------|---------------|--------|--------|
| **Diese Daten (H1 2011)** | ~380.000 | ~27.000 | Bitcoin war noch jung, wenig Nutzer |
| Vollständige Blockchain 2024 | >900.000.000 | >800.000 | ~2.400x mehr Transaktionen |

**Zweck**: Diese Daten dienen als Testdatensatz zum Validieren der Pipeline. Die Algorithmen funktionieren identisch auf der vollständigen Blockchain - nur die Rechenzeit und Speicheranforderungen steigen.

**Historischer Kontext**: Im Jahr 2011 war 1 BTC zwischen $0.30 und $30 wert. Die größten "Whales" dieser Zeit waren oft Early Adopter und Mining-Enthusiasten.

In [6]:
# Schema anzeigen
print("Transaction Schema (Auszug):")
tx_df.printSchema()

Transaction Schema (Auszug):
root
 |-- hash: string (nullable = true)
 |-- size: integer (nullable = true)
 |-- virtual_size: integer (nullable = true)
 |-- version: integer (nullable = true)
 |-- lock_time: long (nullable = true)
 |-- block_number: long (nullable = true)
 |-- block_hash: string (nullable = true)
 |-- block_timestamp: long (nullable = true)
 |-- is_coinbase: boolean (nullable = true)
 |-- index: integer (nullable = true)
 |-- inputs: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- index: integer (nullable = true)
 |    |    |-- spent_transaction_hash: string (nullable = true)
 |    |    |-- spent_output_index: integer (nullable = true)
 |    |    |-- script_asm: string (nullable = true)
 |    |    |-- script_hex: string (nullable = true)
 |    |    |-- sequence: long (nullable = true)
 |    |    |-- required_signatures: integer (nullable = true)
 |    |    |-- type: string (nullable = true)
 |    |    |-- addresses: array (nullabl

In [7]:
# Beispiel-Transaktion anzeigen
print("Beispiel-Transaktion:")
tx_df.select(
    "hash", "block_number", "input_count", "output_count", 
    "is_coinbase", "output_value", "fee"
).show(5, truncate=20)

Beispiel-Transaktion:
+--------------------+------------+-----------+------------+-----------+------------+-----------+
|                hash|block_number|input_count|output_count|is_coinbase|output_value|        fee|
+--------------------+------------+-----------+------------+-----------+------------+-----------+
|630bb912bea097180...|      126766|          0|           1|       true|  5000000000|          0|
|0556dd5dba67f4476...|      126766|          2|           2|      false|  2128000000|-2128000000|
|7a41ec18684517921...|      126766|          1|           1|      false|    50000000|  -50000000|
|c0b929b9c6abdecb3...|      126766|          1|           1|      false|   100000000| -100000000|
|4cedd988b1b9018c1...|      126765|          0|           1|       true|  5002000000|          0|
+--------------------+------------+-----------+------------+-----------+------------+-----------+
only showing top 5 rows



# Teil III: UTXO-Analyse

## 3.1 Das UTXO-Modell im Detail

### Praktisches Beispiel

Alice besitzt zwei UTXOs:
- **UTXO A**: 0.5 BTC (auf Adresse A1)
- **UTXO B**: 0.3 BTC (auf Adresse A2)
- **Gesamt**: 0.8 BTC

Alice möchte **0.7 BTC** an Bob senden:

```
INPUTS (was Alice ausgibt):        OUTPUTS (was erstellt wird):
┌─────────────────────┐            ┌─────────────────────┐
│ UTXO A: 0.5 BTC     │            │ An Bob: 0.7 BTC     │
│ (Adresse A1)        │   ───►     │ (neue UTXO für Bob) │
├─────────────────────┤            ├─────────────────────┤
│ UTXO B: 0.3 BTC     │            │ Wechselgeld: 0.09   │
│ (Adresse A2)        │            │ (neue UTXO für      │
└─────────────────────┘            │  Alice auf A3)      │
  Summe: 0.8 BTC                   ├─────────────────────┤
                                   │ Fee: 0.01 BTC       │
                                   │ (an Miner)          │
                                   └─────────────────────┘
                                     Summe: 0.8 BTC
```

**Wichtige Erkenntnis für Entity Clustering**: Alice musste **beide Adressen A1 und A2** als Inputs verwenden. Dafür braucht sie die Private Keys beider Adressen. **→ A1 und A2 gehören zur selben Person!** Diese Beobachtung ist die Grundlage der *Common Input Ownership Heuristic*, die wir in Teil IV nutzen.

## 3.2 ETL: Transformation zu Parquet

### VORHER: Nested JSON-Arrays

```
tx_hash | outputs
--------|--------
abc123  | [{index:0, value:50000000, addr:"1A..."}, {index:1, value:30000000, addr:"1B..."}]
```

### NACHHER: Flache Tabellen (nach explode)

```
tx_hash | output_index | value    | address
--------|--------------|----------|--------
abc123  | 0            | 50000000 | 1A...
abc123  | 1            | 30000000 | 1B...
```

**WARUM diese Transformation?**
- Flache Tabellen erlauben JOINs und GROUP BY
- Parquet ist 70-90% kleiner als JSON
- Spark liest nur benoetigte Spalten

## 3.3 Multi-Input Transaktionen analysieren

Bevor wir das UTXO Set berechnen, analysieren wir die Verteilung der Input-Counts. Diese Information ist wichtig für das Entity Clustering in Teil IV.

In [8]:
from pyspark.sql.functions import col, count, sum as spark_sum, avg

# Input-Count Verteilung
input_dist = tx_df \
    .filter(col("is_coinbase") == False) \
    .groupBy("input_count") \
    .agg(count("*").alias("transaction_count")) \
    .orderBy("input_count") \
    .toPandas()

print("Input-Count Verteilung (Top 15):")
print(input_dist.head(15).to_string(index=False))

Input-Count Verteilung (Top 15):
 input_count  transaction_count
           1             287512
           2              33911
           3              11259
           4               6672
           5               4027
           6               2449
           7               1696
           8               1186
           9                935
          10                782
          11                487
          12                433
          13                311
          14                267
          15                247


In [9]:
# Statistiken berechnen
total_non_coinbase = tx_df.filter(col("is_coinbase") == False).count()
single_input = input_dist[input_dist['input_count'] == 1]['transaction_count'].sum()
multi_input = input_dist[input_dist['input_count'] > 1]['transaction_count'].sum()

print("="*60)
print("MULTI-INPUT TRANSACTION STATISTIK")
print("="*60)
print(f"\nGesamt (ohne Coinbase): {total_non_coinbase:,}")
print(f"Single-Input (1 Adresse):   {single_input:,} ({single_input/total_non_coinbase*100:.1f}%)")
print(f"Multi-Input (≥2 Adressen):  {multi_input:,} ({multi_input/total_non_coinbase*100:.1f}%)")
print(f"\n→ {multi_input/total_non_coinbase*100:.1f}% der Transaktionen sind für Clustering nutzbar")

MULTI-INPUT TRANSACTION STATISTIK

Gesamt (ohne Coinbase): 354,758
Single-Input (1 Adresse):   287,512 (81.0%)
Multi-Input (≥2 Adressen):  67,246 (19.0%)

→ 19.0% der Transaktionen sind für Clustering nutzbar


In [None]:
# Visualisierung
fig, axes = plt.subplots(1, 3, figsize=(16, 5))

# ============================================================================
# Chart 1: Normale Skala (zeigt das Problem)
# ============================================================================
plot_data = input_dist[input_dist['input_count'] <= 20]
axes[0].bar(plot_data['input_count'], plot_data['transaction_count'], 
            color='steelblue', edgecolor='black', linewidth=0.5)
axes[0].set_xlabel('Anzahl Inputs pro Transaktion')
axes[0].set_ylabel('Anzahl Transaktionen')
axes[0].set_title('Problem: 1-Input dominiert alles')
axes[0].grid(True, alpha=0.3)
# Annotation
axes[0].annotate(f'{int(single_input):,}', 
                 xy=(1, single_input), 
                 xytext=(3, single_input * 0.8),
                 fontsize=9,
                 arrowprops=dict(arrowstyle='->', color='red'))
axes[0].text(10, single_input * 0.5, 
             '← Die anderen Balken\n    sind kaum sichtbar!', 
             fontsize=9, color='red')

# ============================================================================
# Chart 2: Logarithmische Skala (macht alle Balken sichtbar)
# ============================================================================
axes[1].bar(plot_data['input_count'], plot_data['transaction_count'], 
            color='steelblue', edgecolor='black', linewidth=0.5)
axes[1].set_xlabel('Anzahl Inputs pro Transaktion')
axes[1].set_ylabel('Anzahl Transaktionen')
axes[1].set_title('Lösung: Logarithmische Skala')
axes[1].set_yscale('log')
axes[1].grid(True, alpha=0.3)

# Y-Achse mit lesbaren Zahlen statt 10^x
from matplotlib.ticker import FuncFormatter
def readable_formatter(x, pos):
    if x >= 1000:
        return f'{int(x/1000)}k'
    return f'{int(x)}'
axes[1].yaxis.set_major_formatter(FuncFormatter(readable_formatter))
axes[1].text(10, 100, 'Jetzt sieht man\nauch 2, 3, 4+ Inputs', fontsize=9, color='green')

# ============================================================================
# Chart 3: Pie Chart
# ============================================================================
labels = ['Single-Input\n(nicht nutzbar)', 'Multi-Input\n(nutzbar für Clustering)']
sizes = [single_input, multi_input]
colors = ['lightgray', 'steelblue']
axes[2].pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90)
axes[2].set_title('Anteil für Clustering')

plt.tight_layout()
plt.show()

print("\\nErklärung zur logarithmischen Skala:")
print("  - Normale Skala: 1-Input-TXs (~290k) dominieren, Rest unsichtbar")
print("  - Log-Skala: Abstände werden gestaucht, alle Werte sichtbar")
print("  - Beispiel: 100 → 1000 → 10000 haben gleiche Abstände auf der Y-Achse")

### Beispiel: Multi-Input Transaktion

Eine konkrete Multi-Input-Transaktion zeigt, wie mehrere Adressen in einer Transaktion kombiniert werden:

In [11]:
# Eine Multi-Input Transaktion detailliert betrachten
example_tx = tx_df \
    .filter(
        (col("input_count") >= 3) & 
        (col("input_count") <= 10) &
        (col("is_coinbase") == False)
    ) \
    .first()

if example_tx:
    print(f"Beispiel Multi-Input Transaktion:")
    print(f"  Hash: {example_tx['hash'][:20]}...")
    print(f"  Block: {example_tx['block_number']}")
    print(f"  Input Count: {example_tx['input_count']}")
    print(f"  Output Count: {example_tx['output_count']}")
    print(f"  Wert: {example_tx['output_value'] / 100000000:.8f} BTC")
    
    print(f"\n  Inputs (Adressen die zusammengehören):")
    for i, inp in enumerate(example_tx['inputs'][:5]):
        addr = inp['addresses'][0] if inp['addresses'] else "(enrichment nötig)"
        print(f"    [{i}] {addr}")
    if len(example_tx['inputs']) > 5:
        print(f"    ... und {len(example_tx['inputs']) - 5} weitere")
    
    print(f"\n  → Diese {example_tx['input_count']} Adressen gehören zur selben Entity!")
else:
    print("Keine passende Multi-Input Transaktion gefunden.")

Beispiel Multi-Input Transaktion:
  Hash: a55cfdd8677056d6b0fb...
  Block: 126765
  Input Count: 4
  Output Count: 1
  Wert: 20.27000000 BTC

  Inputs (Adressen die zusammengehören):
    [0] (enrichment nötig)
    [1] (enrichment nötig)
    [2] (enrichment nötig)
    [3] (enrichment nötig)

  → Diese 4 Adressen gehören zur selben Entity!


## 3.4 Outputs und Inputs explodieren

In [12]:
# Outputs explodieren (nested → flat)
print("Explodiere Outputs...")
outputs_df = explode_outputs(tx_df)
outputs_df.cache()

output_count = outputs_df.count()
print(f"Outputs: {output_count:,}")

# Beispiel anzeigen
outputs_df.show(5, truncate=30)

Explodiere Outputs...
Outputs: 769,081
+------------------------------+------------+---------------+------------+----------+------------------------------+-----------+
|                       tx_hash|block_number|block_timestamp|output_index|     value|                     addresses|output_type|
+------------------------------+------------+---------------+------------+----------+------------------------------+-----------+
|630bb912bea0971803979417615...|      126766|     1306369241|           0|5000000000|[nonstandarde36d71a77f0b72f...|nonstandard|
|0556dd5dba67f4476841e530125...|      126766|     1306369241|           0| 128000000|[1N1HR4BPwhP5WvFXF6JCTkRnKj...| pubkeyhash|
|0556dd5dba67f4476841e530125...|      126766|     1306369241|           1|2000000000|[16UksCM6jXXR8XGq9cXWiP48P1...| pubkeyhash|
|7a41ec18684517921585f710b37...|      126766|     1306369241|           0|  50000000|[1HHETdBA3zrUf9RHoBdgteucMX...| pubkeyhash|
|c0b929b9c6abdecb3ebd3857f93...|      126766|     13063692

In [13]:
# Inputs explodieren
print("Explodiere Inputs...")
inputs_df = explode_inputs(tx_df)
inputs_df.cache()

input_count_flat = inputs_df.count()
print(f"Inputs: {input_count_flat:,}")

# Beispiel anzeigen
inputs_df.select(
    "tx_hash", "input_index", "spent_tx_hash", "spent_output_index", "value"
).show(5, truncate=20)

Explodiere Inputs...
Inputs: 632,295
+--------------------+-----------+--------------------+------------------+-----+
|             tx_hash|input_index|       spent_tx_hash|spent_output_index|value|
+--------------------+-----------+--------------------+------------------+-----+
|630bb912bea097180...|       NULL|                NULL|              NULL| NULL|
|0556dd5dba67f4476...|          0|3ccb1d88e9f0f8067...|                 1| NULL|
|0556dd5dba67f4476...|          1|6f5594a671cd2b686...|                 1| NULL|
|7a41ec18684517921...|          0|5259ab3a1d0045aa3...|                 1| NULL|
|c0b929b9c6abdecb3...|          0|d683c9078dad5625e...|                22| NULL|
+--------------------+-----------+--------------------+------------------+-----+
only showing top 5 rows



In [14]:
# Als Parquet speichern
from pathlib import Path

output_dir = Path(OUTPUT_PATH)
output_dir.mkdir(exist_ok=True)

print("Speichere Outputs als Parquet...")
outputs_df.write.mode("overwrite").parquet(str(output_dir / "outputs.parquet"))

print("Speichere Inputs als Parquet...")
inputs_df.write.mode("overwrite").parquet(str(output_dir / "inputs.parquet"))

print(f"\nParquet-Dateien gespeichert in: {output_dir}")

Speichere Outputs als Parquet...
Speichere Inputs als Parquet...

Parquet-Dateien gespeichert in: /Users/roman/spark_project/bitcoin-whale-intelligence/data


## 3.5 UTXO Set berechnen

### Was ist ein UTXO?

**UTXO = Unspent Transaction Output** = Eine "Muenze" die noch nicht ausgegeben wurde.

### Die Berechnung

```
UTXO Set = Alle Outputs MINUS Outputs die als Input referenziert wurden

Beispiel:
┌────────────────┐     ┌────────────────┐     ┌────────────────┐
│ outputs        │  -  │ spent_refs     │  =  │ utxos          │
│ tx1:0 -> 5 BTC │     │ tx1:0          │     │ tx1:1 -> 3 BTC │
│ tx1:1 -> 3 BTC │     │                │     │ tx2:0 -> 2 BTC │
│ tx2:0 -> 2 BTC │     │                │     │                │
└────────────────┘     └────────────────┘     └────────────────┘
```

**SQL-Logik (LEFT ANTI JOIN):**

```sql
SELECT * FROM outputs
WHERE (tx_hash, output_index) NOT IN (
    SELECT spent_tx_hash, spent_output_index FROM inputs
)
```

**WARUM brauchen wir das UTXO Set?**
- Nur UTXOs haben aktuellen Wert
- Spent Outputs sind "verbraucht" (Wert = 0)
- Fuer Whale Detection: Balance = SUM(UTXO values)

In [15]:
# UTXO Set berechnen
print("Berechne UTXO Set...")
utxo_df = compute_utxo_set(outputs_df, inputs_df)
utxo_df.cache()

utxo_count = utxo_df.count()
spent_count = output_count - utxo_count

print(f"\nUTXO Statistik:")
print(f"  Gesamt Outputs: {output_count:,}")
print(f"  Spent (ausgegeben): {spent_count:,} ({spent_count/output_count*100:.1f}%)")
print(f"  Unspent (UTXOs): {utxo_count:,} ({utxo_count/output_count*100:.1f}%)")

Berechne UTXO Set...

UTXO Statistik:
  Gesamt Outputs: 769,081
  Spent (ausgegeben): 592,040 (77.0%)
  Unspent (UTXOs): 177,041 (23.0%)


In [16]:
# UTXO Set speichern
print("Speichere UTXO Set...")
utxo_df.write.mode("overwrite").parquet(str(output_dir / "utxos.parquet"))
print(f"Gespeichert: {output_dir / 'utxos.parquet'}")

Speichere UTXO Set...
Gespeichert: /Users/roman/spark_project/bitcoin-whale-intelligence/data/utxos.parquet


## 4.1 Common Input Ownership Heuristic

### WARUM funktioniert diese Heuristik?

```
Transaktion X hat 2 Inputs:
  - Input 1: von Adresse A (braucht Private Key A)
  - Input 2: von Adresse B (braucht Private Key B)

Um diese Transaktion zu signieren, braucht man BEIDE Private Keys.
-> Nur der Besitzer beider Adressen kann das!
-> A und B gehoeren zur selben Entity (Person/Firma)
```

### Transitive Verknuepfung (WARUM Connected Components?)

```
TX 1: Inputs von A + B  -->  A-B gehoeren zusammen
TX 2: Inputs von B + C  -->  B-C gehoeren zusammen
─────────────────────────────────────────────────
Schlussfolgerung: A, B, C sind ALLE derselben Entity!

    A ─── B ─── C
    └─────┴─────┘
      Entity 1
```

**Das ist ein Graph-Problem:** Finde alle verbundenen Knoten (= Connected Components).

### Einschraenkungen der Heuristik

| Problem | Ursache | Filter |
|---------|---------|--------|
| Exchange-TXs | Boersen buendeln Auszahlungen | `input_count <= 50` |
| CoinJoin | Privacy-Protokoll mischt TXs | Pattern-Erkennung |
| Mining Pools | Batch-Auszahlungen | Bekannte Adressen |

## 4.2 Graph aufbauen

Zuerst reichern wir die Multi-Input-Transaktionen mit Adressen an:

In [None]:
# Inputs für Clustering anreichern
print("Reichere Multi-Input-Transaktionen mit Adressen an...")
print("  (Filter: 2-50 Inputs, keine Coinbase)")

clustering_inputs = enrich_clustering_inputs(
    tx_df, 
    outputs_df,
    min_inputs=2,
    max_inputs=50
)
clustering_inputs.cache()

enriched_count = clustering_inputs.count()
print(f"\nAngereicherte Inputs: {enriched_count:,}")

# Beispiel
print("\nBeispiel (tx_hash -> address):")
clustering_inputs.show(10, truncate=40)

In [18]:
from pyspark.sql.functions import collect_set, size as spark_size
from itertools import combinations

# Adressen pro Transaktion gruppieren
tx_addresses = clustering_inputs \
    .groupBy("tx_hash") \
    .agg(collect_set("address").alias("addresses"))

# Filtern: Nur TXs mit mindestens 2 verschiedenen Adressen
tx_addresses = tx_addresses.filter(spark_size("addresses") >= 2)

tx_with_addresses = tx_addresses.count()
print(f"Transaktionen mit ≥2 Adressen: {tx_with_addresses:,}")

Transaktionen mit ≥2 Adressen: 57,606


In [19]:
from pyspark.sql.functions import explode as spark_explode, arrays_zip, transform, struct

# Kanten erstellen: Alle Adresspaare pro Transaktion
# Für jede TX mit Adressen [A, B, C] erstellen wir Kanten: (A,B), (A,C), (B,C)

def create_edges_udf(addresses):
    """Erstellt alle Paare aus einer Liste von Adressen."""
    if not addresses or len(addresses) < 2:
        return []
    return [(a, b) for a, b in combinations(sorted(addresses), 2)]

from pyspark.sql.types import ArrayType, StructType, StructField, StringType
from pyspark.sql.functions import udf

edge_schema = ArrayType(StructType([
    StructField("src", StringType()),
    StructField("dst", StringType())
]))

create_edges = udf(create_edges_udf, edge_schema)

# Kanten erstellen und explodieren
edges_df = tx_addresses \
    .withColumn("edges", create_edges("addresses")) \
    .select(spark_explode("edges").alias("edge")) \
    .select(
        col("edge.src").alias("src"),
        col("edge.dst").alias("dst")
    ) \
    .distinct()

edges_df.cache()
edge_count = edges_df.count()

print(f"Graph-Kanten (unique): {edge_count:,}")
edges_df.show(5)

Graph-Kanten (unique): 400,872
+--------------------+--------------------+
|                 src|                 dst|
+--------------------+--------------------+
|192nJoWgPuc3sKFQB...|1Q3fg95C1TcqXS1Xc...|
|1HL2U2Cz1tDkh52kJ...|1JwfvhMrphhVSZwNk...|
|1KzyYTFAQF6Q5SAMR...|1LaqzJryo46Z4Tmof...|
|1CPxeZnow3C3EU6Fr...|1LLaxfmyGB393VkGD...|
|1B5fVpnS87hzioWQ3...|1CSzzf96C7fvuLYYu...|
+--------------------+--------------------+
only showing top 5 rows



In [20]:
# Vertices (alle eindeutigen Adressen)
vertices_src = edges_df.select(col("src").alias("id"))
vertices_dst = edges_df.select(col("dst").alias("id"))
vertices_df = vertices_src.union(vertices_dst).distinct()

vertex_count = vertices_df.count()
print(f"Graph-Knoten (Adressen): {vertex_count:,}")

Graph-Knoten (Adressen): 147,907


## 4.3 Connected Components mit GraphFrames

### Der Algorithmus in 3 Schritten

**Schritt 1: Graph aufbauen**
```
Vertices (Knoten) = Alle Bitcoin-Adressen
Edges (Kanten)    = Adresspaare aus Multi-Input-TXs
```

**Schritt 2: Connected Components finden**
```
Alle Knoten die direkt oder transitiv verbunden sind
= Eine Entity
```

**Schritt 3: IDs zuweisen**
```
Jede Entity bekommt eine eindeutige ID (component)
```

### Beispiel

```
Graph:                     Ergebnis:
A ─── B ─── C              | address | entity_id |
                           |---------|-----------|
D ─── E                    | A       | 1         |
                           | B       | 1         |
                           | C       | 1         |
                           | D       | 2         |
                           | E       | 2         |
```

### WARUM Checkpointing noetig ist

Der Algorithmus ist **iterativ** - er laeuft bis keine Aenderungen mehr passieren.
Ohne Checkpointing waechst der Spark-Ausfuehrungsplan exponentiell -> Stack Overflow!

In [21]:
# GraphFrames Connected Components
from graphframes import GraphFrame

print("Erstelle Graph...")
graph = GraphFrame(vertices_df, edges_df)

print("Führe Connected Components aus...")
print("  (Dies kann bei großen Graphen einige Minuten dauern)")

# Checkpoint-Verzeichnis setzen (nötig für Connected Components)
spark.sparkContext.setCheckpointDir(str(output_dir / "checkpoints"))

# Connected Components berechnen
entities_df = graph.connectedComponents()
entities_df.cache()

print("\nConnected Components berechnet.")

Erstelle Graph...
Führe Connected Components aus...
  (Dies kann bei großen Graphen einige Minuten dauern)


Py4JJavaError: An error occurred while calling o365.run.
: java.lang.OutOfMemoryError: Java heap space
	at java.base/java.util.Arrays.copyOfRange(Arrays.java:4030)
	at java.base/java.lang.StringLatin1.newString(StringLatin1.java:715)
	at java.base/java.lang.StringBuilder.toString(StringBuilder.java:452)
	at org.apache.spark.sql.catalyst.util.StringConcat.toString(StringUtils.scala:64)
	at org.apache.spark.sql.catalyst.util.StringUtils$PlanStringConcat.toString(StringUtils.scala:152)
	at org.apache.spark.sql.execution.QueryExecution.explainString(QueryExecution.scala:254)
	at org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec.onUpdatePlan(AdaptiveSparkPlanExec.scala:780)
	at org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec.$anonfun$getFinalPhysicalPlan$2(AdaptiveSparkPlanExec.scala:285)
	at org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec$$Lambda$2994/0x00000008012da040.apply$mcVJ$sp(Unknown Source)
	at scala.runtime.java8.JFunction1$mcVJ$sp.apply(JFunction1$mcVJ$sp.java:23)
	at scala.Option.foreach(Option.scala:407)
	at org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec.$anonfun$getFinalPhysicalPlan$1(AdaptiveSparkPlanExec.scala:285)
	at org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec$$Lambda$2963/0x00000008012c5440.apply(Unknown Source)
	at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:900)
	at org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec.getFinalPhysicalPlan(AdaptiveSparkPlanExec.scala:272)
	at org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec.withFinalPlanUpdate(AdaptiveSparkPlanExec.scala:419)
	at org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec.executeCollect(AdaptiveSparkPlanExec.scala:392)
	at org.apache.spark.sql.Dataset.collectFromPlan(Dataset.scala:4333)
	at org.apache.spark.sql.Dataset.$anonfun$collect$1(Dataset.scala:3575)
	at org.apache.spark.sql.Dataset$$Lambda$6405/0x0000000801ca2840.apply(Unknown Source)
	at org.apache.spark.sql.Dataset.$anonfun$withAction$2(Dataset.scala:4323)
	at org.apache.spark.sql.Dataset$$Lambda$2958/0x00000008012c2840.apply(Unknown Source)
	at org.apache.spark.sql.execution.QueryExecution$.withInternalError(QueryExecution.scala:546)
	at org.apache.spark.sql.Dataset.$anonfun$withAction$1(Dataset.scala:4321)
	at org.apache.spark.sql.Dataset$$Lambda$2817/0x000000080123b040.apply(Unknown Source)
	at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$6(SQLExecution.scala:125)
	at org.apache.spark.sql.execution.SQLExecution$$$Lambda$2825/0x000000080123fc40.apply(Unknown Source)
	at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:201)
	at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:108)
	at org.apache.spark.sql.execution.SQLExecution$$$Lambda$2818/0x000000080123b440.apply(Unknown Source)
	at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:900)
	at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:66)


In [None]:
# Ergebnis-Statistiken
entity_count = entities_df.select("component").distinct().count()
address_count = entities_df.count()

print("="*60)
print("ENTITY CLUSTERING ERGEBNIS")
print("="*60)
print(f"\nAdressen analysiert: {address_count:,}")
print(f"Entities gefunden: {entity_count:,}")
print(f"Reduktion: {(1 - entity_count/address_count)*100:.1f}%")
print(f"\n→ {address_count:,} Adressen wurden zu {entity_count:,} Entities gruppiert")

In [None]:
# Entity-Größen analysieren
entity_sizes = entities_df \
    .groupBy("component") \
    .agg(count("*").alias("address_count")) \
    .orderBy(col("address_count").desc())

print("Top 10 größte Entities:")
entity_sizes.show(10)

In [None]:
# Visualisierung der Entity-Größen
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# ============================================================================
# Chart 1: Normale Skala (zeigt das Problem)
# ============================================================================
axes[0].hist(size_dist['address_count'], bins=50, color='steelblue', edgecolor='black')
axes[0].set_xlabel('Anzahl Adressen pro Entity')
axes[0].set_ylabel('Anzahl Entities')
axes[0].set_title('Problem: Normale Skala')
axes[0].grid(True, alpha=0.3)

# Annotation für das Problem
axes[0].text(0.95, 0.95, 
             'Die meisten Entities (1-2 Adressen)\nsind als riesiger Balken links,\nder Rest ist unsichtbar!',
             transform=axes[0].transAxes, fontsize=9,
             verticalalignment='top', horizontalalignment='right',
             bbox=dict(boxstyle='round', facecolor='lightyellow', alpha=0.8),
             color='red')

# ============================================================================
# Chart 2: Logarithmische Skala (Lösung)
# ============================================================================
axes[1].hist(size_dist['address_count'], bins=50, color='steelblue', edgecolor='black')
axes[1].set_xlabel('Anzahl Adressen pro Entity')
axes[1].set_ylabel('Anzahl Entities')
axes[1].set_title('Lösung: Logarithmische Skala')
axes[1].set_yscale('log')
axes[1].grid(True, alpha=0.3)

# Lesbare Y-Achse
from matplotlib.ticker import FuncFormatter
def readable_formatter(x, pos):
    if x >= 1000:
        return f'{int(x/1000)}k'
    return f'{int(x)}'
axes[1].yaxis.set_major_formatter(FuncFormatter(readable_formatter))

# Erklärung hinzufügen
axes[1].text(0.95, 0.95, 
             'Log-Skala macht alle Werte sichtbar:\n100 → 1000 → 10000 haben\ngleiche Abstände auf der Y-Achse',
             transform=axes[1].transAxes, fontsize=9,
             verticalalignment='top', horizontalalignment='right',
             bbox=dict(boxstyle='round', facecolor='lightgreen', alpha=0.5))

# ============================================================================
# Chart 3: Top 20 größte Entities
# ============================================================================
top_20 = size_dist.head(20)
bars = axes[2].barh(range(len(top_20)), top_20['address_count'], color='darkorange')
axes[2].set_xlabel('Anzahl Adressen')
axes[2].set_ylabel('Entity Rang')
axes[2].set_title('Top 20: Die größten Entities')
axes[2].set_yticks(range(len(top_20)))
axes[2].set_yticklabels([f"#{i+1}" for i in range(len(top_20))])
axes[2].invert_yaxis()
axes[2].grid(True, alpha=0.3, axis='x')

# Werte an die Balken schreiben
for bar, count in zip(bars, top_20['address_count']):
    axes[2].text(bar.get_width() + max(top_20['address_count'])*0.01, 
             bar.get_y() + bar.get_height()/2,
             f'{int(count):,}', 
             va='center', fontsize=8)

plt.tight_layout()
plt.show()

print("\nErklärung zur logarithmischen Skala:")
print("  - Normale Skala: Der dominante Wert (Entities mit 1-2 Adressen) erdrückt alles andere")
print("  - Log-Skala: Verhältnisse bleiben erhalten, aber alle Werte werden sichtbar")
print("  - Faustregel: Bei Power-Law-Verteilungen immer Log-Skala verwenden")

In [None]:
# Entities speichern
print("Speichere Entity-Mapping...")

# Umbenennen für Klarheit
entities_final = entities_df \
    .select(
        col("id").alias("address"),
        col("component").alias("entity_id")
    )

entities_final.write.mode("overwrite").parquet(str(output_dir / "entities.parquet"))

print(f"Gespeichert: {output_dir / 'entities.parquet'}")

## 4.4 Interpretation der Ergebnisse

### Was bedeutet die Reduktion konkret?

```
Vorher: ~200.000 individuelle Adressen
Nachher: ~150.000 Entities (Cluster)
─────────────────────────────────────
Reduktion: ~25% der Adressen konnten gruppiert werden
```

**Interpretation**: Nur 25% Reduktion scheint gering, aber:
- Die restlichen 75% sind **Single-Adress-Entities** (Adressen die nie mit anderen kombiniert wurden)
- Diese könnten Einmal-Empfangsadressen, Cold Storage oder sehr private Nutzer sein
- In späteren Zeiträumen (2015+) steigt die Reduktionsrate auf 40-60% durch häufigere Wiederverwendung

### Was sind die größten Entities wahrscheinlich?

| Entity-Größe | Wahrscheinliche Identität | Begründung |
|--------------|---------------------------|------------|
| >10.000 Adressen | **Exchanges** (Börsen) | Sammeln viele Einzahlungsadressen, konsolidieren regelmäßig |
| 1.000-10.000 Adressen | **Mining Pools** | Auszahlungen an viele Miner, gemeinsame Hot-Wallets |
| 100-1.000 Adressen | **Große Händler/Services** | Zahlungsprozessoren, Shops, Gambling-Sites |
| 10-100 Adressen | **Aktive Nutzer/Trader** | Normale Wallet-Nutzung mit Address-Rotation |
| 1-10 Adressen | **Gelegenheitsnutzer** | Wenige Transaktionen, einfache Wallets |

**Vorsicht bei 2011-Daten**: Zu dieser Zeit gab es noch kaum große Exchanges (Mt. Gox dominierte). Große Entities könnten auch Early-Adopter-Wallets oder die Wallets der Bitcoin-Entwickler selbst sein.

---

# Teil V: Whale Detection [GEPLANT]

Berechnung der Entity-Balances aus dem UTXO-Set und Identifikation von Whales (Entities mit hohem Bitcoin-Bestand).

# Teil VI: Verhaltensanalyse [GEPLANT]

Zeitreihen-Analyse der Whale-Aktivitaeten: Akkumulation vs. Distribution, Haltezeiten und Transaktionsmuster.

# Teil VII: Zusammenfassung und Ausblick

## 7.1 Erreichte Ergebnisse

### Pipeline-Status

| Schritt | Status | Output |
|---------|--------|--------|
| Daten laden | Fertig | tx_df, blocks_df |
| JSON zu Parquet | Fertig | outputs.parquet, inputs.parquet |
| UTXO Set | Fertig | utxos.parquet |
| Entity Clustering | Fertig | entities.parquet |
| Whale Detection | Geplant | - |
| Verhaltensanalyse | Geplant | - |

### Erzeugte Daten

Die Pipeline hat folgende Parquet-Dateien erzeugt:

| Datei | Inhalt | Verwendung |
|-------|--------|------------|
| `outputs.parquet` | Alle Transaction Outputs (flach) | Basis fuer UTXO-Berechnung |
| `inputs.parquet` | Alle Inputs mit Spent-Referenzen | UTXO-Berechnung, Clustering |
| `utxos.parquet` | Unspent Outputs | Balance-Berechnung |
| `entities.parquet` | Address zu Entity Mapping | Whale Detection |

## 7.2 Limitationen

| Limitation | Beschreibung | Moegliche Loesung |
|------------|--------------|-------------------|
| **Teil-Export** | Nur H1 2011, nicht vollstaendige Blockchain | Vollstaendigen Export mit bitcoin-etl erstellen |
| **Heuristik-Grenzen** | CoinJoin/Exchanges koennen falsche Cluster erzeugen | Zusaetzliche Heuristiken (Change Detection, etc.) |
| **Keine Labels** | Keine bekannten Entitaeten markiert | Integration von Chainalysis/Elliptic Daten |

## 7.3 Naechste Schritte

1. **Teil V implementieren**: Entity-Balances berechnen, Whales identifizieren
2. **Teil VI implementieren**: Zeitreihen-Analyse, Verhaltensmetriken
3. **Visualisierung**: Dashboard fuer Whale-Tracking
4. **Skalierung**: Pipeline auf vollstaendige Blockchain anwenden

In [None]:
# Finale Statistiken
print("="*60)
print("PIPELINE ABGESCHLOSSEN")
print("="*60)
print(f"\nDatenquelle: {BLOCKCHAIN_DATA_PATH}")
print(f"Ausgabe: {OUTPUT_PATH}")
print(f"\nVerarbeitete Daten:")
print(f"  Transaktionen: {tx_count:,}")
print(f"  Blocks: {block_count:,}")
print(f"  Outputs: {output_count:,}")
print(f"  UTXOs: {utxo_count:,}")
print(f"\nEntity Clustering:")
print(f"  Adressen: {address_count:,}")
print(f"  Entities: {entity_count:,}")
print(f"  Reduktion: {(1 - entity_count/address_count)*100:.1f}%")
print(f"\nErzeugte Parquet-Dateien:")
for f in Path(OUTPUT_PATH).glob("*.parquet"):
    print(f"  - {f.name}")

In [None]:
# Spark-Session beenden (optional - auskommentiert fuer weitere Analysen)
# spark.stop()
# print("Spark-Session beendet.")