# 1. Connection test
### Check that Spark connects to BigQuery correctly and loads data.

In [29]:
from pyspark.sql import SparkSession


spark = SparkSession.builder \
    .appName("Test from clean env") \
    .master("local[*]") \
    .getOrCreate()

spark.sparkContext.setLogLevel("ERROR")
spark.range(2).show()

spark.stop()

+---+
| id|
+---+
|  0|
|  1|
+---+



NameError: name 'time' is not defined

In [45]:
import os
from google.cloud import bigquery

# Set the environment variable BEFORE initializing the client
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "spark-access-459420-f8b1f097831d.json"

# Now create the client
client = bigquery.Client()

# List the first 5 public datasets
print(list(client.list_datasets("bigquery-public-data"))[:5])

[<google.cloud.bigquery.dataset.DatasetListItem object at 0x116055660>, <google.cloud.bigquery.dataset.DatasetListItem object at 0x116057d60>, <google.cloud.bigquery.dataset.DatasetListItem object at 0x116054f10>, <google.cloud.bigquery.dataset.DatasetListItem object at 0x116057400>, <google.cloud.bigquery.dataset.DatasetListItem object at 0x116057160>]


# 2. Batch (Spark) — Google BigQuery


In [53]:
from pyspark.sql import SparkSession
import os

# 1. Убедитесь что файлы находятся в той же директории
JAR_PATH = "spark-bigquery-with-dependencies_2.12-0.32.0.jar"
CREDENTIALS = "spark-access-459420-f8b1f097831d.json"

# 2. Проверка существования файлов
if not os.path.exists(JAR_PATH):
    print(f"❌ Файл {JAR_PATH} не найден!")
    exit()
if not os.path.exists(CREDENTIALS):
    print(f"❌ Файл {CREDENTIALS} не найден!")
    exit()

# 3. Инициализация Spark с правильными параметрами
spark = SparkSession.builder \
    .appName("EthereumAnalysis") \
    .config("spark.jars", JAR_PATH) \
    .config("spark.driver.extraClassPath", JAR_PATH) \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .getOrCreate()

try:
    print("🔄 Загрузка данных из BigQuery...")
    
    # 4. Используем правильный формат подключения
    df = spark.read.format("com.google.cloud.spark.bigquery") \
        .option("table", "bigquery-public-data.crypto_ethereum.transactions") \
        .option("filter", "block_timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)") \
        .option("maxResults", "1000") \
        .load()
    
    print("✅ Данные успешно загружены!")
    print(f"Количество строк: {df.count()}")
    df.show(5)
    
except Exception as e:
    print(f"❌ Ошибка: {str(e)[:500]}")
finally:
    spark.stop()
    print("🔴 Сессия Spark завершена")

🔄 Загрузка данных из BigQuery...
❌ Ошибка: An error occurred while calling o438.load.
: org.apache.spark.SparkClassNotFoundException: [DATA_SOURCE_NOT_FOUND] Failed to find the data source: com.google.cloud.spark.bigquery. Please find packages at `https://spark.apache.org/third-party-projects.html`.
	at org.apache.spark.sql.errors.QueryExecutionErrors$.dataSourceNotFoundError(QueryExecutionErrors.scala:725)
	at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:647)
	at org.apache.spark.sql.execution
🔴 Сессия Spark завершена


In [54]:
print(spark.sparkContext._conf.get("spark.jars"))

spark-bigquery-with-dependencies_2.12-0.32.0.jar


In [44]:
import os
import time
import psutil
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, count, sum, max, min
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.clustering import KMeans
import matplotlib.pyplot as plt
import pandas as pd

# =============================================
# 0. Настройка окружения
# =============================================
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "spark-access-459420-f8b1f097831d.json"

# =============================================
# 1. Инициализация Spark с мониторингом ресурсов
# =============================================
def init_spark():
    start_time = time.time()
    spark = SparkSession.builder \
    .appName("EthereumAnalysis") \
    .config("spark.jars.packages", "com.google.cloud.spark:spark-bigquery-with-dependencies_2.12:0.32.0") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .getOrCreate()
    
    init_time = time.time() - start_time
    print(f"🟢 Spark инициализирован за {init_time:.2f} сек")
    print(f"🔹 CPU: {psutil.cpu_percent()}% | RAM: {psutil.virtual_memory().percent}%")
    return spark

# =============================================
# 2. Загрузка данных с прогресс-баром
# =============================================
def load_data(spark):
    print("\n🔍 Загрузка данных...")
    start_time = time.time()
    
    # Фильтр: последние 30 дней, лимит для теста
    df = spark.read.format("bigquery") \
        .option("table", "bigquery-public-data.crypto_ethereum.transactions") \
        .option("filter", "block_timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 30 DAY)") \
        .option("maxResults", "50000") \
        .load()
    
    load_time = time.time() - start_time
    print(f"✅ Данные загружены ({df.count()} строк, {load_time:.2f} сек)")
    print(f"🔹 CPU: {psutil.cpu_percent()}% | RAM: {psutil.virtual_memory().percent}%")
    return df

# =============================================
# 3. Анализ данных
# =============================================
def analyze_data(df):
    print("\n📊 Анализ данных...")
    
    # Топ-10 активных кошельков
    print("\n🔝 Топ-10 кошельков по активности:")
    top_wallets = df.groupBy("from_address") \
        .agg(count("*").alias("tx_count")) \
        .orderBy(col("tx_count").desc()) \
        .limit(10)
    top_wallets.show(truncate=False)
    
    # Статистика по транзакциям
    stats = df.agg(
        count("*").alias("total_tx"),
        min("value").alias("min_value"),
        max("value").alias("max_value"),
        sum("value").alias("total_value")
    ).collect()[0]
    
    print(f"\n📈 Общая статистика:")
    print(f"• Всего транзакций: {stats['total_tx']}")
    print(f"• Минимальная сумма: {stats['min_value']} wei")
    print(f"• Максимальная сумма: {stats['max_value']} wei")
    print(f"• Общий объем: {stats['total_value']} wei")

    return top_wallets, stats

# =============================================
# 4. Кластеризация кошельков
# =============================================
def cluster_wallets(df):
    print("\n🔮 Кластеризация кошельков...")
    
    # Агрегация данных по кошелькам
    wallet_stats = df.groupBy("from_address") \
        .agg(
            count("*").alias("tx_count"),
            sum("value").alias("total_value")
        )
    
    # Подготовка данных для ML
    assembler = VectorAssembler(
        inputCols=["tx_count", "total_value"],
        outputCol="features"
    )
    features = assembler.transform(wallet_stats)
    
    # Кластеризация K-Means
    kmeans = KMeans(k=3, seed=42)
    model = kmeans.fit(features)
    clustered = model.transform(features)
    
    # Результаты
    clusters = clustered.groupBy("prediction") \
        .agg(
            count("*").alias("wallets_count"),
            avg("tx_count").alias("avg_tx_count"),
            avg("total_value").alias("avg_value")
        ) \
        .orderBy("prediction")
    
    print("\n📌 Результаты кластеризации:")
    clusters.show()
    
    return clustered

# =============================================
# 5. Визуализация
# =============================================
def visualize_data(df, top_wallets):
    print("\n🎨 Визуализация данных...")
    
    # Конвертация в Pandas для графиков
    sample = df.sample(0.1).limit(1000).toPandas()
    top_wallets_pd = top_wallets.toPandas()
    
    # График 1: Топ-10 кошельков
    plt.figure(figsize=(10, 6))
    plt.barh(
        top_wallets_pd["from_address"].str[:10] + "...", 
        top_wallets_pd["tx_count"],
        color='skyblue'
    )
    plt.title("Топ-10 активных кошельков")
    plt.xlabel("Количество транзакций")
    plt.tight_layout()
    plt.savefig("top_wallets.png")
    plt.show()
    
    # График 2: Распределение сумм
    plt.figure(figsize=(10, 6))
    plt.hist(sample["value"].astype(float), bins=50, log=True, color='green')
    plt.title("Распределение сумм транзакций (log scale)")
    plt.xlabel("Сумма (wei)")
    plt.ylabel("Частота")
    plt.tight_layout()
    plt.savefig("tx_distribution.png")
    plt.show()

# =============================================
# Главная функция
# =============================================
def main():
    try:
        # Инициализация
        spark = init_spark()
        
        # Загрузка данных
        df = load_data(spark)
        
        # Анализ
        top_wallets, stats = analyze_data(df)
        
        # Кластеризация (опционально, может быть долго)
        # clustered = cluster_wallets(df)
        
        # Визуализация
        visualize_data(df, top_wallets)
        
    except Exception as e:
        print(f"❌ Ошибка: {e}")
    finally:
        spark.stop()
        print("\n🔴 Сессия Spark завершена")

if __name__ == "__main__":
    main()

🟢 Spark инициализирован за 0.11 сек
🔹 CPU: 12.8% | RAM: 78.6%

🔍 Загрузка данных...
❌ Ошибка: An error occurred while calling o292.load.
: org.apache.spark.SparkClassNotFoundException: [DATA_SOURCE_NOT_FOUND] Failed to find the data source: bigquery. Please find packages at `https://spark.apache.org/third-party-projects.html`.
	at org.apache.spark.sql.errors.QueryExecutionErrors$.dataSourceNotFoundError(QueryExecutionErrors.scala:725)
	at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:647)
	at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSourceV2(DataSource.scala:697)
	at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:208)
	at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:172)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at java.base/jdk.internal.reflec