# Генерация больших данных для нагрузочного тестирования Hadoop

Этот ноутбук генерирует синтетический набор данных заданного размера (1 млн, 10 млн, 100 млн строк) и сохраняет его как таблицу Hive.

**Параметры:**
- `NUM_ROWS`: Количество строк для генерации.
- `TABLE_NAME`: Имя создаваемой таблицы.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit, rand, concat, expr, hex
import time

# --- ПАРАМЕТРЫ КОНФИГУРАЦИИ ---
NUM_ROWS = 1_000_000  # Измените это число: 1_000_000, 10_000_000, 100_000_000
TABLE_NAME = "large_scale_table"
# ------------------------------

print(f"Конфигурация: {NUM_ROWS} строк, таблица '{TABLE_NAME}'")

In [None]:
# Инициализация Spark с поддержкой Hive
spark = SparkSession.builder \
    .master("spark://spark-master:7077") \
    .appName("LargeScaleDataGen") \
    .config("spark.hadoop.hive.metastore.uris", "thrift://hive-metastore:9083") \
    .enableHiveSupport() \
    .getOrCreate()

print("Spark Session создана.")

In [None]:
# Генерация данных
# Используем range для генерации ID, а затем добавляем случайные колонки
# Это выполняется лениво и распределенно, что позволяет генерировать огромные объемы

print("Начало генерации DataFrame...")

df = spark.range(0, NUM_ROWS).withColumnRenamed("id", "row_id")

# Добавляем 10 различных столбцов (числа и строки)
df_with_data = df \
    .withColumn("val_int_1", (rand() * 100).cast("int")) \
    .withColumn("val_int_2", (rand() * 10000).cast("int")) \
    .withColumn("val_double_1", rand()) \
    .withColumn("val_double_2", rand() * 1000.0) \
    .withColumn("category_code", (rand() * 5).cast("int").cast("string")) \
    .withColumn("status", expr("elt(cast(rand()*3 as int) + 1, 'ACTIVE', 'INACTIVE', 'PENDING')")) \
    .withColumn("random_string_1", hex(expr("rand() * 100000").cast("long"))) \
    .withColumn("random_string_2", concat(lit("prefix_"), col("row_id"))) \
    .withColumn("created_date", expr("date_add(current_date(), -cast(rand()*365 as int))")) \
    .withColumn("description", lit("This is a test record for load testing Hadoop cluster capacity"))

print("Схема данных:")
df_with_data.printSchema()

In [None]:
# Запись данных в Hive
start_time = time.time()
print(f"Начинаем запись {NUM_ROWS} строк в таблицу {TABLE_NAME}...")

# repartition может помочь создать файлы оптимального размера, 
# но для скорости генерации можно убрать или настроить (например, 10-100 партиций)
df_with_data.write \
    .mode("overwrite") \
    .format("parquet") \
    .saveAsTable(f"default.{TABLE_NAME}")

end_time = time.time()
duration = end_time - start_time

print(f"✓ Готово! Записано {NUM_ROWS} строк.")
print(f"Время выполнения: {duration:.2f} секунд")

In [None]:
# Проверка результата (показать первые 5 строк)
spark.sql(f"SELECT * FROM default.{TABLE_NAME} LIMIT 5").show(truncate=False)

In [None]:
# Показать общее количество строк в таблице (проверка)
count = spark.sql(f"SELECT count(*) FROM default.{TABLE_NAME}").collect()[0][0]
print(f"Количество строк в таблице: {count}")

In [None]:
spark.stop()