In [None]:
import findspark

findspark.init()

from pyspark.sql import SparkSession
from pyspark.ml import PipelineModel
from pyspark.sql.functions import col, regexp_replace, lower
import os


MAX_MEMORY = "6g"
spark = SparkSession.builder \
                    .appName('multi_class_text_classifiter')\
                    .master("local[8]") \
                    .config("spark.executor.memory", MAX_MEMORY) \
                    .config("spark.driver.memory", MAX_MEMORY) \
                    .getOrCreate()

print("Apache Spark version: ", spark.version)
spark

# Speicher Benchmark

## Small Size
Speicherplatz für 2656 Tweets mit Metadaten ohne Bild- und Videodaten:
- Json: 13,9 MB (14.673.664 Bytes)
- Parquet: 4,94 MB (5.189.286 Bytes)

In [None]:
df = spark.read.json("C://data/twitter-stream-json-small/*.json")
df.printSchema()

In [7]:
print(f"Anzahl Tweets in Sample: {df.count()}")

Anzahl Tweets in Sample: 2656


In [8]:
df.write.mode("overwrite").parquet("C://data/twitter-stream-parquet-small/")

## Medium Size
Speicherplatz für 25120 Tweets mit Metadaten ohne Bild- und Videodaten:
- Json: 136 MB (143.647.697 Bytes)
- Parquet: 36,1 MB (37.944.391 Bytes)

In [None]:
df = spark.read.json("C://data/twitter-stream-json-medium/*.json")
df.printSchema()

In [10]:
print(f"Anzahl Tweets in Sample: {df.count()}")

Anzahl Tweets in Sample: 25120


In [11]:
df.write.mode("overwrite").parquet("C://data/twitter-stream-parquet-medium/")

## Large Size
Speicherplatz für 4042326 Tweets mit Metadaten ohne Bild- und Videodaten:
- Json: 22,2 GB (23.893.897.461 Bytes)
- Parquet: 5,01 GB (5.389.266.159 Bytes)

In [None]:
df = spark.read.json("C://data/twitter-stream-json-complete/*.json")
df.printSchema()

In [13]:
print(f"Anzahl Tweets in Sample: {df.count()}")

Anzahl Tweets in Sample: 4042326


In [14]:
df.write.mode("overwrite").parquet("C://data/twitter-stream-parquet-complete/")

# Read-Geschwindigkeit Benchmark
- Jeden Datensatz einmal vom Dateisystem einlesen und die Anzahl der Zeilen zählen, um die Ausführung zu triggern.
- Ausführbarer Code: Benchmark_Read.py

## Small Size
Ladezeit für 2656 Tweets mit Metodaten ohne Bild- und Videodaten:
- Json: 0.46s
- Parquet: 0.29s (Speedup: 1,58)

## Medium Size
Ladezeit für 25120 Tweets mit Metodaten ohne Bild- und Videodaten:
- Json: 1.31s
- Parquet: 0.41s (Speedup: 3,19)

## Large Size
Ladezeit für 4042326 Tweets mit Metodaten ohne Bild- und Videodaten:
- Json: 241.18s
- Parquet: 1.79s (Speedup: 134,73)