# Partycjonowanie danych w Sparku

Partycjonowanie danych jest kluczową techniką zarządzania i optymalizacji przetwarzania dużych zbiorów danych, szczególnie w środowiskach Big Data, takich jak Apache Spark. 
Polega ono na podziale dużego zbioru danych na mniejsze, zarządzalne części, zwane partycjami. 
Każda partycja może być przetwarzana niezależnie od innych, co umożliwia równoległe i rozproszone przetwarzanie na wielu węzłach klastra.

## Cele partycjonowania:
1. Zwiększenie wydajności: Przetwarzając dane w mniejszych blokach równolegle, możemy znacząco przyspieszyć czas przetwarzania zadań.
2. Optymalizacja zapytań: Partycjonowanie pozwala na fizyczne grupowanie danych w sposób, który jest zgodny z najczęściej wykonywanymi zapytaniami. Na przykład, partycjonowanie danych według daty pozwala na szybkie wykonywanie zapytań dotyczących określonych okresów czasu, bez konieczności przeszukiwania całego zbioru danych.
3. Efektywność zarządzania danymi: Partycjonowanie ułatwia zarządzanie danymi, umożliwiając na przykład łatwiejsze archiwizowanie starych danych czy usunięcie niepotrzebnych partycji bez wpływu na resztę zbioru danych.

## Typy partycjonowania:
1. Partycjonowanie poziome (Partitioning): Dane są dzielone w oparciu o wartość jednego lub więcej kolumn. Na przykład, dane mogą być partycjonowane po kolumnie daty lub regionu. 
   W Apache Spark każda partycja jest przypisana do różnych węzłów w klastrze, co umożliwia równoległe przetwarzanie.
2. Partycjonowanie pionowe (Sharding): Polega na podziale kolumn tabeli na różne serwery. Każdy serwer przechowuje tylko określoną grupę kolumn, co może być przydatne w bazach danych, gdzie różne kolumny są często używane przez różne zapytania.



In [44]:
from pyspark.sql import SparkSession

In [45]:
# obiekt sesji zwykle ma nazwę "spark"
spark = SparkSession.builder.appName("SparkPartitioning").getOrCreate() 
spark

ConnectionRefusedError: [Errno 61] Connection refused

In [28]:
orders = spark.read.parquet("../../data/sklep/orders")
orders

DataFrame[order_id: int, order_date: bigint, order_customer_id: int, order_status: string]

In [29]:
orders.show(5)

+--------+-------------+-----------------+---------------+
|order_id|   order_date|order_customer_id|   order_status|
+--------+-------------+-----------------+---------------+
|       1|1374735600000|            11599|         CLOSED|
|       2|1374735600000|              256|PENDING_PAYMENT|
|       3|1374735600000|            12111|       COMPLETE|
|       4|1374735600000|             8827|         CLOSED|
|       5|1374735600000|            11318|       COMPLETE|
+--------+-------------+-----------------+---------------+


In [30]:
df = orders.select("order_id", "order_date")
df.show(5)

+--------+-------------+
|order_id|   order_date|
+--------+-------------+
|       1|1374735600000|
|       2|1374735600000|
|       3|1374735600000|
|       4|1374735600000|
|       5|1374735600000|
+--------+-------------+


In [31]:
import pyspark.sql.functions as F

In [32]:
df = df.withColumn("timestamp", F.from_unixtime(F.col("order_date") / 1000))
df.show()

+--------+-------------+-------------------+
|order_id|   order_date|          timestamp|
+--------+-------------+-------------------+
|       1|1374735600000|2013-07-25 09:00:00|
|       2|1374735600000|2013-07-25 09:00:00|
|       3|1374735600000|2013-07-25 09:00:00|
|       4|1374735600000|2013-07-25 09:00:00|
|       5|1374735600000|2013-07-25 09:00:00|
|       6|1374735600000|2013-07-25 09:00:00|
|       7|1374735600000|2013-07-25 09:00:00|
|       8|1374735600000|2013-07-25 09:00:00|
|       9|1374735600000|2013-07-25 09:00:00|
|      10|1374735600000|2013-07-25 09:00:00|
|      11|1374735600000|2013-07-25 09:00:00|
|      12|1374735600000|2013-07-25 09:00:00|
|      13|1374735600000|2013-07-25 09:00:00|
|      14|1374735600000|2013-07-25 09:00:00|
|      15|1374735600000|2013-07-25 09:00:00|
|      16|1374735600000|2013-07-25 09:00:00|
|      17|1374735600000|2013-07-25 09:00:00|
|      18|1374735600000|2013-07-25 09:00:00|
|      19|1374735600000|2013-07-25 09:00:00|
|      20|

In [33]:
df = df.withColumn("date_string", F.date_format("timestamp", "yyyy-MM-dd"))
df.show()

+--------+-------------+-------------------+-----------+
|order_id|   order_date|          timestamp|date_string|
+--------+-------------+-------------------+-----------+
|       1|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|       2|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|       3|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|       4|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|       5|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|       6|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|       7|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|       8|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|       9|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|      10|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|      11|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|      12|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|      13|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|      14|1374735600000|2013-07-25 09:00:00| 2013-07-25|
|      15|1374735600000|2013-07

In [34]:
df.printSchema()

root
 |-- order_id: integer (nullable = true)
 |-- order_date: long (nullable = true)
 |-- timestamp: string (nullable = true)
 |-- date_string: string (nullable = true)


In [35]:
df.write.partitionBy("date_string").mode("overwrite").parquet("orders_partitioned")

                                                                                

### Partycjonowanie po parze year-month

In [36]:
df = df.withColumn("year_month", F.concat(F.year("timestamp"), F.lit("-"), F.format_string("%02d", F.month("timestamp"))))
df.show(5)

+--------+-------------+-------------------+-----------+----------+
|order_id|   order_date|          timestamp|date_string|year_month|
+--------+-------------+-------------------+-----------+----------+
|       1|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|
|       2|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|
|       3|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|
|       4|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|
|       5|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|
+--------+-------------+-------------------+-----------+----------+


In [ ]:
df.write.partitionBy("year_month").mode("overwrite").parquet("orders_partitioned_ym")

### Partycjonowanie po dwóch kolumnach

In [37]:
df = df.withColumn("year", F.year("timestamp"))
df = df.withColumn("month", F.month("timestamp"))

In [38]:
df.show(5)

+--------+-------------+-------------------+-----------+----------+----+-----+
|order_id|   order_date|          timestamp|date_string|year_month|year|month|
+--------+-------------+-------------------+-----------+----------+----+-----+
|       1|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|2013|    7|
|       2|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|2013|    7|
|       3|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|2013|    7|
|       4|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|2013|    7|
|       5|1374735600000|2013-07-25 09:00:00| 2013-07-25|   2013-07|2013|    7|
+--------+-------------+-------------------+-----------+----------+----+-----+


In [39]:
df.write.partitionBy("year", "month").mode("overwrite").parquet("orders_partitioned_ym2")