## Açıklama

JSON dosyalarını Scala Spark ile Okuma ve Yazma.

Bu dosyadaki adımlar aşağıdaki sıradadır:

1. Spark Session başlatılır
2. JSON dosyası okunur
3. JSON dosyası üzerinde basit bir filtreleme yapılır. JSON yazmak için yapılması elzem değil
4. JSON dosyası belirtilen dizine yazılır


In [1]:
// Spark Session başlatılır

import org.apache.spark.sql.SparkSession

val spark = SparkSession
  .builder()
  .appName("JSON READ and Write Operation")
  .getOrCreate()

Intitializing Scala interpreter ...

Spark Web UI available at http://192.168.1.152:4040
SparkContext available as 'sc' (version = 3.2.0, master = local[*], app id = local-1642957459717)
SparkSession available as 'spark'


import org.apache.spark.sql.SparkSession
spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@61278e8d


In [30]:
// JSON dosyası okunur

val json_file: String = "../../datasets/json/orders_input.json"

val json_df = spark.read.json(json_file) // Okunan JSON dosyası bir DataFrame olarak okunur. 
// `json_df` bir DataFrame nesnesidir. Bu cell' in out kısmında görebilirsiniz.

json_df.show() // DataFrame' in 20 satırı ekrana basılır

+----------+------+-------------------+-------+------+--------+-------+
|categoryId|itemId|          orderDate|orderId| price|sellerId| status|
+----------+------+-------------------+-------+------+--------+-------+
|         1|     1|2021-03-05 10:03:23|      1|   3.0|     100|CREATED|
|         1|     2|2021-03-05 10:22:55|      1|  10.0|     100|CREATED|
|         1|     3|2021-03-05 10:45:23|      1| 250.0|     100|CREATED|
|         1|     4|2021-03-05 15:22:41|      1|   5.0|     200|CREATED|
|         2|     5|2021-03-05 15:00:11|      1|   5.0|     200|CREATED|
|         3|     6|2021-03-05 03:15:12|      2|  10.0|     100|CREATED|
|         4|     7|2021-03-05 03:51:05|      2|  30.0|     200|CREATED|
|         4|     8|2021-03-05 02:59:04|      2|  50.0|     200|CREATED|
|         1|     9|2021-03-05 01:01:27|      2| 150.0|     300|CREATED|
|         1|    10|2021-03-05 15:05:54|      3|1000.0|     100|CREATED|
|         2|    11|2021-03-05 17:11:55|      3| 150.0|     100|C

json_file: String = ../../datasets/json/orders_input.json
json_df: org.apache.spark.sql.DataFrame = [categoryId: bigint, itemId: bigint ... 5 more fields]


In [36]:
// JSON dosyası üzerinde basit bir filtreleme yapılır. JSON yazmak için yapılması elzem değil

val high_price =  json_df.filter("price > 50")

high_price.show() // DataFrame' in 20 satırı ekrana basılır.

high_price.printSchema() // DataFrame' deki kolonların schema' sını ve tiplerini gösterir.

+----------+------+-------------------+-------+------+--------+-------+
|categoryId|itemId|          orderDate|orderId| price|sellerId| status|
+----------+------+-------------------+-------+------+--------+-------+
|         1|     3|2021-03-05 10:45:23|      1| 250.0|     100|CREATED|
|         1|     9|2021-03-05 01:01:27|      2| 150.0|     300|CREATED|
|         1|    10|2021-03-05 15:05:54|      3|1000.0|     100|CREATED|
|         2|    11|2021-03-05 17:11:55|      3| 150.0|     100|CREATED|
|         2|    12|2021-03-05 21:15:13|      3| 500.0|     200|CREATED|
|         3|    18|2021-03-06 13:19:11|      3| 250.0|     300|CREATED|
|         4|    19|2021-03-06 15:27:10|      4| 300.0|     300|CREATED|
|         1|    21|2021-03-06 09:22:03|      5| 200.0|     300|CREATED|
|         1|    22|2021-03-06 16:17:09|      5|  60.0|     300|CREATED|
|         1|    23|2021-03-06 00:00:01|      6| 450.0|     300|CREATED|
+----------+------+-------------------+-------+------+--------+-

high_price: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [categoryId: bigint, itemId: bigint ... 5 more fields]


NOT: Yukarıdaki cell' in out kısmında high_price' in `Dataset[Row]` nesnesi olduğunu yazmaktadır. `Dataset[Row]` ifadesi `DataFrame` demektir.

Kaynak: https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/index.html#DataFrame=org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]

In [35]:
// JSON dosyası belirtilen dizine yazılır

high_price.write.json("json_file")
// Spark' ta yukarıdaki işlem gerçekleştirildikten sonra `json_file` adında bir klasör oluşur ve
// JSON dosyası `json_file` klasörünün içindeki `part-` ile başlayan dosyadır.