In [4]:
// Spark Session başlatılır

import org.apache.spark.sql.{DataFrame, SparkSession}

val spark: SparkSession = SparkSession
      .builder()
      .appName("Read and Write operations with CSV files")
      .master("local")
      .getOrCreate()

spark.sparkContext.setLogLevel("ERROR")

import org.apache.spark.sql.{DataFrame, SparkSession}
spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@4a29372b


In [7]:
val base_path: String = "/home/cevat/workspace/apache-spark-notlarim/scala/projects/read_write_csv/src/csv"

base_path: String = /home/cevat/workspace/apache-spark-notlarim/scala/projects/read_write_csv/src/csv


In [8]:
// Read Single CSV
val single_csv_path: String = base_path + "/test1.csv"
val first_csv_df: DataFrame = spark.read.csv(path = single_csv_path)
first_csv_df.show()

+-------+----------+---+---------+-------+
|    _c0|       _c1|_c2|      _c3|    _c4|
+-------+----------+---+---------+-------+
|   name|   surname|age|     city|country|
|  Cevat|   Armutlu| 26| Istanbul| Turkey|
|   John|      Eric| 56| New York|America|
|Natalia|Khrushchev|  6|Moskovitz|Russiaa|
+-------+----------+---+---------+-------+



single_csv_path: String = /home/cevat/workspace/apache-spark-notlarim/scala/projects/read_write_csv/src/csv/test1.csv
first_csv_df: org.apache.spark.sql.DataFrame = [_c0: string, _c1: string ... 3 more fields]


In [9]:
// Read Multiple CSV: Folder
val csv_folder: String = base_path
val read_csv_folder: DataFrame = spark.read.csv(path = csv_folder)
// Herhangi bir okuma sırası var mı anlamadım. test4 dosyasını eklediğimde ilk onu okuyor. test4 base_path dizininde.
// Sildiğimde ise test1' i ilk okuyor.
read_csv_folder.show()

+--------------------+
|                 _c0|
+--------------------+
|del1;del2;del3;de...|
|delcol1;delcol1;d...|
|delcol1;delcol1;d...|
|                name|
|               Cevat|
|                John|
|             Natalia|
|               col11|
|               test1|
|               test1|
|               test1|
|                col1|
|                  a1|
|                  b1|
|                  c1|
+--------------------+



csv_folder: String = /home/cevat/workspace/apache-spark-notlarim/scala/projects/read_write_csv/src/csv
read_csv_folder: org.apache.spark.sql.DataFrame = [_c0: string]


In [11]:
// Read Multiple CSV: Multiple paths
val read_multi_files = spark.read.csv(base_path + "/test2.csv", base_path + "/test4.csv", base_path + "/test1.csv") // String* demek birden fazla String ifade girebilirsin demek
// Folder okutmak gibi. Verileri yazdığın sıranın bir önemi yok.
read_multi_files.show()

+--------------------+
|                 _c0|
+--------------------+
|del1;del2;del3;de...|
|delcol1;delcol1;d...|
|delcol1;delcol1;d...|
|                name|
|               Cevat|
|                John|
|             Natalia|
|                col1|
|                  a1|
|                  b1|
|                  c1|
+--------------------+



read_multi_files: org.apache.spark.sql.DataFrame = [_c0: string]


In [12]:
// Read CSV file with header: Single CSV file
val read_csv_with_header: DataFrame = spark.read.option("header", "true").csv(single_csv_path)
// header: CSV okurken kullanılan option' lardan biri. Default: false
// Okuma ve Yazma işlemlerinde geçerlidir ve CSV dosyasındaki ilk satırı header olarak alır.
read_csv_with_header.show()

+-------+----------+---+---------+-------+
|   name|   surname|age|     city|country|
+-------+----------+---+---------+-------+
|  Cevat|   Armutlu| 26| Istanbul| Turkey|
|   John|      Eric| 56| New York|America|
|Natalia|Khrushchev|  6|Moskovitz|Russiaa|
+-------+----------+---+---------+-------+



read_csv_with_header: org.apache.spark.sql.DataFrame = [name: string, surname: string ... 3 more fields]


In [13]:
// Read CSV file with header: Multiple CSV file
val read_csv_folder_with_header: DataFrame = spark.read.option("header", "true").csv(path = csv_folder)
read_csv_folder_with_header.show()
// İlk okuduğu dosyanın ilk satırını header olarak aldı.

+----------------------------------+
|del1;del2;del3;del4;del5;del6;del7|
+----------------------------------+
|              delcol1;delcol1;d...|
|              delcol1;delcol1;d...|
|                             Cevat|
|                              John|
|                           Natalia|
|                             test1|
|                             test1|
|                             test1|
|                                a1|
|                                b1|
|                                c1|
+----------------------------------+



read_csv_folder_with_header: org.apache.spark.sql.DataFrame = [del1;del2;del3;del4;del5;del6;del7: string]


In [14]:
// Read CSV file with delimiter
// delimiter option' ı ile CSV dosyasının kolonlarının hangi ifadeye göre ayrıldığını belirtebiliyoruz.
// Default değeri `,`.
// Eğer birden fazla karakter varsa onu da yazabiliyorsunuz.
val read_csv_file_with_delimiter: DataFrame = spark
    .read
    .option("header", "true")
    .option("delimiter", ";")
    .csv(base_path + "/test4.csv") //test4 dosyasında kolonlar `;` ile ayrılıyor.
read_csv_file_with_delimiter.show()

+-------+-------+-------+-------+-------+-------+-------+
|   del1|   del2|   del3|   del4|   del5|   del6|   del7|
+-------+-------+-------+-------+-------+-------+-------+
|delcol1|delcol1|delcol1|delcol1|delcol1|delcol1|delcol1|
|delcol1|delcol1|delcol1|delcol1|delcol1|delcol1|delcol1|
+-------+-------+-------+-------+-------+-------+-------+



read_csv_file_with_delimiter: org.apache.spark.sql.DataFrame = [del1: string, del2: string ... 5 more fields]


In [16]:
// Read CSV file with sep
// sep ifade delimiter ile aynıdır.
val read_csv_file_with_delimiter: DataFrame = spark
    .read
    .option("header", "true")
    .option("sep", ";")
    .csv(base_path + "/test4.csv") //test4 dosyasında kolonlar `;` ile ayrılıyor.
read_csv_file_with_delimiter.show()

+----------------------------------+
|del1;del2;del3;del4;del5;del6;del7|
+----------------------------------+
|              delcol1;delcol1;d...|
|              delcol1;delcol1;d...|
+----------------------------------+



read_csv_file_with_delimiter: org.apache.spark.sql.DataFrame = [del1;del2;del3;del4;del5;del6;del7: string]
