## [Interactive Analysis with the Spark Shell](https://spark.apache.org/docs/latest/quick-start.html#interactive-analysis-with-the-spark-shell)

### [Basic](https://spark.apache.org/docs/latest/quick-start.html#basics)

ENG: Spark’s primary abstraction is a distributed collection of items called a Dataset. Datasets can be created from Hadoop InputFormats (such as HDFS files) or by transforming other Datasets.

TR: Spark' ın `birincil soyutlaması(primary abstraction)` `Dataset`lerdir. `Dataset` dediği şey ise okuduğu dosyadaki `item` olarak kabul ettiği şeylerin kümesidir. `Dataset` HDSF dosyalarından ya da farklı kaynaklardan da oluşturulabilir. `distributed collection of items` bu ifade de ki `distributed` ifadesi ne olabilir bilmiyorum.

In [2]:
val textFile = spark.read.textFile("../README.md") //Scala dizininde bulunan README.md dosyasını okuyor.
// Text dosyasından yeni bir Dataset oluşturuyor.

// Bir Dataset' ten value alma işlemine action deniyor.
// Bir Dataset' ten yeni bir Dataset oluşturmaya da transform deniyor.

textFile: org.apache.spark.sql.Dataset[String] = [value: string]


In [7]:
// Aşağıdaki bir action işlemidir.
textFile.count() // Number of items in this Dataset.
// README.md satırları bu örnekte item' dır

res4: Long = 21


In [9]:
// Action
textFile.first() // First item in this Dataset

res6: String = ## Açıklama


In [10]:
// Transform: Bir Dataset' ten yeni bir Dataset oluşturma işlemine denir.
// Elimizdeki Dataset'ten yeni bir Dataset oluşturmak için filter isimli bir fonksiyon çağıracağız.
// filter fonksiyonu ile elimizdeki Dataset' in item' larının alt kümesinden yeni bir Dataset oluşturacağız.
val lineWithSpark = textFile.filter(line => line.contains("Spark")) 
// line => line.contains("Spark") -> Bu kısım Python' daki lambda fonksiyonu ile aynıdır.
// line isimli parametre alan bir fonksiyon var ve bu fonksiyon içinde "Spark" geçen item' lardan yeni bir Dataset
// oluşturuyor.

lineWithSpark: org.apache.spark.sql.Dataset[String] = [value: string]


In [15]:
// Action
println("Number of lines contains Spark: " + lineWithSpark.count())

// Transform ve action işlemlerini bu şekilde birleştirebiliyoruz.
textFile.filter(line => line.contains("Spark")).count()

// Jupyter Notebook' ta hücrenin en sonundaki satır out kısmında yazılır yani print edilmesine gerek yoktur.
// Üst satırlardaki işlemler ise print edilmedilir. Bu sebeple ilk satırda print varken ikincisinde yoktur.

Number of lines contains Spark: 3


res11: Long = 3


### [More on Dataset Operations](https://spark.apache.org/docs/latest/quick-start.html#more-on-dataset-operations)

Action ve Transform işlemlerini kullanarak daha karmaşık hesaplamalar yapılabilir. Mesela elimizdeki Dataset' teki en çok kelime barındıran satırın kaç kelime barındırdığını bulmak istersek:

In [3]:
textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)
// Bu işlemi teker teker açıklamak istiyorum

res1: Int = 12


In [6]:
// map(line => line.split(" ").size)

/*
    map: Kendisine parametre olarak verilen fonksiyonu Dataset' teki bütün item' lara uygular
    ve parametre olarak verilen fonksiyonun çıktısını item' in yerine yazar.

    Map fonksiyonuna parametre olarak verilen fonksiyon sayıları 2 ile çarpsın. 1, 2, 3 değerlerini
    item olarak tutan Dataset' in map fonksiyonu çıktısı: 2, 4, 6 olur (1 * 2, 2 * 2, 3 * 2).
*/

/*
    Anonymous Functions: Python' daki lambda function' un Scala karşılığıdır. Bilmeyenler için
    kısa ve isimsiz bir şekilde fonksiyon tanımlama yoludur.

    val sum = (num1: Int, num2: Int) => num1 + num2

    Okun sol tarafı fonksiyonun parametreleridir. Sağ tarafı ise return değeridir.

    sum(5, 6) => çıktı 11' dir.
*/

/*
    line => line.split(" ").size

    Yukarıdaki Anonymous Function kendisine parametre olarak verilen String ifadeyi split fonksiyonu ile
    parçalayıp split fonksiyonunun döndürdüğü Array' in size' ını yani boyutunu return eder.

*/

val textFileLineWordCount = textFile.map(line => line.split(" ").size)

println(textFileLineWordCount) // textFileLineWordCount Dataset' indeki item' ların type' ları int' tir.

textFileLineWordCount.show(numRows=5)
// textFile Dataset' inde item değerleri String' tir(textFile' ı okuduğumuz cell' e bakın).
// Bu String tipi Spark' a özel bir String tipi değildir.
// Scala' nın String type' ıdır.

[value: int]
+-----+
|value|
+-----+
|    2|
|    1|
|    6|
|    1|
|    5|
+-----+
only showing top 5 rows



textFileLineWordCount: org.apache.spark.sql.Dataset[Int] = [value: int]


In [4]:
// reduce((a, b) => if (a > b) a else b)

/*
    reduce: map gibi parametre olarak fonksiyon alır. Parametre olarak aldığı fonksiyonun iki parametresi ve tek return' ü
    olmalıdır.

    reduce kelime anlamı olarak azaltmak demek. Dataset' teki item' ları ikişer olarak ele alıp belirli işlemleri
    uygulamaya yarar. Max, Min vb. işlemlerdir.

*/

/*
    (a, b) => if (a > b) a else b

    Yukarıdaki ifade bir Anonymous Function'dır ve kendisine parametre olarak verilen iki değerden en büyüğünü
    return eder.
*/

// reduce((a, b) => if (a > b) a else b)
// Yukarıdaki işlem item' ları ikişer ikişer karşılaştırarak en büyük değer olanı elde etmeye yarar.
// Tam olarak çalışma mantığı nasıldır bilmiyorum.

textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

res2: Int = 12


In [18]:
import java.lang.Math

textFile.map(line => line.split(" ").size).reduce((a,b) => Math.max(a, b))
// Okunurluğu ya da verimliliği arttırmak için Scala dilinin destekleklediği her şey kullanılabilir.
// Math.max

import java.lang.Math
res13: Int = 22


In [7]:
// One common data flow pattern is MapReduce, as popularized by Hadoop. Spark can implement MapReduce flows easily
val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()

// Yukarıdaki işlemi teker teker anlatmak istiyorum.

wordCounts: org.apache.spark.sql.Dataset[(String, Long)] = [key: string, count(1): bigint]


In [21]:
// flatMap(line => line.split(" "))

/*
    flatMap: map fonksiyonu ile farklı şu. Dataset' in kaç item' ı varsa map fonksiyonunun çıktısı olan Dataset' de
    o kadar item' a sahiptir. flatMap' te ise ya aynı sayıda item' a ya da daha fazla sayıda item' a sahip olur.

    Eğer flatMap' e parametre olarak verilen fonksiyonun çıktısı tek bir değer dönüyorsa map gibi çalışır fakat
    birden fazla değer dönüyorsa dönülen her değer yeni Dataset' te item olur.
    
*/


textFile.map(line => line.split(" ")).show(numRows=5)
textFile.flatMap(line => line.split(" ")).show(numRows=5)

+--------------------+
|               value|
+--------------------+
|      [##, Açıklama]|
|                  []|
|[ScalaSpark, ile,...|
|                  []|
|[###, Klasör, isi...|
+--------------------+
only showing top 5 rows

+----------+
|     value|
+----------+
|        ##|
|  Açıklama|
|          |
|ScalaSpark|
|       ile|
+----------+
only showing top 5 rows



In [27]:
// groupByKey(identity)

/*
    identity: identity bir Scala fonksiyonudur. Kendine parametre olarak verilen değeri return eder.
    
    identity(5) => 5 döner.
*/

/*
    groupByKey: Bu fonksiyon (K,V) pair' larını grouplamaya yarar.

*/

<console>: 28: error: overloaded method value groupByKey with alternatives:

In [5]:
wordCounts.collect()

res2: Array[(String, Long)] = Array((şekilde,1), (ı,1), (notlarımı,1), (Giriş,1), (Sistemi,1), (kullanmaya,1), (olarakta,1), (~~Apache,1), (yapabiliyormuşuz.,1), (verdim.,2), (Linux,1), (kullanmaktayım.,1), (dağıtım,1), (Apache,1), (olarak,1), (bu,1), (işlemleri,1), (Ubuntu,1), (Scala,1), (yazmaya,1), (İşletim,1), (yaptım.~~,1), (PySpark,1), (ile,3), (Python,1), (Spark',1), (##,1), (Spark,1), (ilgili,1), (Jupyter,1), ("",4), (tutacağım.,1), (karar,2), (kullandım.,1), ([şu](./kurulum.md),1), (notebook,1), (Kurulumu,1))


In [10]:
println("textFile item count: " + textFile.count())
textFile.show() // textFile

textFile item count: 8
+--------------------+
|               value|
+--------------------+
|            ## Giriş|
|                    |
|Apache Spark ile ...|
|                    |
|~~Apache Spark' ı...|
|                    |
|                    |
|Scala kullanmaya ...|
+--------------------+



In [12]:
// Şimdi yukarıdaki işlemleri teker teker yapalım
val wordDataset = textFile.flatMap(line => line.split(" "))
println("wordDataset item count: " + wordDataset.count())
wordDataset.show()

wordDataset item count: 44
+----------+
|     value|
+----------+
|        ##|
|     Giriş|
|          |
|    Apache|
|     Spark|
|       ile|
|    ilgili|
| notlarımı|
|tutacağım.|
|          |
|  ~~Apache|
|    Spark'|
|         ı|
|    Python|
|       ile|
|   yazmaya|
|     karar|
|   verdim.|
|   PySpark|
|kullandım.|
+----------+
only showing top 20 rows



wordDataset: org.apache.spark.sql.Dataset[String] = [value: string]


In [17]:
val workDatasetKeyCountPair = wordDataset.groupByKey(identity).count() // Burada tam olarak nasıl key count
// yapıyor anlamadım. Çıktı falan da göremediğim için nasıl yapıyor diye bir mantık kuramadım.
workDatasetKeyCountPair.show()

+-----------------+--------+
|              key|count(1)|
+-----------------+--------+
|          şekilde|       1|
|                ı|       1|
|        notlarımı|       1|
|            Giriş|       1|
|          Sistemi|       1|
|       kullanmaya|       1|
|         olarakta|       1|
|         ~~Apache|       1|
|yapabiliyormuşuz.|       1|
|          verdim.|       2|
|            Linux|       1|
|  kullanmaktayım.|       1|
|          dağıtım|       1|
|           Apache|       1|
|           olarak|       1|
|               bu|       1|
|        işlemleri|       1|
|           Ubuntu|       1|
|            Scala|       1|
|          yazmaya|       1|
+-----------------+--------+
only showing top 20 rows



workDatasetKeyCountPair: org.apache.spark.sql.Dataset[(String, Long)] = [key: string, count(1): bigint]


In [23]:
workDatasetKeyCountPair.collect()

res17: Array[(String, Long)] = Array((şekilde,1), (ı,1), (notlarımı,1), (Giriş,1), (Sistemi,1), (kullanmaya,1), (olarakta,1), (~~Apache,1), (yapabiliyormuşuz.,1), (verdim.,2), (Linux,1), (kullanmaktayım.,1), (dağıtım,1), (Apache,1), (olarak,1), (bu,1), (işlemleri,1), (Ubuntu,1), (Scala,1), (yazmaya,1), (İşletim,1), (yaptım.~~,1), (PySpark,1), (ile,3), (Python,1), (Spark',1), (##,1), (Spark,1), (ilgili,1), (Jupyter,1), ("",4), (tutacağım.,1), (karar,2), (kullandım.,1), ([şu](./kurulum.md),1), (notebook,1), (Kurulumu,1))


### Caching

Bu kısmı tam olarak anlamadım.

Spark bildiğim kadarıyla verileri RAM' a alarak işliyor. Hadoop' tan farkı buradan ortaya çıkıyor. Hadoop verileri Disk üzerinden işler Spark ise RAM üzerinden veriler üzerinden işlem yapar.

In [6]:
lineWithSpark.cache() // Şuan veriler cache' e alındı

res3: lineWithSpark.type = [value: string]


In [7]:
lineWithSpark.count()

res4: Long = 2


In [None]:
// Self-Contained Applications diye bir kısım vardı. Ona bakmadım. Scala projesinde Spark kullanmayı gösteriyor sanırım