# Learning Spark - Chapter 2 (Scala)
## Getting Started

In [1]:
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

Intitializing Scala interpreter ...

Spark Web UI available at http://EM2021002778.bosonit.local:4045
SparkContext available as 'sc' (version = 3.1.1, master = local[*], app id = local-1620573521717)
SparkSession available as 'spark'


import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._


In [2]:
val spark = SparkSession
.builder
.appName("MnMCount")
.getOrCreate()

spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@523201b7


### Transformations, Actions, and Lazy Evaluation

In [3]:
import org.apache.spark.sql.functions._
val strings = spark.read.text("./SPARK_README.md")
val filtered = strings.filter(col("value").contains("Spark"))
filtered.count()

import org.apache.spark.sql.functions._
strings: org.apache.spark.sql.DataFrame = [value: string]
filtered: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [value: string]
res0: Long = 17


## Counting M&Ms for the Cookie Monster

In [4]:
// Get the M&M data set filename
val mnmFile = "C:/Users/jorgedario.mendez/OneDrive - Bosonit/Documentos/3. Libro/LearningSparkV2-master/databricks-datasets/learning-spark-v2/mnm_dataset.csv"

mnmFile: String = C:/Users/jorgedario.mendez/OneDrive - Bosonit/Documentos/3. Libro/LearningSparkV2-master/databricks-datasets/learning-spark-v2/mnm_dataset.csv


In [5]:
// Read the file into a Spark DataFrame
val mnmDF = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load(mnmFile)

mnmDF: org.apache.spark.sql.DataFrame = [State: string, Color: string ... 1 more field]


In [6]:
// Aggregate counts of all colors and groupBy() State and Color
// orderBy() in descending order
val countMnMDF = mnmDF
.select("State", "Color", "Count")
.groupBy("State", "Color")
.agg(count("Count").alias("Total"))
.orderBy(desc("Total"))

countMnMDF: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [State: string, Color: string ... 1 more field]


In [7]:
// Show the resulting aggregations for all the states and colors
countMnMDF.show(60)
println(s"Total Rows = ${countMnMDF.count()}")

+-----+------+-----+
|State| Color|Total|
+-----+------+-----+
|   CA|Yellow| 1807|
|   WA| Green| 1779|
|   OR|Orange| 1743|
|   TX| Green| 1737|
|   TX|   Red| 1725|
|   CA| Green| 1723|
|   CO|Yellow| 1721|
|   CA| Brown| 1718|
|   CO| Green| 1713|
|   NV|Orange| 1712|
|   TX|Yellow| 1703|
|   NV| Green| 1698|
|   AZ| Brown| 1698|
|   WY| Green| 1695|
|   CO|  Blue| 1695|
|   NM|   Red| 1690|
|   AZ|Orange| 1689|
|   NM|Yellow| 1688|
|   NM| Brown| 1687|
|   UT|Orange| 1684|
|   NM| Green| 1682|
|   UT|   Red| 1680|
|   AZ| Green| 1676|
|   NV|Yellow| 1675|
|   NV|  Blue| 1673|
|   WA|   Red| 1671|
|   WY|   Red| 1670|
|   WA| Brown| 1669|
|   NM|Orange| 1665|
|   WY|  Blue| 1664|
|   WA|Yellow| 1663|
|   WA|Orange| 1658|
|   CA|Orange| 1657|
|   NV| Brown| 1657|
|   CA|   Red| 1656|
|   CO| Brown| 1656|
|   UT|  Blue| 1655|
|   AZ|Yellow| 1654|
|   TX|Orange| 1652|
|   AZ|   Red| 1648|
|   OR|  Blue| 1646|
|   OR|   Red| 1645|
|   UT|Yellow| 1645|
|   CO|Orange| 1642|
|   TX| Brown

In [8]:
// Find the aggregate counts for California by filtering
val caCountMnMDF = mnmDF
.select("State", "Color", "Count")
.where(col("State") === "CA")
.groupBy("State", "Color")
.agg(count("Count").alias("Total"))
.orderBy(desc("Total"))

// Show the resulting aggregations for California
caCountMnMDF.show(10)

+-----+------+-----+
|State| Color|Total|
+-----+------+-----+
|   CA|Yellow| 1807|
|   CA| Green| 1723|
|   CA| Brown| 1718|
|   CA|Orange| 1657|
|   CA|   Red| 1656|
|   CA|  Blue| 1603|
+-----+------+-----+



caCountMnMDF: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [State: string, Color: string ... 1 more field]


## Ejercicios extra

a. Descargar el Quijote https://gist.github.com/jsdario/6d6c69398cb0c73111e49f1218960f79

Aplicar no solo count (para obtener el número de líneas) y show sino probar distintas sobrecargas del método show (con/sin truncate, indicando/sin indicar num de filas, etc) así como también los métodos, head, take, first (diferencias entre estos 3?)

In [9]:
val ruta_quijote = "C:/Users/jorgedario.mendez/OneDrive - Bosonit/Documentos/3. Libro/LearningSparkV2-master/JM Jupyter/el_quijote.txt"

ruta_quijote: String = C:/Users/jorgedario.mendez/OneDrive - Bosonit/Documentos/3. Libro/LearningSparkV2-master/JM Jupyter/el_quijote.txt


In [10]:
val quijote_df = spark.read.text(ruta_quijote)

quijote_df: org.apache.spark.sql.DataFrame = [value: string]


In [11]:
quijote_df.show()

+--------------------+
|               value|
+--------------------+
|DON QUIJOTE DE LA...|
|Miguel de Cervant...|
|                    |
|       PRIMERA PARTE|
|CAPI?TULO 1: Que ...|
|En un lugar de la...|
|Tuvo muchas veces...|
|En resolucio?n, e...|
|historia ma?s cie...|
|Deci?a e?l, que e...|
|En efecto, remata...|
|Imagina?base el p...|
|linaje y patria, ...|
|Limpias, pues, su...|
|Capi?tulo 2: Que ...|
|Hechas, pues, est...|
|Estos pensamiento...|
|Con estos iba ens...|
|Autores hay que d...|
|muertos de hambre...|
+--------------------+
only showing top 20 rows



In [12]:
quijote_df.head(6)

res4: Array[org.apache.spark.sql.Row] = Array([DON QUIJOTE DE LA MANCHA], [Miguel de Cervantes Saavedra], [], [PRIMERA PARTE], [CAPI?TULO 1: Que trata de la condicio?n y ejercicio del famoso hidalgo D. Quijote de la Mancha], [En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivi?a un hidalgo de los de lanza en astillero, adarga antigua, roci?n flaco y galgo corredor. Una olla de algo ma?s vaca que carnero, salpico?n las ma?s noches, duelos y quebrantos los sa?bados, lentejas los viernes, algu?n palomino de an?adidura los domingos, consumi?an las tres partes de su hacienda. El resto della conclui?an sayo de velarte, calzas de velludo para las fiestas con sus pantuflos de lo mismo, los di?as de entre semana se honraba con su vellori de lo ma?s fino. Ten...


In [13]:
quijote_df.take(6)

res5: Array[org.apache.spark.sql.Row] = Array([DON QUIJOTE DE LA MANCHA], [Miguel de Cervantes Saavedra], [], [PRIMERA PARTE], [CAPI?TULO 1: Que trata de la condicio?n y ejercicio del famoso hidalgo D. Quijote de la Mancha], [En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivi?a un hidalgo de los de lanza en astillero, adarga antigua, roci?n flaco y galgo corredor. Una olla de algo ma?s vaca que carnero, salpico?n las ma?s noches, duelos y quebrantos los sa?bados, lentejas los viernes, algu?n palomino de an?adidura los domingos, consumi?an las tres partes de su hacienda. El resto della conclui?an sayo de velarte, calzas de velludo para las fiestas con sus pantuflos de lo mismo, los di?as de entre semana se honraba con su vellori de lo ma?s fino. Ten...


In [14]:
quijote_df.first()

res6: org.apache.spark.sql.Row = [DON QUIJOTE DE LA MANCHA]


In [15]:
// quijote_df.show(6, false)

In [16]:
// quijote_df.show(false)

b. Del ejercicio de M&M aplicar:

i. Otras operaciones de agregación como el Max con otro tipo de ordenamiento (descendiente).

In [35]:
val prueba1_mnm_df = mnmDF
.select("State", "Color", "count")
.where(col("State") === "CA" || col("State") === "WY")
.groupBy("State", "Color")
.agg(max("Count"))
.orderBy("Color")

prueba1_mnm_df: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [State: string, Color: string ... 1 more field]


In [36]:
prueba1_mnm_df.show()

+-----+------+----------+
|State| Color|max(Count)|
+-----+------+----------+
|   WY|  Blue|       100|
|   CA|  Blue|       100|
|   CA| Brown|       100|
|   WY| Brown|       100|
|   WY| Green|       100|
|   CA| Green|       100|
|   WY|Orange|       100|
|   CA|Orange|       100|
|   CA|   Red|       100|
|   WY|   Red|       100|
|   WY|Yellow|       100|
|   CA|Yellow|       100|
+-----+------+----------+



In [39]:
val max_mnm_df = (mnmDF
.select("State", "Color", "Count")
.groupBy("State")
.agg(max(col("Count"))))

max_mnm_df: org.apache.spark.sql.DataFrame = [State: string, max(Count): int]


In [40]:
max_mnm_df.show()

+-----+----------+
|State|max(Count)|
+-----+----------+
|   AZ|       100|
|   OR|       100|
|   WY|       100|
|   NV|       100|
|   CA|       100|
|   WA|       100|
|   NM|       100|
|   TX|       100|
|   CO|       100|
|   UT|       100|
+-----+----------+



In [None]:
// Stop the SparkSession
// spark.stop()