 #  RDD API Examples

## Word Count
In this example, we use a few transformations to build a dataset of (String, Int) pairs called counts and then save it to a file.
```
sc.textFile(name, minPartitions=None, use_unicode=True)
Read a text file from HDFS, a local file system (available on all nodes), or any Hadoop-supported file system URI, and return it as an RDD of Strings.
```

In [1]:
val textFile = sc.textFile("../../datasets/quijote.txt")
val counts = textFile.flatMap(line => line.split(" "))
                 .map(word => (word, 1))
                 .reduceByKey(_ + _)
counts.sortBy(_._2, ascending=false).take(50)



textFile = ../../datasets/quijote.txt MapPartitionsRDD[1] at textFile at <console>:27
counts = ShuffledRDD[4] at reduceByKey at <console>:30


Array((que,19429), (de,17985), (y,15894), (la,10200), (a,9519), ("",9195), (el,7957), (en,7898), (no,5603), (se,4690), (los,4680), (con,4047), (por,3758), (las,3423), (lo,3387), (le,3382), (su,3319), (don,2533), (del,2464), (me,2344), (como,2226), (es,1990), (un,1927), (más,1823), (si,1779), (yo,1703), (al,1696), (mi,1684), (para,1419), (ni,1350), (una,1300), (y,,1250), (tan,1217), (porque,1189), (o,1159), (sin,1139), (que,,1069), (sus,1047), (ha,1038), (él,1034), (había,1006), (ser,997), (todo,963), (Sancho,950), (Quijote,893), (-dijo,873), (bie...

 ## Pi Estimation

Spark can also be used for compute-intensive tasks. This code estimates π by "throwing darts" at a circle. We pick random points in the unit square ((0, 0) to (1,1)) and see how many fall in the unit circle. The fraction should be π / 4, so we use this to get our estimate.

In [6]:
val NUM_SAMPLES = 1000000 
val count = sc.parallelize(1 to NUM_SAMPLES).filter { _ =>
  val x = math.random
  val y = math.random
  x*x + y*y < 1
}.count()
println(s"Pi is roughly ${4.0 * count / NUM_SAMPLES}")

Pi is roughly 3.139976


null

# DataFrame API Examples

In this example, we count all quijote lines mentioning Dulcinea.

In [3]:
import org.apache.spark.sql.functions.col

val textFile = sc.textFile("../../datasets/quijote.txt")

// Creates a DataFrame having a single column named "line"
val df = textFile.toDF("line")
val dulcinea_lines = df.filter(col("line").like("%Dulcinea%"))
// Counts all the Dulcinea lines
dulcinea_lines.count()
// Counts lines mentioning Dulcinea and Quijote
val dulcinea_quijote_lines = dulcinea_lines.filter(col("line").like("%Quijote%"))
dulcinea_quijote_lines.count()
// Fetches the lines as an array of strings
dulcinea_quijote_lines.collect()

textFile = ../../datasets/quijote.txt MapPartitionsRDD[25] at textFile at <console>:35
df = [line: string]
dulcinea_lines = [line: string]
dulcinea_quijote_lines = [line: string]


Array([aquella noche no durmió don Quijote, pensando en su señora Dulcinea, por], [Quijote pedía, y sin preguntar quién Dulcinea fuese, le prometió que el], [Carta de don Quijote a Dulcinea del Toboso], [don Quijote que si, en nombrando a Dulcinea, no decía también del Toboso,], [Don Quijote, que tales blasfemias oyó decir contra su señora Dulcinea, no], ...

In [15]:
%%dataframe
dulcinea_quijote_lines

line
"aquella noche no durmió don Quijote, pensando en su señora Dulcinea, por"
"Quijote pedía, y sin preguntar quién Dulcinea fuese, le prometió que el"
Carta de don Quijote a Dulcinea del Toboso
"don Quijote que si, en nombrando a Dulcinea, no decía también del Toboso,"
"Don Quijote, que tales blasfemias oyó decir contra su señora Dulcinea, no"
"-Si no fue la que llevaste a la señora Dulcinea -replicó don Quijote-, yo"
"a don Quijote que qué nuevas tenía de la señora Dulcinea, y que si le había"
-A eso puedo decir -respondió don Quijote- que Dulcinea es hija de sus
"Dulcinea del Toboso, ni le llevó la carta del señor don Quijote, porque se"
"encantada Dulcinea; en don Quijote, por no poder asegurarse si era verdad o"
