Initial Commit

LearningJournal · LearningJournal · commit 0a0830b6793d · 2020-07-26T19:19:08.000+05:30
diff --git a/01-HelloSpark-Maven/data/sample.csv b/01-HelloSpark-Maven/data/sample.csv
@@ -0,0 +1,10 @@
+"Timestamp","Age","Gender","Country","state","self_employed","family_history","treatment","work_interfere","no_employees","remote_work","tech_company","benefits","care_options","wellness_program","seek_help","anonymity","leave","mental_health_consequence","phys_health_consequence","coworkers","supervisor","mental_health_interview","phys_health_interview","mental_vs_physical","obs_consequence","comments"
+2014-08-27 11:29:31,37,"Female","United States","IL",NA,"No","Yes","Often","6-25","No","Yes","Yes","Not sure","No","Yes","Yes","Somewhat easy","No","No","Some of them","Yes","No","Maybe","Yes","No",NA
+2014-08-27 11:29:37,44,"M","United States","IN",NA,"No","No","Rarely","More than 1000","No","No","Don't know","No","Don't know","Don't know","Don't know","Don't know","Maybe","No","No","No","No","No","Don't know","No",NA
+2014-08-27 11:29:44,32,"Male","Canada",NA,NA,"No","No","Rarely","6-25","No","Yes","No","No","No","No","Don't know","Somewhat difficult","No","No","Yes","Yes","Yes","Yes","No","No",NA
+2014-08-27 11:29:46,31,"Male","United Kingdom",NA,NA,"Yes","Yes","Often","26-100","No","Yes","No","Yes","No","No","No","Somewhat difficult","Yes","Yes","Some of them","No","Maybe","Maybe","No","Yes",NA
+2014-08-27 11:30:22,31,"Male","United States","TX",NA,"No","No","Never","100-500","Yes","Yes","Yes","No","Don't know","Don't know","Don't know","Don't know","No","No","Some of them","Yes","Yes","Yes","Don't know","No",NA
+2014-08-27 11:31:22,33,"Male","United States","TN",NA,"Yes","No","Sometimes","6-25","No","Yes","Yes","Not sure","No","Don't know","Don't know","Don't know","No","No","Yes","Yes","No","Maybe","Don't know","No",NA
+2014-08-27 11:31:50,35,"Female","United States","MI",NA,"Yes","Yes","Sometimes","1-5","Yes","Yes","No","No","No","No","No","Somewhat difficult","Maybe","Maybe","Some of them","No","No","No","Don't know","No",NA
+2014-08-27 11:32:05,39,"M","Canada",NA,NA,"No","No","Never","1-5","Yes","Yes","No","Yes","No","No","Yes","Don't know","No","No","No","No","No","No","No","No",NA
+2014-08-27 11:32:39,42,"Female","United States","IL",NA,"Yes","Yes","Sometimes","100-500","No","Yes","Yes","Yes","No","No","No","Very difficult","Maybe","No","Yes","Yes","No","Maybe","No","No",NA
diff --git a/01-HelloSpark-Maven/log4j.properties b/01-HelloSpark-Maven/log4j.properties
@@ -0,0 +1,39 @@
+# Set everything to be logged to the console
+log4j.rootCategory=WARN, console
+
+# define console appender
+log4j.appender.console=org.apache.log4j.ConsoleAppender
+log4j.appender.console.target=System.out
+log4j.appender.console.layout=org.apache.log4j.PatternLayout
+log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
+
+#application log
+log4j.logger.guru.learningjournal.spark.examples=INFO, console, file
+log4j.additivity.guru.learningjournal.spark.examples=false
+
+#define rolling file appender
+log4j.appender.file=org.apache.log4j.RollingFileAppender
+log4j.appender.file.File=${spark.yarn.app.container.log.dir}/${logfile.name}.log
+#define following in Java System
+# -Dlog4j.configuration=file:log4j.properties
+# -Dlogfile.name=hello-spark
+# -Dspark.yarn.app.container.log.dir=app-logs
+log4j.appender.file.ImmediateFlush=true
+log4j.appender.file.Append=false
+log4j.appender.file.MaxFileSize=500MB
+log4j.appender.file.MaxBackupIndex=2
+log4j.appender.file.layout=org.apache.log4j.PatternLayout
+log4j.appender.file.layout.conversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
+
+
+# Recommendations from Spark template
+log4j.logger.org.apache.spark.repl.Main=WARN
+log4j.logger.org.spark_project.jetty=WARN
+log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
+log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
+log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
+log4j.logger.org.apache.parquet=ERROR
+log4j.logger.parquet=ERROR
+log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
+log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR
+
diff --git a/01-HelloSpark-Maven/pom.xml b/01-HelloSpark-Maven/pom.xml
@@ -0,0 +1,48 @@
+<project xmlns="http://maven.apache.org/POM/4.0.0"
+         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
+    <modelVersion>4.0.0</modelVersion>
+
+    <groupId>guru.learningjournal.spark.examples</groupId>
+    <artifactId>HelloSpark</artifactId>
+    <version>1.0</version>
+
+    <properties>
+        <scala.version>2.12.10</scala.version>
+        <scala.binary.version>2.12</scala.binary.version>
+        <spark.version>3.0.0</spark.version>
+    </properties>
+
+    <dependencies>
+        <dependency>
+            <groupId>org.scala-lang</groupId>
+            <artifactId>scala-library</artifactId>
+            <version>${scala.version}</version>
+        </dependency>
+
+        <dependency>
+            <groupId>org.apache.spark</groupId>
+            <artifactId>spark-core_${scala.binary.version}</artifactId>
+            <version>${spark.version}</version>
+        </dependency>
+
+        <dependency>
+            <groupId>org.apache.spark</groupId>
+            <artifactId>spark-sql_${scala.binary.version}</artifactId>
+            <version>${spark.version}</version>
+        </dependency>
+
+        <dependency>
+            <groupId>org.scalatest</groupId>
+            <artifactId>scalatest_${scala.binary.version}</artifactId>
+            <version>3.0.8</version>
+            <scope>test</scope>
+        </dependency>
+    </dependencies>
+
+    <build>
+        <sourceDirectory>src/main/scala</sourceDirectory>
+        <testSourceDirectory>src/test/scala</testSourceDirectory>
+    </build>
+
+</project>
diff --git a/01-HelloSpark-Maven/spark.conf b/01-HelloSpark-Maven/spark.conf
@@ -0,0 +1,3 @@
+spark.app.name = Hello Spark
+spark.master = local[3]
+spark.sql.shuffle.partitions = 2
diff --git a/01-HelloSpark-Maven/src/main/scala/guru/learningjournal/spark/examples/HelloSpark.scala b/01-HelloSpark-Maven/src/main/scala/guru/learningjournal/spark/examples/HelloSpark.scala
@@ -0,0 +1,68 @@
+package guru.learningjournal.spark.examples
+
+import java.util.Properties
+
+import scala.language.implicitConversions
+import org.apache.log4j.Logger
+import org.apache.spark.SparkConf
+import org.apache.spark.sql.{DataFrame, SparkSession}
+
+import scala.io.Source
+
+object HelloSpark extends Serializable {
+  @transient lazy val logger: Logger = Logger.getLogger(getClass.getName)
+
+  def main(args: Array[String]): Unit = {
+
+    if (args.length == 0) {
+      logger.error("Usage: HelloSpark filename")
+      System.exit(1)
+    }
+
+    logger.info("Starting Hello Spark")
+    val spark = SparkSession.builder()
+      .config(getSparkAppConf)
+      .getOrCreate()
+    //logger.info("spark.conf=" + spark.conf.getAll.toString())
+
+    val surveyRawDF = loadSurveyDF(spark, args(0))
+    val partitionedSurveyDF = surveyRawDF.repartition(2)
+    val countDF = countByCountry(partitionedSurveyDF)
+    countDF.foreach(row => {
+      logger.info("Country: " + row.getString(0) + " Count: " + row.getLong(1))
+    })
+
+    logger.info(countDF.collect().mkString("->"))
+
+    logger.info("Finished Hello Spark")
+    //scala.io.StdIn.readLine()
+    spark.stop()
+  }
+
+  def countByCountry(surveyDF: DataFrame): DataFrame = {
+    surveyDF.where("Age < 40")
+      .select("Age", "Gender", "Country", "state")
+      .groupBy("Country")
+      .count()
+  }
+
+  def loadSurveyDF(spark: SparkSession, dataFile: String): DataFrame = {
+    spark.read
+      .option("header", "true")
+      .option("inferSchema", "true")
+      .csv(dataFile)
+  }
+
+  def getSparkAppConf: SparkConf = {
+    val sparkAppConf = new SparkConf
+    //Set all Spark Configs
+    val props = new Properties
+    props.load(Source.fromFile("spark.conf").bufferedReader())
+    props.forEach((k, v) => sparkAppConf.set(k.toString, v.toString))
+    //This is a fix for Scala 2.11
+    //import scala.collection.JavaConverters._
+    //props.asScala.foreach(kv => sparkAppConf.set(kv._1, kv._2))
+    sparkAppConf
+  }
+
+}
diff --git a/01-HelloSpark-Maven/src/test/scala/guru/learningjournal/spark/examples/HelloSparkTest.scala b/01-HelloSpark-Maven/src/test/scala/guru/learningjournal/spark/examples/HelloSparkTest.scala
@@ -0,0 +1,41 @@
+package guru.learningjournal.spark.examples
+
+import org.apache.spark.sql.SparkSession
+import org.scalatest.{BeforeAndAfterAll, FunSuite}
+import guru.learningjournal.spark.examples.HelloSpark.{countByCountry, loadSurveyDF}
+
+import scala.collection.mutable
+
+class HelloSparkTest extends FunSuite with BeforeAndAfterAll {
+
+  @transient var spark: SparkSession = _
+
+  override def beforeAll(): Unit = {
+    spark = SparkSession.builder()
+      .appName("HelloSparkTest")
+      .master("local[3]")
+      .getOrCreate()
+  }
+
+  override def afterAll(): Unit = {
+    spark.stop()
+  }
+
+  test("Data File Loading") {
+    val sampleDF = loadSurveyDF(spark,"data/sample.csv")
+    val rCount = sampleDF.count()
+    assert(rCount==9, " record count should be 9")
+  }
+
+  test("Count by Country"){
+    val sampleDF = loadSurveyDF(spark,"data/sample.csv" )
+    val countDF = countByCountry(sampleDF)
+    val countryMap = new mutable.HashMap[String, Long]
+    countDF.collect().foreach(r => countryMap.put(r.getString(0), r.getLong(1)))
+
+    assert(countryMap("United States") == 4, ":- Count for Unites States should be 6")
+    assert(countryMap("Canada") == 2, ":- Count for Canada should be 2")
+    assert(countryMap("United Kingdom") == 1, ":- Count for Unites Kingdom should be 1")
+  }
+
+}

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+spark.app.name = Hello Spark`
	`2`	`+spark.master = local[3]`
	`3`	`+spark.sql.shuffle.partitions = 2`