In [10]:
"""

SPARK SQL 

A partir de um arquivo CSV, vamos carregá-lo num Data Frame Spark SQL 

Nota : Spark SQL não permite que você carregue diretamente o CSV para um Data Frame. 
Vc precisa primeiro criar um RDD a partir do CSV e depois carregá-lo num Data Frame.

"""

#Inicialize o SparkSession e o SparkContext
from pyspark.sql import SparkSession
from pyspark import SparkContext

#Crie o Spark Session
SpSession = SparkSession \
    .builder \
    .master("local[2]") \
    .appName("Dataframe a partir de um RDD & SQL") \
    .config("spark.executor.memory", "1g") \
    .config("spark.cores.max","2") \
    .config("spark.sql.warehouse.dir", "file:///c:/temp/spark-warehouse")\
    .getOrCreate()

#Obtenha o Spark Context do Spark Session    
SpContext = SpSession.sparkContext
 
irisRDD = SpContext.textFile("iris.csv")

#Remova o cabeçalho do arquivo CSV
irisData = irisRDD.filter(lambda x: "Sepal" not in x)
irisData.count()

#Quebre as colunas
cols = irisData.map(lambda l : l.split(","))

#Crie as linhas
from pyspark.sql import Row
irisMap = cols.map( lambda p: Row ( SepalLengh = p[0], \
                                   SepalWidth = p[1], \
                                   PetalLength = p[2], \
                                   PetalWidth = p[3], \
                                   Species = p[4] ))
irisMap.collect()

#Crie o data frame a partir do objeto Row
irisDF = SpSession.createDataFrame(irisMap)
irisDF.select("*").show()

"""
-----------------------------------------------------------------------------
No data frame irisDF, filtre por linhas as pétas que são maiores que 0.4 e conte-as.
Dica: Verifique a documentação do Spark para saber como contar linhas :-)
https://spark.apache.org/docs/latest/api/python/pyspark.sql.html
-----------------------------------------------------------------------------
"""
irisDF.filter( irisDF["PetalWidth"] > 0.4).count()    
    
"""
-----------------------------------------------------------------------------
#Spark SQL Tabelas Temporárias
***********************

Regitre uma tabela temporária chamada "iris" usando o data frame irisDF.
Então encontre a média do tamanho das pétalas por espécie.

-----------------------------------------------------------------------------
"""
irisDF.registerTempTable("iris")
sqlContext.sql("select Species,avg(PetalWidth) from iris group by Species")\
.show()

"""
-----------------------------------------------------------------------------
Espero que vocês tenham gostado !! Recomendo testar seus próprios use cases ;-)
-----------------------------------------------------------------------------
"""


+----------+----------+-----------+----------+-------+
|SepalLengh|SepalWidth|PetalLength|PetalWidth|Species|
+----------+----------+-----------+----------+-------+
|       5.1|       3.5|        1.4|       0.2| setosa|
|       4.9|         3|        1.4|       0.2| setosa|
|       4.7|       3.2|        1.3|       0.2| setosa|
|       4.6|       3.1|        1.5|       0.2| setosa|
|         5|       3.6|        1.4|       0.2| setosa|
|       5.4|       3.9|        1.7|       0.4| setosa|
|       4.6|       3.4|        1.4|       0.3| setosa|
|         5|       3.4|        1.5|       0.2| setosa|
|       4.4|       2.9|        1.4|       0.2| setosa|
|       4.9|       3.1|        1.5|       0.1| setosa|
|       5.4|       3.7|        1.5|       0.2| setosa|
|       4.8|       3.4|        1.6|       0.2| setosa|
|       4.8|         3|        1.4|       0.1| setosa|
|       4.3|         3|        1.1|       0.1| setosa|
|       5.8|         4|        1.2|       0.2| setosa|
|       5.

'\n-----------------------------------------------------------------------------\nHope you had some good practice !! Recommend trying out your own use cases\n-----------------------------------------------------------------------------\n'