## Instanciamento do Spark

In [1]:
# Apontamento dos caminhos da instalação do Spark
import os
import sys

spark_path = "/Users/flavio.clesio/Documents/spark-2.1.0" 

os.environ['SPARK_HOME'] = spark_path
os.environ['HADOOP_HOME'] = spark_path

sys.path.append(spark_path + "/bin")
sys.path.append(spark_path + "/python")
sys.path.append(spark_path + "/python/pyspark/")
sys.path.append(spark_path + "/python/lib")
sys.path.append(spark_path + "/python/lib/pyspark.zip")
sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip") # Deve ser o mesmo arquivo da versão do Spark

In [2]:
# Libs para o instanciamento do contexto do Spark e do Spark SQL
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import SparkSession

In [3]:
# Setup do contexto do Spark
spark = SparkSession \
    .builder \
    .appName("Aula de SQL Spark no Python!") \
    .getOrCreate()

In [4]:
# Configuração do diretório padrão no qual os arquivos estão no disco
ROOT_DIR = "/Users/flavio.clesio/Desktop/"

## Trabalhando com arquivos .txt

In [6]:
# Classe para trabalhar com linhas em um dataframe
from pyspark.sql import Row

In [7]:
# Vamos chamar o contexto do Spark como `sc`
sc = spark.sparkContext

In [8]:
# Agora vamos fazer a carga do arquivo people.txt que está no caminho especificado acima
lines = sc.textFile(ROOT_DIR + "people.txt")

In [10]:
lines.take(5)

[u'Michael, 29', u'Andy, 30', u'Justin, 19']

In [11]:
# No objeto parts vamos gravar via o uso da transformation 'map' todas as palavras do arquivo lines,
# separando por vírgula.
parts = lines.map(lambda l: l.split(","))

In [12]:
parts.collect()

[[u'Michael', u' 29'], [u'Andy', u' 30'], [u'Justin', u' 19']]

In [15]:
# Já no objeto people, vamos realizar um map no RDD parts que foi armazenado acima, e para cada linha vamos realizar
# o apontamento via [chave, valor] chamando a posição 1 de nome e a segunda posição de idade. 
people = parts.map(lambda p: Row(name=p[0], age=int(p[1])))

In [16]:
people.collect()

[Row(age=29, name=u'Michael'),
 Row(age=30, name=u'Andy'),
 Row(age=19, name=u'Justin')]

In [17]:
# Vamos criar um schema chamado 'schemaPeople' em que vamos criar um dataframe com o RDD que foi carregado do txt
# transformado, e armazenado no RDD people
schemaPeople = spark.createDataFrame(people)

In [18]:
schemaPeople.collect()

[Row(age=29, name=u'Michael'),
 Row(age=30, name=u'Andy'),
 Row(age=19, name=u'Justin')]

In [19]:
# Com esse schema instanciado, vamos criar uma vire chamada people
schemaPeople.createOrReplaceTempView("people")