### Spark SQL

Pacotes adicionais do Spark: https://spark-packages.org

In [2]:
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark.sql import Row

print('Verificando o contexto em que se encontra a conexão:', '\n')
print(sc) #sc = spark context
print('\n', 'Versão do SPARK em execução:', sc.version)

Verificando o contexto em que se encontra a conexão: 

<SparkContext master=local[*] appName=PySparkShell>

 Versão do SPARK em execução: 2.2.0


### SparkContext -> conexão Python-Spark (pelo Jupyter é criado automáticamente com a chamado do PySpark)

Em aplicações profissionais (deploy de solução em PRODUÇÃO), é necessário CONSTRUIR o CONTEXTO (explicitamente).

### SparkSession ->>> trabalhar com DataFrames no SparkSQL, necessário CONSTRUIR uma SESSÃO (explicitamente)...

In [3]:
spSession = SparkSession.builder.master("local").appName("POC-SparkSQL")\
          .config("spark.some.config.option", "some-value").getOrCreate()

### SQLContext ->>> trabalhar com LINGUAGEM SQL no SparkSQL, necessário CONSTRUIR o CONTEXTO (explicitamente)...

In [5]:
sqlSession = SQLContext(sc)

##### importando arquivo e criando a RDD...

In [16]:
file ="/home/daniellj/Projetos/Github/DistributedComputing/ApacheSpark/datasets/cars.csv"
carRDD = sc.textFile(file)

print('Tipo do objeto criado <carRDD>:', type(carRDD))
print('Quantidade de elementos do objeto RDD criado <carRDD>', carRDD.count(), '\n')
print('Exibindo as 5 primeiras linhas do RDD criado <carRDD>...', '\n',carRDD.take(5),'\n')

Tipo do objeto criado <carRDD>: <class 'pyspark.rdd.RDD'>
Quantidade de elementos do objeto RDD criado <carRDD> 198 

Exibindo as 5 primeiras linhas do RDD criado <carRDD>... 
 ['MAKE,FUELTYPE,ASPIRE,DOORS,BODY,DRIVE,CYLINDERS,HP,RPM,MPG-CITY,MPG-HWY,PRICE', 'subaru,gas,std,two,hatchback,fwd,four,69,4900,31,36,5118', 'chevrolet,gas,std,two,hatchback,fwd,three,48,5100,47,53,5151', 'mazda,gas,std,two,hatchback,fwd,four,68,5000,30,31,5195', 'toyota,gas,std,two,hatchback,fwd,four,62,4800,35,39,5348'] 



### RDD é um repositório de dados genéricos. É possível colocar qualquer coisa dentro de uma RDD.

In [41]:
rowRDD2 = carRDD.filter(lambda x : 'PRICE' not in x)
print('Quantidade de elementos onde não há linhas com a expressão "PRICE":', rowRDD2.count(), '\n')

print('Ajustando os dados com quebras a partir das vírgulas...exibindo as primeiras linhas após o ajustes...')
rowRDD3 = rowRDD2.map(lambda x: x.split(','))
rowRDD3.take(2)

Quantidade de elementos onde não há linhas com a expressão "PRICE": 197 

Ajustando os dados com quebras a partir das vírgulas...exibindo as primeiras linhas após o ajustes...


[['subaru',
  'gas',
  'std',
  'two',
  'hatchback',
  'fwd',
  'four',
  '69',
  '4900',
  '31',
  '36',
  '5118'],
 ['chevrolet',
  'gas',
  'std',
  'two',
  'hatchback',
  'fwd',
  'three',
  '48',
  '5100',
  '47',
  '53',
  '5151']]

In [36]:
?Row

In [None]:
Row can be used to create a row object by using named arguments,
the fields will be sorted by names. It is not allowed to omit
a named argument to represent the value is None or missing. This should be
explicitly set to None in this case.

>>> row = Row(name="Alice", age=11)
>>> row
Row(age=11, name='Alice')

### Função Row implementada à seguir: divide o RDD e transforma cada linha em um objeto INDEPENDENTE.

In [42]:
rowRDD4 = rowRDD3.map(lambda x: Row(make = x[0], body = x[4], hp = x[7]))

In [45]:
print('Exibindo as 20 primeiras linhas independentes criadas <rowRDD4>...')
print('Observe que a ordenação dos parâmetros se dá por ordem alfabética.')
print('A ordenação dos registros segue o estado original...', '\n')
rowRDD4.take(20)

Exibindo as 20 primeiras linhas independentes criadas <rowRDD4>...
Observe que a ordenação dos parâmetros se dá por ordem alfabética.
A ordenação dos registros segue o estado original... 



[Row(body='hatchback', hp='69', make='subaru'),
 Row(body='hatchback', hp='48', make='chevrolet'),
 Row(body='hatchback', hp='68', make='mazda'),
 Row(body='hatchback', hp='62', make='toyota'),
 Row(body='hatchback', hp='68', make='mitsubishi'),
 Row(body='hatchback', hp='60', make='honda'),
 Row(body='sedan', hp='69', make='nissan'),
 Row(body='hatchback', hp='68', make='dodge'),
 Row(body='hatchback', hp='68', make='plymouth'),
 Row(body='hatchback', hp='68', make='mazda'),
 Row(body='hatchback', hp='68', make='mitsubishi'),
 Row(body='hatchback', hp='68', make='dodge'),
 Row(body='hatchback', hp='68', make='plymouth'),
 Row(body='hatchback', hp='70', make='chevrolet'),
 Row(body='hatchback', hp='62', make='toyota'),
 Row(body='hatchback', hp='68', make='dodge'),
 Row(body='hatchback', hp='58', make='honda'),
 Row(body='hatchback', hp='62', make='toyota'),
 Row(body='hatchback', hp='76', make='honda'),
 Row(body='sedan', hp='70', make='chevrolet')]