# JSON to Spark SQL

Executar comando SQL ANSI em arquivos JSON direto da API usando Python e Spark.

## Configuração
Referência: https://gist.github.com/DenysNunes/e0f17c82d32c8c13b064

### Instalando Oracle Java 8

### Instalando o Apache Spark

#### Baixar e descompactar

#### Renomear a pasta para um nome mais amigável.

#### Mova para um diretório padrão

#### Configuração de Ambiente

#### Conectando com Spark Shell

## Importação dos Módulos

In [1]:
# import dos módulos
from pandas import read_json as pd_ReadJSON

## Fonte dos Dados

In [2]:
# carregando os dados
dfJSON = pd_ReadJSON("https://e3-cluster-dev.sao01.containers.appdomain.cloud/api/product/test?NUMREGIAO=5&CODFILIAL=1")

## Exploração dos Dados

In [3]:
# linhas e colunas
dfJSON.shape

(49, 19)

In [4]:
# tipo de dados das colunas
dfJSON.dtypes

CODCATEGORIA         int64
CODEPTO              int64
CODFAB              object
CODFORNEC            int64
CODMARCA             int64
CODPROD              int64
CODSEC               int64
DESCRICAO           object
EMBALAGEM           object
EMBALAGEMMASTER     object
FORNECEDOR          object
MARCA               object
QTUNIT               int64
QTUNITCX             int64
UNIDADE             object
UNIDADEMASTER       object
_id                 object
price              float64
quantity           float64
dtype: object

In [5]:
# visualizando as primeiras linhas
dfJSON.head()

Unnamed: 0,CODCATEGORIA,CODEPTO,CODFAB,CODFORNEC,CODMARCA,CODPROD,CODSEC,DESCRICAO,EMBALAGEM,EMBALAGEMMASTER,FORNECEDOR,MARCA,QTUNIT,QTUNITCX,UNIDADE,UNIDADEMASTER,_id,price,quantity
0,10035,10002,126820,4898,39,13939,10034,LAMPADA BIODO H4 12V 3 PINOS,UN,,CARDOSO AUTOPEÇAS LTDA,NÃO IDENTIFICADO,1,1,UN,UN,5c094568c708bf06a3294804,21.98,
1,10033,10002,13267,4898,39,13267,10032,PASTILHA FREIO DIANT SORENTO/SANTA FÉ,UN,,CARDOSO AUTOPEÇAS LTDA,NÃO IDENTIFICADO,1,1,UN,UN,5c094568c708bf06a32947ec,128.69,
2,10033,10002,PD367,4898,66,14008,10032,PASTILHA FREI DIANT A13 GOL5/GOLF/FOX F,UN,,CARDOSO AUTOPEÇAS LTDA,FRAS-LE,1,1,UN,UN,5c094568c708bf06a3294818,112.23,
3,10039,10010,13481,4823,39,13481,10028,OLEO CAR 80,UN,,COMLUB COMERCIAL DE LUBRIFICANTES LTDA,NÃO IDENTIFICADO,1,1,UN,UN,5c094568c708bf06a3294800,31.0,
4,10113,1,416008,1766,1,912823,10040,PNEU 215/65R16 DUNLOP SPLM704 98H,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a3294744,354.12,25.0


## Spark

In [6]:
# spark context
print(sc)

<pyspark.context.SparkContext object at 0x000000000589AF98>


In [7]:
# versão do spark
print(sc.version)

2.1.0


In [8]:
# criando uma spark session para trabalhar com dataframes do spark
spSession = SparkSession.builder.master("local").appName("JSONToSparkSQL").config("spark.some.config.option", "some-value").getOrCreate()

In [9]:
# criando um dataframe do spark
sparkDFJSON = spSession.createDataFrame(dfJSON)

In [10]:
# verificando o tipo do dataframe
type(sparkDFJSON)

pyspark.sql.dataframe.DataFrame

In [11]:
# registrando o dataframe do spark como uma temp view
sparkDFJSON.createOrReplaceTempView("tblJSON")

## Queries SQL

In [12]:
# todos os regitros
spSession.sql("select * from tblJSON").toPandas()

Unnamed: 0,CODCATEGORIA,CODEPTO,CODFAB,CODFORNEC,CODMARCA,CODPROD,CODSEC,DESCRICAO,EMBALAGEM,EMBALAGEMMASTER,FORNECEDOR,MARCA,QTUNIT,QTUNITCX,UNIDADE,UNIDADEMASTER,_id,price,quantity
0,10035,10002,126820,4898,39,13939,10034,LAMPADA BIODO H4 12V 3 PINOS,UN,,CARDOSO AUTOPEÇAS LTDA,NÃO IDENTIFICADO,1,1,UN,UN,5c094568c708bf06a3294804,21.98,
1,10033,10002,13267,4898,39,13267,10032,PASTILHA FREIO DIANT SORENTO/SANTA FÉ,UN,,CARDOSO AUTOPEÇAS LTDA,NÃO IDENTIFICADO,1,1,UN,UN,5c094568c708bf06a32947ec,128.69,
2,10033,10002,PD367,4898,66,14008,10032,PASTILHA FREI DIANT A13 GOL5/GOLF/FOX F,UN,,CARDOSO AUTOPEÇAS LTDA,FRAS-LE,1,1,UN,UN,5c094568c708bf06a3294818,112.23,
3,10039,10010,13481,4823,39,13481,10028,OLEO CAR 80,UN,,COMLUB COMERCIAL DE LUBRIFICANTES LTDA,NÃO IDENTIFICADO,1,1,UN,UN,5c094568c708bf06a3294800,31.0,
4,10113,1,416008,1766,1,912823,10040,PNEU 215/65R16 DUNLOP SPLM704 98H,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a3294744,354.12,25.0
5,10118,1,3560730000,6435,26,14366,10040,PNEU 205/50R17 CONTINEN 89V CONTIPREMIUM,UN,,BEST COMERCIO DE PNEUS E PRODUTOS AUTOMOTIVOS,CONTINENTAL,1,1,UN,UN,5c094568c708bf06a329472a,1002.0,
6,10119,1,P9305,2248,27,12901,10041,PNEU 265/65R17 GOODRIDE SU318 112T,UN,,PNEUCOMMERCE IMPORTACAO E DISTRIBUICAO LTDA,GOODRIDE,1,1,UN,UN,5c094568c708bf06a3294738,867.46,
7,10034,10002,1080313979,5025,39,12981,10033,FILTRO COMBUSTÍVEL GOL/FOX/FIT/CIVI,1X1,,SO FILTROS LTDA,NÃO IDENTIFICADO,1,1,UN,UN,5c094568c708bf06a3294795,41.26,
8,10113,1,416067,1766,1,912815,10040,PNEU 185/55R16 DUNLOP SPLM704 83V,1X1,,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a3294762,308.06,2.0
9,10119,1,13117,2248,44,13117,10041,PNEU 245/65R17 LAUFENN LD01,UN,UN,PNEUCOMMERCE IMPORTACAO E DISTRIBUICAO LTDA,LAUFENN,1,1,UN,UN,5c094568c708bf06a329477d,931.56,


In [13]:
# agregando preço por fornecedor com ordenação descendente por preço 
spSession.sql("SELECT fornecedor, SUM(price) as total FROM tblJSON GROUP BY fornecedor ORDER BY total desc").toPandas()

Unnamed: 0,fornecedor,total
0,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,8233.12
1,SUMITOMO RUBBER DO BRASIL LTDA,7111.59
2,PNEUCOMMERCE IMPORTACAO E DISTRIBUICAO LTDA,4321.01
3,PNEUCOMMERCE TBR IMPORTACAO E DISTRIBUICAO,3677.89
4,CARDOSO AUTOPEÇAS LTDA,1046.47
5,BEST COMERCIO DE PNEUS E PRODUTOS AUTOMOTIVOS,1002.0
6,COMLUB COMERCIAL DE LUBRIFICANTES LTDA,441.0
7,CODIBA COMERCIAL DISTRIBUIDORA DE BATERIA LTDA,344.5
8,SO FILTROS LTDA,59.26
9,MARIA DEOLINDA FERNANDES - ME,25.46


In [14]:
# selecionando todos os dados do fornecedor SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ
spSession.sql("SELECT * FROM tblJSON WHERE fornecedor = 'SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ'").toPandas()

Unnamed: 0,CODCATEGORIA,CODEPTO,CODFAB,CODFORNEC,CODMARCA,CODPROD,CODSEC,DESCRICAO,EMBALAGEM,EMBALAGEMMASTER,FORNECEDOR,MARCA,QTUNIT,QTUNITCX,UNIDADE,UNIDADEMASTER,_id,price,quantity
0,10130,2,1402,13209,4,1402,10045,PNEU 1100-22 ALTURA RAMA II R16,UN,UN,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,ALTURA,1,1,UN,UN,5c094568c708bf06a3294672,1442.27,
1,10114,2,3473,13209,4,3473,10045,PNEU 750-16 ALTURA ROADTUF 12PR,UN,UN,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,ALTURA,1,1,UN,UN,5c094568c708bf06a3294697,322.28,
2,10114,2,500016282,13209,9,12923,10045,PNEU 750-16 VIKRANT STAR LUG TRAC,UN,,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,VIKRANT,1,1,UN,UN,5c094568c708bf06a3294686,938.0,
3,10127,2,1401,13209,4,1401,10045,PNEU 1000-20 ALTURA ROAD TUF DIR,UN,UN,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,ALTURA,1,1,UN,UN,5c094568c708bf06a3294671,1751.57,
4,10127,2,1400,13209,4,1400,10045,PNEU 1000-20 ALTURA LUG TUF TRA,UN,UN,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,ALTURA,1,1,UN,UN,5c094568c708bf06a3294670,1748.33,
5,10127,2,12806,13209,7,12806,10045,PNEU 900-20 65S PIRE TT14CT-NAO UTILIZAR,UN,,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,PIRELLI,1,1,UN,UN,5c094568c708bf06a32946b1,975.11,
6,10130,2,500010506,13209,9,12920,10045,PNEU 1100-22 VIKRANT STAR LUG TRAC,UN,,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,VIKRANT,1,1,UN,UN,5c094568c708bf06a329469c,1055.56,


In [15]:
# agregando preço por marca
spSession.sql("SELECT marca, SUM(price) AS total FROM tblJSON GROUP BY marca ORDER BY total desc").toPandas()

Unnamed: 0,marca,total
0,DUNLOP,9331.81
1,ALTURA,5264.45
2,GOODRIDE,2325.13
3,VIKRANT,1993.56
4,LAUFENN,1744.42
5,HANKOOK,1709.13
6,CONTINENTAL,1002.0
7,PIRELLI,975.11
8,NÃO IDENTIFICADO,822.8
9,MOBIL,410.0


In [16]:
# selecionando a quantidade de registros
spSession.sql("SELECT COUNT(*) FROM tblJSON").toPandas()

Unnamed: 0,count(1)
0,49


In [17]:
# selecionando resgistros com o preço acima de 1000
spSession.sql("SELECT * FROM tblJSON WHERE price >= 1000").toPandas()

Unnamed: 0,CODCATEGORIA,CODEPTO,CODFAB,CODFORNEC,CODMARCA,CODPROD,CODSEC,DESCRICAO,EMBALAGEM,EMBALAGEMMASTER,FORNECEDOR,MARCA,QTUNIT,QTUNITCX,UNIDADE,UNIDADEMASTER,_id,price,quantity
0,10118,1,3560730000,6435,26,14366,10040,PNEU 205/50R17 CONTINEN 89V CONTIPREMIUM,UN,,BEST COMERCIO DE PNEUS E PRODUTOS AUTOMOTIVOS,CONTINENTAL,1,1,UN,UN,5c094568c708bf06a329472a,1002.0,
1,10127,2,P9311,22050,27,12907,10045,PNEU 900-20 14PR GOODRIDE CR492,UN,,PNEUCOMMERCE TBR IMPORTACAO E DISTRIBUICAO,GOODRIDE,1,1,UN,UN,5c094568c708bf06a329473e,1457.67,
2,10132,2,132042,1712,1,14216,10043,PNEU 275/80R22.5 DUNLOP SP925 149/146,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a329480d,1540.33,
3,10130,2,1402,13209,4,1402,10045,PNEU 1100-22 ALTURA RAMA II R16,UN,UN,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,ALTURA,1,1,UN,UN,5c094568c708bf06a3294672,1442.27,
4,10132,2,3169,22050,1,3169,10043,PNEU 295/80R22.5 DUNLOP DYNAMO,UN,UN,PNEUCOMMERCE TBR IMPORTACAO E DISTRIBUICAO,DUNLOP,1,1,UN,UN,5c094568c708bf06a3294693,2220.22,
5,10128,2,132019,1712,1,7620,10043,PNEU 900R20 DUNLOP SP811,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a3294663,1109.81,2.0
6,10127,2,1401,13209,4,1401,10045,PNEU 1000-20 ALTURA ROAD TUF DIR,UN,UN,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,ALTURA,1,1,UN,UN,5c094568c708bf06a3294671,1751.57,
7,10127,2,1400,13209,4,1400,10045,PNEU 1000-20 ALTURA LUG TUF TRA,UN,UN,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,ALTURA,1,1,UN,UN,5c094568c708bf06a3294670,1748.33,
8,10130,2,500010506,13209,9,12920,10045,PNEU 1100-22 VIKRANT STAR LUG TRAC,UN,,SHM IMPORTAÇÃO E EXPORTAÇÃO LTDA MATRIZ,VIKRANT,1,1,UN,UN,5c094568c708bf06a329469c,1055.56,
9,10128,2,132001,1712,1,3992,10043,PNEU 1000R20 DUNLOP SP350,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a329469a,1241.97,26.0


In [18]:
# selecionando registros da coluna DESCRICAO que contém DUNLOP
spSession.sql("SELECT * FROM tblJSON WHERE descricao LIKE '%DUNLOP%'").toPandas()

Unnamed: 0,CODCATEGORIA,CODEPTO,CODFAB,CODFORNEC,CODMARCA,CODPROD,CODSEC,DESCRICAO,EMBALAGEM,EMBALAGEMMASTER,FORNECEDOR,MARCA,QTUNIT,QTUNITCX,UNIDADE,UNIDADEMASTER,_id,price,quantity
0,10113,1,416008,1766,1,912823,10040,PNEU 215/65R16 DUNLOP SPLM704 98H,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a3294744,354.12,25.0
1,10113,1,416067,1766,1,912815,10040,PNEU 185/55R16 DUNLOP SPLM704 83V,1X1,,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a3294762,308.06,2.0
2,10132,2,132042,1712,1,14216,10043,PNEU 275/80R22.5 DUNLOP SP925 149/146,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a329480d,1540.33,
3,10121,1,118025,1766,1,12824,10040,PNEU 245/45R18 DUNLOP DZ101 96W,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a329469d,637.73,
4,10106,1,414029,1766,1,912693,10040,PNEU 185/70R14 DUNLOP TOURING 88T,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a32946cd,218.52,643.0
5,10106,1,414027,1766,1,912810,10040,PNEU 185/60R14 DUNLOP SPLM704 SPORT 82,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a32946a3,223.4,54.0
6,10132,2,3169,22050,1,3169,10043,PNEU 295/80R22.5 DUNLOP DYNAMO,UN,UN,PNEUCOMMERCE TBR IMPORTACAO E DISTRIBUICAO,DUNLOP,1,1,UN,UN,5c094568c708bf06a3294693,2220.22,
7,10128,2,132019,1712,1,7620,10043,PNEU 900R20 DUNLOP SP811,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a3294663,1109.81,2.0
8,10113,1,116028,1766,1,12836,10040,PNEU 225/55R16 DUNLOP SPLM704 95V,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a32946a1,279.18,
9,10108,1,415016,1766,1,12822,10040,PNEU 195/55R15 DUNLOP SPLM704 85V,UN,UN,SUMITOMO RUBBER DO BRASIL LTDA,DUNLOP,1,1,UN,UN,5c094568c708bf06a32946ab,427.44,
