In [1]:
# API reference 
# https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/dataframe.html


In [2]:
import argparse
from typing import Dict, Tuple, Any
import json
from pyspark.sql import SparkSession, HiveContext, DataFrame
from pyspark.sql.functions import *
import importlib
import pandas as pd

In [3]:
spark.sql("show databases").show()

+------------+
|databaseName|
+------------+
|   aula_hive|
|     default|
| dimensional|
+------------+



In [4]:
spark.sql("use aula_hive")

DataFrame[]

In [5]:
tables = spark.sql("show tables")

In [6]:
tables.show()

+---------+---------------+-----------+
| database|      tableName|isTemporary|
+---------+---------------+-----------+
|aula_hive|      categoria|      false|
|aula_hive|         cidade|      false|
|aula_hive|        cliente|      false|
|aula_hive|dim_localizacao|      false|
|aula_hive|      dim_tempo|      false|
|aula_hive|         estado|      false|
|aula_hive|         filial|      false|
|aula_hive|    item_pedido|      false|
|aula_hive|       parceiro|      false|
|aula_hive|         pedido|      false|
|aula_hive|        produto|      false|
|aula_hive|   subcategoria|      false|
|aula_hive|  tbl_categoria|      false|
|aula_hive|     tbl_cidade|      false|
|aula_hive|    tbl_cliente|      false|
|aula_hive|     tbl_estado|      false|
|aula_hive|     tbl_filial|      false|
|aula_hive|tbl_item_pedido|      false|
|aula_hive|   tbl_parceiro|      false|
|aula_hive|     tbl_pedido|      false|
+---------+---------------+-----------+
only showing top 20 rows



In [7]:
query = """SELECT c.nm_cliente, sum(p.vr_total_pago) as compras 
    from pedido p
    join cliente c on c.id_cliente = p.id_cliente
    group by c.nm_cliente
    order by compras desc"""

In [8]:
pedidos = spark.sql(query)

In [9]:
pedidos.show()

+--------------------+------------------+
|          nm_cliente|           compras|
+--------------------+------------------+
|Cliente Magalu - ...|         260269.24|
|Cliente Magalu - ...|123784.04999999999|
|Cliente Magalu - ...|113467.04000000001|
|Cliente Magalu - ...|         109644.75|
|Cliente Magalu - ...|         107552.77|
|Cliente Magalu - ...|103986.99999999999|
|Cliente Magalu - ...|          84827.99|
|Cliente Magalu - ...| 84671.79999999999|
|Cliente Magalu - ...|           81783.0|
|Cliente Magalu - ...|           80409.2|
|Cliente Magalu - ...|          66494.87|
|Cliente Magalu - ...|          60884.07|
|Cliente Magalu - ...| 55236.64999999999|
|Cliente Magalu - ...|52127.399999999994|
|Cliente Magalu - ...| 52124.78999999999|
|Cliente Magalu - ...|          48619.74|
|Cliente Magalu - ...|          47625.24|
|Cliente Magalu - ...|          45088.93|
|Cliente Magalu - ...|          44087.68|
|Cliente Magalu - ...|          42678.42|
+--------------------+------------

In [10]:
pedidos.dtypes

[('nm_cliente', 'string'), ('compras', 'double')]

In [11]:
categorias = spark.sql("select * from categoria")

In [12]:
categorias.show()

+------------+---------------+-------------+
|id_categoria|   ds_categoria|perc_parceiro|
+------------+---------------+-------------+
|id_categoria|   ds_categoria|perc_parceiro|
|           1|Categoria - 001|          2.0|
|           2|Categoria - 002|          2.0|
|           3|Categoria - 003|          2.0|
|           4|Categoria - 004|          2.0|
|           5|Categoria - 005|          5.0|
|           6|Categoria - 006|          1.0|
|           7|Categoria - 007|          5.0|
|           8|Categoria - 008|          3.0|
|           9|Categoria - 009|          5.0|
|          10|Categoria - 010|          6.0|
|          11|Categoria - 011|          6.0|
|          12|Categoria - 012|          4.0|
|          13|Categoria - 013|          3.0|
|          14|Categoria - 014|          1.0|
|          15|Categoria - 015|          4.0|
|          16|Categoria - 016|          3.0|
|          17|Categoria - 017|          5.0|
|          18|Categoria - 018|          1.0|
|         

In [13]:
categorias = categorias.filter(categorias.id_categoria != 'id_categoria').drop()

In [14]:
categorias.show()

+------------+---------------+-------------+
|id_categoria|   ds_categoria|perc_parceiro|
+------------+---------------+-------------+
|           1|Categoria - 001|          2.0|
|           2|Categoria - 002|          2.0|
|           3|Categoria - 003|          2.0|
|           4|Categoria - 004|          2.0|
|           5|Categoria - 005|          5.0|
|           6|Categoria - 006|          1.0|
|           7|Categoria - 007|          5.0|
|           8|Categoria - 008|          3.0|
|           9|Categoria - 009|          5.0|
|          10|Categoria - 010|          6.0|
|          11|Categoria - 011|          6.0|
|          12|Categoria - 012|          4.0|
|          13|Categoria - 013|          3.0|
|          14|Categoria - 014|          1.0|
|          15|Categoria - 015|          4.0|
|          16|Categoria - 016|          3.0|
|          17|Categoria - 017|          5.0|
|          18|Categoria - 018|          1.0|
|          19|Categoria - 019|          2.0|
|         

In [15]:
categorias.count()

43

In [16]:
pedidos.show(5)

+--------------------+------------------+
|          nm_cliente|           compras|
+--------------------+------------------+
|Cliente Magalu - ...|         260269.24|
|Cliente Magalu - ...|123784.04999999999|
|Cliente Magalu - ...|113467.04000000001|
|Cliente Magalu - ...|         109644.75|
|Cliente Magalu - ...|         107552.77|
+--------------------+------------------+
only showing top 5 rows



In [None]:
pedidos.printSchema()

## Carga todos os dataframes

In [36]:
df_categoria = spark.sql("select * from aula_hive.categoria")
df_cidade = spark.sql("select * from aula_hive.cidade")
df_cliente = spark.sql("select * from aula_hive.cliente")
df_estado = spark.sql("select * from aula_hive.estado")
df_filial = spark.sql("select * from aula_hive.filial")
df_item_pedido = spark.sql("select * from aula_hive.item_pedido")
df_parceiro = spark.sql("select * from aula_hive.parceiro")
df_pedido = spark.sql("select * from aula_hive.pedido")
df_produto = spark.sql("select * from aula_hive.produto")
df_subcategoria = spark.sql("select * from aula_hive.subcategoria")

## Tratamento do DF Cidade

In [41]:
type(df_cidade)

pyspark.sql.dataframe.DataFrame

In [56]:
# df_cidade = df_cidade.toPandas()
df_cidade = df_cidade.iloc[1:,:]

In [57]:
df_cidade.head()

Unnamed: 0,id_cidade,ds_cidade,id_estado
1,1058,Betim,1
2,33,ACRELANDIA,2
3,485,ASSIS BRASIL,2
4,958,BRASILEIA,2
5,1388,CAPIXABA,2


In [62]:
df_cidade['ds_cidade'] = pd.Series(df_cidade['ds_cidade'].apply(lambda name: name.title()))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if __name__ == '__main__':


In [65]:
# Save to parquet
df_cidade.to_parquet('cidades.parquet')

## Tratamento do DF cliente

In [67]:
df_cliente = df_cliente.toPandas()

In [70]:
df_cliente = df_cliente.iloc[1:,:]

In [76]:
df_cliente['flag_ouro'] = df_cliente['flag_ouro'].astype('int')

In [78]:
df_cliente.to_parquet('clientes.parquet')

## Tratamento do DF de pedidos e itens do pedido

In [80]:
df_pedido.show(10)

+-----------+--------------------+-----------+----------+---------+-------------+
|  id_pedido|           dt_pedido|id_parceiro|id_cliente|id_filial|vr_total_pago|
+-----------+--------------------+-----------+----------+---------+-------------+
|  id_pedido|           dt_pedido|id_parceiro|id_cliente|id_filial|vr_total_pago|
|47585891513|2021-06-23T00:00:...|         13|  33752975|      166|       318.48|
|49524083516|2021-08-03T00:00:...|         16|  43670652|      166|       249.59|
|49130099513|2021-07-26T00:00:...|         13|  47130570|      166|        64.87|
|49579056516|2021-08-04T00:00:...|         16|  16190735|      497|        93.59|
| 4868385806|2021-07-16T00:00:...|          6|  74672887|      497|       311.87|
|49959025513|2021-08-13T00:00:...|         13|  64040325|      497|        64.99|
|49579056513|2021-08-04T00:00:...|         13|  16190735|      497|       376.98|
| 4962532626|2021-08-05T00:00:...|          6|   8571960|      497|       175.37|
| 4976142355|202

In [81]:
df_item_pedido.show(10)

+----------+----------+----------+-----------+
| id_pedido|id_produto|quantidade|vr_unitario|
+----------+----------+----------+-----------+
| id_pedido|id_produto|quantidade|vr_unitario|
|4662926103|     29409|         1|     326.17|
|4855037753|     29409|         1|     326.17|
|4907077773|     29409|         1|     326.17|
|4907059553|     29409|         1|     326.17|
|4684176673|     29409|         1|     326.17|
|4700416275|     31772|         2|      51.74|
|5039703375|     31772|         1|      25.87|
|4737269456|     35926|         1|     562.77|
|4927459856|     35926|         1|     562.77|
+----------+----------+----------+-----------+
only showing top 10 rows

