In [1]:
from pyspark.sql import SparkSession, dataframe
from pyspark.sql.functions import when, col, sum, count, isnan, round
from pyspark.sql.functions import regexp_replace, concat_ws, sha2, rtrim
from pyspark.sql.functions import unix_timestamp, from_unixtime, to_date
from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType
from pyspark.sql import HiveContext

from pyspark.sql.functions import regexp_replace
from pyspark.sql.functions import when

from pyspark.sql.functions import countDistinct #adicionei para fazer a contagem de maneira distinta

spark = SparkSession.builder.master("local[*]")\
    .enableHiveSupport()\
    .getOrCreate()

### 01.Criar dataframes das tabelas que estão no hive

In [2]:
# Tabela Categorias
df_categorias = spark.sql("""
                    SELECT *
                    FROM desafio.categorias
                    WHERE id_categoria != 'id_categoria'
                    """)
df_categorias.show()

+------------+---------------+-------------+
|id_categoria|   ds_categoria|perc_parceiro|
+------------+---------------+-------------+
|           1|Categoria - 001|          2.0|
|           2|Categoria - 002|          2.0|
|           3|Categoria - 003|          2.0|
|           4|Categoria - 004|          2.0|
|           5|Categoria - 005|          5.0|
|           6|Categoria - 006|          1.0|
|           7|Categoria - 007|          5.0|
|           8|Categoria - 008|          3.0|
|           9|Categoria - 009|          5.0|
|          10|Categoria - 010|          6.0|
|          11|Categoria - 011|          6.0|
|          12|Categoria - 012|          4.0|
|          13|Categoria - 013|          3.0|
|          14|Categoria - 014|          1.0|
|          15|Categoria - 015|          4.0|
|          16|Categoria - 016|          3.0|
|          17|Categoria - 017|          5.0|
|          18|Categoria - 018|          1.0|
|          19|Categoria - 019|          2.0|
|         

In [3]:
# Tabela cidade
df_cidade = spark.sql("""
                SELECT *
                FROM desafio.cidade
                WHERE id_cidade != 'id_cidade'
                """)
df_cidade.show()

+---------+----------------+---------+
|id_cidade|       ds_cidade|id_estado|
+---------+----------------+---------+
|     1058|           Betim|        1|
|       33|      ACRELANDIA|        2|
|      485|    ASSIS BRASIL|        2|
|      958|       BRASILEIA|        2|
|     1388|        CAPIXABA|        2|
|     1851| CRUZEIRO DO SUL|        2|
|     2022|       Cravinhos|        2|
|     2232|  EPITACIOLANDIA|        2|
|     2347|           FEIJO|        2|
|     3879|     MANCIO LIMA|        2|
|     3895|   MANOEL URBANO|        2|
|     5628|      RIO BRANCO|        2|
|     5767|      Rio Branco|        2|
|     6585|  SENA MADUREIRA|        2|
|     6593|SENADOR GUIOMARD|        2|
|     6845|       SÃO PAULO|        2|
|     6987|        TARAUACA|        2|
|     7241|      UBERLANDIA|        2|
|     7535|          XAPURI|        2|
|       59|     AGUA BRANCA|        3|
+---------+----------------+---------+
only showing top 20 rows



In [4]:
# Tabela estado
df_estado = spark.sql("""
                SELECT *
                FROM desafio.estado
                WHERE id_estado != 'id_estado'
                """)
df_estado.show()

+---------+---------+
|id_estado|ds_estado|
+---------+---------+
|        1|       31|
|        2|       AC|
|        3|       AL|
|        4|       AM|
|        5|       AP|
|        6|       BA|
|        7|       CE|
|        8|       DF|
|        9|       Df|
|       10|       ES|
|       11|       GO|
|       12|       Go|
|       13|       MA|
|       14|       MG|
|       15|       MS|
|       16|       MT|
|       17|       Mg|
|       18|       PA|
|       19|       PB|
|       20|       PE|
+---------+---------+
only showing top 20 rows



In [5]:
# Tabela clientes
df_clientes = spark.sql("""
                    SELECT *
                    FROM desafio.clientes
                    WHERE id_cliente != 'id_cliente'
                    """)
df_clientes.show()

+----------+--------------------+---------+
|id_cliente|          nm_cliente|flag_ouro|
+----------+--------------------+---------+
|  78262350|Cliente Magalu - ...|        0|
|  57301020|Cliente Magalu - ...|        0|
|   4639167|Cliente Magalu - ...|        1|
|  53130287|Cliente Magalu - ...|        0|
|  16456085|Cliente Magalu - ...|        0|
| 124100202|Cliente Magalu - ...|        0|
|  15659567|Cliente Magalu - ...|        0|
|  37375617|Cliente Magalu - ...|        1|
|  52082515|Cliente Magalu - ...|        0|
|  56214875|Cliente Magalu - ...|        0|
| 137980527|Cliente Magalu - ...|        0|
|  11806492|Cliente Magalu - ...|        0|
| 112690290|Cliente Magalu - ...|        1|
| 120559842|Cliente Magalu - ...|        1|
| 140697495|Cliente Magalu - ...|        0|
|  64431627|Cliente Magalu - ...|        0|
| 113852445|Cliente Magalu - ...|        1|
|  51864985|Cliente Magalu - ...|        0|
| 113068442|Cliente Magalu - ...|        0|
|  71256730|Cliente Magalu - ...

In [6]:
# Tabela filial
df_filial = spark.sql("""
                SELECT *
                FROM desafio.filial
                WHERE id_filial != 'id_filial'
                """)
df_filial.show()

+---------+---------------+---------+
|id_filial|      ds_filial|id_cidade|
+---------+---------------+---------+
|        6|Filial - 000006|       22|
|        9|Filial - 000009|       22|
|       88|Filial - 000088|       22|
|       98|Filial - 000098|       22|
|      118|Filial - 000118|       22|
|      146|Filial - 000146|       22|
|      223|Filial - 000223|       22|
|      268|Filial - 000268|       22|
|      353|Filial - 000353|       22|
|      363|Filial - 000363|       22|
|      372|Filial - 000372|       22|
|      373|Filial - 000373|       22|
|      417|Filial - 000417|       22|
|      464|Filial - 000464|       22|
|      470|Filial - 000470|       22|
|      531|Filial - 000531|       22|
|      538|Filial - 000538|       22|
|      617|Filial - 000617|       22|
|      620|Filial - 000620|       22|
|      625|Filial - 000625|       22|
+---------+---------------+---------+
only showing top 20 rows



In [7]:
# Tabela item_pedido
df_item_pedido = spark.sql("""
                        SELECT *
                        FROM desafio.item_pedido
                        WHERE id_pedido != 'id_pedido'
                        ORDER BY vr_unitario DESC
                        """)
df_item_pedido.show()

+----------+----------+----------+-----------+
| id_pedido|ds_produto|quantidade|vr_unitario|
+----------+----------+----------+-----------+
|5110435076|   3848054|         1|   66494.87|
|5031966676|    335303|         1|   60884.07|
|5063831906|    326104|         1|   34475.87|
|5045535526|    326104|         1|   34475.87|
|5145353926|    326104|         1|   33456.67|
|5113285456|    303661|         1|   28716.87|
|5095723126|    303661|         1|   28716.87|
|4926217626|    340405|         1|   25969.97|
|5073258626|    340405|         1|   18394.87|
|4726298756|    311407|         1|   17409.47|
|5092165926|     54702|         1|   15826.07|
|5149125256|    286704|         1|   14487.07|
|5145353926|    376637|         1|   14168.57|
|5033024306|   4325751|         2|   12999.74|
|4922148256|   2639878|         1|   12500.67|
|5062260076|    300478|         1|   12365.47|
|5061964676|    300478|         1|   12365.47|
|5052910156|   1362075|         1|   11971.57|
|4752135456| 

In [8]:
# Tabela parceiro
df_parceiro = spark.sql("""
                    SELECT *
                    FROM desafio.parceiro
                    WHERE id_parceiro != 'id_parceiro'
                    """)
df_parceiro.show()

+-----------+--------------------+
|id_parceiro|         nm_parceiro|
+-----------+--------------------+
|          1|Parceiro Magalu - 01|
|          2|Parceiro Magalu - 02|
|          3|Parceiro Magalu - 03|
|          4|Parceiro Magalu - 04|
|          5|Parceiro Magalu - 05|
|          6|Parceiro Magalu - 06|
|          7|Parceiro Magalu - 07|
|          8|Parceiro Magalu - 08|
|          9|Parceiro Magalu - 09|
|         10|Parceiro Magalu - 10|
|         11|Parceiro Magalu - 11|
|         12|Parceiro Magalu - 12|
|         13|Parceiro Magalu - 13|
|         14|Parceiro Magalu - 14|
|         15|Parceiro Magalu - 15|
|         16|Parceiro Magalu - 16|
+-----------+--------------------+



In [9]:
# Tabela produtos
df_produtos = spark.sql("""
                    SELECT *
                    FROM desafio.produtos
                    WHERE id_produto != 'id_produto'
                    """)
df_produtos.show()

+----------+--------------------+---------------+
|id_produto|          ds_produto|id_subcategoria|
+----------+--------------------+---------------+
|     12006|Produto - 0000012006|            572|
|     45183|Produto - 0000045183|           2142|
|     78905|Produto - 0000078905|            140|
|     79758|Produto - 0000079758|           3132|
|    117196|Produto - 0000117196|             96|
|    169903|Produto - 0000169903|           1735|
|    185406|Produto - 0000185406|             82|
|    201415|Produto - 0000201415|           1519|
|    284396|Produto - 0000284396|           3132|
|    293376|Produto - 0000293376|           1309|
|    299033|Produto - 0000299033|            336|
|    301419|Produto - 0000301419|           2370|
|    312382|Produto - 0000312382|           1610|
|    315401|Produto - 0000315401|           2880|
|    316342|Produto - 0000316342|           1236|
|    335667|Produto - 0000335667|           3228|
|    344427|Produto - 0000344427|           2925|


In [10]:
# Tabela subcategoria
df_subcategoria = spark.sql("""
                        SELECT *
                        FROM desafio.subcategoria
                        WHERE id_subcategoria != 'id_subcategoria'
                        """)
df_subcategoria.show()

+---------------+--------------------+------------+
|id_subcategoria|     ds_subcategoria|id_categoria|
+---------------+--------------------+------------+
|            132|Sub-categoria - 0...|           1|
|            137|Sub-categoria - 0...|           1|
|            288|Sub-categoria - 0...|           1|
|            380|Sub-categoria - 0...|           1|
|            397|Sub-categoria - 0...|           1|
|            498|Sub-categoria - 0...|           1|
|            508|Sub-categoria - 0...|           1|
|            514|Sub-categoria - 0...|           1|
|            586|Sub-categoria - 0...|           1|
|            668|Sub-categoria - 0...|           1|
|            751|Sub-categoria - 0...|           1|
|            923|Sub-categoria - 0...|           1|
|           1040|Sub-categoria - 0...|           1|
|           1170|Sub-categoria - 0...|           1|
|           1211|Sub-categoria - 0...|           1|
|           1426|Sub-categoria - 0...|           1|
|           

In [11]:
# Tabela pedido
df_pedido = spark.sql("""
                    SELECT *
                    FROM desafio.pedido
                    WHERE id_pedido != 'id_pedido'
                    ORDER BY vr_total_pago DESC
                    """)
df_pedido.show()

+-----------+--------------------+-----------+----------+---------+-------------+
|  id_pedido|           dt_pedido|id_parceiro|id_cliente|id_filial|vr_total_pago|
+-----------+--------------------+-----------+----------+---------+-------------+
|48013645016|2021-07-02T00:00:...|         16|  58591422|      228|     124470.0|
| 4818997673|2021-07-06T00:00:...|          3|  38004395|        4|      98267.0|
|49910739213|2021-08-12T00:00:...|         13|   9321272|      257|      81783.0|
| 4944110276|2021-08-02T00:00:...|          6|  44584572|      231|      75387.0|
|47907758013|2021-06-30T00:00:...|         13|   7397225|      231|      70185.7|
| 5110435076|2021-09-08T00:00:...|          6| 146694647|        3|     66494.87|
|47127533716|2021-06-12T00:00:...|         16|  56298357|        3|     64069.12|
| 5031966676|2021-08-20T00:00:...|          6|  20580847|      329|     60884.07|
|47769750516|2021-06-27T00:00:...|         16|  58591422|      228|     59426.56|
|46793901716|202

### 02.Criar um dataframe (df_pedidos) esta dataframe deve ser a união de pedido e item_pedido;

In [12]:
df_pedido.createOrReplaceTempView("pedido")
df_item_pedido.createOrReplaceTempView("item_pedido")

In [13]:
query = """
        SELECT
            P.*,
            IP.ds_produto,
            IP.quantidade,
            IP.vr_unitario
        FROM
            pedido as P
        JOIN item_pedido AS IP
        ON
            P.id_pedido = IP.id_pedido
        ORDER BY quantidade DESC
        """

df_pedidos = spark.sql(query)
df_pedidos.filter(df_pedidos["id_pedido"] != "id_pedido").show()

+-----------+--------------------+-----------+----------+---------+-------------+----------+----------+-----------+
|  id_pedido|           dt_pedido|id_parceiro|id_cliente|id_filial|vr_total_pago|ds_produto|quantidade|vr_unitario|
+-----------+--------------------+-----------+----------+---------+-------------+----------+----------+-----------+
|49910739213|2021-08-12T00:00:...|         13|   9321272|      257|      81783.0|   4900032|        30|     2726.1|
|46980515513|2021-06-09T00:00:...|         13|  34273805|      257|      25994.8|    947447|        20|    1299.74|
|49201060213|2021-07-28T00:00:...|         13|   4182082|       45|      11373.4|   4679659|        10|     909.87|
|49442397513|2021-08-02T00:00:...|         13|  10775562|      231|       1298.7|   1082672|        10|     129.87|
|49096084213|2021-07-25T00:00:...|         13| 121622115|        3|       5850.0|   3806899|        10|      585.0|
|50278586216|2021-08-19T00:00:...|         16|  12118877|      480|     

#### 2.1.Ver a quantidade de pedidos?

In [14]:
qtd_pedidos = df_pedidos.select("id_pedido").distinct().count()
print(f"A quantidade de pedidos é de:{qtd_pedidos}")

A quantidade de pedidos é de:733471


#### 2.2.Quantidade de produtos e agrupa-los por pedido

In [15]:
produtos_pedido = (df_pedidos
                   .groupby("id_pedido")
                   .agg(sum("quantidade")
                        .alias("quantidade_produtos"))
                   .orderBy("quantidade_produtos", ascending=False))
produtos_pedido.show()

+-----------+-------------------+
|  id_pedido|quantidade_produtos|
+-----------+-------------------+
|49001989016|                 50|
|48013645016|                 45|
|48483039513|                 40|
|47272431213|                 40|
|48704946213|                 40|
|48265171013|                 36|
|47769750516|                 32|
|50903766713|                 31|
|47741988510|                 30|
|51367310716|                 30|
|48394480213|                 30|
|48112853213|                 30|
|49910739213|                 30|
|48456340013|                 30|
|48474595213|                 30|
|46972298716|                 30|
|49284138513|                 30|
|48813362513|                 30|
|49235898013|                 30|
|50463604513|                 28|
+-----------+-------------------+
only showing top 20 rows



#### 2.3.Quantidade de pedidos por cliente

In [16]:
qtd_pedido_cliente = (df_pedidos
                      .groupby("id_cliente")
                      .agg(countDistinct("id_pedido")
                           .alias("pedidos_por_cliente"))
                      .orderBy("pedidos_por_cliente", ascending=False))
qtd_pedido_cliente.show()

+----------+-------------------+
|id_cliente|pedidos_por_cliente|
+----------+-------------------+
|  19912727|                182|
| 133452557|                174|
| 125627750|                120|
|  13565460|                112|
|  20325327|                 97|
|  32115700|                 76|
|  10344587|                 68|
|   4806975|                 67|
|   1501190|                 66|
|  90954057|                 66|
|  97294812|                 65|
| 105584482|                 58|
| 119699252|                 55|
|  41453777|                 53|
|  62353192|                 52|
| 124140150|                 50|
|  16352982|                 47|
|  54170967|                 47|
| 138871907|                 46|
|  65586217|                 45|
+----------+-------------------+
only showing top 20 rows



#### 2.4.Quantidade de pedidos por parceiro

In [17]:
qtd_pedido_parceiro = (df_pedidos
                       .groupby("id_parceiro")
                       .agg(countDistinct("id_pedido")
                            .alias("pedidos_parceiro"))
                       .orderBy("pedidos_parceiro", ascending=False))
qtd_pedido_parceiro.show()

+-----------+----------------+
|id_parceiro|pedidos_parceiro|
+-----------+----------------+
|         16|          332413|
|         13|          306170|
|          6|           62142|
|          5|           19193|
|         10|            8822|
|          3|            3408|
|          1|             705|
|         11|             446|
|          4|              88|
|          8|              44|
|          2|              40|
+-----------+----------------+



#### 2.5.Quantidade de pedido por filial

In [18]:
qtd_pedido_filial = (df_pedidos
                     .groupby("id_filial")
                     .agg(countDistinct("id_pedido")
                          .alias("pedidos_filial"))
                     .orderBy("pedidos_filial", ascending=False))
qtd_pedido_filial.show()

+---------+--------------+
|id_filial|pedidos_filial|
+---------+--------------+
|      231|        204263|
|        3|        181948|
|      257|         19380|
|      883|         15514|
|      228|         14119|
|      366|         12327|
|      494|         12214|
|      117|         11741|
|      547|          9831|
|     1680|          7995|
|      276|          7376|
|     1692|          7083|
|      439|          7056|
|      229|          6937|
|      435|          6728|
|        4|          6270|
|      141|          5961|
|      224|          5471|
|      884|          5136|
|     1730|          3728|
+---------+--------------+
only showing top 20 rows



### 03.Juntar criar df_filial que deverá ser a junção das tabelas filial, cidade e estado;

In [19]:
df_filial.createOrReplaceTempView("filial")
df_cidade.createOrReplaceTempView("cidade")
df_estado.createOrReplaceTempView("estado")

In [20]:
query = """
        SELECT
            F.id_filial,
            C.id_cidade,
            E.id_estado,
            F.ds_filial,
            C.ds_cidade,
            E.ds_estado
        FROM
            filial AS F
        JOIN
            cidade AS C ON F.id_cidade = C.id_cidade
        JOIN
            estado AS E ON C.id_estado = E.id_estado
        """

df_filiais = spark.sql(query)
df_filiais.filter(df_filiais["id_filial"] != "id_filial").show()

+---------+---------+---------+---------------+-----------+---------+
|id_filial|id_cidade|id_estado|      ds_filial|  ds_cidade|ds_estado|
+---------+---------+---------+---------------+-----------+---------+
|      151|     7241|        2|Filial - 000151| UBERLANDIA|       AC|
|     1514|       59|        3|Filial - 001514|AGUA BRANCA|       AL|
|     1431|       59|        3|Filial - 001431|AGUA BRANCA|       AL|
|     1423|       59|        3|Filial - 001423|AGUA BRANCA|       AL|
|     1312|       59|        3|Filial - 001312|AGUA BRANCA|       AL|
|     1063|       59|        3|Filial - 001063|AGUA BRANCA|       AL|
|     1006|       59|        3|Filial - 001006|AGUA BRANCA|       AL|
|      946|       59|        3|Filial - 000946|AGUA BRANCA|       AL|
|      813|       59|        3|Filial - 000813|AGUA BRANCA|       AL|
|      682|       59|        3|Filial - 000682|AGUA BRANCA|       AL|
|      611|       59|        3|Filial - 000611|AGUA BRANCA|       AL|
|      603|       59

#### 3.1.Juntar com o df_pedidos

In [21]:
df_pedidos.createOrReplaceTempView("pedidos")
df_filiais.createOrReplaceTempView("filiais")

In [22]:
query = """
        SELECT
            P.*,
            F.id_cidade,
            F.id_estado,
            F.ds_cidade,
            F.ds_estado,
            F.ds_filial
        FROM
            pedidos AS P
        JOIN
            filiais AS F ON P.id_filial = F.id_filial
        """

df_pedidos_filiais = spark.sql(query)
df_pedidos_filiais.show(truncate=False)

+-----------+------------------------+-----------+----------+---------+-------------+----------+----------+-----------+---------+---------+----------------+---------+---------------+
|id_pedido  |dt_pedido               |id_parceiro|id_cliente|id_filial|vr_total_pago|ds_produto|quantidade|vr_unitario|id_cidade|id_estado|ds_cidade       |ds_estado|ds_filial      |
+-----------+------------------------+-----------+----------+---------+-------------+----------+----------+-----------+---------+---------+----------------+---------+---------------+
|48443031713|2021-07-12T00:00:00.000Z|13         |136800692 |1090     |129.99       |4335308   |1         |129.99     |737      |33       |BARUERI         |SP       |Filial - 001090|
|48472409513|2021-07-12T00:00:00.000Z|13         |69267635  |1090     |259.99       |1375916   |1         |259.99     |737      |33       |BARUERI         |SP       |Filial - 001090|
|48454600516|2021-07-12T00:00:00.000Z|16         |48611362  |1090     |38.99        |

#### 3.2.Ver a quantidade de pedidos por estado

In [23]:
df_pedidos_por_estado = (df_pedidos_filiais
                      .groupBy("id_estado", "ds_estado")
                      .agg(countDistinct("id_pedido").alias("pedidos_por_estado"))
                      .orderBy("pedidos_por_estado", ascending=False))
df_pedidos_por_estado.show(27)

+---------+---------+------------------+
|id_estado|ds_estado|pedidos_por_estado|
+---------+---------+------------------+
|       14|       MG|            317571|
|       18|       PA|            235021|
|       11|       GO|             36273|
|       20|       PE|             36204|
|       31|       SC|             26252|
|       33|       SP|             14683|
|       13|       MA|             13833|
|        6|       BA|             10541|
|       28|       RS|              9024|
|        7|       CE|              8042|
|       22|       PR|              7315|
|       25|       RN|              5419|
|        3|       AL|              2822|
|       10|       ES|              2308|
|       32|       SE|              2202|
|       19|       PB|              1992|
|       21|       PI|              1213|
|       24|       RJ|              1189|
|       16|       MT|               675|
|        8|       DF|               461|
|       15|       MS|               270|
|       35|     

#### 3.3.Top 10 filial que mais vendeu

In [24]:
df_vendas_por_filial = (df_pedidos_filiais
                     .groupBy("id_filial", "ds_filial")
                     .agg(round(sum("quantidade"), 2).alias("volume_vendas"))
                     .orderBy("volume_vendas", ascending=False))
df_vendas_por_filial.show(10)

+---------+---------------+-------------+
|id_filial|      ds_filial|volume_vendas|
+---------+---------------+-------------+
|      231|Filial - 000231|       240806|
|        3|Filial - 000003|       220768|
|      257|Filial - 000257|        23725|
|      883|Filial - 000883|        17717|
|      228|Filial - 000228|        15851|
|      366|Filial - 000366|        13735|
|      494|Filial - 000494|        13461|
|      117|Filial - 000117|        13459|
|      547|Filial - 000547|        11169|
|     1680|Filial - 001680|         9531|
+---------+---------------+-------------+
only showing top 10 rows



### 04.Criar o dataframe df_stage juntando todas as bases do nosso modelo relacional

In [25]:
#df_pedidos com df_item_pedido
df_stage = df_pedido.join(df_item_pedido, df_pedido.id_pedido == df_item_pedido.id_pedido, 'left')
df_stage = df_stage.drop(df_item_pedido.id_pedido)

#df_stage com df_parceiro
df_stage = df_stage.join(df_parceiro, df_stage.id_parceiro == df_parceiro.id_parceiro, 'left')
df_stage = df_stage.drop(df_parceiro.id_parceiro)

#df_stage com df_cliente
df_stage = df_stage.join(df_clientes, df_stage.id_cliente == df_clientes.id_cliente, 'left')
df_stage = df_stage.drop(df_clientes.id_cliente)

#df_stage com df_filial
df_stage = df_stage.join(df_filial, df_stage.id_filial == df_filial.id_filial, 'left')
df_stage = df_stage.drop(df_filial.id_filial)

#df_stage com df_cidade
df_stage = df_stage.join(df_cidade, df_stage.id_cidade == df_cidade.id_cidade, 'left')
df_stage = df_stage.drop(df_cidade.id_cidade)

#df_stage com df_estado
df_stage = df_stage.join(df_estado, df_stage.id_estado == df_estado.id_estado, 'left')
df_stage = df_stage.drop(df_estado.id_estado)

# df_stage com df_produtos
#df_stage = df_stage.join(df_produtos, df_stage.ds_produto == df_produtos.ds_produto, 'left')
#df_stage = df_stage.drop(df_produtos.ds_produto)

# df_stage com df_subcategoria
#df_stage = df_stage.join(df_subcategoria, df_stage.id_subcategoria == df_subcategoria.id_subcategoria, 'left')
#df_stage = df_stage.drop(df_subcategoria.id_subcategoria)

# df_stage com df_categorias
#df_stage = df_stage.join(df_categorias, df_stage.id_categoria == df_categorias.id_categoria, 'left')
#df_stage = df_stage.drop(df_categorias.id_categoria)

#show
df_stage.show(truncate=False)

+-----------+------------------------+-----------+----------+---------+-------------+----------+----------+-----------+--------------------+---------------------------+---------+---------------+---------+---------------+---------+---------+
|id_pedido  |dt_pedido               |id_parceiro|id_cliente|id_filial|vr_total_pago|ds_produto|quantidade|vr_unitario|nm_parceiro         |nm_cliente                 |flag_ouro|ds_filial      |id_cidade|ds_cidade      |id_estado|ds_estado|
+-----------+------------------------+-----------+----------+---------+-------------+----------+----------+-----------+--------------------+---------------------------+---------+---------------+---------+---------------+---------+---------+
|49523668016|2021-08-03T00:00:00.000Z|16         |100041455 |231      |64.99        |2548610   |1         |64.99      |Parceiro Magalu - 16|Cliente Magalu - 0100041455|0        |Filial - 000231|2        |(LEOPOLDINA)   |14       |MG       |
|48347149016|2021-07-09T00:00:00.000