
## Overview

This notebook will show you how to create and query a table or DataFrame that you uploaded to DBFS. [DBFS](https://docs.databricks.com/user-guide/dbfs-databricks-file-system.html) is a Databricks File System that allows you to store data for querying inside of Databricks. This notebook assumes that you have a file already inside of DBFS that you would like to read from.

This notebook is written in **Python** so the default cell type is Python. However, you can use different languages by using the `%LANGUAGE` syntax. Python, Scala, SQL, and R are all supported.

In [0]:
df.display()

ID_Produto,Nome do produto,Categoria,Valor
P001,Tshirt,Roupa,20.0
P002,Cueca,Roupa,30.0
P003,Sapato,Calçado,40.0
P004,Meia,Roupa,50.0
P005,Cinto,Acessorios,60.0
P006,Bolsa,Acessorios,70.0
P007,Mala,Acessorios,80.0
P008,Óculos,Acessorios,90.0
P009,Vestido,Roupa,100.0
P010,Toalha,Roupa,110.0


In [0]:
tables = spark.catalog.listTables()
for table in tables:
    print(table.name)

In [0]:
df.show()

+----------+----------------+----------+-----+
|ID_Produto|Nome do produto | Categoria|Valor|
+----------+----------------+----------+-----+
|      P001|          Tshirt|     Roupa| 20.0|
|      P002|           Cueca|     Roupa| 30.0|
|      P003|          Sapato|   Calçado| 40.0|
|      P004|            Meia|     Roupa| 50.0|
|      P005|           Cinto|Acessorios| 60.0|
|      P006|           Bolsa|Acessorios| 70.0|
|      P007|            Mala|Acessorios| 80.0|
|      P008|          Óculos|Acessorios| 90.0|
|      P009|         Vestido|     Roupa|100.0|
|      P010|          Toalha|     Roupa|110.0|
|      P011|         Perfume|Acessorios|120.0|
|      P012|          Tapete|      Casa|130.0|
|      P013|          Tapete|      Casa|130.0|
|      P014|          Tapete|      Casa|130.0|
|      P015|          Tapete|      Casa|130.0|
|      P016|            Meia|     Roupa| 50.0|
|      P017|          Sapato|   Calçado| 40.0|
|      P018|         Perfume|Acessorios|120.0|
|      P019| 

In [0]:
df_roupa = df.filter(df['Categoria'] == 'Roupa')
df_roupa.show()

+----------+----------------+---------+-----+
|ID_Produto|Nome do produto |Categoria|Valor|
+----------+----------------+---------+-----+
|      P001|          Tshirt|    Roupa| 20.0|
|      P002|           Cueca|    Roupa| 30.0|
|      P004|            Meia|    Roupa| 50.0|
|      P009|         Vestido|    Roupa|100.0|
|      P010|          Toalha|    Roupa|110.0|
|      P016|            Meia|    Roupa| 50.0|
|      P020|          Sapato|    Roupa| 40.0|
|      P024|          Toalha|    Roupa|110.0|
|      P025|          Tshirt|    Roupa| 20.0|
+----------+----------------+---------+-----+



In [0]:

df_cliente.printSchema()
df_vendas.printSchema()

root
 |-- ID_Cliente: string (nullable = true)
 |-- Nome_Cliente: string (nullable = true)
 |-- idade: double (nullable = true)
 |-- Gênero: string (nullable = true)
 |-- Cidade: string (nullable = true)

root
 |-- ID_Cliente: string (nullable = true)
 |-- Produto: string (nullable = true)
 |-- Valor: double (nullable = true)
 |-- Quantidade: double (nullable = true)
 |-- Valor da Compra: double (nullable = true)
 |-- ID_Produto: string (nullable = true)



In [0]:
spark.sql("SHOW TABLES").show()

+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
|        |  cliente|       true|
|        |   vendas|       true|
+--------+---------+-----------+



In [0]:
df = spark.read.format("com.crealytics.spark.excel") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("/FileStore/tables/Dim_produto-3.xlsx")

In [0]:
df.createOrReplaceTempView("dim_produto")

In [0]:
spark.sql("SHOW TABLES").show()

+--------+-----------+-----------+
|database|  tableName|isTemporary|
+--------+-----------+-----------+
|        |    cliente|       true|
|        |dim_produto|       true|
|        |     vendas|       true|
+--------+-----------+-----------+



In [0]:
spark.sql("SELECT * FROM dim_produto").show()

+----------+----------------+----------+-----+
|ID_Produto|Nome do produto | Categoria|Valor|
+----------+----------------+----------+-----+
|      P001|          Tshirt|     Roupa| 20.0|
|      P002|           Cueca|     Roupa| 30.0|
|      P003|          Sapato|   Calçado| 40.0|
|      P004|            Meia|     Roupa| 50.0|
|      P005|           Cinto|Acessorios| 60.0|
|      P006|           Bolsa|Acessorios| 70.0|
|      P007|            Mala|Acessorios| 80.0|
|      P008|          Óculos|Acessorios| 90.0|
|      P009|         Vestido|     Roupa|100.0|
|      P010|          Toalha|     Roupa|110.0|
|      P011|         Perfume|Acessorios|120.0|
|      P012|          Tapete|      Casa|130.0|
|      P013|          Tapete|      Casa|130.0|
|      P014|          Tapete|      Casa|130.0|
|      P015|          Tapete|      Casa|130.0|
|      P016|            Meia|     Roupa| 50.0|
|      P017|          Sapato|   Calçado| 40.0|
|      P018|         Perfume|Acessorios|120.0|
|      P019| 

In [0]:
spark.sql("SELECT * FROM vendas").show()

+----------+-------+-----+----------+---------------+----------+
|ID_Cliente|Produto|Valor|Quantidade|Valor da Compra|ID_Produto|
+----------+-------+-----+----------+---------------+----------+
|     HL001| Tshirt| 20.0|       2.0|           40.0|      P001|
|     HL002|  Cueca| 30.0|       2.0|           60.0|      P002|
|     HL003| Sapato| 40.0|       1.0|           40.0|      P003|
|     HL004|   Meia| 50.0|       3.0|          150.0|      P004|
|     HL005|  Cinto| 60.0|       1.0|           60.0|      P005|
|     HL006|  Bolsa| 70.0|       2.0|          140.0|      P006|
|     HL007|   Mala| 80.0|       3.0|          240.0|      P007|
|     HL008| Óculos| 90.0|       2.0|          180.0|      P008|
|     HL009|Vestido|100.0|       1.0|          100.0|      P009|
|     HL010| Toalha|110.0|       2.0|          220.0|      P010|
|     HL011|Perfume|120.0|       4.0|          480.0|      P011|
|     HL012| Tapete|130.0|       3.0|          390.0|      P012|
|     HL013| Tapete|130.0

In [0]:
print(df.count())

25


In [0]:
df.show(25, truncate=False)

+----------+----------------+----------+-----+
|ID_Produto|Nome do produto |Categoria |Valor|
+----------+----------------+----------+-----+
|P001      |Tshirt          |Roupa     |20.0 |
|P002      |Cueca           |Roupa     |30.0 |
|P003      |Sapato          |Calçado   |40.0 |
|P004      |Meia            |Roupa     |50.0 |
|P005      |Cinto           |Acessorios|60.0 |
|P006      |Bolsa           |Acessorios|70.0 |
|P007      |Mala            |Acessorios|80.0 |
|P008      |Óculos          |Acessorios|90.0 |
|P009      |Vestido         |Roupa     |100.0|
|P010      |Toalha          |Roupa     |110.0|
|P011      |Perfume         |Acessorios|120.0|
|P012      |Tapete          |Casa      |130.0|
|P013      |Tapete          |Casa      |130.0|
|P014      |Tapete          |Casa      |130.0|
|P015      |Tapete          |Casa      |130.0|
|P016      |Meia            |Roupa     |50.0 |
|P017      |Sapato          |Calçado   |40.0 |
|P018      |Perfume         |Acessorios|120.0|
|P019      |P

In [0]:
spark.sql("SELECT * FROM vendas").show(1000, truncate=False)

+----------+-------+-----+----------+---------------+----------+
|ID_Cliente|Produto|Valor|Quantidade|Valor da Compra|ID_Produto|
+----------+-------+-----+----------+---------------+----------+
|HL001     |Tshirt |20.0 |2.0       |40.0           |P001      |
|HL002     |Cueca  |30.0 |2.0       |60.0           |P002      |
|HL003     |Sapato |40.0 |1.0       |40.0           |P003      |
|HL004     |Meia   |50.0 |3.0       |150.0          |P004      |
|HL005     |Cinto  |60.0 |1.0       |60.0           |P005      |
|HL006     |Bolsa  |70.0 |2.0       |140.0          |P006      |
|HL007     |Mala   |80.0 |3.0       |240.0          |P007      |
|HL008     |Óculos |90.0 |2.0       |180.0          |P008      |
|HL009     |Vestido|100.0|1.0       |100.0          |P009      |
|HL010     |Toalha |110.0|2.0       |220.0          |P010      |
|HL011     |Perfume|120.0|4.0       |480.0          |P011      |
|HL012     |Tapete |130.0|3.0       |390.0          |P012      |
|HL013     |Tapete |130.0

In [0]:
spark.sql("SELECT SUM(`valor da compra`) AS Total_Vendas FROM vendas").show()

+------------+
|Total_Vendas|
+------------+
|      6400.0|
+------------+



In [0]:
df_vendas_limpo = df_vendas.dropDuplicates(['ID_Cliente'])

In [0]:
df_vendas_limpo.show(25, truncate=False)

+----------+-------+-----+----------+---------------+----------+
|ID_Cliente|Produto|Valor|Quantidade|Valor da Compra|ID_Produto|
+----------+-------+-----+----------+---------------+----------+
|HL001     |Tshirt |20.0 |2.0       |40.0           |P001      |
|HL002     |Cueca  |30.0 |2.0       |60.0           |P002      |
|HL003     |Sapato |40.0 |1.0       |40.0           |P003      |
|HL004     |Meia   |50.0 |3.0       |150.0          |P004      |
|HL005     |Cinto  |60.0 |1.0       |60.0           |P005      |
|HL006     |Bolsa  |70.0 |2.0       |140.0          |P006      |
|HL007     |Mala   |80.0 |3.0       |240.0          |P007      |
|HL008     |Óculos |90.0 |2.0       |180.0          |P008      |
|HL009     |Vestido|100.0|1.0       |100.0          |P009      |
|HL010     |Toalha |110.0|2.0       |220.0          |P010      |
|HL011     |Perfume|120.0|4.0       |480.0          |P011      |
|HL012     |Tapete |130.0|3.0       |390.0          |P012      |
|HL013     |Tapete |130.0

In [0]:
spark.sql("SELECT SUM(`valor da compra`) AS Total_Vendas FROM vendas").show()

+------------+
|Total_Vendas|
+------------+
|      6400.0|
+------------+



In [0]:
df_limpo = spark.table("Vendas").dropDuplicates()

df_limpo.display()

ID_Cliente,Produto,Valor,Quantidade,Valor da Compra,ID_Produto
HL002,Cueca,30.0,2.0,60.0,P002
HL001,Tshirt,20.0,2.0,40.0,P001
HL003,Sapato,40.0,1.0,40.0,P003
HL006,Bolsa,70.0,2.0,140.0,P006
HL004,Meia,50.0,3.0,150.0,P004
HL005,Cinto,60.0,1.0,60.0,P005
HL010,Toalha,110.0,2.0,220.0,P010
HL009,Vestido,100.0,1.0,100.0,P009
HL008,Óculos,90.0,2.0,180.0,P008
HL007,Mala,80.0,3.0,240.0,P007


In [0]:
total_vendas = df_limpo.agg({"`valor da compra`": "sum"}).collect()[0][0]

print("Total das Vendas:", total_vendas)

Total das Vendas: 6140.0


In [0]:
df_limpo = df_limpo.withColumnRenamed("valor da compra", "valor_da_compra")

In [0]:
df_limpo = df_limpo.withColumnRenamed("valor da compra", "valor_da_compra")

df_limpo.createOrReplaceTempView("vendas_limpa")

spark.sql("SELECT * FROM vendas_limpa").display()

ID_Cliente,Produto,Valor,Quantidade,valor_da_compra,ID_Produto
HL002,Cueca,30.0,2.0,60.0,P002
HL001,Tshirt,20.0,2.0,40.0,P001
HL003,Sapato,40.0,1.0,40.0,P003
HL006,Bolsa,70.0,2.0,140.0,P006
HL004,Meia,50.0,3.0,150.0,P004
HL005,Cinto,60.0,1.0,60.0,P005
HL010,Toalha,110.0,2.0,220.0,P010
HL009,Vestido,100.0,1.0,100.0,P009
HL008,Óculos,90.0,2.0,180.0,P008
HL007,Mala,80.0,3.0,240.0,P007


In [0]:
fato_estrela = df_limpo \
    .join(spark.table("cliente"), on="ID_Cliente", how="left") \
    .join(spark.table("dim_produto"), on="ID_Produto", how="left")

fato_estrela.createOrReplaceTempView("fato_vendas_estrela")

fato_estrela.display()

ID_Produto,ID_Cliente,Produto,Valor,Quantidade,valor_da_compra,Nome_Cliente,idade,Gênero,Cidade,Nome do produto,Categoria,Valor.1
P002,HL002,Cueca,30.0,2.0,60.0,Mateus Miguel,25.0,m,porto,Cueca,Roupa,30.0
P001,HL001,Tshirt,20.0,2.0,40.0,João Silva,25.0,m,lisboa,Tshirt,Roupa,20.0
P003,HL003,Sapato,40.0,1.0,40.0,Miguel Mateus,26.0,m,luanda,Sapato,Calçado,40.0
P006,HL006,Bolsa,70.0,2.0,140.0,Afonso joão,30.0,m,são paulo,Bolsa,Acessorios,70.0
P004,HL004,Meia,50.0,3.0,150.0,Rodrigo joão,18.0,m,benguela,Meia,Roupa,50.0
P005,HL005,Cinto,60.0,1.0,60.0,Miguel Afonso,20.0,m,Huambo,Cinto,Acessorios,60.0
P010,HL010,Toalha,110.0,2.0,220.0,Antonio Afonso,34.0,m,lisboa,Toalha,Roupa,110.0
P009,HL009,Vestido,100.0,1.0,100.0,Roberto joão,45.0,m,porto,Vestido,Roupa,100.0
P008,HL008,Óculos,90.0,2.0,180.0,André Roberto,50.0,m,porto,Óculos,Acessorios,90.0
P007,HL007,Mala,80.0,3.0,240.0,João Roberto,40.0,m,lisboa,Mala,Acessorios,80.0


In [0]:
spark.sql("""
    SELECT Nome_Cliente, SUM(valor_da_compra) AS Total_Vendas
    FROM fato_vendas_estrela
    GROUP BY Nome_Cliente
    ORDER BY Total_Vendas DESC
    LIMIT 1
""").display()


Nome_Cliente,Total_Vendas
Vania Maria,650.0


In [0]:
spark.sql("""
    SELECT Categoria, SUM(valor_da_compra) AS Total_Vendas
    FROM fato_vendas_estrela
    GROUP BY Categoria
    ORDER BY Total_Vendas DESC
    LIMIT 1
""").display()


Categoria,Total_Vendas
Acessorios,2940.0


In [0]:
spark.sql("""
    SELECT `Gênero`, SUM(valor_da_compra) AS Total_Vendas
    FROM fato_vendas_estrela
    GROUP BY `Gênero`
    ORDER BY Total_Vendas DESC
    LIMIT 1
""").display()


Gênero,Total_Vendas
f,4670.0


In [0]:
spark.sql("""
    SELECT Cidade, SUM(valor_da_compra) AS Total_Vendas
    FROM fato_vendas_estrela
    GROUP BY Cidade
    ORDER BY Total_Vendas DESC
    LIMIT 1
""").display()


Cidade,Total_Vendas
benguela,1630.0


In [0]:
spark.sql("""
    SELECT `Nome do produto ` AS Nome_do_produto, COUNT(*) AS Total_Vendas
    FROM fato_vendas_estrela
    GROUP BY `Nome do produto `
    ORDER BY Total_Vendas DESC
    LIMIT 1
""").display()


Nome_do_produto,Total_Vendas
Tapete,4


In [0]:
spark.sql("""
    SELECT 
        CASE 
            WHEN idade < 20 THEN 'Menos de 20'
            WHEN idade BETWEEN 20 AND 29 THEN '20-29'
            WHEN idade BETWEEN 30 AND 39 THEN '30-39'
            WHEN idade BETWEEN 40 AND 49 THEN '40-49'
            WHEN idade BETWEEN 50 AND 59 THEN '50-59'
            ELSE '60 ou mais'
        END AS faixa_etaria,
        SUM(valor_da_compra) AS total_compras
    FROM fato_vendas_estrela
    GROUP BY faixa_etaria
    ORDER BY total_compras DESC
""").display()


faixa_etaria,total_compras
20-29,2200.0
30-39,1710.0
40-49,860.0
50-59,830.0
60 ou mais,390.0
Menos de 20,150.0


In [0]:
spark.sql("""
SELECT `Nome do produto `, Valor
FROM dim_produto
ORDER BY Valor DESC
LIMIT 1
""").display()


Nome do produto,Valor
Tapete,130.0
