Importando bibliotecas

In [0]:
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DateType
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql.functions import count
from pyspark.sql.functions import countDistinct
from pyspark.sql.functions import month, year, quarter


Definindo schema e criando sessão Spark

In [0]:
#iniciando sessao spark
spark = SparkSession.builder \
    .appName("Exemplo PySpark") \
    .getOrCreate()

Lendo arquivo .csv das vendas

In [0]:
#define o schema
schema = StructType([
    StructField("ID_Produto",IntegerType(), True),
    StructField("ID_Cliente", StringType(), True),
    StructField("Data", DateType(), True),
    StructField("Local", StringType(), True),
    StructField("LocalDoPedido", StringType(), True)
    
])

#le o arquivo .csv
vendas_df = spark.read.format("csv").option("inferschema", "true").schema(schema).load("/FileStore/tables/sales_csv.txt")
display(vendas_df)

ID_Produto,ID_Cliente,Data,Local,LocalDoPedido
1,A,2023-01-01,India,Swiggy
2,A,2022-01-01,India,Swiggy
2,A,2023-01-07,India,Swiggy
3,A,2023-01-10,India,Restaurant
3,A,2022-01-11,India,Swiggy
3,A,2023-01-11,India,Restaurant
2,B,2022-02-01,India,Swiggy
2,B,2023-01-02,India,Swiggy
1,B,2023-01-04,India,Restaurant
1,B,2023-02-11,India,Swiggy


Criando colunas para separar o ano, mês e trimestre

In [0]:
vendas_df = vendas_df.withColumn("Ano",year(vendas_df.Data))
vendas_df = vendas_df.withColumn("Mes",month(vendas_df.Data))
vendas_df = vendas_df.withColumn("Trimestre",quarter(vendas_df.Data))

Lendo arquivo .csv do cardápio

In [0]:
#define o schema

schema2 = StructType([
    StructField("ID_Produto", IntegerType(), True),
    StructField("NomeDoProduto", StringType(), True),
    StructField("preco", StringType(), True)
])

cardapio_df = spark.read.format("csv").option("inferschema", "true").schema(schema2).load("/FileStore/tables/menu_csv.txt")
display(cardapio_df)

ID_Produto,NomeDoProduto,Preco
1,PIZZA,100
2,Chowmin,150
3,sandwich,120
4,Dosa,110
5,Biryani,80
6,Pasta,180


Realizando análises

Total gasto por cada cliente

In [0]:
total_gasto = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('ID_Cliente').agg({'Preco':'sum'})
              .orderBy('ID_Cliente'))

display(total_gasto)

ID_Cliente,sum(Preco)
A,4260.0
B,4440.0
C,2400.0
D,1200.0
E,2040.0


Databricks visualization. Run in Databricks to view.

Total de vendas por cada tipo de comida

In [0]:
total_produto = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('NomeDoProduto').agg({'Preco':'sum'})
              .orderBy('NomeDoProduto'))

display(total_produto)

NomeDoProduto,sum(Preco)
Biryani,480.0
Chowmin,3600.0
Dosa,1320.0
PIZZA,2100.0
Pasta,1080.0
sandwich,5760.0


Databricks visualization. Run in Databricks to view.

Total de vendas em cada mês

In [0]:
total_vmes = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('Mes').agg({'Preco':'sum'})
              .orderBy('Mes'))

display(total_vmes)

Mes,sum(Preco)
1,2960.0
2,2730.0
3,910.0
5,2960.0
6,2960.0
7,910.0
11,910.0


Databricks visualization. Run in Databricks to view.

Vendas anuais

In [0]:
total_vano = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('Ano').agg({'Preco':'sum'})
              .orderBy('Ano'))

display(total_vano)

Ano,sum(Preco)
2022,4350.0
2023,9990.0


Databricks visualization. Run in Databricks to view.

Total de vendas trimestrais

In [0]:
total_vtrimestre = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('Trimestre').agg({'Preco':'sum'})
              .orderBy('Trimestre'))

display(total_vtrimestre)

Trimestre,sum(Preco)
1,6600.0
2,5920.0
3,910.0
4,910.0


Databricks visualization. Run in Databricks to view.

Quantas vezes cada produto foi comprado

In [0]:
cont_produtos = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('ID_Produto', 'NomeDoProduto')
                .agg(count('ID_Produto').alias('cont_produto'))
                .orderBy('cont_produto', ascending = 0)
                .drop('ID_Produto'))

display(cont_produtos)

NomeDoProduto,cont_produto
sandwich,48
Chowmin,24
PIZZA,21
Dosa,12
Biryani,6
Pasta,6


Databricks visualization. Run in Databricks to view.

Top 5 produtos mais vendidos

In [0]:
cont_produtos = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('ID_Produto', 'NomeDoProduto')
                .agg(count('ID_Produto').alias('cont_produto'))
                .orderBy('cont_produto', ascending = 0)
                .drop('ID_Produto').limit(5))

display(cont_produtos)

NomeDoProduto,cont_produto
sandwich,48
Chowmin,24
PIZZA,21
Dosa,12
Biryani,6


O produto mais vendido

In [0]:
cont_produtos = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('ID_Produto', 'NomeDoProduto')
                .agg(count('ID_Produto').alias('cont_produto'))
                .orderBy('cont_produto', ascending = 0)
                .drop('ID_Produto').limit(1))

display(cont_produtos)

NomeDoProduto,cont_produto
sandwich,48


Databricks visualization. Run in Databricks to view.

Frequencia de visitas ao restaurante por cada cliente

In [0]:
frequencia_restaurante = (vendas_df.filter(vendas_df.LocalDoPedido == 'Restaurant').groupBy('ID_Cliente').agg(countDistinct('Data')))

display(frequencia_restaurante)

ID_Cliente,count(Data)
E,5
B,6
D,1
C,3
A,6


Databricks visualization. Run in Databricks to view.

Total das vendas em cada país

In [0]:
total_vendas = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('Local').agg({'Preco':'sum'}))

display(total_vendas)

Local,sum(Preco)
India,4860.0
USA,2460.0
UK,7020.0


Databricks visualization. Run in Databricks to view.

Total das vendas em cada localização

In [0]:
total_local = (vendas_df.join(cardapio_df, 'ID_Produto').groupBy('LocalDoPedido').agg({'Preco':'sum'}))

display(total_local)

LocalDoPedido,sum(Preco)
zomato,4920.0
Swiggy,6330.0
Restaurant,3090.0


Databricks visualization. Run in Databricks to view.