# Introdução ao Big Data com Apache Spark

Este tutorial tem como objetivo facilitar o entendimento do conceito de Big Data utilizando o Apache Spark.
    
## Arquitetura do Apache Spark

Antes de partir para o código, vamos ver uma visão geral da arquitetura do Apache Spark. Esta arquitetura permite que você possa processar seus códigos em várias máquinas como se fosse uma só através da arquitetura master-worker, onde existe um `driver` ou nó master no cluster, acompanhado pelos nós `worker`. O master envia o trabalho para os workers com instruções para carregar os dados da memória ou do disco.

O diagrama abaixo apresenta um exemplo de um cluster com Apache Spark, onde basicamente existe um nó Driver que comunica com os nós executors. Cada um destes nós executors tem slots que são logicamente como núcleos de processsamento.

![spark-architecture](https://miro.medium.com/v2/resize:fit:962/1*AWt1p2zUo9lLQ_X_gN0vZg.png)


## Introdução ao Big Data com Spark

Neste tutorial, vamos explorar o poder do Apache Spark através da análise de um conjunto de dados de vendas e clientes. Nossos dados serão carregados a partir de arquivos CSV, representando transações de vendas e informações de clientes.

Vamos usar esses dados para realizar tarefas comuns de análise de dados, como:

Carregamento e tratamento dos dados: Abordaremos como carregar os dados CSV no Spark e prepará-los para análise.
Transformações e agregações: Realizaremos operações de transformação e agregação para obter insights valiosos dos dados.
Exploração e visualização: Utilizaremos ferramentas de visualização para explorar os dados e apresentar as conclusões de forma clara e intuitiva.

Ao longo do tutorial, você aprenderá os conceitos básicos do Spark e como aplicar suas funcionalidades para analisar dados do mundo real.




# Download dos arquivos

Iremos baixar os arquivos de entrada:
- clients.csv
- vendas.csv

Os dados em `vendas.csv` são relativos a vendas realizadas por atacadistas e distribuidores.

## Dados de clientes

Iremos realizar o download de dados de clientes do link abaixo:

In [1]:
!wget -O clients.csv https://www.dropbox.com/scl/fi/vd5hmlr7ghj2j5rx3w681/clients.csv?rlkey=rmcalhytfjm6nfklw7hhtykid&dl=1

--2024-09-20 19:15:23--  https://www.dropbox.com/scl/fi/vd5hmlr7ghj2j5rx3w681/clients.csv?rlkey=rmcalhytfjm6nfklw7hhtykid
Resolving www.dropbox.com (www.dropbox.com)... 162.125.5.18, 2620:100:601d:18::a27d:512
Connecting to www.dropbox.com (www.dropbox.com)|162.125.5.18|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://uc4657ebdab229a20b38db5c0b3c.dl.dropboxusercontent.com/cd/0/inline/Ca_pEdxhiHGp5KtbTFYUgQCjpAe0oIZWjf7L23ivBPBVQjVxAqxVGXuZFGV1IspiB8I_LoDHu-igyBaqWxovZ9xsNt1UAb3W2IlSYEgjnGLDdjKuIqLY-bn9I3VhuRLYx6HD8SybdINof8B-0UkOMeig/file# [following]
--2024-09-20 19:15:24--  https://uc4657ebdab229a20b38db5c0b3c.dl.dropboxusercontent.com/cd/0/inline/Ca_pEdxhiHGp5KtbTFYUgQCjpAe0oIZWjf7L23ivBPBVQjVxAqxVGXuZFGV1IspiB8I_LoDHu-igyBaqWxovZ9xsNt1UAb3W2IlSYEgjnGLDdjKuIqLY-bn9I3VhuRLYx6HD8SybdINof8B-0UkOMeig/file
Resolving uc4657ebdab229a20b38db5c0b3c.dl.dropboxusercontent.com (uc4657ebdab229a20b38db5c0b3c.dl.dropboxusercontent.com)... 162.125.5.15, 2620:10

**Se não funcionar o download acima, tente o link abaixo:**

---



In [None]:
#!gdown https://drive.google.com/uc?id=1SQn8nCPhdFXFOe2wZ9wn1exTAIdgo2QU

## Dados de vendas

Iremos realizar o download dos dados de vendas presentes no arquivo `vendas.csv`:

In [2]:
!wget -O vendas.csv https://www.dropbox.com/scl/fi/y6h3do8rp9fhovunvj36c/vendas.csv?rlkey=m4yl4h8vzfyg5fq8vyb2sbd2x&st=nz4dme6m&dl=1

--2024-09-20 19:15:25--  https://www.dropbox.com/scl/fi/y6h3do8rp9fhovunvj36c/vendas.csv?rlkey=m4yl4h8vzfyg5fq8vyb2sbd2x
Resolving www.dropbox.com (www.dropbox.com)... 162.125.5.18, 2620:100:601d:18::a27d:512
Connecting to www.dropbox.com (www.dropbox.com)|162.125.5.18|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://uc4fc3c32b0f79ff2a39ff62486d.dl.dropboxusercontent.com/cd/0/inline/Ca_GpeaxL9hYCGgsfdQ1D4VNH1KTuXmSSdxHv8bWYnEe3zxVgavdiufoUzdi7ZmIZD8api3wt7jYKaXnl46_YMpYbFaJly8_Oo5YTBiqgtkIBiwyGiZzzFT5yMTUMVSP9ugQ8bKp_tgA4lRbNArdHPgb/file# [following]
--2024-09-20 19:15:26--  https://uc4fc3c32b0f79ff2a39ff62486d.dl.dropboxusercontent.com/cd/0/inline/Ca_GpeaxL9hYCGgsfdQ1D4VNH1KTuXmSSdxHv8bWYnEe3zxVgavdiufoUzdi7ZmIZD8api3wt7jYKaXnl46_YMpYbFaJly8_Oo5YTBiqgtkIBiwyGiZzzFT5yMTUMVSP9ugQ8bKp_tgA4lRbNArdHPgb/file
Resolving uc4fc3c32b0f79ff2a39ff62486d.dl.dropboxusercontent.com (uc4fc3c32b0f79ff2a39ff62486d.dl.dropboxusercontent.com)... 162.125.5.15, 2620:100

**Se não funcionar o download acima, tente o link abaixo:**

In [None]:
#!gdown https://drive.google.com/uc?id=1ubiLTdjEdy8C86MdkW1HRyPOFZl4irT1

# Analisando dados de vendas
Você está recebendo um conjunto de dados histórico de vendas de ERPs de várias empresas. Temos o histórico de vendas de várias empresas dentro do arquivo e, por isso, podemos ter períodos históricos diferentes de dados de vendas disponíveis.

## Arquivos
- **vendas.parquet** - contém dados históricos de vendas até junho de 2022.
- **clients.csv** - dados dos clientes que compraram o produto.

## Campos do arquivo de vendas

- *client_id*: id do cliente.
- *items_count*: número de itens vendidos
- *list_price*: preço do produto no catálogo da empresa.
- *order_date*: data da venda.
- *order_id*: id do pedido. Cada pedido pode conter vários produtos vendidos dentro dele.
- *product_id*: id do produto vendido.
- *sale_price*: preço vendido ao cliente.
- *salesman_id*: id do vendedor.
- *supplier_id*: id do fornecedor do produto. Por exemplo, a indústria fabricando do produto.
- *company_id*: id da empresa. Temos dentro da base o histórico de vendas de várias empresas para clientes finais.
- *product*: nome do produto.
- *salesman*: nome do vendedor.
- *supplier*: nome do fornecedor.
- *client*: nome do cliente.


## Campos do arquivo clients.csv
- *client_id*: id do cliente.
- *cnae_id*: CNAE do cliente que está realizando a compra.
- *cod_city*: código da cidade no IBGE em que o cliente está localizado.
- *cod_tract*: código do setor censitário no IBGE em que o cliente está localizado.
- *cod_uf*: código da UF no IBGE em que o cliente está localizado.
- *city*: cidade do cliente.
- *state*: UF do cliente.
- *client*: nome do cliente.
- *company_id*: id da empresa. Temos dentro da base o histórico de vendas de várias empresas para clientes finais.


## Iniciando o PySpark

Esta célula de código instala o Spark no ambiente de execução Colab. Aqui está uma explicação passo a passo:

1. **`!apt-get install openjdk-11-jdk-headless -qq > /dev/null`**: este comando instala o OpenJDK 11 (versão headless, sem interface gráfica), que é um requisito para o Spark. O `-qq` suprime a saída e o `> /dev/null` redireciona a saída para o nada, tornando o processo mais silencioso.

2. **`!wget -q https://dlcdn.apache.org/spark/spark-3.5.2/spark-3.5.2-bin-hadoop3.tgz`**: Este comando baixa o arquivo compactado do Spark 3.5.2 (construído para o Hadoop 3) do site oficial do Apache Spark. O `-q` suprime a saída de download.

3. **`!tar xf spark-3.5.2-bin-hadoop3.tgz`**: Este comando extrai o arquivo compactado baixado do Spark, criando um diretório chamado `spark-3.5.2-bin-hadoop3`.

4. **`!pip -q install findspark`**: Este comando instala a biblioteca `findspark` usando `pip`. Findspark é uma biblioteca Python que torna mais fácil configurar o Spark em um ambiente Python, principalmente no Colab. Ela define as variáveis de ambiente necessárias para que o Spark funcione corretamente.

Após executar essas linhas, você terá o Spark instalado e pronto para ser usado em seu notebook Colab.

In [3]:
!apt-get install openjdk-11-jdk-headless -qq > /dev/null
!wget -q https://dlcdn.apache.org/spark/spark-3.5.2/spark-3.5.2-bin-hadoop3.tgz
!tar xf spark-3.5.2-bin-hadoop3.tgz
!pip -q install findspark

Defina as variáveis de ambiente do Spark:

In [4]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.2-bin-hadoop3"

O código a seguir garante que o Spark seja configurado corretamente e esteja pronto para uso em seu ambiente Python.

* **`findspark.init()`**: executa a função `init()` do módulo `findspark`. Esta função:
    * Localiza a instalação do Spark em seu sistema.
    * Configura as variáveis de ambiente necessárias para que o Python possa interagir com o Spark. Isso permite que o driver Python (seu código Python) se comunique com o executor Spark (o código que realmente processa os dados).


In [5]:
import findspark
findspark.init()

Depois de executar a célula anterior, você poderá importar e usar as bibliotecas Spark como `pyspark.sql.SparkSession` para criar uma sessão Spark e começar a trabalhar com dados.

In [6]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
spark = SparkSession.builder.appName('Aula 1').master("local[*]").getOrCreate()

In [None]:
spark.version

'3.5.2'

# Primeira etapa: carregar os arquivos

Nessa etapa você deve carregar os quatro arquivos abaixos, utilizando o **Spark**

**Dicas:**

- Separador dos arquivos é , (vírgula)
- Os arquivos possuem cabeçalho

In [7]:
clients_df = spark.read.csv("clients.csv")
#clients_df = spark.read.csv("clients.csv", header=True) --> coloca o nome das colunas
#clients_df = spark.read.csv("clients.csv", header=True, inferSchema=True) --> faz com que o proprio spark infere o tipo do dado

In [8]:
clients_df.show(30)

+--------------------+---------+-------+--------+---------------+------+-----+--------------+----------+
|                 _c0|      _c1|    _c2|     _c3|            _c4|   _c5|  _c6|           _c7|       _c8|
+--------------------+---------+-------+--------+---------------+------+-----+--------------+----------+
|                city|client_id|cnae_id|cod_city|      cod_tract|cod_uf|state|        client|company_id|
|                NULL|  c855767|   NULL| 5211503|521150305000094|    52|   GO|Client c855767|      0567|
|               POSSE|  c836888|   NULL| 5218300|521830005000006|    52|   GO|Client c836888|      0567|
|                 POA|  c836597|   NULL| 3539806|353980605000005|    35|   SP|Client c836597|      0567|
|           SAO PAULO|  c836596|   NULL| 3550308|355030837000019|    35|   SP|Client c836596|      0567|
|              CUIABA|  c855005|   NULL| 5103403|510340310400031|    51|   MT|Client c855005|      0567|
|         BREU BRANCO|  c855045|   NULL| 1501782|150178

In [9]:
clients_df.printSchema()

root
 |-- _c0: string (nullable = true)
 |-- _c1: string (nullable = true)
 |-- _c2: string (nullable = true)
 |-- _c3: string (nullable = true)
 |-- _c4: string (nullable = true)
 |-- _c5: string (nullable = true)
 |-- _c6: string (nullable = true)
 |-- _c7: string (nullable = true)
 |-- _c8: string (nullable = true)



In [10]:
clients_schema = "city string, client_id string, cnae_id string, \
cod_city integer, cod_tract long, cod_uf integer, state string, client string, \
 company_id integer"
clients_df = spark.read.csv("clients.csv", header=True, schema=clients_schema, mode="FAILFAST") #FAILFAST faz com que se algum valor nao der certo com o
#schema ele vai errar rapido e avisar assim que acontecer e para, o contrário é p PERMISSIVE assim que nao para, porém coloca NULL no lugar.

#em casos de problemas adcione uma coluna nova no schema do tipo string e no read chame columnNameOfCorruptRecord com o nome dessa coluna.

In [11]:
vendas_df = spark.read.csv("vendas.csv",header=True)

In [12]:
clients_df.show(5)

+---------+---------+-------+--------+---------------+------+-----+--------------+----------+
|     city|client_id|cnae_id|cod_city|      cod_tract|cod_uf|state|        client|company_id|
+---------+---------+-------+--------+---------------+------+-----+--------------+----------+
|     NULL|  c855767|   NULL| 5211503|521150305000094|    52|   GO|Client c855767|       567|
|    POSSE|  c836888|   NULL| 5218300|521830005000006|    52|   GO|Client c836888|       567|
|      POA|  c836597|   NULL| 3539806|353980605000005|    35|   SP|Client c836597|       567|
|SAO PAULO|  c836596|   NULL| 3550308|355030837000019|    35|   SP|Client c836596|       567|
|   CUIABA|  c855005|   NULL| 5103403|510340310400031|    51|   MT|Client c855005|       567|
+---------+---------+-------+--------+---------------+------+-----+--------------+----------+
only showing top 5 rows



In [13]:
vendas_df.show(10)

+---------+-----------+----------+----------+--------+----------+----------+-----------+-----------+----------+-------------+------------+-------------+------------+
|client_id|items_count|list_price|order_date|order_id|product_id|sale_price|salesman_id|supplier_id|company_id|      product|    salesman|     supplier|      client|
+---------+-----------+----------+----------+--------+----------+----------+-----------+-----------+----------+-------------+------------+-------------+------------+
|    c2943|          3|       0.0|2020-05-21|    NULL|     p1477| 25.166666|        s69|       su28|      0603|Product p1477|Salesman s69|Supplier su28|Client c2943|
|    c2943|         12|       0.0|2020-05-21|    NULL|      p156|   19.4653|        s69|       su16|      0603| Product p156|Salesman s69|Supplier su16|Client c2943|
|    c2092|          2|       0.0|2020-05-21|    NULL|     p1314|    39.985|        s19|       su16|      0603|Product p1314|Salesman s19|Supplier su16|Client c2092|
|   

In [14]:
vendas_df.printSchema()

root
 |-- client_id: string (nullable = true)
 |-- items_count: string (nullable = true)
 |-- list_price: string (nullable = true)
 |-- order_date: string (nullable = true)
 |-- order_id: string (nullable = true)
 |-- product_id: string (nullable = true)
 |-- sale_price: string (nullable = true)
 |-- salesman_id: string (nullable = true)
 |-- supplier_id: string (nullable = true)
 |-- company_id: string (nullable = true)
 |-- product: string (nullable = true)
 |-- salesman: string (nullable = true)
 |-- supplier: string (nullable = true)
 |-- client: string (nullable = true)



In [15]:
vendas_schema = "client_id string, items_count integer, list_price float, \
order_date date, order_id integer, product_id integer, sale_price float, salesman_id string, \
 supplier_id integer, company_id integer, product string, salesman string, supplier string, client string"

## Spark Pandas

### O que é Spark Pandas?

Spark Pandas é uma biblioteca que fornece uma interface similar ao Pandas para trabalhar com dados em clusters Apache Spark. Isso significa que você pode usar as mesmas funções e métodos do Pandas, mas com a capacidade de processar datasets imensos distribuídos em vários nós.

### Por que usar Spark Pandas?

Para cientistas de dados, o Spark Pandas oferece diversas vantagens:

- Escalabilidade: processa conjuntos de dados enormes com rapidez e eficiência, utilizando a computação distribuída do Spark.
- Familiaridade: permite utilizar a linguagem e as funções do Pandas, que você já conhece, para análise de dados em grande escala.
- Performance: aproveita as otimizações do Spark para acelerar tarefas como leitura, transformação e agregação de dados.
- Integração: funciona perfeitamente com outros componentes do ecossistema Spark, como Spark SQL e MLlib.

Agora vamos fazer a mesma operação de leitura de dados de clientes e vendas com **Spark Pandas** (vide [documentação](https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/index.html)).

Os clientes vamos armazenar no Dataframe `clients_pdf` e os dados de vendas em `vendas_pdf`. A leitura do csv é semelhante ao Pandas com o método `read_csv`.

In [16]:
import pyspark.pandas as ps



In [17]:
clients_pdf = ps.read_csv('clients.csv', names=clients_schema, header=0)



In [18]:
clients_pdf.head(5)

Unnamed: 0,city,client_id,cnae_id,cod_city,cod_tract,cod_uf,state,client,company_id
0,,c855767,,5211503,521150305000094,52,GO,Client c855767,567
1,POSSE,c836888,,5218300,521830005000006,52,GO,Client c836888,567
2,POA,c836597,,3539806,353980605000005,35,SP,Client c836597,567
3,SAO PAULO,c836596,,3550308,355030837000019,35,SP,Client c836596,567
4,CUIABA,c855005,,5103403,510340310400031,51,MT,Client c855005,567


In [19]:
vendas_pdf = ps.read_csv("vendas.csv", names=vendas_schema, header=0)



In [20]:
vendas_pdf.head(5)

Unnamed: 0,client_id,items_count,list_price,order_date,order_id,product_id,sale_price,salesman_id,supplier_id,company_id,product,salesman,supplier,client
0,c2943,3,0.0,2020-05-21,,,25.166666,s69,,603,Product p1477,Salesman s69,Supplier su28,Client c2943
1,c2943,12,0.0,2020-05-21,,,19.4653,s69,,603,Product p156,Salesman s69,Supplier su16,Client c2943
2,c2092,2,0.0,2020-05-21,,,39.985001,s19,,603,Product p1314,Salesman s19,Supplier su16,Client c2092
3,c3412,5,0.0,2020-05-18,,,26.25,s79,,603,Product p272,Salesman s79,Supplier su19,Client c3412
4,c3412,10,0.0,2020-05-18,,,13.68,s79,,603,Product p339,Salesman s79,Supplier su19,Client c3412


# Consultas nas bases de dados

In [47]:
clients_df.createOrReplaceTempView("clients")

In [22]:
sql = """select state, client_id
from clients
limit 10"""

In [23]:
sql = """select state, count(*) as contagem
from clients
where cnae_id is not null
group by state
order by contagem asc
limit 10"""

In [24]:
spark.sql(sql).show()

+-----+--------+
|state|contagem|
+-----+--------+
|   EX|       1|
|   RR|      63|
|   AL|     130|
|   SE|     135|
|   AC|     157|
|   AP|     208|
|   MS|     212|
|   MT|     284|
|   ES|     445|
|   PE|     463|
+-----+--------+



In [25]:
clients_df.filter("cnae_id is null").count()

551036

In [26]:
clients_pdf[clients_pdf['state'] == 'GO'].head(3)

Unnamed: 0,city,client_id,cnae_id,cod_city,cod_tract,cod_uf,state,client,company_id
0,,c855767,,5211503,521150305000094,52,GO,Client c855767,567
1,POSSE,c836888,,5218300,521830005000006,52,GO,Client c836888,567
6,APARECIDA DE GOIANIA,c836630,,5201405,520140505000019,52,GO,Client c836630,567


In [27]:
clients_pdf[clients_pdf['cnae_id'].notna()].groupby('state').size().sort_values().head(10).to_frame()

Unnamed: 0_level_0,None
state,Unnamed: 1_level_1
EX,1
RR,63
AL,130
SE,135
AC,157
AP,208
MS,212
MT,284
ES,445
PE,463


In [28]:
clients_df.filter(clients_df['state'] == 'GO').show(3)

+--------------------+---------+-------+--------+---------------+------+-----+--------------+----------+
|                city|client_id|cnae_id|cod_city|      cod_tract|cod_uf|state|        client|company_id|
+--------------------+---------+-------+--------+---------------+------+-----+--------------+----------+
|                NULL|  c855767|   NULL| 5211503|521150305000094|    52|   GO|Client c855767|       567|
|               POSSE|  c836888|   NULL| 5218300|521830005000006|    52|   GO|Client c836888|       567|
|APARECIDA DE GOIANIA|  c836630|   NULL| 5201405|520140505000019|    52|   GO|Client c836630|       567|
+--------------------+---------+-------+--------+---------------+------+-----+--------------+----------+
only showing top 3 rows



# **Tarefa: questões a serem respondidas**

1. Liste o nome dos 10 clientes que mais compraram no ano de 2021.
2. Quais os 5 estados do Brasil que tiveram mais vendas no mês de janeiro de 2022?
3. Quantos clientes tiveram compra com mais de um vendedor no ano de 2022?
4. Quantos fornecedores distintos existem na base de dados?
5. Qual o vendedor com maior volume de vendas analisando todo o histórico de compras?
6. Qual o produto mais vendido (em quantidade) por estado brasileiro e qual o valor total de vendas deste produto em cada estado?
7. Qual a média do valor total das vendas por dia da semana em cada estado no ano de 2022?



# Junção da base de dados de clientes e vendas

In [29]:
joined_df = vendas_df.join(clients_df, "client_id", "left")

In [30]:
joined_df.count()

4367269

In [31]:
joined_pdf = vendas_pdf.merge(clients_pdf, on='client_id', how='left')

In [32]:
len(joined_pdf)

4367269

## **Questão 1: Liste o nome dos 10 clientes que mais compraram no ano de 2021.**

### Questão 1: Apache Spark

A primeira resposta será desenvolvida utilizando a API do Spark.

In [33]:
# Filtrando as vendas de 2021 e removendo valores nulos em 'client_id'
vendas_2021 = vendas_df.filter("order_date >= '2021-01-01' and order_date <= '2021-12-31' and client_id is not null")

In [34]:
# Agrupando por 'client_id' e 'client' e somando 'sale_price'
top_clients = vendas_2021.groupBy(["client_id", "client"]).agg(sum("sale_price").alias("vendas"))

In [35]:
# Ordenando por 'vendas' em ordem decrescente
top_clients = top_clients.orderBy(desc("vendas"))

In [36]:
# Exibindo o resultado
top_clients.show(5)

+---------+------------+------------------+
|client_id|      client|            vendas|
+---------+------------+------------------+
|     c354| Client c354|34151.925634000014|
|    c4658|Client c4658|       28430.28621|
|    c5150|Client c5150|24343.193999999996|
|      c98|  Client c98|21936.962434000015|
|    c5127|Client c5127|20967.980328200007|
+---------+------------+------------------+
only showing top 5 rows



### Questão 1: Spark Pandas

A segunda resposta será desenvolvida utilizando a API do Pandas junto com Spark.

In [37]:
# Filtrando as vendas de 2021 e removendo valores nulos em 'client_id'
vendas_2021 = vendas_pdf[(vendas_pdf['order_date'] >= '2021-01-01') &
                          (vendas_pdf['order_date'] <= '2021-12-31') &
                          (vendas_pdf['client_id'].notna())]

# Agrupando por 'client_id' e 'client' e somando 'sale_price'
top_clients = vendas_2021.groupby(['client_id', 'client'])['sale_price'].sum().reset_index(name='vendas')

# Ordenando por 'vendas' em ordem decrescente
top_clients = top_clients.sort_values('vendas', ascending=False)

# Exibindo o resultado
top_clients.head(5)



Unnamed: 0,client_id,client,vendas
1185,c354,Client c354,34151.925633
2771,c4658,Client c4658,28430.286168
1968,c5150,Client c5150,24343.193983
1778,c98,Client c98,21936.962511
831,c5127,Client c5127,20967.98028


### **Questão 2: Quais os 5 estados do Brasil que tiveram mais vendas no mês de janeiro de 2022**

### Questão 2: Apache Spark

Vamos responder utilizando a API do Spark.

In [38]:
# Filtrando as vendas de janeiro de 2022
jan_2022_sales = joined_df.filter("order_date >= '2022-01-01' and order_date <= '2022-01-31'")

In [39]:
jan_2022_sales.groupBy("order_date").count().show(5)

+----------+-----+
|order_date|count|
+----------+-----+
|2022-01-20| 4184|
|2022-01-18| 5348|
|2022-01-17| 6523|
|2022-01-14| 4119|
|2022-01-25| 7223|
+----------+-----+
only showing top 5 rows



In [40]:
# Agrupando por estado e somando as vendas
state_sales = jan_2022_sales.groupBy("state").agg(sum("sale_price").alias("vendas"))
# Ordenando por vendas em ordem decrescente
state_sales = state_sales.orderBy(desc("vendas"))

In [41]:
state_sales.show(5)

+-----+------------------+
|state|            vendas|
+-----+------------------+
|   RJ| 999410.6045631706|
|   SP| 698166.8008689005|
|   GO| 608656.8479156648|
|   ES|448342.31084699964|
|   MG|426551.29759549885|
+-----+------------------+
only showing top 5 rows



### Questão 2: Spark Pandas

Vamos responder utilizando o Spark Pandas.

In [None]:
# Filtrando as vendas de janeiro de 2022
jan_2022_sales = joined_pdf[(joined_pdf['order_date'] >= '2022-01-01') &
                            (joined_pdf['order_date'] <= '2022-01-31')]

# Agrupando por estado e somando as vendas
state_sales = jan_2022_sales.groupby('state')['sale_price'].sum().reset_index(name='vendas')

# Ordenando por vendas em ordem decrescente
state_sales = state_sales.sort_values('vendas', ascending=False)

# Exibindo os 5 primeiros estados
state_sales.head(5)

### **Questão 3 Quantos clientes tiveram compra com mais de um vendedor no ano de 2022:**

In [51]:
vendas_df = spark.read.csv("vendas.csv", header=True, inferSchema=True)
clientes_df = spark.read.csv("clients.csv", header=True, inferSchema=True)

In [48]:
#view temporária
vendas_df.createOrReplaceTempView("vendas")
clients_df.createOrReplaceTempView("clients")

In [55]:
sql = """SELECT client_id, COUNT(DISTINCT salesman_id) AS NumVendedores
    FROM vendas
    WHERE YEAR(order_date) = 2022
    GROUP BY client_id
    HAVING NumVendedores > 1"""

    #para cada id diferente ele vai buscar o a quantidade de vendedores diferentes pelo id dos vendedores
    #vai pegar pela data de 2022
    #vai agrupar esses clientes pelo id
    #vai pegar apenas os que tem mais que 1

In [61]:
spark.sql(sql).count()

60

### **Questão 4:** Quantos fornecedores distintos existem na base de dados?

In [64]:
sql = """SELECT COUNT(DISTINCT supplier_id) AS Num_de_Fornecedores
    FROM vendas"""

    #na tabela de vendas puxa todos os valores de id para vendedores

In [65]:
spark.sql(sql).show()

+-------------------+
|Num_de_Fornecedores|
+-------------------+
|                 37|
+-------------------+



### **Questão 5:** Qual o vendedor com maior volume de vendas analisando todo o histórico de compras?

In [68]:
sql = """SELECT salesman_id, SUM(sale_price) AS total_vendas
    FROM vendas
    GROUP BY salesman_id
    ORDER BY total_vendas DESC
    LIMIT 1"""

    #na tabela de vendas puxa todos os valores de id para vendedores e soma as vendas de cada um
    #agrupa por id das vendas
    #ordena decrecente
    #pega o primeiro

In [69]:
spark.sql(sql).show()

+-----------+------------------+
|salesman_id|      total_vendas|
+-----------+------------------+
|        s25|1852193.9332921728|
+-----------+------------------+



### **Questão 6:** Qual o produto mais vendido (em quantidade) por estado brasileiro e qual o valor total de vendas deste produto em cada estado?

In [86]:
sql = """WITH vendas_por_produto AS (
    SELECT c.state, v.product_id, SUM(v.items_count) AS quantidade, SUM(v.sale_price) AS total_vendas
    FROM vendas v
    JOIN clients c ON v.client_id = c.client_id
    GROUP BY c.state, v.product_id
    )

SELECT state, product_id, quantidade, total_vendas
FROM vendas_por_produto
WHERE (state, quantidade) IN (
    SELECT state, MAX(quantidade)
    FROM vendas_por_produto
    GROUP BY state
    )"""

    #primeiro se cria uma subquary temporaria que agrupa todos os produtos por estado para todos os estados
    #seleciona o estado, o produto, a quantidade vendida e o valor total das vendas
    #busca no estado o produto mais vendido e retorna ambos

In [87]:
spark.sql(sql).show(50)

+-----+----------+----------+------------------+
|state|product_id|quantidade|      total_vendas|
+-----+----------+----------+------------------+
|   PI|     p2526|   28438.0|          15.03764|
|   DF|      p510|   38972.0| 71.38007778999997|
|   GO|      p510|  591898.0|1069.0584495700086|
|   MG|      p510|  306859.0| 568.5343334800011|
|   SP|      p510|  734724.0|1340.1239982000047|
|   RO|      p510|   75262.0|129.37906094999997|
|   BA|      p510|  236388.0|427.91964221999996|
|   ES|      p510|  455642.0|  841.338364120006|
|   SC|      p510|   17795.0|36.633116669999986|
|   PE|     p2526|   37114.0|       20.88906665|
|   MA|     p2526|   92547.0| 42.21990665000001|
|   SE|     p2526|    8000.0|              2.13|
|   TO|     p2526|  125762.0| 60.28399999999999|
|   AM|      p510|  146037.0| 310.9626944600001|
|   RJ|      p510|  798446.0|1506.1491861299985|
|   AL|     p2354|    3450.0|             2.475|
|   PB|      p510|   37796.0| 81.70514000999995|
|   PR|     p2526|  

### **Questão 7:** Qual a média do valor total das vendas por dia da semana em cada estado no ano de 2022?

In [98]:
sql = """SELECT
    c.state,
    DAYOFWEEK(v.order_date) AS dia,
    AVG(v.sale_price) AS avg_vendas

FROM vendas v
JOIN clients c ON v.client_id = c.client_id
WHERE YEAR(v.order_date) = 2022
  AND c.state IS NOT NULL
  AND c.state != '0'
GROUP BY c.state, DAYOFWEEK(v.order_date)
ORDER BY c.state, DAYOFWEEK(v.order_date)"""

#seleciona o estado do cliente
#extrai o dia da semana a partir da data e retorna um valor de 1 a 7
#calcula a média do valor total das vendas, soma e faz a media
#join das tabeals
#pega somente as do ano de 2022
  #tirar os null
  #tirar os 0
#agrupa por estado e dia
#ordena tudo

In [99]:
spark.sql(sql).show(100)

+-----+---+------------------+
|state|dia|        avg_vendas|
+-----+---+------------------+
|   AC|  2| 84.95145245901644|
|   AC|  3| 79.81981347619046|
|   AC|  4| 57.47847203787879|
|   AC|  5| 71.30706666698114|
|   AC|  6|49.007189752747266|
|   AL|  2| 51.15239948461536|
|   AL|  3|57.141082028248654|
|   AL|  4| 65.46768146341469|
|   AL|  5|      87.471964976|
|   AL|  6| 60.61347169811321|
|   AM|  2|61.603425651396016|
|   AM|  3|58.461317492779784|
|   AM|  4|57.022381783221284|
|   AM|  5| 59.24582814596862|
|   AM|  6| 55.87654099607412|
|   AP|  2| 36.22448421052632|
|   AP|  3| 61.66444444444445|
|   AP|  4|            57.726|
|   AP|  5|119.95515789473684|
|   AP|  6|             130.0|
|   BA|  2| 59.79279370594653|
|   BA|  3| 59.27045894868731|
|   BA|  4|56.297327775734864|
|   BA|  5| 55.67084753542683|
|   BA|  6|51.951975840992944|
|   CE|  2|60.864588976873115|
|   CE|  3| 58.06980395858712|
|   CE|  4|57.438274946743064|
|   CE|  5| 60.16748033163073|
|   CE| 