##üîπGr√°fico de Pareto Usando o Dashboard IA/BI da Databricksüîπ

Voc√™ j√° ouviu falar da Lei de Pareto? ü§î Tamb√©m conhecida como a regra 80/20, ela afirma que **80% dos resultados v√™m de 20% das causas**. Isso √© um divisor de √°guas no mundo dos neg√≥cios, ajudando a identificar onde est√° o maior impacto e permitindo focar esfor√ßos no que realmente importa.

<img src="Pareto Regra.png" alt="Descri√ß√£o da imagem" width="300">

**üí° No meu caso:** Utilizei o **Databricks** para criar um **gr√°fico de Pareto**, analisando as vendas por empresa e descobrindo quais delas comp√µem os 80% do volume de vendas. Vou te mostrar agora o passo a passo dessa constru√ß√£o e as t√©cnicas aplicadas, com destaque para o uso de **Window Functions**. üöÄ

---
### **Passo a Passo da Query üîç**
#### **1Ô∏è‚É£ Agrega√ß√£o das Vendas Totais**
Primeiro, agrupei as vendas totais de cada loja em um CTE chamado `TotalVendas`:
```
WITH TotalVendas AS (
    SELECT
        empresa,
        SUM(valor_vendas) AS total_vendas
    FROM workshop.gold.notas
    WHERE DATE(dt_referencia) BETWEEN '{{dt_referencia.start}}' AND '{{dt_referencia.end}}'
    GROUP BY empresa
),
```
#### **üîé O que fiz aqui:**

* **Agrupei os dados:** Totalizei as vendas por empresa no intervalo de datas fornecido.
* Esse √© o **primeiro passo** para identificar quais empresas mais contribuem para o volume total.
---

#### **2Ô∏è‚É£ Ordena√ß√£o e Ranking das Lojas**
Em seguida, apliquei o CTE `RankedVendas` para ordenar as empresas e calcular valores percentuais e acumulados:
```
RankedVendas AS (
    SELECT
        empresa,
        total_vendas,
        RANK() OVER (ORDER BY total_vendas DESC) AS rank,
        total_vendas / SUM(total_vendas) OVER () AS pct_total,
        SUM(total_vendas) OVER (ORDER BY total_vendas DESC) AS vendas_acumuladas
    FROM TotalVendas
),
```
#### **üîé T√©cnicas utilizadas:**

* **RANK():** Classifiquei as empresas pelo volume total de vendas.
* **% de Contribui√ß√£o (pct_total):** Identifiquei a participa√ß√£o percentual de cada empresa.
* **Vendas Acumuladas:** Somei os valores de forma acumulativa.
---

#### **3Ô∏è‚É£ C√°lculo da Porcentagem Acumulada**
No CTE `PctAcumulado`, calculei a porcentagem acumulada das vendas:
```
PctAcumulado AS (
    SELECT
        *,
        vendas_acumuladas / SUM(total_vendas) OVER () AS pct_acumulado
    FROM RankedVendas
)
```
#### **üîé Aqui, respondi:**

- **Quem comp√µe os 80%?** A porcentagem acumulada identifica as empresas que mais impactam o volume total.
---

#### **4Ô∏è‚É£ Sele√ß√£o Final e Filtro de Pareto**
Por fim, filtrei as empresas que comp√µem os **80% iniciais** das vendas:
```
SELECT
    empresa,
    ROUND(total_vendas, 0) AS total_vendas,
    ROUND(pct_acumulado * 100, 2) AS pct_acumulado
FROM PctAcumulado
WHERE IF(pct_acumulado <= 0.8, 'S', 'N') IN ({{flag_pareto}})
ORDER BY pct_acumulado
LIMIT {{top}}
```
#### **üîé Finalizando:**

* **Filtro Pareto:** Seleciona apenas as empresas dentro dos 80% do total acumulado.
* **Exibi√ß√£o:** Limitei os resultados para mostrar apenas as lojas relevantes.
---

#### **Resultado Final üéØ**
* **1Ô∏è‚É£ Query Resultante:**
Aqui est√° a query completa que consolidou todas as etapas.
```
WITH TotalVendas AS (
    SELECT
        empresa,
        SUM(valor_vendas) AS total_vendas
    FROM workshop.gold.notas
    WHERE DATE(dt_referencia) BETWEEN '{{dt_referencia.start}}' AND '{{dt_referencia.end}}'
    GROUP BY empresa
),

RankedVendas AS (
    SELECT
        empresa,
        total_vendas,
        RANK() OVER (ORDER BY total_vendas DESC) AS rank,
        total_vendas / SUM(total_vendas) OVER () AS pct_total,
        SUM(total_vendas) OVER (ORDER BY total_vendas DESC) AS vendas_acumuladas
    FROM TotalVendas
),

PctAcumulado AS (
    SELECT
        *,
        vendas_acumuladas / SUM(total_vendas) OVER () AS pct_acumulado
    FROM RankedVendas
)

SELECT
    empresa,
    ROUND(total_vendas, 0) AS total_vendas,
    ROUND(pct_acumulado * 100, 2) AS pct_acumulado
FROM PctAcumulado
WHERE IF(pct_acumulado <= 0.8, 'S', 'N') IN ({{flag_pareto}})
ORDER BY pct_acumulado
LIMIT {{top}}
```

* **2Ô∏è‚É£ Gr√°fico Interativo:**
O gr√°fico criado no **Databricks** permite a visualiza√ß√£o interativa dos resultados, com filtros ajust√°veis por par√¢metros. üñ•Ô∏èüìä

**Resultado das Querys:**

<img src="Pareto Resultado.png" alt="Descri√ß√£o da imagem" width="1000">

**Aplica√ß√£o em um dashboard exemplo:**

<img src="Exemplo aplica√ß√£o pareto.png" alt="Descri√ß√£o da imagem" width="1000">

* **3Ô∏è‚É£ Demonstra√ß√£o em V√≠deo:**
Confira o v√≠deo explorando o gr√°fico e extraindo **insights valiosos** dos dados.
üëâ [Assista agora!](https://drive.google.com/file/d/1qAPaVoK7i7NGY1UPA7cdtuhNZd_aJK_G/view?usp=drive_link)

---

#### **Conclus√£o üí°**
Este gr√°fico de Pareto no **Databricks** √© uma poderosa ferramenta para identificar **onde concentrar esfor√ßos** e entender quais clientes ou empresas fazem a diferen√ßa no resultado.

**üìåRecursos e T√©cnicas Utilizados:**

- **Conceito da Lei de Pareto (Regra 80/20):** Para priorizar os itens de maior impacto.
- **Fun√ß√µes SQL Aplicadas:**
    - **Window Functions:** Para calcular rankings, porcentagens e valores acumulados.
    - **RANK() e OVER():** Para criar rankings e acumular vendas em ordem decrescente.
    - **WITH():** Para organizar a query em etapas claras e reutiliz√°veis.
    - **Par√¢metros Din√¢micos ({{parametro_filtro}}):** Para flexibilidade nos filtros e configura√ß√µes do dashboard.

Espero que este conte√∫do seja √∫til e inspire suas pr√≥ximas an√°lises!üòâ