
# Engenharia do Lucro: Pipeline de Dados ETL para Marketing Inteligente em Lavanderia Self-Service

Curso: P√≥s-gradua√ß√£o Lato Sensu em Data Science & Analytics (PUC-Rio) </br>
Aluna: **Isabela Costa Ferreira da Silva**</br>
Matr√≠cula: 


## 1Ô∏è‚É£ Objetivo

Este MVP tem como objetivo construir o **pipeline de dados** para analisar o comportamento de consumo dos usu√°rios de uma lavanderia self-service, onde o cliente realiza todos os servi√ßos de forma aut√¥noma, desde o cadastro, pagamento, uso das m√°quinas, at√© a dobradura das suas pr√≥prias roupas. 




 




**Contexto de neg√≥cio**

Antes de prover qualquer insight ou an√°lise, √© preciso que o dado passe por diversas etapas. Nosso intuito √©, portanto, extrair, transformar e carregar os dados referentes algumas das an√°lises que fazem parte da nossa rotina para aumentar a lucratividade atrav√©s de **campanhas de marketing mais eficazes**!





Logo, responderemos √†s seguintes <a name="perguntas">perguntas de neg√≥cio</a> durante a nossa trajet√≥ria:

- qual o **ticket m√©dio** do clientes, ou seja, qual a m√©dia de consumo mensal em reais;
- m√©trica de **_ROAS_** (retorno sobre an√∫ncios pagos) para entender se estamos tendo lucro ou preju√≠zo com esse investimento.
- saber quem s√£o os **top 20 clientes** que mais consomem para que possamos engaj√°-los com programas de fidelidade e at√© premia√ß√µes;
- total de **novos usu√°rios** adquiridos por m√™s para acompanhar a efic√°cia das campanhas e enxergar se h√° outliers e o porqu√™ dos mesmos.

**Etapas**

Utilizamos a **arquitetura medalh√£o** como boa pr√°tica neste trabalho, de forma que o fluxo e qualidade de dados v√° progredindo ao longo das etapas descritas a seguir. 

O presente trabalho teve as seguintes etapas:

 1 - download das tabelas do sistema ERP; </br>

 2 - _Mascaramos_ os dados sens√≠veis [aqui](https://github.com/isabelacfs/MVP_Data_Engineering/blob/main/faker_mvp_engenharia.ipynb) neste notebook;</br>

 3 - Armazenamos as tabelas (raw) em volumes do pr√≥prio Databricks;</br>

 4 - ü•â Realizamos a ingest√£o e carga dos dados na camada **bronze**;

 5 - ü•à Fizemos limpezas necess√°rias, transforma√ß√µes, _joins_ e persistimos na camada **prata**;

 6 - ü•á Na camada **ouro**, temos a nossa _Analytic Base Table - ABT_ para responder √†s [perguntas de neg√≥cio](#perguntas) estabelecidas;
 
 7 - Procedemos √† visualiza√ß√£o dos dados com as principais m√©tricas de neg√≥cio √† m√£o.


## 2Ô∏è‚É£ Sobre os Dados

**Fonte de dados e coleta**

A fonte de dados foram obtidas atrav√©s dos sistemas de telemetria, que s√£o por sua vez, armazenados na nuvem. O dado original foi mascarado para manter a confidencialidade, mas a estrutura original de tabelas e atributos foram mantidos, que s√£o: cadastro de clientes e consumo mensal dos clientes.

- Tabela `consumo_cliente`: √© a tabela fato, onde cada linha representa o consumo de um √∫nico usu√°rio; 
- Tabela `cadastro_cliente`: como o pr√≥prio nome j√° diz, cont√©m os dados pessoais que o cliente fornece.

**Modelagem**

Entre elas existe a rela√ß√£o 1:N, ou seja, um √∫nico usu√°rio cadastrado pode ter diversas inst√¢ncias na tabela de consumo, o que nos possibilita realizar joins e formar um "_tabel√£o_" nas etapas seguintes que responder√£o a essas e outras perguntas de neg√≥cio e tamb√©m fornecer√£o insumos para o nosso _Dashboard_.

(Link do diagrama no reposit√≥rio do [Github](https://github.com/isabelacfs/MVP_Data_Engineering/blob/5b03bc842b5348c8d956d53491869b0f4196dfed/modelagem_de_dados.png))


![modelagem](/Volumes/mvp_catalog/mvp_schema/volumes/modelagem_de_dados.png)



**Cat√°logo de dados**

Tabela **`cadastro_cliente`**: cont√©m os dados pessoais de todos os usu√°rios do servi√ßo e cada inst√¢ncia corresponde a um usu√°rio espec√≠fico no sistema.</br>


<table tabindex="0">
<thead>
<tr>
<th>Campo</th>
<th>Descri√ß√£o</th>
<th>Datatype</th>
<th>Tamanho</th>
<th>Valores poss√≠veis</th>
<th>Chave estrangeira</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>nome_cliente</code></td>
<td>nome completo do usu√°rio e deve conter pelo menos o primeiro nome</td>
<td>string</td>
<td>200</td>
<td></td>
<td>-</td>
</tr>
<tr>
<td><code>id_cliente</code></td>
<td>Sequ√™ncia de caracteres do tipo inteiro e cont√©m o documento do cliente, √© a chave prim√°ria (PK) da tabela.</td>
<td>integer</td>
<td>6</td>
<td>Identificadores √∫nicos, ex.: 101804</td>
<td></td>
</tr>
<tr>
<td><code>telefone</code></td>
<td>n√∫mero de telefone do usu√°rio com DDD</td>
<td>string</td>
<td>50</td>
<td>-</td>
<td>-</td>
</tr>
<tr>
<td><code>dt_registro</code></td>
<td> data em que o usu√°rio se cadastra no sistema</td>
<td>date</td>
<td>10</td>
<td>datas no formato 'aaaa-mm-dd hh:mm:ss', ex.: 2024-07-22 11:46:35</td>
<td></td>
</tr>
<tr>
<td><code>dt_nascimento</code></td>
<td>data de nascimento do usu√°rio.</td>
<td>date</td>
<td>10</td>
<td>datas no formato 'aaaa-mm-dd hh:mm:ss', ex.:1976-06-29</td>
<td></td>
</tr>
</tbody>
</table>





Tabela **`consumo_diario`**: cada inst√¢ncia dessa tabela corresponde ao consumo por per√≠odo (ano-m√™s) de cada usu√°rio cadastrado no sistema.

<table tabindex="1">
<thead>
<tr>
<th>Campo</th>
<th>Descri√ß√£o</th>
<th>Datatype</th>
<th>Tamanho</th>
<th>Valores poss√≠veis</th>
<th>Chave estrangeira</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>id_cliente</code></td>
<td>chave estrangeira do tipo inteiro e identifica do cliente que realizou o consumo</td>
<td>string</td>
<td>200</td>
<td>-</td>
<td><code>cadastro_cliente.id_cliente</code></td>
</tr>
<tr>
<td><code>valor_compras</code></td>
<td> √© o somat√≥rio de valor (em reais) de todas as compras realizadas pelos clientes no m√™s</td>
<td>float</td>
<td></td>
<td>ex.: 0.10, 19.09, 560.00</td>
<td>-</td>
</tr>
<tr>
<td><code>qtde_compras</code></td>
<td>√© o somat√≥rio de ciclos feitos pelo clientes no m√™s</td>
<td>integer</td>
<td></td>
<td>ex.: 0, 1, 2, 3, etc.</td>
<td>-</td>
</tr>
<tr>
<td><code>periodo_consumo</code></td>
<td>√â o m√™s e ano de consumo</td>
<td>date</td>
<td>9</td>
<td>datas no formato 'aaaa-mm', ex.: 2022-04</td>
<td>-</td>
</tr>
</tbody>
</table>


##3Ô∏è‚É£ Implementa√ß√£o


In [0]:
%sql
-- deletamos os bancos de dados, por precau√ß√£o, caso existam, para depois criar novos esquema seguindo a arquitetura medalh√£o
DROP DATABASE IF EXISTS bronze CASCADE;
DROP DATABASE IF EXISTS silver CASCADE;
DROP DATABASE IF EXISTS gold CASCADE;

CREATE SCHEMA IF NOT EXISTS silver COMMENT 'Cria o schema silver';
CREATE SCHEMA IF NOT EXISTS gold COMMENT 'Cria o schema gold';
CREATE SCHEMA IF NOT EXISTS bronze COMMENT 'Cria o schema bronze';


### ü•â Bronze | Ingest√£o e Carga

Fizemos a ingest√£o manual em um volume do cat√°logo e depois persistimos os dados, mesmo brutos, na cama bronze, como mostrado abaixo.

Primeiro, vamos realizar a importa√ß√£o da biblioteca pandas de manipual√ß√£o e an√°lise de dados do python e carregamos os dados que foram armazenados nos volumes do Databricks.

In [0]:
# importa√ß√£o das bibliotecas para an√°lise de dados pandas e pyspark que utilizamos para persistir os dados
import pandas as pd
from pyspark.sql import SparkSession
import matplotlib.pyplot as plt

In [0]:
# inicia sess√£o pyspark
# Inicializa Spark Session
spark = SparkSession.builder.appName("lavanderia").getOrCreate()

# definindo o caminho dos arquivos do volume
CONSUMO= '/Volumes/mvp_catalog/mvp_schema/volumes/consumo_clientes.csv'
CLIENTES = '/Volumes/mvp_catalog/mvp_schema/volumes/cadastro_clientes.csv'

# L√™ os arquivos e cria os DataFrames
consumo_clientes = pd.read_csv(CONSUMO, index_col=False)
cadastro_clientes = pd.read_csv(CLIENTES, index_col=False)



In [0]:
cadastro_clientes.shape[0]

In [0]:
# checando ocorr√™ncia de dados nulos
print('\n Dados nulos Percentual na tabela consumo_clientes \n', round(consumo_clientes.isnull().sum()/consumo_clientes.shape[0],2))
print('\n Dados nulos Percentual na tabela cadastro_clientes \n', round(cadastro_clientes.isnull().sum()/cadastro_clientes.shape[0],2))

39% das datas de nascimento encontram-se nulas! 

Abaixo vamos dar uma olhada como se apresentam esses dados e informar que o sistema pode estar ou permitindo a inser√ß√£o de datas sem valida√ß√£o de data ou que os mesmos foram corrompidos.

In [0]:
cadastro_clientes.loc[cadastro_clientes['dt_nascimento'].isnull()]

Vamos checar se existe um m√™s espec√≠fico em que se registram datas de nascimento corrompidas. Assim poderemos ter uma pista do que aconteceu, se foram inseridas de prop√≥sito ou se "quebraram" devido a alguma atualiza√ß√£o no sistema que guarda as informa√ß√µes. 

In [0]:
cadastro_clientes.info()

In [0]:
# transformar datas de nascimento e de registro em campos de data
cadastro_clientes['dt_nascimento'] = pd.to_datetime(cadastro_clientes['dt_nascimento'], format='%Y-%m-%d')
cadastro_clientes['dt_registro'] = pd.to_datetime(cadastro_clientes['dt_registro'])

In [0]:
# calcular ocorr√™ncias de datas de nascimento corrompidas por per√≠odo de registro
cadastro_clientes.loc[cadastro_clientes['dt_nascimento'].isnull()]['dt_registro'].dt.to_period('M').value_counts()


Aparentemente as datas de nascimento foram muito mais corrompidas entre janeiro e agosto de 2025. O que nos aponta alguma atualiaza√ß√£o ou nos campos de input do sistema ou no banco de dados da fonte e, ao que aparenta, os erros come√ßaram a diminuir a partir de setembro. De fato √© algo a ser apontado para o ERP respons√°vel. 

**Outlier no valor de compras**

Percebemos que em alguma situa√ß√µes os clientes em determinados per√≠odos consomem muito mais, muito al√©m da m√©dia. Mas n√£o √© nenhuma surpresa dados os per√≠odos em que o clima e o n√∫mero de pessoas circulando na cidade movimenta a economia local.

In [0]:
consumo_clientes.groupby(['id_cliente', 'periodo_consumo']).sum()['valor_compras'].plot.box(label='Valor de Compras por Cliente por Per√≠odo')

In [0]:
# Vamos criar o dataframe spark a partir dos dataframes pandas
spk_cli = spark.createDataFrame(cadastro_clientes)
spk_con = spark.createDataFrame(consumo_clientes)

# Agora iremos persistir os dataframes na camada bronze
spk_cli.write.mode('overwrite').saveAsTable('bronze.clientes')
spk_con.write.mode('overwrite').saveAsTable('bronze.consumo')

### ü•à Prata | Transforma√ß√µes
**Transforma√ß√£o**

Para realizar este trabalho, antes vamos fazer transforma√ß√µes nos dados que v√™m da camada bronze, realizar o cruzamento das tabelas `cadastro_cliente` e `consumo_cliente` atrav√©s da chave-prim√°ria do cliente (`id`) atrav√©s de um join. 

In [0]:
# Carregar a tabela clientes do esquema bronze em um DataFrame Spark
cadastro_clientes = spark.table('bronze.clientes').toPandas()

# Fazer o mesmo para a tabela consumo
consumo_clientes = spark.table('bronze.consumo').toPandas()

Transformamos o per√≠odo de consumo para string para facilitar a filtragem posteriormente, uma vez que o PySpark n√£o d√° suporte ao tipo "period" do Pandas, transformando-o para Inteiro. Decidimos por este motivo transformar para string para que possamos realizar filtros posterioremnte.

In [0]:
# transformar per√≠odo de consumo do cliente para string
consumo_clientes['periodo_consumo'] = consumo_clientes['periodo_consumo'].astype(str)

In [0]:
# vamos dar uma olhada num profile geral das duas tabelas
consumo_clientes.describe()


In [0]:
cadastro_clientes.describe()

A tabela consumo apresenta valores normais, sendo 4582 linhas ao todo. 

Embora o **valor m√°ximo** do atributo valor_compras seja 698 (muito al√©m da m√©dia, n√£o √© considerado anormalidade para o modelo de neg√≥cio, uma vez que cada linha de consumo se refere a um total gasto por um cliente no m√™s e n√£o uma compra em si. Faz sentido, portanto, esse dado. 

Quanto ao **valor m√≠nimo** zero no atributo `valor_compras`, tamb√©m √© perfeitamente normal, uma vez que alguns usu√°rios realizam opera√ß√µes com cupons de desconto ou utilizar saldo remanescente em sua conta e assim n√£o contabilizam os valores em reais nestes casos. 

Como podemos ver, **n√£o faz sentido calcular estat√≠sticas** para o atributo `id_cliente` e por isso iremos transform√°-lo para string ao inv√©s de inteiro. 

Os **n√∫meros de telefones** tamb√©m ser√£o limpos, excluindo caracteres especiais e deixando apenas d√≠gitos pois, podemos precisar futuramente subir essas listas em ferramentas de marketing pra envio de promo√ß√µes pelo Whatsapp.

In [0]:
# transformar para string os ids de clientes
cadastro_clientes['id_cliente'] = cadastro_clientes['id_cliente'].astype(str)
consumo_clientes['id_cliente'] = consumo_clientes['id_cliente'].astype(str)

In [0]:
# tranformar o n√∫mero de telefone em d√≠gitos apenas
cadastro_clientes['telefone'] = cadastro_clientes['telefone'].str.replace(r'\D', '', regex=True)

#### Qualidade dos dados

A qualidade dos dados est√° boa e as tabelas ser√£o persitidas na pr√≥xima camada!

**Join**

A seguir realizaremos os joins necess√°rios para proceder √†s an√°lises que propusemos.

A nossa _'analytic base table'_, ou ABT, seguir√° a tradi√ß√£o dos analistas de dados e se chamar√° **TABEL√ÉO** e ser√° a base para respondermos √†s perguntas que propusemos inicialmente na sess√£o de objetivos. 

In [0]:
# criando o tabel√£o completo com merge, equivale a join
tabelao = pd.merge(consumo_clientes, cadastro_clientes, on='id_cliente', how='left')

In [0]:
# Vamos criar o dataframes spark a partir dos dataframes pandas e persistir na camada silver
spark.createDataFrame(tabelao).write.mode('overwrite').saveAsTable('silver.tabelao')

### ü•á Ouro | An√°lises
Nesta se√ß√£o iremos come√ßar a responder √†s perguntas de neg√≥cio e se necess√°rio faremos transformar nos dados! Deixaremos os dados prontos para visualiza√ß√£o no Dashboard.


In [0]:
# primeiro vamos carregar como dataframes spark os dados da tabela silver.tabelao
tabelao = spark.table('silver.tabelao').toPandas()



#### Top 20 Clientes

Listar os top 20 clientes que mais consomem para que possamos entrar contato para ofertar brindes e programas de acesso VIP.

In [0]:
tabelao.groupby(['id_cliente', 'nome_cliente', 'telefone'])['valor_compras'].sum().reset_index().sort_values('valor_compras', ascending=False).head(20)

#### Ticket m√©dio
M√©dia de valores em lavagens e secagenes que os clientes fazem mensalmente.

In [0]:
# Armazena nas vari√°veis o ticket m√©dio e depois arredonda para dois d√≠gitos
ticket_medio = round(tabelao['valor_compras'].mean(),2) 

# Mostra o resultado de ambos os c√°lculos
print(f'\n Ticket m√©dio R$ {ticket_medio}')


#### Total de novos usu√°rios

Total de novos usu√°rios adquiridos mensalmente.

In [0]:
# criar atributo m√™s de registro com data de registro transformada para periodo ano-m√™s
tabelao['mes_registro'] = pd.to_datetime(tabelao['dt_registro']).dt.to_period('M')

# contar usuarios registrados num m√™s-ano e armazena os resultados num dataframe
usuarios_novos= tabelao.groupby('mes_registro').agg({'id_cliente': 'count'}).reset_index()
display(usuarios_novos)

**Outliers na Aquisi√ß√£o de Clientes**

Existem meses em que tivemos um crescimento anormal de usu√°rios? Vamos plotar um boxplot para ver temos outliers! 

Como podemos ver abaixo, tivemos 3 casos em que ficou acima de 400, 500 e pr√≥ximo a 800 clientes. Enquanto a m√©dia √© 164, como podemos ver na an√°lise descritiva abaixo. Seria, portanto, ideal uma pesquisa mais aprofundada para entender se n√£o h√° erro de sistema ou se aconteceu algo de diferente nas campanhas de marketing, aumento de circula√ß√£o de pessoas ou meso per√≠odo de chuvas. 

In [0]:
usuarios_novos.describe()

In [0]:
# plotar boxplot para verificar outliers no n√∫mero de usu√°rios novos
display(usuarios_novos.boxplot(column='id_cliente'))

#### ROAS
Nesta se√ß√£o iremos fazer o c√°lculo do retorno sob o investimento em an√∫ncios. 

Premissa: para o c√°lculo vamos levar em considera√ß√£o que o investimento mensal em marketing √© de R$ 700

In [0]:
# calculando a receita obtida
receita = tabelao['valor_compras'].sum()


In [0]:
# calculando o investimento vezes a quantidade de meses
investimento = tabelao['periodo_consumo'].nunique() * 700

In [0]:
# calculo de roas
roas = (receita - investimento)/investimento
print(f'Para cada real investido em an√∫ncios nos retornou {roas:.2f} reais')

<p> Sem nenhuma revis√£o nos dados para o momento, iremos persistir os dados na camada Ouro e em seguida proceder a visualiza√ß√£o dos dados!

In [0]:
# persistir na camada ouro
spark.createDataFrame(tabelao).write.mode('overwrite').saveAsTable('gold.tabelao')

## 4Ô∏è‚É£ Visualiza√ß√£o de dados
O Dashboard com as principais m√©tricas agregadas e visualiza√ß√µes pertinentes ao neg√≥cio. 

[Link permanente do Dash](https://dbc-2563d7e1-8fb9.cloud.databricks.com/dashboardsv3/01f0d1498fc918069f84c4c40e2267da/published?o=2486147837534960)! 

![dashboard](/Volumes/mvp_catalog/mvp_schema/volumes/dashboard_mpv_png.png)

##  5Ô∏è‚É£ Autoavalia√ß√£o

**Atingimento dos objetivos** 

O principal objetivo deste trabalho foi atingido com sucesso, sendo um pipeline de dados para construir base s√≥lida para an√°lises e insights para campanhas de marketing a partir dos dados de cadastro e comportamento de consumo dos clientes. Conseguimos tamb√©m, preparamos os dados de forma que sejam visualizados, dando transpar√™ncia aos s√≥cios, facilitando integra√ß√£o de times de dados, vendas e marketing, al√©m de justificar financeiramente as iniciativas e investimentos neste sentido.

A rotina de tratar os dados j√° nos √© familiar, por√©m, este trabalho proporcionou melhorias na t√©cnica e aprofundamento ainda maior em rela√ß√£o √†s boas pr√°ticas em mat√©ria de engenharia de dados. 

**Dificuldades**

N√£o houve tanta dificuldade para implementar, mas foi preciso um cuidado especial em rela√ß√£o √† confidencialidade dos dados, antes de darmos in√≠cio de fato na implementa√ß√£o do presente trabalho.

**Trabalhos futuros**
- Com os dados j√° limpos e no padr√£o da camada ouro, √© poss√≠vel partir para outras an√°lises como An√°lise de Cohort com √™nfase na reten√ß√£o ou receita de cada safra; 
- An√°lise RFM para segmentar os clientes e setar as melhores campanhas para cada grupo com base na receita, frequ√™ncia de uso e monetiza√ß√£o, personalizando assim as campanhas, aumentando a probabilidade de resposta e ades√£o √†s mesmas. 
- Poderemos construir modelos que realizem a predi√ß√£o da receita (com base nessas e outras vari√°veis) a partir do investimentos em an√∫ncios pagos e setar com mais acur√°cia o mix √≥timo de m√≠dias mais eficaz,
- Al√©m disso, podemos prever atrav√©s da constru√ß√£o de modelos de machine learning, por exemplo, a demanda dos usu√°rios nos pr√≥ximos meses, prever aqueles que ir√£o abadonar o servi√ßo.

Todas essas informa√ß√µes apoiam as decis√µes de neg√≥cio e possibilitam a otimiza√ß√£o de recursos. 