* DATASET: Apresentar dados que ser√£o utilizados na solu√ßao.

* AN√ÅLISE: Planejar e gerar as an√°lises que ser√£o realizadas com os dados propostos em c√≥digo python.

* INSIGHT: Apresentar resultados (em forma de listagem e/ou gr√°fico) e gerar insights relacionados a solu√ß√£o proposta. Os insights dever√£o ser disponibilizados como coment√°rios no arquivo, logo ap√≥s o resultado. Considere que os insights precisam ser bem compreendidos. Portanto, explique bem seus insights.
 

In [0]:
from pyspark.sql.functions import *
from pyspark.sql.types import DateType
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns

In [0]:
df_ota_bus_ticket_sales = spark.table("bus.bronze.ota_bus_ticket_sales")

df_ota_bus_ticket_sales = df_ota_bus_ticket_sales.withColumn("year_purchase", year(col("date_purchase"))) \
                   .withColumn("month_purchase", month(col("date_purchase"))) \
                   .withColumn("day_of_week_purchase", dayofweek(col("date_purchase")))

In [0]:
print("Informa√ß√µes gerais:")
df_ota_bus_ticket_sales.printSchema()

### Estat√≠sticas Descritivas
- GMV m√©dio: R$ 275 (faixa entre R$ 52 e R$ 500)  
- Tickets por compra: m√©dia de 3 (m√°x: 5)  
- Per√≠odo de dados: 2020‚Äì2025, foco em 2022‚Äì2023

In [0]:
print("\nEstat√≠sticas descritivas:")
display(df_ota_bus_ticket_sales.describe())

### Distribui√ß√£o dos Valores de Compras (GMV)
-  Compras variam entre R$ 50 e R$ 500  
-  Distribui√ß√£o uniforme n√£o h√° concentra√ß√£o em faixas espec√≠ficas  
-  N√£o existem outliers extremos, garantindo consist√™ncia na base  


In [0]:
df_pandas = df_ota_bus_ticket_sales.select("gmv_success").toPandas()
plt.figure(figsize=(10, 5))
sns.histplot(df_pandas["gmv_success"])
plt.xlabel("Valor das compras R$")
plt.ylabel("Frequ√™ncia de compras")
plt.title("Distribui√ß√£o dos valores de compras")
display(plt.gcf())
plt.clf()

### Distribui√ß√£o dos Valores M√©dios por Passagem
- Maioria das passagens custa entre R$ 70 e R$ 120
- Forte concentra√ß√£o em valores baixos  passagens populares e curtas  
- Existe uma cauda longa at√© R$ 500, mas s√£o casos menos frequentes  


In [0]:
# converti para pandas com GMV e quantidade de tickets
df_pandas = df_ota_bus_ticket_sales.select(
    "gmv_success", "total_tickets_quantity_success"
).toPandas()

# creie uma nova coluna para o valor m√©dio das passagens
df_pandas["valor_por_ticket"] = (
    df_pandas["gmv_success"] / df_pandas["total_tickets_quantity_success"]
)

# plot do histograma usando valor m√©dio por ticket
plt.figure(figsize=(10, 5))
sns.histplot(df_pandas["valor_por_ticket"], bins=40, kde=False)

plt.xlabel("Valor m√©dio por passagem (R$)")
plt.ylabel("Frequ√™ncia de tickets")
plt.title("Distribui√ß√£o dos valores m√©dios por passagem")
display(plt.gcf())
plt.clf()


### Valor M√©dio por Passagem (por cliente)
-  A maior parte dos clientes paga entre **R$ 70 e R$ 120** por passagem.   
-  Poucos clientes ultrapassam **R$ 150**, indicando que passagens mais caras s√£o exce√ß√£o.  
-  Isso refor√ßa que o mercado √© dominado por bilhetes de baixo a m√©dio valor.  


In [0]:
from pyspark.sql.functions import col

# Agrupar por cliente (CPF ou ID do contato)
clientes_1 = df_ota_bus_ticket_sales.groupby("fk_contact").agg({
    "gmv_success": "sum",                    
    "total_tickets_quantity_success": "sum" 
})

# Criar a m√©trica: valor gasto m√©dio por ticket
clientes_1 = clientes_1.withColumn(
    "valor_por_ticket",
    col("sum(gmv_success)") / col("sum(total_tickets_quantity_success)")
)

# Visualizar amostra
display(clientes_1)

In [0]:
import matplotlib.pyplot as plt
import seaborn as sns

pdf = clientes_1.select("valor_por_ticket").toPandas()

plt.figure(figsize=(10,5))
sns.histplot(pdf["valor_por_ticket"], bins=40, kde=False)
plt.xlabel("Valor m√©dio por passagem (R$)")
plt.ylabel("Qtd de clientes")
plt.title("Distribui√ß√£o do valor m√©dio por passagem (por cliente)")
plt.tight_layout()
display(plt.gcf()); plt.clf()


### Top Destinos Mais Procurados
-  Destinos com maior demanda: **Cuiab√°, Teresina, Goi√¢nia, Bras√≠lia e Rio de Janeiro**  
-  Forte presen√ßa de **capitais regionais** al√©m das grandes metr√≥poles (SP, RJ)  
-  Indica que a procura n√£o est√° centralizada s√≥ em grandes hubs, mas espalhada pelo Brasil  


In [0]:
top_destinos = df_ota_bus_ticket_sales.groupBy("place_destination_departure").count().orderBy(col("count").desc())
top_destinos_pandas = top_destinos.toPandas()
plt.figure(figsize=(10, 5))
sns.barplot(x=top_destinos_pandas["count"], y=top_destinos_pandas["place_destination_departure"])
plt.title("Top destinos mais procurados")
display(plt.gcf())
plt.clf()

### GMV Total por Cidade (Destinos Mais Rent√°veis)
- **Destinos l√≠deres em faturamento:** Salvador, Cuiab√°, Goi√¢nia, Porto Alegre e Bras√≠lia  
-  Esses destinos se destacam n√£o apenas pelo volume, mas tamb√©m pelo **valor agregado das passagens**  
-  Nem sempre os destinos mais procurados s√£o os mais rent√°veis. Aqui vemos equil√≠brio entre demanda e ticket m√©dio  


In [0]:
from pyspark.sql import functions as F

# GMV total por cidade
gmv_por_cidade = (
    df_ota_bus_ticket_sales
    .groupBy("place_destination_departure")
    .agg(F.sum("gmv_success").alias("gmv_total"))
    .orderBy(F.col("gmv_total").desc()) 
)
display(gmv_por_cidade)

Databricks visualization. Run in Databricks to view.

### Top Destinos Mais Procurados (por Tickets)
-  Cuiab√°, Teresina, Rio de Janeiro e Bras√≠lia lideram em volume de passagens emitidas  
-  H√° forte presen√ßa de **capitais regionais**, n√£o apenas grandes metr√≥poles  
-  Isso sugere que a demanda n√£o est√° concentrada apenas nos grandes hubs (SP e RJ), mas bem distribu√≠da em cidades m√©dias e destinos tur√≠sticos  


In [0]:
# Agregar destinos com contagem de compras e tickets
agg_destinos = (
    df_ota_bus_ticket_sales
    .groupBy("place_destination_departure")
    .agg(
        F.count("*").alias("compras_total"),
        F.sum("total_tickets_quantity_success").alias("tickets_total"),
        F.sum("gmv_success").alias("gmv_total")
    )
)

# Top mais procurados
mais_procurados = agg_destinos.orderBy(F.col("tickets_total").desc())

# Top menos procurados
menos_procurados = agg_destinos.orderBy(F.col("tickets_total").asc())


In [0]:
pdf_mais = mais_procurados.toPandas()
pdf_menos = menos_procurados.toPandas()

# --- Mais procurados
plt.figure(figsize=(10,6))
sns.barplot(data=pdf_mais, x="tickets_total", y="place_destination_departure", palette="Blues_d")
plt.title("Top Procuras (por tickets)")
plt.xlabel("Total de tickets")
plt.ylabel("Destino")
plt.tight_layout()
display(plt.gcf())
plt.clf()

In [0]:
%sql
select
  date_purchase,
  place_destination_departure,
  count(distinct nk_ota_localizer_id) as qtd,
  sum(gmv_success) as gmv_success
from
  bus.gold.ota_bus_ticket_sales
group by
  all
order by
  qtd desc;


Databricks visualization. Run in Databricks to view.

### Quantidade de compra por cliente
- Esse resultado mostra clientes de maior recorr√™ncia em destinos espec√≠ficos. Alguns clientes compram v√°rias vezes para a mesma cidade, representando um padr√£o de lealdade de viagem. Isso √© estrat√©gico para segmenta√ß√£o de marketing e campanhas de reten√ß√£o.

In [0]:
%sql
select
  fk_contact,
  place_destination_departure,
  count(distinct nk_ota_localizer_id) as qtd,
  sum(gmv_success) as gmv_success
from
  bus.gold.ota_bus_ticket_sales
group by
  all
order by
  qtd desc;

## üìä An√°lise dos Clusters de Clientes (Frequ√™ncia x Gasto)

### Resumo dos Perfis Identificados

| Cluster | Perfil de Cliente | Caracter√≠sticas | Estrat√©gia Recomendada |
|---------|------------------|-----------------|------------------------|
| üîµ **Cluster 0** | Frequentes de Baixo/M√©dio Valor | ~7 compras em m√©dia, gasto total ~R$ 360, rec√™ncia alta (~200 dias) | Monitorar churn ‚Üí campanhas de reativa√ß√£o com descontos e ofertas simples |
| üü† **Cluster 1** | Premium (Alta Frequ√™ncia e Gasto) | ~13 compras, gasto m√©dio mais alto (~R$ 470), rec√™ncia baixa (~128 dias) | Fideliza√ß√£o ‚Üí programas VIP, benef√≠cios exclusivos e cross-sell |
| üü¢ **Cluster 2** | Ex-Bons Clientes / Inativos | ~8 compras, gasto m√©dio ~R$ 456, rec√™ncia muito alta (~583 dias) | Recupera√ß√£o ‚Üí campanhas segmentadas, e-mails de ‚Äúvolte a viajar‚Äù |
| üî¥ **Cluster 3** | Intermedi√°rios Ativos | ~8 compras, gasto m√©dio ~R$ 467, rec√™ncia baixa (~136 dias) | Est√≠mulo de Crescimento ‚Üí promo√ß√µes personalizadas para aumentar frequ√™ncia e ticket m√©dio |

---

### ‚úÖ Insight Final
- O **Cluster 1 (Premium)** √© o grupo mais valioso ‚Üí prioridade para reten√ß√£o.  
- O **Cluster 2 (Inativos)** traz oportunidade de reativa√ß√£o ‚Üí clientes j√° provaram valor.  
- O **Cluster 0 (Frequentes de baixo gasto)** garantem volume, mas n√£o receita ‚Üí foco em upsell.  
- O **Cluster 3 (Intermedi√°rios)** ainda ativos ‚Üí grande potencial de evolu√ß√£o com incentivos.  


In [0]:
from pyspark.sql.functions import max, count, col, lit, datediff

clientes = df_ota_bus_ticket_sales.groupBy("fk_contact").agg(
    max("gmv_success").alias("total_gasto"),
    count("nk_ota_localizer_id").alias("qtd_compras"),
    max("date_purchase").alias("ultima_compra")
)

max_date = df_ota_bus_ticket_sales.select(
    max("date_purchase")
).collect()[0][0]

clientes = clientes.withColumn(
    "recencia",
    datediff(
        lit(max_date),
        col("ultima_compra")
    )
)

rfm = clientes.select(
    "recencia",
    "qtd_compras",
    "total_gasto"
).toPandas()

rfm_norm = (rfm - rfm.min()) / (rfm.max() - rfm.min())

In [0]:
kmeans = KMeans(n_clusters=4, random_state=42)
rfm["cluster"] = kmeans.fit_predict(rfm_norm)

plt.figure(figsize=(10, 5))
sns.scatterplot(data=rfm, x="qtd_compras", y="total_gasto", hue="cluster", palette="tab10")

plt.title("Clusteriza√ß√£o de Clientes (Frequ√™ncia x Gasto)")
display(plt.gcf())
plt.clf()

rfm["fk_contact"] = clientes.select("fk_contact").toPandas()
print("\nResumo dos clusters:")
rfm_grouped = rfm.groupby("cluster").agg({
    "qtd_compras": "mean",
    "total_gasto": "mean",
    "recencia": "mean",
    "fk_contact": "count"
})
display(rfm_grouped)