
# CX Radar: Mapeando Experiências Urbanas  
## Além do NPS: Inteligência de Reclamações
---

### Introdução

Este projeto propõe uma abordagem analítica inovadora para entender a experiência do cliente em serviços urbanos, utilizando dados públicos de corridas de táxi como analogia. Através de métricas como tempo de viagem, tarifa, distância e índices derivados, buscamos identificar padrões que possam representar atritos na jornada do usuário.

Mais do que medir satisfação, o projeto avança para uma proposta de classificação entre filiais (simuladas por zonas de origem), considerando não apenas indicadores operacionais, mas também o contexto das reclamações registradas. A ideia é diferenciar falhas humanas de falhas sistêmicas, permitindo uma avaliação mais justa e estratégica da performance local.

Este estudo é um convite para repensar o papel da análise de dados na gestão da experiência — indo além do NPS, além dos dashboards genéricos, e mergulhando em uma leitura mais profunda e contextualizada do que realmente afeta o cliente.

---

### 🎯 1. Objetivo

Este notebook tem como objetivo analisar dados de corridas de táxi na cidade de Nova York para identificar padrões que possam impactar a experiência do cliente. Através de métricas como tempo de viagem, tarifa e distância, buscamos compreender como esses fatores influenciam a percepção de valor e satisfação.

---

### 🌍 2. Contexto

A experiência do cliente (CX) é um dos principais pilares de retenção e fidelização em serviços urbanos. No setor de mobilidade, fatores como tempo de espera, custo da corrida e localização influenciam diretamente a jornada do usuário. Este estudo utiliza dados públicos de corridas de táxi como analogia para mapear pontos de atrito e oportunidades de melhoria.

---

### 📦 3. Dataset
Utilizamos o conjunto de dados `samples.nyctaxi.trips`, disponível na plataforma Databricks Community Edition. O dataset contém registros de corridas de táxi em Nova York, incluindo informações como horário de embarque e desembarque, distância percorrida, valor da tarifa e localização de origem/destino.

---

### 🧪 4. Metodologia
As análises foram realizadas por meio de consultas SQL diretamente no notebook. As métricas foram agrupadas e visualizadas em gráficos interativos no dashboard `CX_Taxi_Insights`. A abordagem foi exploratória, com foco em identificar padrões que possam representar boas ou más experiências para o cliente. Também criamos métricas derivadas, como o índice de frustração, para enriquecer a análise.

---

### 🔍 5. Primeira Fase: Exploração de Métricas Individuais

- Tempo médio por hora
- Tarifa média por distância
- Índice de frustração
- Visualizações iniciais

📌 *Conclusão:* Identificamos padrões que sugerem atritos operacionais em horários e zonas específicas.

---

### 🧩 6. Segunda Fase: Classificação Simulada por Zona

- Racional: tratar zonas como filiais urbanas
- Indicadores escolhidos: tempo, tarifa, frustração, proporção de corridas caras
- Normalização e cálculo da nota final
- Visual: ranking por zona

📌 *Conclusão:* Algumas zonas apresentam notas abaixo de 6, indicando risco de insatisfação.

---

### 🚨 7. Achados Críticos

- Zonas com frustração elevada
- Tarifas desproporcionais
- Ineficiências operacionais

📌 *Recomendações:* Monitorar zonas críticas, revisar rotas e precificação, criar alertas preditivos.

---

### 📊 8. Simulação de Dashboard Corporativo

- Indicador principal (gauge ou rosca)
- Aba “Zonas em Alerta”
- Tabela com filtros e insights
- Slide executivo com resumo e recomendações

📌 *Objetivo:* Mostrar como a análise pode ser integrada a um dashboard usado por líderes e gerentes.

---

### 🧠 9. Reflexão Final

- Como análises exploratórias podem evoluir para modelos de decisão
- A importância de contextualizar dados operacionais com visão de cliente
- Potencial de replicação em ambientes reais (como Bemol)



###🕒 1. Tempo médio de viagem por hora

🔍 Pergunta
Quais horários do dia apresentam maior tempo médio de viagem, e como isso pode impactar a experiência do cliente?

🧠 Análise
Agrupamos as corridas por hora de embarque (tpep_pickup_datetime) e calculamos o tempo médio de viagem em minutos. Essa métrica revela os períodos do dia em que os deslocamentos são mais lentos, possivelmente devido a fatores como trânsito, demanda elevada ou disponibilidade de motoristas.

Os horários com maior tempo médio podem indicar janelas de atrito operacional, onde o cliente enfrenta uma jornada mais longa — o que pode gerar frustração, especialmente em corridas curtas ou com tarifa elevada. Esses insights são fundamentais para entender a dinâmica urbana e antecipar momentos críticos na experiência.

In [0]:
SELECT 
  HOUR(tpep_pickup_datetime) AS hora,
  AVG(DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime)) AS tempo_medio
FROM samples.nyctaxi.trips
GROUP BY hora
ORDER BY hora;


hora,tempo_medio
0,14.163758389261744
1,13.93193717277487
2,20.49438202247191
3,20.32467532467533
4,17.508
5,10.377272727272729
6,10.204210526315787
7,12.292134831460674
8,13.315942028985509
9,13.799808429118777


Databricks visualization. Run in Databricks to view.

## 2. Tarifa média por faixa de distância
### 🔍Pergunta
Clientes que fazem corridas curtas pagam mais proporcionalmente?

### 🧠 Análise
Agrupamos as corridas por distância arredondada e calculamos a tarifa média. Isso revela se há distorções na percepção de valor.

In [0]:
SELECT 
  ROUND(trip_distance, 0) AS faixa_distancia,
  AVG(fare_amount) AS tarifa_media
FROM samples.nyctaxi.trips
WHERE trip_distance > 0
GROUP BY faixa_distancia
ORDER BY faixa_distancia;


faixa_distancia,tarifa_media
0.0,4.393352144469526
1.0,6.568931702814951
2.0,10.0242954324587
3.0,13.313186813186814
4.0,16.147385103011093
5.0,19.13295719844358
6.0,21.47265625
7.0,24.135135135135137
8.0,26.25
9.0,29.175276752767527


Databricks visualization. Run in Databricks to view.

## 3. Zonas com maior tarifa média
### 🔍 Pergunta
Quais regiões têm tarifas mais altas?

### 🧠 Análise
Listamos as 5 zonas de origem com maior tarifa média. Essas áreas podem gerar insatisfação ou exigir atenção estratégica.

In [0]:
SELECT 
  pickup_zip,
  COUNT(*) AS total_corridas,
  AVG(fare_amount) AS tarifa_media
FROM samples.nyctaxi.trips
GROUP BY pickup_zip
ORDER BY tarifa_media DESC
LIMIT 5;


pickup_zip,total_corridas,tarifa_media
8876,1,260.0
7974,1,188.0
7310,1,105.0
7114,1,105.0
7311,1,60.0


Databricks visualization. Run in Databricks to view.

##  4. Tempo total da corrida
### 🔍 Pergunta
Qual é o tempo médio total das corridas?

### 🧠 Análise
Essa métrica mostra a duração média das corridas, útil para entender a agilidade do serviço.

In [0]:
SELECT 
  AVG(DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime)) AS tempo_medio_corrida
FROM samples.nyctaxi.trips;


tempo_medio_corrida
14.62725697610797


Databricks visualization. Run in Databricks to view.

## 5. Tarifa por minuto
### 🔍 Pergunta
Quanto o cliente paga por minuto de corrida?

### 🧠 Análise
Ajuda a entender a percepção de valor — especialmente em corridas curtas.

In [0]:
SELECT 
  ROUND(AVG(fare_amount / DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime)), 2) AS tarifa_por_minuto
FROM samples.nyctaxi.trips
WHERE DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime) > 0;


tarifa_por_minuto
1.1


Databricks visualization. Run in Databricks to view.

## 6. Corridas com tarifa acima da média
### 🔍 Pergunta
Quais corridas tiveram tarifas muito acima da média?

### 🧠 Análise
Identifica outliers que podem gerar reclamações ou insatisfação.

In [0]:
SELECT 
  fare_amount,
  trip_distance,
  tpep_pickup_datetime
FROM samples.nyctaxi.trips
WHERE fare_amount > (SELECT AVG(fare_amount) FROM samples.nyctaxi.trips)
ORDER BY fare_amount DESC
LIMIT 10;


fare_amount,trip_distance,tpep_pickup_datetime
275.0,20.85,2016-02-12T20:55:19.000Z
260.0,0.0,2016-02-29T12:16:16.000Z
188.0,0.0,2016-01-30T22:28:42.000Z
130.0,25.46,2016-02-17T22:23:14.000Z
115.0,21.3,2016-01-28T17:36:17.000Z
105.0,0.0,2016-01-04T18:58:23.000Z
105.0,0.0,2016-01-16T18:09:15.000Z
95.0,30.6,2016-02-22T21:17:27.000Z
95.0,12.49,2016-02-24T22:19:55.000Z
95.0,5.2,2016-01-04T09:19:53.000Z


Databricks visualization. Run in Databricks to view.

## 7. Tempo médio por dia da semana
### 🔍 Pergunta
A experiência varia conforme o dia da semana?

### 🧠 Análise
Mostra se há dias com maior tempo de viagem → possível impacto na satisfação.

In [0]:
SELECT 
  DAYOFWEEK(tpep_pickup_datetime) AS dia_semana,
  AVG(DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime)) AS tempo_medio
FROM samples.nyctaxi.trips
GROUP BY dia_semana
ORDER BY dia_semana;


dia_semana,tempo_medio
1,11.919381375452453
2,12.41958277254374
3,14.659841954022989
4,13.969121140142516
5,17.183508989460634
6,16.330900926185798
7,15.31020288150544


Databricks visualization. Run in Databricks to view.

## 8. Índice de frustração
### 🔍 Pergunta
Quais corridas têm maior potencial de frustração?

### 🧠 Análise
Criamos uma métrica fictícia: tempo * tarifa / distância. Quanto maior, mais provável que o cliente esteja insatisfeito.

### ✨ Insight
As corridas com maior índice de frustração revelam situações onde o cliente pode ter sentido que o serviço não valeu o custo ou o tempo investido. Essa análise pode ser aplicada em contextos de mobilidade, logística ou atendimento, ajudando a antecipar insatisfações e redesenhar jornadas.

In [0]:
SELECT 
  trip_distance,
  fare_amount,
  DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime) AS tempo,
  ROUND((DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime) * fare_amount) / trip_distance, 2) AS indice_frustracao
FROM samples.nyctaxi.trips
WHERE trip_distance > 0
ORDER BY indice_frustracao DESC
LIMIT 10;


trip_distance,fare_amount,tempo,indice_frustracao
1.0,10.0,1414,14140.0
0.5,4.5,1435,12915.0
0.62,5.5,1437,12747.58
0.45,6.0,895,11933.33
0.74,6.0,1435,11635.14
0.73,5.5,1430,10773.97
1.09,7.5,1431,9846.33
1.37,9.0,1436,9433.58
2.05,13.5,1414,9311.71
2.1,13.5,1404,9025.71


Databricks visualization. Run in Databricks to view.

## 9. Corridas curtas com tarifa alta

### 🔍 Pergunta  
Clientes que fizeram corridas muito curtas pagaram tarifas elevadas?

### 🧠 Análise  
Esta consulta busca identificar corridas com menos de 1 milha de distância, mas com tarifas superiores a 10 dólares. Embora curtas, essas corridas podem gerar uma percepção negativa de valor, especialmente se o cliente sentir que pagou caro por um trajeto pequeno. Situações como trânsito intenso, tempo de espera ou tarifas mínimas elevadas podem contribuir para esse cenário.

Essa análise é relevante para entender como a combinação de baixa distância e alto custo pode afetar a experiência do cliente, principalmente em contextos urbanos onde deslocamentos curtos são comuns. Identificar esses casos ajuda a antecipar insatisfações e propor ajustes na precificação ou comunicação.

In [0]:
SELECT 
  trip_distance,
  fare_amount
FROM samples.nyctaxi.trips
WHERE trip_distance < 1 AND fare_amount > 10
ORDER BY fare_amount DESC;


trip_distance,fare_amount
0.0,260.0
0.0,188.0
0.0,105.0
0.0,105.0
0.92,60.0
0.18,55.0
0.2,52.0
0.0,52.0
0.0,52.0
0.0,52.0


Databricks visualization. Run in Databricks to view.

## Classificação Simulada por Zonas de Origem

Nesta seção, tratamos cada zona de embarque (`pickup_zip`) como uma “filial” urbana. A proposta é calcular uma nota de experiência por zona com base em indicadores operacionais que podem refletir atritos na jornada do cliente.

A nota será composta por:

- Tempo médio de viagem
- Tarifa média
- Índice de frustração médio
- Proporção de corridas com tarifa acima da média

Cada indicador será normalizado e ponderado para gerar uma nota final entre 0 e 10.


### 🧭 Tempo médio de viagem por zona
🔍 Pergunta
Quais zonas urbanas apresentam os maiores tempos médios de viagem?

🧠 Análise
Agrupamos as corridas por zona de embarque (pickup_zip) e calculamos o tempo médio de deslocamento em minutos. Essa métrica revela quais regiões têm viagens mais longas, o que pode indicar problemas como congestionamento, rotas ineficientes ou baixa disponibilidade de motoristas.

Zonas com tempo médio elevado tendem a gerar maior frustração para o cliente, especialmente quando combinadas com tarifas altas ou distâncias curtas. Esse indicador é um dos pilares da nota final simulada de experiência.

📌 Exemplo de achado: A zona 11430 apresenta tempo médio de 73 minutos — mais que o dobro da média geral — sugerindo um ponto crítico na operação.

In [0]:
-- Tempo médio de viagem por zona
SELECT 
  pickup_zip,
  ROUND(AVG(DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime)), 2) AS tempo_medio
FROM samples.nyctaxi.trips
WHERE pickup_zip IS NOT NULL
GROUP BY pickup_zip
ORDER BY tempo_medio DESC;


pickup_zip,tempo_medio
11430,73.25
11420,48.0
11422,41.47
7087,38.0
11375,30.33
11371,30.05
11218,30.0
11235,29.5
11436,28.91
11370,28.12


### 💰 Tarifa média por zona
🔍 Pergunta
Quais zonas urbanas apresentam as tarifas médias mais altas, e o que isso pode indicar sobre a experiência do cliente?

🧠 Análise
Agrupamos as corridas por zona de embarque (pickup_zip) e calculamos a média das tarifas cobradas. Essa métrica revela quais regiões têm corridas mais caras em média, o que pode estar relacionado à distância, demanda, ou até práticas de precificação local.

Zonas com tarifa média elevada podem gerar percepção de custo excessivo, especialmente se combinadas com tempo de viagem alto ou baixa eficiência. Esse indicador é essencial para entender o valor percebido pelo cliente e compõe 30% da nota final simulada de experiência.

📌 Exemplo de achado: A zona 8876 apresenta tarifa média de $260 — muito acima da média geral — sugerindo um ponto de atenção na precificação.

In [0]:
-- Próximo passo: Tarifa média por zona
SELECT 
  pickup_zip,
  ROUND(AVG(fare_amount), 2) AS tarifa_media
FROM samples.nyctaxi.trips
WHERE pickup_zip IS NOT NULL
GROUP BY pickup_zip
ORDER BY tarifa_media DESC;


pickup_zip,tarifa_media
8876,260.0
7974,188.0
7114,105.0
7310,105.0
7311,60.0
11430,52.0
11420,52.0
11368,52.0
11422,44.78
11436,42.32


### 😣 Índice de frustração médio por zona
🔍 Pergunta
Quais zonas urbanas apresentam maior frustração média, considerando tempo, tarifa e distância?

🧠 Análise
Criamos uma métrica derivada chamada índice de frustração, calculada como: (tempo de viagem × valor da tarifa) ÷ distância percorrida.

Essa fórmula simula a sensação de “pagar caro por pouco”, combinando três fatores que afetam diretamente a percepção do cliente. Agrupamos por zona de embarque (pickup_zip) e calculamos a média do índice para cada região.

Zonas com frustração média elevada indicam corridas longas, caras e pouco eficientes — o que pode gerar insatisfação mesmo quando a tarifa não é extrema. Esse indicador é um dos mais sensíveis da análise e compõe 30% da nota final simulada.

📌 Exemplo de achado: A zona 11430 apresenta frustração média de 219.65 — muito acima da média global — sugerindo um ponto crítico na jornada do cliente.

In [0]:
-- Índice de frustração médio por zona
SELECT 
  pickup_zip,
  ROUND(AVG((DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime) * fare_amount) / trip_distance), 2) AS frustracao_media
FROM samples.nyctaxi.trips
WHERE pickup_zip IS NOT NULL AND trip_distance > 0
GROUP BY pickup_zip
ORDER BY frustracao_media DESC;


pickup_zip,frustracao_media
11430,219.65
11424,177.03
11420,168.65
11218,136.36
7087,135.87
10305,135.0
11435,129.52
7737,122.09
11422,121.99
10111,120.18


### 📈 Proporção de corridas com tarifa acima da média
🔍 Pergunta
Quais zonas urbanas apresentam maior proporção de corridas com tarifa acima da média global?

🧠 Análise
Calculamos a média global das tarifas e, em seguida, verificamos em cada zona de embarque (pickup_zip) qual a proporção de corridas que ultrapassam esse valor. Essa métrica revela regiões onde o cliente tem maior chance de pagar mais do que o padrão da cidade.

Zonas com alta proporção de tarifas acima da média podem indicar práticas de precificação agressiva, rotas longas ou baixa eficiência. Esse indicador compõe 10% da nota final simulada e funciona como um alerta de recorrência — não basta uma corrida cara, mas sim o padrão repetido.

📌 Exemplo de achado: A zona 11368 apresenta 100% das corridas com tarifa acima da média — sugerindo um comportamento sistemático que merece atenção.

In [0]:
-- Proporção de corridas com tarifa acima da média
WITH media_global AS (
  SELECT AVG(fare_amount) AS media_tarifa FROM samples.nyctaxi.trips
)
SELECT 
  t.pickup_zip,
  ROUND(COUNT(CASE WHEN t.fare_amount > m.media_tarifa THEN 1 END) * 1.0 / COUNT(*), 2) AS proporcao_tarifa_alta
FROM samples.nyctaxi.trips t
JOIN media_global m ON 1=1
WHERE t.pickup_zip IS NOT NULL
GROUP BY t.pickup_zip
ORDER BY proporcao_tarifa_alta DESC;


pickup_zip,proporcao_tarifa_alta
11368,1.0
8876,1.0
7310,1.0
7974,1.0
11356,1.0
10305,1.0
7114,1.0
11430,1.0
11420,1.0
11218,1.0


### 🧮 Etapas para calcular a nota final por zona
🔍 Pergunta

Como podemos consolidar os principais indicadores operacionais para avaliar a experiência do cliente por zona de embarque?

🧠 Análise

Nesta etapa, reunimos os quatro indicadores previamente calculados — tempo médio de viagem, tarifa média, índice de frustração e proporção de corridas caras — em uma única tabela por zona (pickup_zip). Cada métrica foi obtida por meio de uma subconsulta (CTE) e depois unida por meio de JOINs, garantindo que todas as zonas tenham seus respectivos valores consolidados.

Essa união é essencial para o próximo passo: a normalização e ponderação dos indicadores, que resultará na nota final simulada de experiência. Ao centralizar os dados em uma estrutura única, conseguimos aplicar regras de negócio e lógica de avaliação de forma consistente.

📌 Exemplo de achado: 

A zona 10305 apresenta tempo médio de 20 minutos, tarifa média de $13.50, frustração de 135.00 e 100% de corridas acima da média — um perfil crítico que será refletido na nota final.

In [0]:
-- Etapas para calcular a nota final
-- 1. Unir os quatro indicadores

WITH tempo AS (
  SELECT pickup_zip, 
         ROUND(AVG(DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime)), 2) AS tempo_medio
  FROM samples.nyctaxi.trips
  WHERE pickup_zip IS NOT NULL
  GROUP BY pickup_zip
),
tarifa AS (
  SELECT pickup_zip, 
         ROUND(AVG(fare_amount), 2) AS tarifa_media
  FROM samples.nyctaxi.trips
  WHERE pickup_zip IS NOT NULL
  GROUP BY pickup_zip
),
frustracao AS (
  SELECT pickup_zip, 
         ROUND(AVG((DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime) * fare_amount) / trip_distance), 2) AS frustracao_media
  FROM samples.nyctaxi.trips
  WHERE pickup_zip IS NOT NULL AND trip_distance > 0
  GROUP BY pickup_zip
),
corridas_caras AS (
  WITH media_global AS (
    SELECT AVG(fare_amount) AS media_tarifa FROM samples.nyctaxi.trips
  )
  SELECT t.pickup_zip,
         ROUND(COUNT(CASE WHEN t.fare_amount > m.media_tarifa THEN 1 END) * 1.0 / COUNT(*), 2) AS proporcao_tarifa_alta
  FROM samples.nyctaxi.trips t
  JOIN media_global m ON 1=1
  WHERE t.pickup_zip IS NOT NULL
  GROUP BY t.pickup_zip
)

SELECT 
  t.pickup_zip,
  t.tempo_medio,
  ta.tarifa_media,
  f.frustracao_media,
  c.proporcao_tarifa_alta
FROM tempo t
JOIN tarifa ta ON t.pickup_zip = ta.pickup_zip
JOIN frustracao f ON t.pickup_zip = f.pickup_zip
JOIN corridas_caras c ON t.pickup_zip = c.pickup_zip;


pickup_zip,tempo_medio,tarifa_media,frustracao_media,proporcao_tarifa_alta
11224,14.33,20.33,63.89,0.33
11368,12.0,52.0,70.11,1.0
10001,14.01,10.62,79.89,0.26
10021,11.02,10.21,63.39,0.25
11233,11.0,9.5,73.09,0.33
11231,11.2,12.03,58.2,0.4
10027,10.43,10.92,48.77,0.28
10028,11.8,10.21,59.96,0.26
11370,28.12,25.31,98.29,0.81
11003,0.0,0.0,0.0,0.0


### 📊 Normalização do tempo médio por zona

🔍 Pergunta

Como podemos transformar o tempo médio de viagem em uma escala comparável entre zonas, para facilitar a avaliação da experiência?

🧠 Análise

Nesta etapa, aplicamos uma técnica de normalização min-max ao tempo médio de viagem por zona (pickup_zip). A fórmula transforma os valores originais em uma escala de 0 a 10, onde 10 representa o melhor desempenho (menor tempo) e 0 o pior (maior tempo).

Essa abordagem permite comparar zonas com diferentes magnitudes de tempo de forma justa e padronizada. A normalização é essencial para compor a nota final, pois garante que todos os indicadores tenham o mesmo peso na escala de avaliação.

📌 Exemplo de achado:
 A zona 11220, com tempo médio de 4 minutos, recebeu nota 9.45 — indicando alta eficiência operacional.

In [0]:

-- 2. Normalizar os valores

WITH indicadores AS (
  SELECT 
    pickup_zip,
    ROUND(AVG(DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime)), 2) AS tempo_medio
  FROM samples.nyctaxi.trips
  WHERE pickup_zip IS NOT NULL
  GROUP BY pickup_zip
),
limites AS (
  SELECT 
    MAX(tempo_medio) AS max_tempo,
    MIN(tempo_medio) AS min_tempo
  FROM indicadores
)
SELECT 
  i.pickup_zip,
  i.tempo_medio,
  ROUND(10 * (l.max_tempo - i.tempo_medio) / NULLIF((l.max_tempo - l.min_tempo), 0), 2) AS tempo_normalizado
FROM indicadores i
CROSS JOIN limites l
ORDER BY tempo_normalizado DESC;



pickup_zip,tempo_medio,tempo_normalizado
8876,0.0,10.0
11003,0.0,10.0
7114,0.0,10.0
7030,0.0,10.0
7086,0.0,10.0
10502,0.0,10.0
7311,0.0,10.0
7310,0.0,10.0
10463,0.0,10.0
7974,1.0,9.86


### 🧮 Cálculo da nota final por zona

🔍 Pergunta

Como podemos consolidar os indicadores operacionais em uma nota única que represente a experiência do cliente por zona?

🧠 Análise

Nesta etapa, criamos a nota final simulada para cada zona de embarque (pickup_zip), combinando quatro indicadores previamente calculados: tempo médio, tarifa média, índice de frustração e proporção de corridas caras. Cada indicador foi normalizado em uma escala de 0 a 10 e ponderado conforme seu impacto na experiência:

30% tempo médio

30% tarifa média

30% frustração média

10% proporção de tarifas altas

A fórmula utiliza a técnica de normalização min-max e aplica os pesos para gerar uma nota final entre 0 e 10, onde valores mais altos indicam melhor desempenho. Essa nota permite comparar zonas de forma justa e identificar áreas críticas com base em múltiplos fatores.

📌 Exemplo de achado: A zona 11106 recebeu nota 8.11, com frustração média de 47.45 e tarifa média de $11.07 — sugerindo um ponto de atenção na eficiência operacional.

In [0]:
-- 3. Calcular a nota final

WITH global_avg_fare AS (
  SELECT AVG(fare_amount) AS avg_fare
  FROM samples.nyctaxi.trips
),
base AS (
  SELECT 
    pickup_zip,
    ROUND(AVG(DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime)), 2) AS tempo_medio,
    ROUND(AVG(fare_amount), 2) AS tarifa_media,
    ROUND(AVG((DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime) * fare_amount) / trip_distance), 2) AS frustracao_media,
    ROUND(SUM(CASE WHEN fare_amount > g.avg_fare THEN 1 ELSE 0 END) * 1.0 / COUNT(*), 2) AS proporcao_tarifa_alta
  FROM samples.nyctaxi.trips
  CROSS JOIN global_avg_fare g
  WHERE pickup_zip IS NOT NULL AND trip_distance > 0
  GROUP BY pickup_zip
),
limites AS (
  SELECT 
    MAX(tempo_medio) AS max_tempo, MIN(tempo_medio) AS min_tempo,
    MAX(tarifa_media) AS max_tarifa, MIN(tarifa_media) AS min_tarifa,
    MAX(frustracao_media) AS max_frustracao, MIN(frustracao_media) AS min_frustracao,
    MAX(proporcao_tarifa_alta) AS max_proporcao, MIN(proporcao_tarifa_alta) AS min_proporcao
  FROM base
)
SELECT 
  b.pickup_zip,
  b.tempo_medio,
  b.tarifa_media,
  b.frustracao_media,
  b.proporcao_tarifa_alta,
  ROUND(
    0.3 * (10 * (l.max_tempo - b.tempo_medio) / NULLIF((l.max_tempo - l.min_tempo), 0)) +
    0.3 * (10 * (l.max_tarifa - b.tarifa_media) / NULLIF((l.max_tarifa - l.min_tarifa), 0)) +
    0.3 * (10 * (l.max_frustracao - b.frustracao_media) / NULLIF((l.max_frustracao - l.min_frustracao), 0)) +
    0.1 * (10 * (l.max_proporcao - b.proporcao_tarifa_alta) / NULLIF((l.max_proporcao - l.min_proporcao), 0))
  , 2) AS nota_final
FROM base b
CROSS JOIN limites l
ORDER BY nota_final DESC;

pickup_zip,tempo_medio,tarifa_media,frustracao_media,proporcao_tarifa_alta,nota_final
11003,0.0,0.0,0.0,0.0,10.0
10502,0.0,0.0,0.0,0.0,10.0
10468,1.5,4.0,11.22,0.0,9.59
11212,2.0,4.0,12.5,0.0,9.55
10454,3.0,5.0,17.65,0.0,9.39
11418,3.0,5.0,19.48,0.0,9.36
11220,4.0,6.0,19.05,0.0,9.28
7718,4.0,5.0,25.0,0.0,9.24
10024,5.0,6.5,25.0,0.0,9.13
11223,7.0,7.5,32.01,0.0,8.9


### 🧾 Consolidação final: criação da view resultado_final

🔍 Pergunta

Como podemos reunir todos os indicadores normalizados em uma estrutura única que permita ranquear zonas urbanas pela experiência do cliente?

🧠 Análise

Nesta etapa, criamos a view temporária resultado_final, que consolida todos os indicadores operacionais por zona (pickup_zip) e calcula a nota final simulada. A nota é composta por quatro métricas:

Tempo médio de viagem

Tarifa média

Índice de frustração

Proporção de corridas caras

Cada métrica é normalizada em uma escala de 0 a 10 usando a técnica min-max, e ponderada conforme seu impacto na experiência:

30% tempo

30% tarifa

30% frustração

10% proporção de tarifas altas

A view permite consultar diretamente as zonas com melhor ou pior desempenho, facilitando a criação de rankings, alertas e visualizações. É o ponto de partida para a aba “Zonas em Alerta” do dashboard corporativo.

📌 Exemplo de achado: A zona 11106 recebeu nota 8.11, com frustração média de 47.45 e tarifa média de $11.07 — sugerindo um ponto de atenção na eficiência operacional.

In [0]:
CREATE OR REPLACE TEMP VIEW resultado_final AS
WITH global_avg_fare AS (
  SELECT AVG(fare_amount) AS avg_fare FROM samples.nyctaxi.trips
),
base AS (
  SELECT 
    pickup_zip,
    ROUND(AVG(DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime)), 2) AS tempo_medio,
    ROUND(AVG(fare_amount), 2) AS tarifa_media,
    ROUND(AVG((DATEDIFF(MINUTE, tpep_pickup_datetime, tpep_dropoff_datetime) * fare_amount) / trip_distance), 2) AS frustracao_media,
    ROUND(SUM(CASE WHEN fare_amount > g.avg_fare THEN 1 ELSE 0 END) * 1.0 / COUNT(*), 2) AS proporcao_tarifa_alta
  FROM samples.nyctaxi.trips
  CROSS JOIN global_avg_fare g
  WHERE pickup_zip IS NOT NULL AND trip_distance > 0
  GROUP BY pickup_zip
),
limites AS (
  SELECT 
    MAX(tempo_medio) AS max_tempo, MIN(tempo_medio) AS min_tempo,
    MAX(tarifa_media) AS max_tarifa, MIN(tarifa_media) AS min_tarifa,
    MAX(frustracao_media) AS max_frustracao, MIN(frustracao_media) AS min_frustracao,
    MAX(proporcao_tarifa_alta) AS max_proporcao, MIN(proporcao_tarifa_alta) AS min_proporcao
  FROM base
)
SELECT 
  b.pickup_zip,
  b.tempo_medio,
  b.tarifa_media,
  b.frustracao_media,
  b.proporcao_tarifa_alta,
  ROUND(
    0.3 * (10 * (l.max_tempo - b.tempo_medio) / NULLIF((l.max_tempo - l.min_tempo), 0)) +
    0.3 * (10 * (l.max_tarifa - b.tarifa_media) / NULLIF((l.max_tarifa - l.min_tarifa), 0)) +
    0.3 * (10 * (l.max_frustracao - b.frustracao_media) / NULLIF((l.max_frustracao - l.min_frustracao), 0)) +
    0.1 * (10 * (l.max_proporcao - b.proporcao_tarifa_alta) / NULLIF((l.max_proporcao - l.min_proporcao), 0))
  , 2) AS nota_final
FROM base b
CROSS JOIN limites l;


### 🏁 Consulta final: ranking de zonas por nota de experiência

🔍 Pergunta

Quais zonas urbanas apresentam melhor desempenho na experiência do cliente, considerando todos os indicadores combinados?

🧠 Análise

Este comando consulta a view resultado_final e ordena as zonas de embarque (pickup_zip) pela nota final simulada, em ordem decrescente. A nota foi calculada com base em quatro indicadores normalizados e ponderados: tempo médio, tarifa média, índice de frustração e proporção de corridas caras.

Essa consulta permite identificar rapidamente as zonas com melhor e pior desempenho, funcionando como um ranking operacional. É o ponto de partida para visualizações estratégicas, alertas e decisões gerenciais.

📌 Exemplo de achado: A zona 11003 recebeu nota 10, com todos os indicadores zerados — sugerindo um caso atípico ou ausência de dados. Já a zona 11106 aparece com nota 8.11, indicando desempenho abaixo do ideal e merecendo atenção.

In [0]:
SELECT * FROM resultado_final ORDER BY nota_final DESC


pickup_zip,tempo_medio,tarifa_media,frustracao_media,proporcao_tarifa_alta,nota_final
11003,0.0,0.0,0.0,0.0,10.0
10502,0.0,0.0,0.0,0.0,10.0
10468,1.5,4.0,11.22,0.0,9.59
11212,2.0,4.0,12.5,0.0,9.55
10454,3.0,5.0,17.65,0.0,9.39
11418,3.0,5.0,19.48,0.0,9.36
11220,4.0,6.0,19.05,0.0,9.28
7718,4.0,5.0,25.0,0.0,9.24
10024,5.0,6.5,25.0,0.0,9.13
11223,7.0,7.5,32.01,0.0,8.9


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

### Zonas em Alerta

Esta aba apresenta as zonas urbanas com **nota final abaixo de 6**, indicando risco elevado de insatisfação na jornada do cliente. A nota foi calculada com base em quatro indicadores operacionais:

- Tempo médio de viagem  
- Tarifa média  
- Índice de frustração  
- Proporção de corridas caras

Cada métrica foi normalizada e ponderada conforme seu impacto na experiência. Zonas com nota baixa tendem a apresentar ineficiências operacionais, como corridas longas, caras ou pouco eficientes.

#### 🎯 Objetivo
Permitir que líderes operacionais identifiquem rapidamente os pontos críticos e tomem decisões baseadas em dados.

#### 📌 Recomendação
Monitorar zonas com nota < 6, revisar rotas e precificação, e investigar causas sistêmicas que afetam a experiência.

> Clique em uma zona para visualizar os detalhes operacionais e histórico de desempenho.


### Tabela de Zonas Críticas

Esta tabela apresenta os indicadores operacionais por zona de embarque. As zonas com nota final abaixo de 6 são consideradas críticas e estão destacadas em vermelho.

A tabela permite comparar os fatores que mais impactam a experiência do cliente em cada região — seja tempo de viagem, tarifa, frustração ou recorrência de corridas caras.

> Use os filtros para explorar zonas específicas ou ajustar o limite de alerta.


### Ranking de Zonas por Nota Final

Este gráfico apresenta as zonas urbanas ordenadas pela nota final simulada de experiência. A nota foi calculada com base em quatro indicadores operacionais: tempo médio, tarifa média, índice de frustração e proporção de corridas caras.

Zonas com nota abaixo de 6 são consideradas críticas e devem ser monitoradas com atenção. A visualização permite identificar rapidamente os pontos de maior risco na jornada do cliente.

> Clique em uma zona para visualizar os detalhes operacionais.


### Experiência Geral nas Zonas Urbanas

Este gráfico de pizza simula um indicador circular da média de experiência nas zonas urbanas. A nota é composta por quatro métricas operacionais e varia de 0 a 10.

A fatia verde representa a média atual de desempenho. A fatia cinza mostra o quanto falta para atingir a nota máxima.

> Use este indicador como termômetro geral da operação.


In [0]:
SELECT 'Experiência' AS categoria, ROUND(AVG(nota_final), 2) AS valor
FROM resultado_final
UNION ALL
SELECT 'Gap', ROUND(10 - AVG(nota_final), 2) AS valor
FROM resultado_final


categoria,valor
Experiência,7.24
Gap,2.76


Databricks visualization. Run in Databricks to view.

In [0]:
CREATE OR REPLACE TABLE resultado_final_export AS
SELECT * FROM resultado_final


num_affected_rows,num_inserted_rows


### 🔄 Exportar dados para Power BI

Execute a célula abaixo e clique em “Download CSV” para obter o arquivo completo com todas as zonas urbanas e seus indicadores. Use este arquivo como base para montar os visuais no Power BI.



In [0]:
-- Exportação completa para Power BI
SELECT * FROM resultado_final_export

pickup_zip,tempo_medio,tarifa_media,frustracao_media,proporcao_tarifa_alta,nota_final
11224,21.5,29.25,63.89,0.5,6.28
11368,12.0,52.0,70.11,1.0,4.95
10001,14.01,10.62,79.89,0.26,7.54
10021,11.05,10.14,63.39,0.25,7.92
11233,11.0,9.5,73.09,0.33,7.75
11231,11.43,11.87,58.2,0.39,7.75
10027,10.54,11.03,48.77,0.29,8.06
10028,11.81,10.16,59.96,0.26,7.93
11370,28.12,25.31,98.29,0.81,5.43
11003,0.0,0.0,0.0,0.0,10.0
