# Análise dos dados dos táxis

Nesta etapa, devemos analisar os dados para responder as seguintes perguntas:

1) Qual a média de valor total (total_amount) recebido em um mês considerando todos os yellow taxis da frota?

2) Qual a média de passageiros (passenger_count) por cada hora do dia que pegaram táxi no mês de maio, considerando todos os táxis da frota?

## Importação das bibliotecas necessárias

In [0]:
from pyspark.sql.functions import (
    col,
    count,
    floor,
    expr,
    round,
    month,
    year,
    avg,
)

## Análise das informações do dataset

Inicialmente vamos usar a função display para conseguir visualizar uma amostra dos dados do dataframe.

In [0]:
df_yellow = spark.table('gold_yellow_taxi_data')

df_yellow = df_yellow.filter(
    (col("ano") == 2023) & (col("mes").between(1, 5))
)

In [0]:
df_yellow.display()

vendor_id,passenger_count,total_amount,tpep_pickup_datetime,tpep_dropoff_datetime,ano,mes,hora
1,0,51.65,2023-05-01T00:33:13.000+0000,2023-05-01T00:53:01.000+0000,2023,5,0
1,2,57.15,2023-05-01T00:42:49.000+0000,2023-05-01T01:11:18.000+0000,2023,5,0
1,2,64.2,2023-05-01T00:56:34.000+0000,2023-05-01T01:13:39.000+0000,2023,5,0
2,1,47.09,2023-05-01T00:00:52.000+0000,2023-05-01T00:20:12.000+0000,2023,5,0
1,0,59.15,2023-05-01T00:05:50.000+0000,2023-05-01T00:19:41.000+0000,2023,5,0
1,0,69.0,2023-05-01T00:42:54.000+0000,2023-05-01T01:04:49.000+0000,2023,5,0
2,1,64.56,2023-05-01T00:50:34.000+0000,2023-05-01T01:12:09.000+0000,2023,5,0
1,1,14.35,2023-05-01T00:13:58.000+0000,2023-05-01T00:18:10.000+0000,2023,5,0
2,1,19.9,2023-05-01T00:28:47.000+0000,2023-05-01T00:39:33.000+0000,2023,5,0
2,1,78.67,2023-05-01T00:18:49.000+0000,2023-05-01T00:43:41.000+0000,2023,5,0


Vamos contar quantos registros existem para o yellow taxi. Isso nos ajudará a entender o percentual de cada uma das validações que faremos a seguir (duplicadas, colunas nulas, negativas, etc.).

In [0]:
total_registros = df_yellow.count()
total_registros

Out[28]: 16186282

Vamos contar quantos registros únicos existem na base de dados.

In [0]:
registros_unicos = df_yellow.distinct().count()
registros_unicos

Out[29]: 16186145

In [0]:
total_registros - registros_unicos

Out[30]: 137

Como podemos ver, existem 137 registros duplicados na base de dados. Eles devem ser retirados para que o cálculo da média fique correto.

Vamos calcular a quantidade de registros nulos que existem para a coluna 'total_amount'. Em seguida calcularemos o percentual com relação a base total.

In [0]:
nulos_total_amount = df_yellow.filter(col('total_amount').isNull()).count()
nulos_total_amount

Out[31]: 0

Podemos concluir que não existem registros nulos para a coluna 'total_amount'. Agora vamos contar quantos registros com valores negativos existem na base.

In [0]:
negativos_total = df_yellow.filter(col("total_amount") < 0).count()
negativos_total

Out[32]: 141407

In [0]:
perc_negativos_total = (negativos_total / total_registros) * 100
perc_negativos_total

Out[33]: 0.8736224909463458

Podemos concluir que a quantidade de valores negativos corresponde a menos de 1% do volume da base. Esses casos não refletem receitas reais e podem estar associados a reembolsos, ajustes manuais, erros de coleta ou anomalias no sistema de registro das corridas. Como o objetivo da análise é avaliar o faturamento médio mensal das corridas realizadas pelos táxis, esses valores negativos distorcem o resultado e, portanto, não devem ser considerados.

Agora vamos criar uma coluna que nos informe a duração em minutos de uma corrida. Ela será chamada de 'duracao_minutos'.

In [0]:
df_yellow = df_yellow.withColumn(
    'duracao_minutos',
    round(
        (expr("CAST(tpep_dropoff_datetime AS long) - CAST(tpep_pickup_datetime AS long)") / 60), 2
    )
)

df_yellow.display()

vendor_id,passenger_count,total_amount,tpep_pickup_datetime,tpep_dropoff_datetime,ano,mes,hora,duracao_minutos
1,0,51.65,2023-05-01T00:33:13.000+0000,2023-05-01T00:53:01.000+0000,2023,5,0,19.8
1,2,57.15,2023-05-01T00:42:49.000+0000,2023-05-01T01:11:18.000+0000,2023,5,0,28.48
1,2,64.2,2023-05-01T00:56:34.000+0000,2023-05-01T01:13:39.000+0000,2023,5,0,17.08
2,1,47.09,2023-05-01T00:00:52.000+0000,2023-05-01T00:20:12.000+0000,2023,5,0,19.33
1,0,59.15,2023-05-01T00:05:50.000+0000,2023-05-01T00:19:41.000+0000,2023,5,0,13.85
1,0,69.0,2023-05-01T00:42:54.000+0000,2023-05-01T01:04:49.000+0000,2023,5,0,21.92
2,1,64.56,2023-05-01T00:50:34.000+0000,2023-05-01T01:12:09.000+0000,2023,5,0,21.58
1,1,14.35,2023-05-01T00:13:58.000+0000,2023-05-01T00:18:10.000+0000,2023,5,0,4.2
2,1,19.9,2023-05-01T00:28:47.000+0000,2023-05-01T00:39:33.000+0000,2023,5,0,10.77
2,1,78.67,2023-05-01T00:18:49.000+0000,2023-05-01T00:43:41.000+0000,2023,5,0,24.87


Uma verificação que podemos fazer agora é se existem registros com duração em minutos menores que zero. Caso existam registros com valores negativos, significa que o horário de início da corrida é maior que o horário de término da corrida. Isso mostra uma inconsistência no registro.

In [0]:
negativas_duracao = df_yellow.filter(col('duracao_minutos') < 0).count()
negativas_duracao

Out[35]: 795

In [0]:
perc_negativas_duracao = (negativas_duracao / total_registros) * 100
perc_negativas_duracao

Out[36]: 0.0049115664733877734

Conforme visto acima, temos um percentual muito pequeno de corridas com duração negativa. Esses registros podem ser considerados como uma falha, mas seria interessante conversar com o time de negócio para entender o que causa esse problema.

Agora vamos contar a quantidade de registros nulos para a coluna 'passenger_count'.

In [0]:
nulos_passageiros = df_yellow.filter(col('passenger_count').isNull()).count()
nulos_passageiros

Out[37]: 428665

In [0]:
perc_nulos_passageiros = (nulos_passageiros / total_registros) * 100
perc_nulos_passageiros

Out[38]: 2.6483228205217233

In [0]:
df_yellow.groupBy('passenger_count').count().orderBy('passenger_count').display()

passenger_count,count
,428665
0.0,273481
1.0,11894026
2.0,2356672
3.0,577603
4.0,300125
5.0,217068
6.0,138530
7.0,28
8.0,65


Databricks visualization. Run in Databricks to view.

Existem 2,65% de registros com a coluna 'passenger_count' nulo. Isso pode significar uma falha no registro, mas não é algo que impede a análise da média. Para o caso da distribuição de passageiros por hora, devemos desconsiderar esses registros.

Agora vamos olhar a quantidade de registros para a coluna 'passenger_count' menores que zero.

In [0]:
negativos_passageiros = df_yellow.filter(col("passenger_count") < 0).count()
negativos_passageiros

Out[41]: 0

Não existem valores negativos para o número de passageiros, o que é um bom sinal. Neste caso, o único problema com a coluna é registro nulos.

Por fim, vamos analisar a coluna 'vendor_id'. Esta coluna não influenciará significativamente nas análises, pois para o cálculo da média e da distribuição de passageiros, não usaremos esta coluna. Mas, para entender o comportamento do dataset, é interessante verificar esta coluna.

In [0]:
negativos_vendor = df_yellow.filter(col('vendor_id').isNull()).count()
negativos_vendor

Out[42]: 0

Portanto, podemos ver que não existem registros nulos para a coluna 'vendor_id'.

Após realizar todas as verificações acima, podemos tomar uma decisão de como iremos calcular as estatísticas solicitadas no teste.

## Média do valor recebido em um mês para os yellow taxis

De acordo com a análise acima, as decisões que vamos tomar para calcular a média são:

- Eliminar os registros duplicados
- Eliminar os registros com 'total_amount' negativos
- Eliminar as corridas com duração em minutos negativas

*Aqui vale uma observação...*

Antes de retirar qualquer valor da base de dados para efetuar um cálculo, é **extremamente recomendado** entender o negócio no qual a informação está inserida. Um exemplo bem simples é o fato de existir corridas com o número de passageiros iguais a 0. Isso pode significar uma corrida cuja finalidade foi entregar um produto. Outro caso é o número de passageiros ser igual a 9. Pode ser que exista um carro na frota com essa capacidade, como também pode ser um erro.

Outro ponto é a duração em minutos ser negativa. Pode ser apenas uma confusão no cadastro da informação, ou seja, a informação de data e hora ficou invertida. Mas, por outro lado, pode ser um erro que realmente não deve ser considerado. Por essa razão, é sempre importante alinhar com as pessoas envolvidas e, principalmente, com os donos dos dados para saber qual é o verdadeiro significado da informação.

In [0]:
df_yellow_tratado = df_yellow.dropDuplicates()

In [0]:
df_yellow_tratado = df_yellow_tratado.filter(col('total_amount') >= 0)

In [0]:
df_yellow_tratado = df_yellow_tratado.filter(col('duracao_minutos') >= 0)

In [0]:
total_registros_tratados = df_yellow_tratado.count()
total_registros_tratados

Out[46]: 16043943

In [0]:
(total_registros_tratados / total_registros) * 100

Out[48]: 99.12061954684837

Após tratar os dados, eliminamos cerca de 1% do volume.

In [0]:
media_mensal = df_yellow_tratado.groupBy("mes") \
  .agg(round(avg("total_amount"), 2).alias("media_mensal_total_amount")) \
  .orderBy("mes")

media_mensal.display()

mes,media_mensal_total_amount
1,27.44
2,27.33
3,28.26
4,28.76
5,29.46


Databricks visualization. Run in Databricks to view.

In [0]:
media_geral = df_yellow_tratado.agg(
    round(avg("total_amount"), 2).alias("media_geral_total_amount")
).collect()[0][0]

media_geral

Out[52]: 28.3

Como podemos ver, a média geral (considerando os 5 meses do dataset) é bem próxima da média individual para cada mês.

## Média de passageiros por hora para o mês de maio

Utilizando o dataframe que foi tratado anteriormente, precisamos adicionar apenas mais um filtro: 'passenger_count' não pode ser nulo. Com mais essa regra, podemos calcular a média de passageiros para cada hora do dia.

In [0]:
df_yellow_tratado = df_yellow_tratado.filter(col('passenger_count').isNotNull())

Vamos contar novamente a quantidade de dados presente no dataframe tratado. Dessa forma, podemos saber a porcentagem dos registros que sobrarão após a eliminação das linhas com 'passenger_count' nulo.

In [0]:
total_registros_tratados = df_yellow_tratado.count()
total_registros_tratados

Out[54]: 15616206

In [0]:
(total_registros_tratados / total_registros) * 100

Out[55]: 96.4780299762478

Portanto, após remover as linhas com a coluna 'passenger_count' igual a NULL, ficamos com 96,48% dos dados. Agora vamos filtrar o dataframe para usar somente os dados para o mês de maio.

In [0]:
df_maio_yellow = df_yellow_tratado.filter(df_yellow_tratado.mes == 5)

Agora podemos calcular a média por hora do dia para o yellow taxi.

In [0]:
passageiros_por_hora_yellow = df_maio_yellow.groupBy("hora") \
    .agg(avg("passenger_count").alias("media_passageiros")) \
    .orderBy("hora")

passageiros_por_hora_yellow.display()

hora,media_passageiros
0,1.4112598082439476
1,1.4219918510495642
2,1.4375
3,1.4368349698040344
4,1.389688777114115
5,1.2653635822188531
6,1.2346859653657276
7,1.2527003131724153
8,1.2659042395724591
9,1.2833310181969717


Databricks visualization. Run in Databricks to view.

Podemos repetir a análise feita até o momento para o green taxi e ver essas informações também. Vamos continuar com as mesmas regras do yellow taxi para tratar o dataframe do green taxi.

In [0]:
df_green = spark.table('gold_green_taxi_data')

In [0]:
total_registros = df_green.count()
total_registros

Out[59]: 339630

In [0]:
df_green_tratado = df_green.dropDuplicates()

df_green_tratado = df_green_tratado.filter(col('total_amount') >= 0)

df_green_tratado = df_green_tratado.withColumn(
    'duracao_minutos',
    round(
        (expr("CAST(lpep_dropoff_datetime AS long) - CAST(lpep_pickup_datetime AS long)") / 60), 2
    )
)

df_green_tratado = df_green_tratado.filter(col('duracao_minutos') >= 0)

df_green_tratado = df_green_tratado.filter(col('passenger_count').isNotNull())

In [0]:
total_registros_tratados = df_green_tratado.count()
total_registros_tratados

Out[61]: 315826

In [0]:
(total_registros_tratados / total_registros) * 100

Out[62]: 92.9911963018579

O tratamento removeu cerca de 7% do total de registros. Agora podemos calcular iniciar a análise para o cálculo da média do green taxi.![](path)

In [0]:
df_maio_green = df_green_tratado.filter(df_green.mes == 5)

In [0]:
passageiros_por_hora_green = df_maio_green.groupBy("hora") \
    .agg(avg("passenger_count").alias("media_passageiros")) \
    .orderBy("hora")

passageiros_por_hora_green.display()

hora,media_passageiros
0,1.367041198501873
1,1.3209549071618036
2,1.375886524822695
3,1.3109243697478992
4,1.3286118980169972
5,1.2694300518134716
6,1.2610328638497652
7,1.2503067484662578
8,1.2060301507537687
9,1.2517461281506226


Databricks visualization. Run in Databricks to view.

Agora que já vimos as médias por hora do yellow e do green taxi, vamos calcular a média considerando toda a frota.

**Observação:** Um ponto a discutido é se os tipos FHV e FHVHV podem ser considerados táxis. Segundo a definição vista no site da TLC, essas duas categorias não são táxis tradicionais. Eles são veículos privados, normalmente chamados via app, com regras e registros diferentes. **Por essa razão, neste notebook, foi considerado como frota de táxis apenas os tipos yellow e green taxi.**

In [0]:
df_frota_yellow = df_maio_yellow.select('passenger_count', 'hora')
df_frota_green = df_maio_green.select('passenger_count', 'hora')

df_frota = df_frota_yellow.union(df_frota_green)

In [0]:
passageiros_por_hora_frota = df_frota.groupBy("hora") \
    .agg(avg("passenger_count").alias("media_passageiros")) \
    .orderBy("hora")

passageiros_por_hora_frota.display()

hora,media_passageiros
0,1.4107389064757725
1,1.4206989019195193
2,1.43658639183931
3,1.4344199540637466
4,1.388362652232747
5,1.2654468310792892
6,1.2352767776303877
7,1.2526395564922188
8,1.2645435373476364
9,1.2826247852627433


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Portanto, considerando o gráfico acima para toda a frota (ver observação no texto anterior), podemos concluir que a hora mais demandada é 02:00 e a menos demandada é 06:00.