# **Trabalho de Estatistica e Probabilidade sobre Corridas de Taxis da cidade de Nova Iorque do mês de janeiro de 2012.**

**Dupla: Victor Melo e Pedro Tojal**

--> [Dataset](https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2012-01.parquet)

As corridas de táxi em Nova Iorque são uma parte icônica da cidade. Os famosos táxis amarelos, regulamentados pela Comissão de Táxi e Limusine de Nova Iorque (TLC), oferecem um meio de transporte conveniente e reconhecível em toda a cidade. As tarifas são calculadas com base na distância e no tempo, com taxas adicionais para pedágios e bagagens. Apesar da crescente concorrência, os táxis amarelos permanecem um símbolo cultural e uma opção de locomoção apreciada por moradores e visitantes.



**Dados do Dataset:**

* **VendorID** - Um código que indica o provedor TPEP que forneceu o registro.
    * 1 = Tecnologias Móveis Criativas, LLC
    * 2 = VeriFone Inc.

* **tpep_pickup_datetime** - A data e hora em que o medidor foi ativado.

* **tpep_dropoff_datetime** - A data e hora em que o medidor foi desativado.

* **Passenger_count** - O número de passageiros no veículo. Este é um valor inserido pelo driver.

* **Trip_distance** - A distância decorrida da viagem em milhas informada pelo taxímetro.

* **PULocationID** - Zona de Táxis TLC em que o taxímetro estava acionado.

* **DOLocationID** - Zona de táxi TLC em que o taxímetro foi desativado.

* **RateCodeID** - O código de tarifa final em vigor no final da viagem.
    * 1 = Taxa padrão
    * 2 = JFK
    * 3 = Newark
    * 4 = Nassau ou Westchester
    * 5 = Tarifa negociada
    * 6 = Passeio em grupo

* **Store_and_fwd_flag** - Este sinalizador indica se o registro da viagem foi mantido na memória antes de enviar ao fornecedor, também conhecido como“armazenar e encaminhar”, porque o veículo não tinha conexão com o servidor.
    * Y = viagem de armazenamento e encaminhamento
    * N = não é uma viagem de armazenamento e ida

* **Payment_type** - Um código numérico que significa como o passageiro pagou pela viagem.
    * 1 = Cartão de crédito
    * 2 = Dinheiro
    * 3 = Sem custo
    * 4 = Disputa
    * 5 = Desconhecido
    * 6 = Viagem anulada

* **Fare_amount** - A tarifa de tempo e distância calculada pelo taxímetro.

* **Extra** - Extras e sobretaxas diversos. Atualmente, isso inclui apenas
os US$ 0,50 e US$ 1 na hora do rush e nas tarifas noturnas.

* **MTA_tax** - Imposto MTA de US$ 0,50 que é acionado automaticamente com base na medição taxa em uso.

* **Improvement_surcharge** - Sobretaxa de melhoria de US$ 0,30 avaliada em viagens na retirada da bandeira. O a sobretaxa de melhoria começou a ser cobrada em 2015.

* **Tip_amount** - Este campo é preenchido automaticamente para cartão de crédito
pontas. Gorjetas em dinheiro não estão incluídas.

* **Tolls_amount** - Valor total de todos os pedágios pagos na viagem.

* **Total_amount** - O valor total cobrado dos passageiros. Não inclui gorjetas em dinheiro.

* **Congestion_Surcharge** - Valor total arrecadado em viagem para sobretaxa de congestionamento do NYS.

* **Airport_fee** - US$ 1,25 para retirada somente nos aeroportos LaGuardia e John F. Kennedy.

  --> [Descrição dados do Dataset](https://www.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf)

**Obs. Importante:** Com a utilização desse dataset das corridas de táxi de Nova Iorque, ocorreu um problema no qual o dataset por inteiro fazia com que o colab entrasse em falha com a grande quantidade de consumo de memória. Com isso, fizemos um programa em python para reduzir o tamanho do dataset de 13 milhões de linhas para 5 milhões de linhas, além do código para transformar o dataset de .parquet para .csv.

O dataset em questão é o enviado por email: [Dataset](https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2012-01.parquet). Com isso ele foi passado de .parquet para .csv, além de ter sido reduzido.


**Código para transformar o arquivo de .parquet para .csv:**

    import pandas as pd

    filename = 'yellow_tripdata_2012-01.parquet'
    df = pd.read_parquet(filename)

    new_filename = 'yellow_tripdata_2012-01.csv'
    df.to_csv(new_filename)

**Código para reduzir o tamanho do Dataset:**

    import pandas as pd

    filename = 'yellow_tripdata_2012-01.csv'
    df = pd.read_csv(filename)

    df = df[:5000000] # definir tamanho desejado

    new_filename = 'dataset.csv'

    df.to_csv(new_filename)

Quando for utilizar ambos os códigos, basta abrir uma pasta no VsCode, colocar o dataset completo dentro da pasta, e colar os códigos em arquivos .py dentro da pasta. Com isso, irá gerar o arquivo reduzido e a transformação de .parquet para .csv.

In [None]:
import pandas as pd
import numpy as np

In [None]:
from google.colab import drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
filename = '/content/drive/MyDrive/dataset.csv'
trip_data_january = pd.read_csv(filename)

In [None]:
trip_data_january

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,...,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,airport_fee
0,0,0,1,2012-01-01 00:07:56,2012-01-01 00:12:09,1,0.90,1,N,158,...,2,4.9,0.5,0.5,0.00,0.0,0.0,5.90,,
1,1,1,1,2012-01-01 00:18:49,2012-01-01 00:30:01,1,2.30,1,N,231,...,2,8.5,0.5,0.5,0.00,0.0,0.0,9.50,,
2,2,2,1,2012-01-01 00:31:38,2012-01-01 00:46:05,1,2.20,1,N,164,...,2,9.3,0.5,0.5,0.00,0.0,0.0,10.30,,
3,3,3,1,2012-01-01 00:47:35,2012-01-01 00:55:57,4,0.90,1,N,148,...,2,5.3,0.5,0.5,0.00,0.0,0.0,6.30,,
4,4,4,1,2012-01-01 00:57:08,2012-01-01 01:02:42,3,0.70,1,N,107,...,2,4.5,0.5,0.5,0.00,0.0,0.0,5.50,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4999995,4999995,4999995,1,2012-01-13 16:50:11,2012-01-13 16:55:29,1,0.80,1,N,234,...,2,4.9,1.0,0.5,0.00,0.0,0.0,6.40,,
4999996,4999996,4999996,1,2012-01-13 16:56:43,2012-01-13 17:05:24,1,1.30,1,N,113,...,1,6.5,1.0,0.5,1.60,0.0,0.0,9.60,,
4999997,4999997,4999997,2,2012-01-13 16:03:00,2012-01-13 16:19:00,4,2.83,1,,113,...,1,10.9,1.0,0.5,2.00,0.0,0.0,14.40,,
4999998,4999998,4999998,2,2012-01-13 16:29:00,2012-01-13 16:51:00,5,7.59,1,,231,...,1,20.1,1.0,0.5,4.22,0.0,0.0,25.82,,


# **Probabilidade Simples**

**Qual a probabilidade de ter sido uma corrida de mais de 2 milhas?**

In [91]:
corrida2 = trip_data_january['trip_distance'] > 2.0

probCorrida2 = len(trip_data_january[corrida2]) / len(trip_data_january)

print('A probabilidade de ter sido uma corrida de mais de 2km é de: ' + str(round((probCorrida2 * 100), 4)) + '%')

A probabilidade de ter sido uma corrida de mais de 2km é de: 41.8788%


Calcular a probabilidade de viagens com mais de 2 milhas ajuda a empresa a tomar decisões estratégicas, como o planejamento da disponibilidade de carros com maior autonomia ou a criação de ofertas especiais para viagens mais longas, impactando diretamente a eficiência operacional e a satisfação do cliente.

**Qual a probabilidade de uma corrida ter ocorrido durante a hora do almoco (12h-14h)?**

In [92]:
trip_data_january['tpep_pickup_datetime'] = pd.to_datetime(trip_data_january['tpep_pickup_datetime'])

corridasAlmoco = trip_data_january[(trip_data_january['tpep_pickup_datetime'].dt.hour >= 12) & (trip_data_january['tpep_pickup_datetime'].dt.hour < 14)]

probAlmoco = len(corridasAlmoco) / len(trip_data_january)

print('A probabilidade de uma corrida ter ocorrido durante o almoço é: ' + str(round((probAlmoco * 100), 4)) + '%')

A probabilidade de uma corrida ter ocorrido durante o almoço é: 10.0847%


Calcular essa probabilidade ajuda a empresa a planejar a disponibilidade de veículos nesse horário e a ajustar as estratégias de preços para atender à demanda. Além disso, pode influenciar a oferta de promoções ou descontos específicos para corridas no horário do almoço, o que pode atrair mais passageiros e aumentar a receita. Em última análise, calcular a probabilidade de corridas durante o almoço é uma ferramenta valiosa para melhorar a eficiência operacional e a lucratividade da empresa de táxi.

**Qual a probabilidade de uma corrida ter tido duração inferior a 10 minutos?**

In [93]:
trip_data_january['tpep_pickup_datetime'] = pd.to_datetime(trip_data_january['tpep_pickup_datetime'])
trip_data_january['tpep_dropoff_datetime'] = pd.to_datetime(trip_data_january['tpep_dropoff_datetime'])

trip_data_january['duracao_minutos'] = (trip_data_january['tpep_dropoff_datetime'] - trip_data_january['tpep_pickup_datetime']).dt.total_seconds() / 60

probDuracao10min = len(trip_data_january[trip_data_january['duracao_minutos'] < 10]) / len(trip_data_january)

print('A probabilidade de uma corrida ter duração inferior a 10 minutos é: ' + str(round((probDuracao10min * 100), 4)) + '%')

A probabilidade de uma corrida ter duração inferior a 10 minutos é: 53.2156%


Essa probabilidade pode influenciar a definição de tarifas ou estratégias de preços para corridas curtas, impactando diretamente a receita da empresa. Portanto, calcular a probabilidade de corridas com duração inferior a 10 minutos é uma ferramenta valiosa para otimizar operações e tomar decisões estratégicas.

**Qual a probabilidade de o RateCodeID ser 2 (relacionado ao Aeroporto JFK)?**

In [94]:
probJfk = len(trip_data_january[trip_data_january['RatecodeID'] == 2]) / len(trip_data_january)

print('A probabilidade de o RateCodeID ser 2 (relacionado ao Aeroporto JFK) é: ' + str(round((probJfk * 100), 4)) + '%')

A probabilidade de o RateCodeID ser 2 (relacionado ao Aeroporto JFK) é: 1.5555%


Calcular a probabilidade de RateCodeID igual a 2 ajuda a empresa a otimizar sua operação, melhorar a satisfação do cliente e maximizar os lucros relacionados a viagens para o aeroporto.

**Qual a probabilidade de uma viagem ter uma duração superior a 20 minutos?**

In [95]:
trip_data_january['tpep_pickup_datetime'] = pd.to_datetime(trip_data_january['tpep_pickup_datetime'])
trip_data_january['tpep_dropoff_datetime'] = pd.to_datetime(trip_data_january['tpep_dropoff_datetime'])

trip_data_january['duração_da_viagem_minutos'] = (trip_data_january['tpep_dropoff_datetime'] - trip_data_january['tpep_pickup_datetime']).dt.total_seconds() / 60

viagensMais20 = len(trip_data_january[trip_data_january['duração_da_viagem_minutos'] > 20])

probViagensMais20 = viagensMais20 / len(trip_data_january)

print('A probabilidade de uma viagem ter uma duração superior a 20 minutos é: ' + str(round((probViagensMais20 * 100), 4)) + '%')

A probabilidade de uma viagem ter uma duração superior a 20 minutos é: 10.9033%


A probabilidade de uma viagem de táxi ter uma duração superior a 20 minutos é relevante para passageiros, motoristas e empresas de táxi, pois fornece uma estimativa do tempo de viagem e ajuda a avaliar a eficiência do sistema de transporte.

**Qual a probabilidade de uma viagem ter um pagamento de gorjeta (Tip_amount) superior a $5?**

In [96]:
viagensGorjetaMaior5 = len(trip_data_january[trip_data_january['tip_amount'] > 5])

probGorjetaMaior5 = viagensGorjetaMaior5 / len(trip_data_january)

print('A probabilidade de uma viagem ter um pagamento de gorjeta superior a $5 é: ' + str(round((probGorjetaMaior5 * 100), 4)) + '%')

A probabilidade de uma viagem ter um pagamento de gorjeta superior a $5 é: 2.6156%


Calcular a probabilidade de uma viagem de táxi ter um pagamento de gorjeta superior a $5 é relevante porque ajuda a avaliar a satisfação do cliente, o desempenho dos motoristas, a qualidade do serviço de táxi e fornece informações úteis para melhorias no setor de táxi.

**Qual a probabilidade de uma viagem ter ocorrido durante um dia útil?**

In [97]:
trip_data_january['tpep_pickup_datetime'] = pd.to_datetime(trip_data_january['tpep_pickup_datetime'])

trip_data_january['dia_util'] = trip_data_january['tpep_pickup_datetime'].dt.dayofweek < 5

probViagensDiaUtil = len(trip_data_january[trip_data_january['dia_util']]) / len(trip_data_january)

print('A probabilidade de uma viagem ter ocorrido durante um dia útil é: ' + str(round((probViagensDiaUtil * 100), 4)) + '%')

A probabilidade de uma viagem ter ocorrido durante um dia útil é: 78.679%


Calcular a probabilidade de uma viagem de táxi ocorrer durante um dia útil é importante para otimizar operações, atender à demanda dos clientes e planejar estratégias de marketing, contribuindo para a eficiência e sucesso do setor de táxi.

**Qual a probabilidade de uma viagem ter mais de um passageiro?**

In [98]:
probMais1Passageiro = len(trip_data_january[trip_data_january['passenger_count'] > 1]) / len(trip_data_january)

print('A probabilidade de uma viagem ter mais de um passageiro é: ' + str(round((probMais1Passageiro * 100), 4)) + '%')

A probabilidade de uma viagem ter mais de um passageiro é: 28.6652%


Calcular a probabilidade de uma viagem de táxi ter mais de um passageiro é importante para otimizar recursos, desenvolver estratégias de preços, planejar a frota e promover a sustentabilidade no setor de táxi. Essa probabilidade ajuda as empresas a tomar decisões informadas e melhorar a eficiência operacional.

**Qual a probabilidade de uma viagem ter um pagamento em dinheiro?**

In [99]:
viagensDinheiro = len(trip_data_january[trip_data_january['payment_type'] == 2])

probPagamentoDinheiro = viagensDinheiro / len(trip_data_january)

print('A probabilidade de uma viagem ter um pagamento em dinheiro é: ' + str(round((probPagamentoDinheiro * 100), 4)) + '%')

A probabilidade de uma viagem ter um pagamento em dinheiro é: 54.9366%


Calcular a probabilidade de uma viagem ser paga em dinheiro é relevante para o planejamento financeiro, a segurança financeira, o atendimento ao cliente, estratégias de preços, controle financeiro e tomada de decisões no setor de transporte e táxi. Isso permite estimar a necessidade de dinheiro físico, garantir fundos suficientes, adaptar o serviço ao cliente, ajustar estratégias de preços e manter registros financeiros adequados.

**Qual a probabilidade de uma viagem ser realizada pela Creative Mobile Technologies, LLC (VendorID = 1)?**

In [100]:
probVendor1 = len(trip_data_january[trip_data_january['VendorID'] == 1]) / len(trip_data_january)

print('A probabilidade de uma viagem ser realizada pelo VendorID = 1 é: ' + str(round((probVendor1 * 100), 4)) + '%')

A probabilidade de uma viagem ser realizada pelo VendorID = 1 é: 56.7098%


Calcular a probabilidade de uma viagem ser realizada pela maioria dos prestadores de serviços (VendorID = 2) é relevante para entender a participação de mercado desse provedor, avaliar a qualidade dos serviços, tomar decisões estratégicas e otimizar o planejamento de recursos no setor de táxi.

**Qual a probabilidade de uma viagem ter um pagamento em cartão de crédito?**

In [101]:
viagensCartao = len(trip_data_january[trip_data_january['payment_type'] == 1])

probPagamentoCartao = viagensCartao / len(trip_data_january)

print('A probabilidade de uma viagem ter um pagamento em cartão de crédito é: ' + str(round((probPagamentoCartao * 100), 4)) + '%')

A probabilidade de uma viagem ter um pagamento em cartão de crédito é: 45.0349%


Calcular a probabilidade de uma viagem ser paga com cartão de crédito é relevante para empresas de transporte, pois fornece informações valiosas sobre as preferências de pagamento dos clientes. Isso auxilia na gestão de receitas, planejamento financeiro, segurança financeira, previsão de demanda e melhoria dos serviços, resultando em uma operação mais eficiente e adaptada às necessidades dos passageiros.

**Qual a probabilidade de uma corrida ter ocorrido durante o horário de pico de tráfego (17h-19h)?**

In [102]:
corridasPico = trip_data_january[(trip_data_january['tpep_pickup_datetime'].dt.hour >= 17) & (trip_data_january['tpep_pickup_datetime'].dt.hour < 19)]

probPico = len(corridasPico) / len(trip_data_january)

print('A probabilidade de uma corrida ter ocorrido durante o horário de pico é: ' + str(round((probPico * 100), 4)) + '%')

A probabilidade de uma corrida ter ocorrido durante o horário de pico é: 11.137%


Calcular a probabilidade de uma corrida ocorrer durante o horário de pico (17h-19h) é relevante para entender o impacto do tráfego e da demanda durante esse período específico. Isso pode auxiliar na alocação eficiente de recursos e na otimização dos serviços de transporte, como táxis, contribuindo para melhorar a qualidade e a eficiência das operações.

**Qual a probabilidade de uma corrida ter dado um total (total_amount) maior que $10?**

In [103]:
corridasTotal10 = len(trip_data_january[trip_data_january['total_amount'] > 10])

probTotal10 = corridasTotal10 / len(trip_data_january)

print('A probabilidade de uma corrida ter um total (total_amount) maior que $10 é: ' + str(round((probTotal10 * 100), 4)) + '%')

A probabilidade de uma corrida ter um total (total_amount) maior que $10 é: 41.3404%


Essa análise é importante para entender a distribuição de custos das corridas e pode ser útil para motoristas e passageiros estimarem os gastos esperados em uma viagem de táxi. Também pode fornecer informações para empresas de táxi ajustarem estratégias de preços e promoções com base na probabilidade de custos totais superiores a $10.

# **Probabilidade com União**

**Qual a probabilidade de uma corrida ter ocorrido em um final de semana OU durante o horário de pico de tráfego (17h-19h)?**

In [104]:
trip_data_january['final_de_semana'] = (trip_data_january['tpep_pickup_datetime'].dt.dayofweek >= 5)

probFds = len(trip_data_january[trip_data_january['final_de_semana']]) / len(trip_data_january)

probFdsOuPico = probFds + probPico - (probFds * probPico)

print('A probabilidade de uma corrida ter ocorrido em um final de semana OU durante o horário de pico é: ' + str(round((probFdsOuPico * 100), 4)) + '%')


A probabilidade de uma corrida ter ocorrido em um final de semana OU durante o horário de pico é: 30.0835%


Com base nos dados de histórico de corridas, esse cálculo permite planejar a disponibilidade de carros e motoristas nos finais de semana e ajustar as tarifas durante o horário de pico para atender à demanda. Além disso, essa informação é valiosa para tomar decisões estratégicas que podem impactar tanto a eficiência operacional quanto a satisfação do cliente.

**Qual é a probabilidade de uma viagem ser realizada pela Creative Mobile Technologies, LLC (VendorID = 1) OU o pagamento ser feito com cartão de crédito (Payment_type = 1)?**

In [105]:
probVendorCredito = probVendor1 + probPagamentoCartao - (probVendor1 * probPagamentoCartao)

print('A probabilidade de uma viagem ser realizada pela Creative Mobile Technologies, LLC (VendorID = 1) OU o pagamento ser feito com cartão de crédito (Payment_type = 1) é: ' + str(round((probVendorCredito * 100), 4)) + '%')

A probabilidade de uma viagem ser realizada pela Creative Mobile Technologies, LLC (VendorID = 1) OU o pagamento ser feito com cartão de crédito (Payment_type = 1) é: 76.2055%


Com base nessa informação, a empresa pode ajustar suas estratégias de marketing, alocação de recursos e processos de pagamento para atender às preferências dos passageiros e otimizar a eficiência operacional. Além disso, essa probabilidade pode ser útil para decisões estratégicas, como parcerias com empresas de tecnologia de pagamento ou campanhas de fidelização de clientes que incentivem o uso de cartão de crédito como forma de pagamento.

**Qual a probabilidade de uma corrida ter ocorrido durante a hora do almoço (12h-14h) OU ter uma duração superior a 20 minutos?**

In [106]:
probAlmocoOuMais20 = probAlmoco + probViagensMais20 - (probAlmoco * probViagensMais20)

print('A probabilidade de uma corrida ter ocorrido durante o horário do almoço (12h-14h) ou ter uma duração superior a 20 minutos é: ' + str(round((probAlmocoOuMais20 * 100), 4)) + '%')


A probabilidade de uma corrida ter ocorrido durante o horário do almoço (12h-14h) ou ter uma duração superior a 20 minutos é: 19.8884%


Calcular a probabilidade de uma corrida de táxi ocorrer durante a hora do almoço (12h-14h) ou ter uma duração superior a 20 minutos é relevante para empresas de táxi devido a diversos motivos, como o planejamento de recursos, a melhoria do serviço ao cliente, a previsão de lucros, a eficiência operacional, a segurança dos motoristas e a melhoria da experiência do passageiro.

**Qual a probabilidade de uma corrida ter tido duração inferior a 10 minutos OU ter um pagamento de gorjeta (Tip_amount) superior a $5?**

In [107]:
probUniao = probDuracao10min + probGorjetaMaior5 - (probDuracao10min * probGorjetaMaior5)

print('A probabilidade de uma corrida ter tido duração inferior a 10 minutos OU ter um pagamento de gorjeta superior a $5 é: ' + str(round((probUniao * 100), 4)) + '%')

A probabilidade de uma corrida ter tido duração inferior a 10 minutos OU ter um pagamento de gorjeta superior a $5 é: 54.4393%


Calcular a probabilidade de uma corrida ter tido duração inferior a 10 minutos ou ter um pagamento de gorjeta superior a $5 é relevante para avaliar a qualidade do serviço de transporte. Corridas muito curtas podem ser indesejadas para motoristas e passageiros, enquanto gorjetas generosas indicam satisfação. A análise dessa probabilidade ajuda a entender a satisfação dos passageiros e identificar áreas de melhoria no serviço.

**Qual a probabilidade de uma viagem ter ocorrido durante um dia útil ou ter mais de um passageiro?**

In [108]:
probUtilPassageiroMais1 = probViagensDiaUtil + probMais1Passageiro - (probViagensDiaUtil * probMais1Passageiro)

print('A probabilidade de uma viagem ter ocorrido durante um dia util OU ter mais de um passageiro é: ' + str(round((probUtilPassageiroMais1 * 100), 4)) + '%')

A probabilidade de uma viagem ter ocorrido durante um dia util OU ter mais de um passageiro é: 84.7907%


Calcular a probabilidade de uma viagem ter ocorrido durante um dia útil ou ter mais de um passageiro é relevante para entender os padrões de viagem e demanda por serviços de táxi. Essa informação pode ser útil para empresas de táxi ao planejar recursos e horários de pico, além de fornecer insights sobre preferências dos passageiros.

**Qual a probabilidade de ser uma corrida de menos de 2 milhas OU inferior a 10 minutos?**

In [109]:
probCorrida2Duracao10 = probCorrida2 + probDuracao10min - (probCorrida2 * probDuracao10min)

print('A probabilidade de ser uma corrida de menos de 2 milhas OU inferior a 10 minutos é: ' + str(round((probCorrida2Duracao10 * 100), 4)) + '%')

A probabilidade de ser uma corrida de menos de 2 milhas OU inferior a 10 minutos é: 72.8083%


A probabilidade de uma corrida ser de menos de 2 milhas OU inferior a 10 minutos é relevante para entender a frequência de viagens curtas ou rápidas em comparação com viagens mais longas ou mais demoradas. Essa probabilidade oferece insights sobre as preferências dos passageiros em relação à duração e à distância das viagens e pode influenciar estratégias de atendimento e planejamento de rotas.

# **Probabilidade com Intersecção**

**Qual é a probabilidade de uma viagem ser realizada pela Creative Mobile Technologies, LLC (VendorID = 1) E ao mesmo tempo ter um RateCodeID igual a 2 (indicando uma viagem para o Aeroporto JFK)?**

In [110]:
probInterseccaoRatecode2Vendor1 = probVendor1 * probJfk

print('A probabilidade de uma viagem ser realizada pela Creative Mobile Technologies, LLC (VendorID) E ao mesmo tempo ter um RateCodeID igual a 2 (indicando uma viagem para o Aeroporto JFK) é: ' + str(round((probInterseccaoRatecode2Vendor1 * 100), 4)) + '%')

A probabilidade de uma viagem ser realizada pela Creative Mobile Technologies, LLC (VendorID) E ao mesmo tempo ter um RateCodeID igual a 2 (indicando uma viagem para o Aeroporto JFK) é: 0.8821%


Calcular essa probabilidade é importante para melhorar a eficiência operacional e a satisfação do cliente, bem como para tomar decisões estratégicas relacionadas à parceria com fornecedores específicos e ao atendimento aos passageiros do aeroporto.

**Qual é a probabilidade de uma viagem ter mais de 1 passageiro (Passenger_count > 1) E o pagamento ser feito em dinheiro?**

In [111]:
probInterseccaoMaisPassageiros1Dinheiro = probMais1Passageiro * probPagamentoDinheiro

print('A probabilidade de uma viagem ter exatamente 1 passageiros (Passenger_count) E o pagamento ser feito em dinheiro é: ' + str(round((probInterseccaoMaisPassageiros1Dinheiro * 100), 4)) + '%')

A probabilidade de uma viagem ter exatamente 1 passageiros (Passenger_count) E o pagamento ser feito em dinheiro é: 15.7477%


Calcular essa probabilidade é importante para otimizar as operações da empresa, melhorar a experiência do cliente e adaptar suas estratégias de negócios para atender às preferências e necessidades dos passageiros.

**Qual a probabilidade de uma corrida ter ocorrido durante o horário de pico de tráfego (17h-19h) E ter uma duração superior a 20 minutos?**

In [112]:
probInterseccaoPicoDuracaoMais20 = probPico * probViagensMais20

print('A probabilidade de uma corrida ocorrer durante o horário de pico E ter uma duração superior a 20 minutos é: ' + str(round((probInterseccaoPicoDuracaoMais20 * 100), 4)) + '%')

A probabilidade de uma corrida ocorrer durante o horário de pico E ter uma duração superior a 20 minutos é: 1.2143%


A probabilidade de uma corrida ocorrer durante o horário de pico de tráfego e, simultaneamente, ter uma duração superior a 20 minutos é fundamental tanto para a experiência do passageiro quanto para estudos de tráfego e planejamento urbano. Essa probabilidade reflete não apenas a eficiência do serviço de táxi e a satisfação do cliente durante os horários mais movimentados, mas também fornece insights valiosos sobre a presença de congestionamentos e desafios de mobilidade urbana.


**Qual a probabilidade de uma viagem ter ocorrido durante a hora do almoço (12h-14h) E ter um pagamento em cartão de crédito?**

In [113]:
probInterseccaoAlmocoCartao = probAlmoco * probPagamentoCartao

print('A probabilidade de uma viagem ter ocorrido durante a hora do almoço (12h-14h) E ter um pagamento em cartão de crédito é: ' + str(round((probInterseccaoAlmocoCartao * 100), 4)) + '%')

A probabilidade de uma viagem ter ocorrido durante a hora do almoço (12h-14h) E ter um pagamento em cartão de crédito é: 4.5416%


A probabilidade de uma viagem ocorrer durante a hora do almoço (12h-14h) e, ao mesmo tempo, ser paga com cartão de crédito é relevante tanto para o planejamento das operações de táxi quanto para análises financeiras. Essa probabilidade permite avaliar a demanda específica por pagamentos eletrônicos durante o horário de almoço, o que pode influenciar a necessidade de disponibilidade de veículos equipados para pagamentos com cartão e a eficiência das transações. Além disso, essa informação é valiosa para instituições financeiras que desejam compreender as tendências de uso de cartão de crédito em diferentes momentos do dia, contribuindo para estratégias de marketing e desenvolvimento de serviços financeiros direcionados.

**Qual a probabilidade de uma viagem ter um pagamento de gorjeta (Tip_amount) superior a $5 E ter uma duração superior a 20 minutos?**

In [114]:
probInterseccaoGorjeta5Duracao20 = probGorjetaMaior5 * probViagensMais20

print('A probabilidade de uma viagem ter um pagamento de gorjeta (Tip_amount) superior a $5 E ter uma duração superior a 20 minutos é: ' + str(round((probInterseccaoGorjeta5Duracao20 * 100), 4)) + '%')

A probabilidade de uma viagem ter um pagamento de gorjeta (Tip_amount) superior a $5 E ter uma duração superior a 20 minutos é: 0.2852%


A probabilidade de uma viagem ter um pagamento de gorjeta (Tip_amount) superior a $5 e, simultaneamente, ter uma duração superior a 20 minutos é relevante tanto para a experiência dos passageiros quanto para a eficiência do serviço de táxi. Essa probabilidade reflete o potencial de passageiros oferecerem gorjetas mais generosas em viagens mais longas, o que pode afetar a motivação dos motoristas e a satisfação dos passageiros.

**Qual a probabilidade de uma viagem ter ocorrido durante um dia útil E ter um pagamento em dinheiro?**

In [115]:
probInterseccaoUtilDinheiro = probViagensDiaUtil * probPagamentoDinheiro

print('A probabilidade de uma viagem ter ocorrido durante um dia útil E ter feito um pagamento em dinheiro é: ' + str(round((probInterseccaoUtilDinheiro * 100), 4)) + '%')

A probabilidade de uma viagem ter ocorrido durante um dia útil E ter feito um pagamento em dinheiro é: 43.2236%


A probabilidade de uma viagem ter ocorrido durante um dia útil e, ao mesmo tempo, ter um pagamento em dinheiro é relevante para entender os padrões de pagamento durante os dias da semana. Isso pode influenciar o planejamento de recursos e a disponibilidade de dinheiro nos táxis. Além disso, essa probabilidade é importante para análises financeiras, pois ajuda a determinar a frequência de pagamentos em dinheiro em comparação com outros métodos de pagamento eletrônico, como cartões de crédito, durante os dias úteis, o que pode afetar estratégias de aceitação de pagamento e serviços financeiros relacionados

**Qual a probabilidade de uma corrida ter tido duração inferior a 10 minutos E ter um pagamento de gorjeta (Tip_amount) superior a $1?**

In [116]:
viagensGorjetaMaior1 = len(trip_data_january[trip_data_january['tip_amount'] > 1])

probGorjetaMaior1 = viagensGorjetaMaior1 / len(trip_data_january)

probInterseccaoDuracao10Gorjeta1 = probDuracao10min * probGorjetaMaior1

print('A probabilidade de uma corrida ter tido duração inferior a 10 minutos E ter uma gorjeta superior a $1 é: ' + str(round((probInterseccaoDuracao10Gorjeta1 * 100), 4)) + '%')

A probabilidade de uma corrida ter tido duração inferior a 10 minutos E ter uma gorjeta superior a $1 é: 17.2838%


A probabilidade de uma corrida ter tido duração inferior a 10 minutos e, ao mesmo tempo, ter um pagamento de gorjeta (Tip_amount) superior a $1 é importante para entender o comportamento dos passageiros em viagens curtas.

**Qual a probabilidade de uma viagem ter ocorrido durante a hora do almoço (12h-14h) E ter um pagamento em dinheiro?**

In [117]:
probInterseccaoAlmocoDinheiro = probAlmoco * probPagamentoDinheiro

print('A probabilidade de uma viagem ter ocorrido durante a hora do almoço (12h-14h) E ter um pagamento em dinheiro é: ' + str(round((probInterseccaoAlmocoDinheiro * 100), 4)) + '%')

A probabilidade de uma viagem ter ocorrido durante a hora do almoço (12h-14h) E ter um pagamento em dinheiro é: 5.5402%


Essa informação pode ser valiosa para motoristas e empresas de táxi que desejam ajustar suas estratégias de pagamento e oferecer opções de pagamento que atendam às preferências dos passageiros durante o almoço.

# **Probabilidade com Complemento/Diferença**

**Qual a probabilidade de o RateCodeID ser diferente de 2 (não relacionado ao Aeroporto JFK)?**

In [118]:
probNaoJfk  = 1 - probJfk

print('A probabilidade de o RateCodeID ser diferente de 2 (não relacionado ao Aeroporto JFK) é: ' + str(round((probNaoJfk * 100), 4)) + '%')

A probabilidade de o RateCodeID ser diferente de 2 (não relacionado ao Aeroporto JFK) é: 98.4445%


Calcular a probabilidade do complemento (não ser relacionado ao Aeroporto JFK) pode ser útil para determinar a proporção de viagens que não estão diretamente relacionadas a aeroportos, o que pode ser relevante para planejamento de rotas e disponibilidade de táxis em diferentes áreas da cidade.

**Qual a probabilidade de ter sido uma corrida de menos de 2 milhas?**


In [119]:
probMenos2Milhas = 1 - probCorrida2

print('A probabilidade de ter sido uma corrida de menos de 2 milhas é: ' + str(round((probMenos2Milhas * 100), 4)) + '%')

A probabilidade de ter sido uma corrida de menos de 2 milhas é: 58.1212%


Essa probabilidade é importante para entender a frequência de viagens curtas em comparação com viagens mais longas. Ela influencia a eficiência do serviço de táxi e a estimativa de custos para os passageiros, além de ter implicações no tráfego urbano e planejamento de recursos.


**Qual a probabilidade de uma corrida não ter ocorrido durante a hora do almoco (12h-14h)?**

In [120]:
probNaoAlmoco = 1 - probAlmoco

print('A probabilidade de uma corrida não ter ocorrido durante o almoço é: ' + str(round((probNaoAlmoco * 100), 4)) + '%')

A probabilidade de uma corrida não ter ocorrido durante o almoço é: 89.9153%


A probabilidade de uma corrida não ter ocorrido durante a hora do almoço (12h-14h) é relevante para entender quando as viagens de táxi são menos comuns durante o dia. Isso pode influenciar a alocação de recursos, a disponibilidade de motoristas e as estratégias de atendimento ao cliente durante os horários não relacionados ao almoço. Além disso, essa informação é útil para passageiros que desejam planejar viagens fora do horário de almoço e para motoristas que desejam otimizar seu tempo de trabalho durante esses períodos de menor demanda.

**Qual a probabilidade de uma corrida não ter ocorrido em um final de semana nem durante o horário de pico de tráfego (17h-19h)?**

In [121]:
probNaoFdsNemPico = 1 - (probPico + probFds)

print('A probabilidade de uma corrida não ter ocorrido em um final de semana nem durante o horário de pico é: ' + str(round((probNaoFdsNemPico * 100), 4)) + '%')

A probabilidade de uma corrida não ter ocorrido em um final de semana nem durante o horário de pico é: 67.542%


Essa probabilidade ajuda a identificar os momentos de menor demanda e congestionamento nas viagens de táxi, sendo relevante para motoristas e análises de tráfego urbano.

**Qual é a probabilidade de uma viagem não ser realizada pela Creative Mobile Technologies, LLC (VendorID = 1) nem o pagamento ser feito com cartão de crédito (Payment_type = 1)?**

In [122]:
probNaoVendor1NemPagamentoCartao = 1 - probVendorCredito

print('A probabilidade de uma viagem não ser realizada pela Creative Mobile Technologies, LLC (VendorID = 1) nem o pagamento ser feito com cartão de crédito (Payment_type = 1) é: ' + str(round((probNaoVendor1NemPagamentoCartao * 100), 4)) + '%')

A probabilidade de uma viagem não ser realizada pela Creative Mobile Technologies, LLC (VendorID = 1) nem o pagamento ser feito com cartão de crédito (Payment_type = 1) é: 23.7945%


Essa probabilidade é relevante para entender a participação de mercado de fornecedores alternativos de serviços de táxi e a preferência dos passageiros por métodos de pagamento não relacionados a cartão de crédito, como dinheiro. Pode ser útil para empresas de táxi que desejam avaliar a concorrência e ajustar suas estratégias de aceitação de pagamento.

**Qual a probabilidade de uma corrida não ter tido duração inferior a 10 minutos nem ter um pagamento de gorjeta (Tip_amount) superior a $5?**

In [123]:
probNaoDuracao10NemGorjeta5 = 1 - (probDuracao10min - probGorjetaMaior5)

print('A probabilidade de uma corrida não ter tido duração inferior a 10 minutos nem ter um pagamento de gorjeta superior a $5 é: ' + str(round((probNaoDuracao10NemGorjeta5 * 100), 4)) + '%')

A probabilidade de uma corrida não ter tido duração inferior a 10 minutos nem ter um pagamento de gorjeta superior a $5 é: 49.4%


Essa probabilidade é relevante para entender os padrões de duração de viagens e a generosidade dos passageiros em relação a gorjetas. Pode ser útil para motoristas de táxi que desejam otimizar a duração de suas viagens e para passageiros que desejam estimar seus gastos totais em corridas.

# **Probabilidade Condicional**

**Qual a probabilidade de o pagamento ser feito em dinheiro (Payment_type = 2), DADO que o RateCodeID é 2 (indicando que a viagem é para o Aeroporto JFK)?**

In [124]:
corridasJfk = trip_data_january[trip_data_january['RatecodeID'] == 2]

corridasDinheiroJfk = corridasJfk[corridasJfk['payment_type'] == 2]

probDinheiroDadoJfk = len(corridasDinheiroJfk) / len(corridasJfk)

print('A probabilidade de o pagamento ser feito em dinheiro, DADO que o RateCodeID é 2 (Aeroporto JFK), é: ' + str(round((probDinheiroDadoJfk * 100), 4)) + '%')

A probabilidade de o pagamento ser feito em dinheiro, DADO que o RateCodeID é 2 (Aeroporto JFK), é: 41.6941%


Essa probabilidade condicional pode ser útil para entender o comportamento dos passageiros que escolhem pagar em dinheiro quando viajam para o Aeroporto JFK, o que pode influenciar as políticas de pagamento e as opções de moeda aceitas nos táxis que servem esse aeroporto.

**Qual a probabilidade de a viagem ter ocorrido em um dos aeroportos (RateCodeID = 2 ou RateCodeID = 3), DADO que a viagem foi realizada pela VeriFone Inc. (VendorID = 2)?**

In [125]:
viagensVerifone = trip_data_january[trip_data_january['VendorID'] == 2]

viagensAeroportoVerifone = viagensVerifone[(viagensVerifone['RatecodeID'] == 2) | (viagensVerifone['RatecodeID'] == 3)]

probAeroportoDadoVerifone = len(viagensAeroportoVerifone) / len(viagensVerifone)

print('A probabilidade de a viagem ter ocorrido em um dos aeroportos, DADO que foi realizada pela VeriFone Inc., é: ' + str(round((probAeroportoDadoVerifone * 100), 4)) + '%')

A probabilidade de a viagem ter ocorrido em um dos aeroportos, DADO que foi realizada pela VeriFone Inc., é: 1.7657%


Essa probabilidade condicional pode ser útil para avaliar se a VeriFone Inc. está mais envolvida em viagens para aeroportos, o que pode afetar estratégias de disponibilidade de táxis em aeroportos específicos.

**Qual a probabilidade de uma corrida ter uma duração superior a 20 minutos, DADO que ocorreu durante o horário de pico de tráfego (17h-19h)??**





In [126]:
probPicoDadoViagem20 = probViagensMais20 / probPico

print('A probabilidade de uma corrida ter uma duração superior a 20 minutos, DADO que ocorreu durante o horário de pico de tráfego (17h-19h) é: ' + str(round((probPicoDadoViagem20 * 100), 4)) + '%')

A probabilidade de uma corrida ter uma duração superior a 20 minutos, DADO que ocorreu durante o horário de pico de tráfego (17h-19h) é: 97.9011%


Essa probabilidade é relevante para entender a probabilidade de viagens mais longas durante os horários de tráfego mais intenso, o que pode afetar o planejamento de rotas dos motoristas, os tempos de espera dos passageiros e a eficiência dos serviços de táxi durante os horários de pico. Isso também pode ajudar na alocação de recursos e no ajuste de preços durante esses períodos de alta demanda.

**Qual a probabilidade de ser uma corrida de mais de 2 milhas, DADO que a viagem teve um pagamento em dinheiro?**

In [127]:
probMilhas2DadoPagamentoDinheiro = probCorrida2 / probPagamentoDinheiro

print('A probabilidade de ser uma corrida de mais de 2 milhas, DADO que a viagem teve pagamento em dinheiro é: ' + str(round((probMilhas2DadoPagamentoDinheiro * 100), 4)) + '%')

A probabilidade de ser uma corrida de mais de 2 milhas, DADO que a viagem teve pagamento em dinheiro é: 76.2311%


Essa probabilidade é relevante para entender o comprimento típico de viagens pagas em dinheiro e pode influenciar estratégias de preços, alocação de motoristas e planejamento de rotas, dependendo da preferência dos passageiros por pagamentos em dinheiro em viagens mais longas.

**Qual a probabilidade de uma corrida ter ocorrido durante um dia útil, DADO que foi uma corrida de mais de 2 milhas?**

In [128]:
probCorrida2DiaUtil = len(trip_data_january[(trip_data_january['trip_distance'] > 2) & (trip_data_january['dia_util'])]) / len(trip_data_january)

probDiaUtilDadoCorrida2 = probCorrida2DiaUtil / probCorrida2

print('A probabilidade de uma corrida ter ocorrido durante um dia útil, dado que foi uma corrida de mais de 2 milhas, é: ' + str(round((probDiaUtilDadoCorrida2 * 100), 4)) + '%')

A probabilidade de uma corrida ter ocorrido durante um dia útil, dado que foi uma corrida de mais de 2 milhas, é: 76.5757%


Essa probabilidade é relevante para entender a distribuição de corridas de maior distância durante os dias úteis, o que pode influenciar o planejamento de recursos e a programação de motoristas durante esses dias específicos da semana.

# **Probabilidade com o Teorema de Bayes**

**Qual a probabilidade de uma corrida ter ocorrido durante o horário de pico de tráfego (17h-19h), dado que a viagem teve uma duração superior a 20 minutos?**

In [129]:
probDuracao20DadoPico = len(trip_data_january[(trip_data_january['duracao_minutos'] > 20) & (trip_data_january['tpep_pickup_datetime'].dt.hour >= 17) & (trip_data_january['tpep_pickup_datetime'].dt.hour < 19)]) / len(trip_data_january)

probPicoDadoViagens20 = (probDuracao20DadoPico * probPico) / probViagensMais20

print('A probabilidade de uma corrida ter ocorrido durante o horário de pico de tráfego (17h-19h), dado que a viagem teve uma duração superior a 20 minutos, é: ' + str(round((probPicoDadoViagens20 * 100), 4)) + '%')

A probabilidade de uma corrida ter ocorrido durante o horário de pico de tráfego (17h-19h), dado que a viagem teve uma duração superior a 20 minutos, é: 1.351%


Com uma probabilidade de aprox 1 por cento, a chance de uma corrida ter ocorrido durante o horário de pico de tráfego (17h-19h), dado que a viagem teve uma duração superior a 20 minutos, é muito baixa. Isso indica que é raro que viagens mais longas ocorram durante os períodos de maior congestionamento de tráfego.

Essa análise sugere que a maioria das viagens longas provavelmente ocorre em momentos diferentes do dia, quando o tráfego pode estar mais fluído. Isso pode ser útil para motoristas de táxi planejarem suas jornadas e para passageiros que desejam evitar congestionamentos em viagens mais longas. Além disso, essa informação pode influenciar estratégias de alocação de recursos por parte das empresas de táxi durante os horários de pico.

**Qual a probabilidade de ser uma corrida de menos de 2 milhas, dado que a viagem teve um pagamento em cartão de crédito?**

In [130]:
probPagamentoCartaoDadoCorrida2 = len(trip_data_january[(trip_data_january['trip_distance'] < 2) & (trip_data_january['payment_type'] == 1)]) / len(trip_data_january)

probCorrida2DadoCartao = (probPagamentoCartaoDadoCorrida2 * probCorrida2) / probPagamentoCartao

print('A probabilidade de ser uma corrida de menos de 2 milhas, dado que a viagem teve um pagamento em cartão de crédito, é: ' + str(round((probCorrida2DadoCartao * 100), 4)) + '%')

A probabilidade de ser uma corrida de menos de 2 milhas, dado que a viagem teve um pagamento em cartão de crédito, é: 21.2668%


Com uma probabilidade de aprox 21 por cento, a chance de uma corrida ter sido de menos de 2 milhas, dado que a viagem teve um pagamento em cartão de crédito, é relativamente alta. Isso sugere que viagens curtas são frequentemente pagas com cartão de crédito.

Essa análise é útil para entender o comportamento dos passageiros que optam pelo pagamento em cartão de crédito, indicando que eles podem preferir esse método em viagens curtas. Pode ser relevante para motoristas e empresas de táxi que desejam adaptar suas estratégias de aceitação de pagamento para atender às preferências dos passageiros e para passageiros que desejam escolher o método de pagamento mais conveniente para suas viagens.

**Qual a probabilidade de ter sido uma corrida durante a hora do almoço (12h-14h), dado que a viagem teve um pagamento em dinheiro?**

In [131]:
probPagamentoDinheiroDadoAlmoco = len(trip_data_january[(trip_data_january['tpep_pickup_datetime'].dt.hour >= 12) & (trip_data_january['tpep_pickup_datetime'].dt.hour < 14) & (trip_data_january['payment_type'] == 2)]) / len(trip_data_january)

probAlmocoDadoDinheiro = (probPagamentoDinheiroDadoAlmoco * probAlmoco) / probPagamentoDinheiro

print('A probabilidade de ser uma corrida durante o horário do almoço (12h-14h), dado que a viagem teve um pagamento em dinheiro, é: ' + str(round((probAlmocoDadoDinheiro * 100), 4)) + '%')

A probabilidade de ser uma corrida durante o horário do almoço (12h-14h), dado que a viagem teve um pagamento em dinheiro, é: 1.0925%


Com uma probabilidade de aprox. 1 por cento, é extremamente baixa a chance de uma corrida ter ocorrido durante a hora do almoço (12h-14h), dado que a viagem teve um pagamento em dinheiro. Isso sugere que viagens durante o horário de almoço são raras quando os passageiros optam por pagar em dinheiro. Esse resultado pode indicar que a preferência dos passageiros durante o almoço tende a ser por outros métodos de pagamento eletrônico, como cartão de crédito, ou que durante esse período a demanda por viagens é naturalmente mais baixa em comparação com outros horários do dia.

Essa análise fornece informações sobre os padrões de comportamento dos passageiros e a dinâmica das viagens durante o horário de almoço, o que pode ser valioso para empresas de táxi ao ajustar estratégias de atendimento e pagamento durante esse período.

**Qual a probabilidade de ter sido uma corrida de mais de 2 milhas, dado que a viagem ocorreu em um dia útil?**

In [132]:
probUtilDadoCorrida2 = len(trip_data_january[(trip_data_january['trip_distance'] > 2) & (trip_data_january['dia_util'])]) / len(trip_data_january)

probCorrida2DadoUtil = (probUtilDadoCorrida2 * probCorrida2) / probViagensDiaUtil

print('A probabilidade de ser uma corrida de mais de 2 milhas, dado que a viagem ocorreu em um dia útil, é: ' + str(round((probCorrida2DadoUtil * 100), 4)) + '%')

A probabilidade de ser uma corrida de mais de 2 milhas, dado que a viagem ocorreu em um dia útil, é: 17.0695%



Com uma probabilidade de aprox 17 por cento, a chance de uma corrida ter sido de mais de 2 milhas, dado que a viagem ocorreu em um dia útil, é relativamente baixa. Isso sugere que viagens mais longas são menos comuns durante os dias úteis, em comparação com outros momentos.

Essa análise é útil para entender a distribuição de corridas de maior distância em relação aos dias da semana e pode ser relevante para o planejamento de recursos e a alocação de motoristas. Isso também pode fornecer insights sobre como as viagens variam ao longo da semana, influenciando estratégias operacionais para otimizar a eficiência e a disponibilidade de táxis em diferentes momentos.

**Qual a probabilidade de ser uma corrida de mais de 2 milhas, dado que a viagem teve mais de um passageiro?**

In [133]:
probPassageiro1Corrida2 = len(trip_data_january[(trip_data_january['trip_distance'] > 2) & (trip_data_january['passenger_count'] > 1)]) / len(trip_data_january)

probCorrida2Passageiro1 = (probPassageiro1Corrida2 * probMais1Passageiro) / probCorrida2

print('A probabilidade de ser uma corrida de mais de 2 milhas, dado que a viagem teve mais de um passageiro, é: ' + str(round((probCorrida2Passageiro1 * 100), 4)) + '%')

A probabilidade de ser uma corrida de mais de 2 milhas, dado que a viagem teve mais de um passageiro, é: 8.6265%


Com uma probabilidade de aproximadamente 8 por cento, a chance de uma corrida ter sido de mais de 2 milhas, dado que a viagem teve mais de um passageiro, é relativamente baixa. Isso sugere que viagens mais longas são menos comuns quando há mais de um passageiro no veículo.

Essa análise é valiosa para compreender os padrões de viagens em relação à ocupação do veículo. Pode indicar que passageiros que compartilham corridas tendem a preferir viagens mais curtas ou que a dinâmica de viagens compartilhadas é diferente daquelas com apenas um passageiro. Essa informação pode influenciar estratégias de preços e a alocação de veículos para atender às necessidades dos passageiros.

# **Definição de Novas Variáveis Aleatórias**

In [134]:
# Calcule a contagem de ocorrências dos valores únicos ordenando em ordem crescente, mostrando quantas vezes cada valor único aparece na coluna 'total_amount'.

trip_data_january['total_amount'].value_counts(sort=False).sort_index()

2.50      50
2.60       4
2.70       1
2.75       1
2.90       2
          ..
440.00     2
441.74     1
450.00     2
450.01     1
500.00     1
Name: total_amount, Length: 6403, dtype: int64

O cálculo da contagem de ocorrências dos valores únicos na coluna 'total_amount' e a ordenação dessas contagens em ordem crescente são úteis para entender a distribuição dos preços totais de viagens no conjunto de dados. Isso fornece informações sobre a variação nos preços das viagens, bem como a frequência com que valores específicos ocorrem.

In [135]:
# PassageirosPorViagem: Número médio de passageiros por viagem.

PassageirosPorViagem = trip_data_january['passenger_count'].mean()
print("Média de passageiros: ", str(round((PassageirosPorViagem), 2)), "passageiros")

Média de passageiros:  1.61 passageiros


O resultado desse calculo é útil para entender a eficiência operacional dos veículos. Uma alta média de passageiros por viagem pode indicar uma utilização eficiente dos recursos, enquanto uma baixa média pode sugerir subutilização ou falta de demanda.


In [136]:
# DistanciaMediaPorViagem: Distância média percorrida em cada viagem.

DistanciaMediaPorViagem = trip_data_january['trip_distance'].mean()
print("Distância média: ", str(round((DistanciaMediaPorViagem), 2)), "milhas")

Distância média:  2.78 milhas


Os serviços de transporte, como táxis e aplicativos de carona, podem usar a distância média por viagem para estimar o tempo que levará para um veículo percorrer determinada distância. Isso é fundamental para fornecer estimativas precisas de tempo de chegada aos passageiros. As empresas de transporte podem usar a distância média por viagem para definir estratégias de preços. Por exemplo, podem cobrar com base na distância percorrida ou oferecer tarifas diferenciadas para viagens longas ou curtas. Compreender a distância média por viagem ajuda as empresas a otimizar suas operações. Isso pode envolver a alocação de veículos com base na demanda por distância ou a criação de promoções específicas para viagens mais longas.

In [137]:
# RatecodeIDMaisFrequente: O código de taxa mais frequente.

RatecodeIDMaisFrequente = trip_data_january['RatecodeID'].value_counts().idxmax()
print("RateCode mais frequente: ", str(round((RatecodeIDMaisFrequente), 2)))

RateCode mais frequente:  1


Ao determinar qual código de tarifa é mais frequente, podemos identificar padrões de uso. Isso pode revelar informações sobre as preferências dos passageiros, destinos mais comuns, ou até mesmo eventos sazonais que afetam as tarifas. Saber qual é o código de tarifa mais frequente permite que as empresas de transporte ajustem seus serviços e recursos de acordo com a demanda predominante. Por exemplo, se o código de tarifa 2 (JFK) for o mais frequente, a empresa pode direcionar mais veículos para essa área. A análise do código de tarifa mais frequente pode influenciar as estratégias de precificação e negócios. Se um código de tarifa específico for mais popular, a empresa pode oferecer promoções ou descontos direcionados a essa categoria para atrair mais passageiros. Diferentes códigos de tarifa podem ter diferentes níveis de rentabilidade para a empresa. Identificar o mais frequente permite que a empresa avalie a rentabilidade média das viagens sob esse código.

In [138]:
# ViagensComGorjeta: Número total de viagens com gorjeta.

ViagensComGorjeta = trip_data_january['tip_amount'].apply(lambda x: 1 if x > 0 else 0).sum()
print("Total de viagens com gorjeta: ", str(round((ViagensComGorjeta), 2)), "viagens")

Total de viagens com gorjeta:  2186708 viagens


O número de viagens com gorjetas pode ser um indicador da satisfação dos passageiros com os serviços de transporte. Viagens que recebem gorjetas geralmente refletem uma experiência positiva por parte dos passageiros.
As gorjetas podem representar uma fonte adicional de renda para os motoristas. Entender quantas viagens resultam em gorjetas pode ajudar os motoristas a estimar sua renda total. Empresas de transporte podem usar essa métrica para implementar estratégias de incentivo, como campanhas para encorajar os passageiros a dar gorjetas ou recompensar motoristas por receberem mais gorjetas.

In [139]:
# ViagensComTaxaExtra: Número total de viagens com taxa extra.

ViagensComTaxaExtra = trip_data_january['extra'].apply(lambda x: 1 if x > 0 else 0).sum()
print("Total de viagens com taxa extra: ", str(round((ViagensComTaxaExtra), 2)), "viagens")

Total de viagens com taxa extra:  2373510 viagens


Mostra quantas viagens tiveram um custo adicional devido à taxa extra. Isso pode ser relevante para passageiros que desejam entender melhor os custos associados às viagens. A taxa extra representa uma fonte adicional de receita para motoristas ou empresas de transporte. Compreender quantas viagens incluem essa taxa pode ajudar a calcular a renda total gerada por essas tarifas.Empresas de transporte podem usar essa métrica para avaliar a eficiência das estratégias de preços e entender em quais circunstâncias os passageiros estão dispostos a pagar uma taxa extra.

In [140]:
# PagamentoPorDiasDaSemana: Soma dos pagamentos agrupados por dia da semana.

PagamentoPorDiasDaSemana = trip_data_january.groupby(trip_data_january['tpep_pickup_datetime'].dt.dayofweek)['total_amount'].sum()
print(PagamentoPorDiasDaSemana)

tpep_pickup_datetime
0     8273297.96
1     9396461.31
2     9900348.94
3    10343472.94
4     8519976.13
5     5224538.33
6     7296091.55
Name: total_amount, dtype: float64


Permite entender como a demanda por viagens varia ao longo da semana. Pode revelar padrões, como dias de pico de demanda e dias mais tranquilos.Ajuda a determinar em quais dias da semana a receita proveniente das viagens é mais significativa, o que pode ser útil para o planejamento financeiro e estratégias de preços.Pode revelar se os passageiros têm comportamentos específicos em determinados dias da semana, como usar mais viagens de táxi durante os fins de semana.

In [141]:
# PagamentoPorHoraDoDia: Soma dos pagamentos agrupados por hora do dia.

PagamentoPorHoraDoDia = trip_data_january.groupby(trip_data_january['tpep_pickup_datetime'].dt.hour)['total_amount'].sum()
print(PagamentoPorHoraDoDia)

tpep_pickup_datetime
0     2266531.74
1     1678753.98
2     1246009.20
3      950389.65
4      792432.24
5      781478.49
6     1393373.49
7     2290346.78
8     2873420.01
9     2794958.41
10    2514572.58
11    2571422.48
12    2737068.06
13    2819107.72
14    3132512.86
15    3091123.81
16    2759655.92
17    3041849.72
18    3551488.23
19    3535959.46
20    3269690.11
21    3151498.26
22    3075060.35
23    2635483.61
Name: total_amount, dtype: float64


Permite entender como a demanda por viagens varia ao longo do dia. Pode revelar os horários de pico de demanda e os horários de menor demanda. Ajuda a determinar em quais horas do dia a receita proveniente das viagens é mais significativa, o que pode ser útil para o planejamento de turnos de motoristas ou estratégias de preços diferenciados. Pode indicar se os passageiros têm preferências específicas por horários ao longo do dia, como usar mais viagens de táxi durante a noite ou durante as horas de pico de tráfego.

In [142]:
# ViagensNoAeroporto: Número total de viagens que começam ou terminam em um aeroporto.

Aeroportos = [2, 3]  # Códigos de localização de aeroportos
ViagensNoAeroporto = trip_data_january[(trip_data_january['PULocationID'].isin(Aeroportos)) | (trip_data_january['DOLocationID'].isin(Aeroportos))].shape[0]
print("Número total de viagens que começam ou terminam em um aeroporto: ", ViagensNoAeroporto, "viagens")

Número total de viagens que começam ou terminam em um aeroporto:  351 viagens


Pode ser relevante para empresas de transporte ou serviços de táxi entender quantas viagens estão diretamente relacionadas a aeroportos. Isso pode indicar a necessidade de disponibilizar mais veículos nesses locais em horários de grande movimentação. Ajuda a quantificar a demanda de passageiros que chegam ou partem de aeroportos, o que pode ser útil para planejamento logístico e operacional. As viagens relacionadas a aeroportos muitas vezes são mais longas e podem gerar uma receita significativa. O conhecimento do número de viagens nesses locais pode auxiliar no cálculo do potencial de lucro.

In [143]:
# PagamentoPorDistancia: Soma dos pagamentos agrupados por faixas de distância.

Distancia = [0, 2, 5, 10, float('inf')]
Labels = ['<2 milhas', '2-5 milhas', '5-10 milhas', '>10 milhas']

trip_data_january['Distancia'] = pd.cut(trip_data_january['trip_distance'], bins=Distancia, labels=Labels)
PagamentoPorDistancia = trip_data_january.groupby('Distancia')['total_amount'].sum()

print(PagamentoPorDistancia)

Distancia
<2 milhas      21380894.01
2-5 milhas     18609213.75
5-10 milhas     9186832.51
>10 milhas      9051604.57
Name: total_amount, dtype: float64


O valor resultante na análise fornece informações importantes sobre como os pagamentos estão distribuídos em relação à distância percorrida. Ele ajuda a entender qual faixa de distância gera mais receita, o que pode ser útil para estratégias de preços e alocação de recursos. Por exemplo, se a faixa ">10 milhas" representa uma parte significativa da receita, uma empresa de transporte pode considerar oferecer incentivos para viagens de longa distância.

In [144]:
# PagamentoPorRatecode: Soma dos pagamentos agrupados por código de taxa.

PagamentoPorRatecode = trip_data_january.groupby('RatecodeID')['total_amount'].sum()
print(PagamentoPorRatecode)

RatecodeID
1     53502757.69
2      4181890.98
3       368728.63
4       196650.01
5       700003.58
6          575.43
99        3580.84
Name: total_amount, dtype: float64


O sentido do valor na análise é determinar qual código de taxa é mais frequente e/ou gera mais receita. Isso pode ser útil para tomada de decisões estratégicas, como ajuste de preços, promoções ou alocação de recursos para atender a determinados tipos de tarifas com mais eficiência.

In [145]:
# PagamentoPorDiaEPeriodo: Soma dos pagamentos agrupados por dia da semana e período do dia (manhã, tarde, noite).

trip_data_january['PeriodoDoDia'] = pd.cut(trip_data_january['tpep_pickup_datetime'].dt.hour, bins=[0, 6, 12, 18, 24], labels=['Madrugada', 'Manhã', 'Tarde', 'Noite'])

PagamentoPorDiaEPeriodo = trip_data_january.groupby([trip_data_january['tpep_pickup_datetime'].dt.dayofweek, 'PeriodoDoDia'])['total_amount'].sum()
print(PagamentoPorDiaEPeriodo)

tpep_pickup_datetime  PeriodoDoDia
0                     Madrugada        791440.32
                      Manhã           2170371.16
                      Tarde           2866351.75
                      Noite           2194863.29
1                     Madrugada        727076.04
                      Manhã           2741251.28
                      Tarde           3062332.95
                      Noite           2628130.53
2                     Madrugada        751311.38
                      Manhã           2847419.13
                      Tarde           3114312.71
                      Noite           2926167.31
3                     Madrugada        802109.93
                      Manhã           2909399.07
                      Tarde           3164819.85
                      Noite           3164073.52
4                     Madrugada       1031887.99
                      Manhã           2924902.93
                      Tarde           2529348.18
                      Noite       

O sentido do valor na análise é entender como os pagamentos são distribuídos em diferentes momentos da semana e do dia. Por exemplo, pode revelar se há diferenças significativas nos pagamentos durante os fins de semana em comparação com os dias úteis ou se certos períodos do dia são mais lucrativos para a empresa de transporte. Essas informações podem ser usadas para tomar decisões estratégicas, como alocação de recursos e planejamento de horários de pico.

# **Função Probabilidade**

In [146]:
prob1 = PagamentoPorDiaEPeriodo / PagamentoPorDiaEPeriodo.count()
print(prob1)

tpep_pickup_datetime  PeriodoDoDia
0                     Madrugada        28265.725714
                      Manhã            77513.255714
                      Tarde           102369.705357
                      Noite            78387.974643
1                     Madrugada        25967.001429
                      Manhã            97901.831429
                      Tarde           109369.033929
                      Noite            93861.804643
2                     Madrugada        26832.549286
                      Manhã           101693.540357
                      Tarde           111225.453929
                      Noite           104505.975357
3                     Madrugada        28646.783214
                      Manhã           103907.109643
                      Tarde           113029.280357
                      Noite           113002.625714
4                     Madrugada        36853.142500
                      Manhã           104460.818929
                      Tarde  

O calculo está obtendo a probabilidade de que um pagamento específico ocorra em um dia da semana e período do dia específicos em relação ao total de pagamentos, o que permite uma análise mais significativa e comparativa das probabilidades em diferentes categorias.

In [147]:
prob2 = PagamentoPorDistancia / PagamentoPorDistancia.count()
print(prob2)

Distancia
<2 milhas      5.345224e+06
2-5 milhas     4.652303e+06
5-10 milhas    2.296708e+06
>10 milhas     2.262901e+06
Name: total_amount, dtype: float64


Calcular essa probabilidade relativa ajuda a entender como os pagamentos estão distribuídos em relação à distância percorrida, fornecendo informações valiosas sobre os padrões de pagamento em diferentes situações de viagem.

In [148]:
prob3 = ViagensComGorjeta / trip_data_january['tip_amount'].count()
print(prob3)

0.4373416


Calcular isso é entender a frequência relativa de gorjetas em viagens de táxi em janeiro. Isso pode ser útil para os motoristas de táxi, empresas de táxi e analistas para avaliar o comportamento dos passageiros em relação a gorjetas e, potencialmente, tomar decisões ou ajustar estratégias com base nessa informação.

In [149]:
prob4 = ViagensComTaxaExtra / trip_data_january['extra'].count()
print(prob4)

0.474702


Calcular isso é entender a frequência relativa de viagens que envolvem a aplicação de taxas extras em viagens de táxi em janeiro. Isso pode ser útil para motoristas de táxi e empresas de táxi para avaliar quão comum é a aplicação dessas taxas extras e, potencialmente, considerar ajustes em suas políticas de preços ou comunicação com os passageiros.

# **Função Repartição (Cumulativa)**

In [150]:
prob1.cumsum()

tpep_pickup_datetime  PeriodoDoDia
0                     Madrugada       2.826573e+04
                      Manhã           1.057790e+05
                      Tarde           2.081487e+05
                      Noite           2.865367e+05
1                     Madrugada       3.125037e+05
                      Manhã           4.104055e+05
                      Tarde           5.197745e+05
                      Noite           6.136363e+05
2                     Madrugada       6.404689e+05
                      Manhã           7.421624e+05
                      Tarde           8.533879e+05
                      Noite           9.578939e+05
3                     Madrugada       9.865406e+05
                      Manhã           1.090448e+06
                      Tarde           1.203477e+06
                      Noite           1.316480e+06
4                     Madrugada       1.353333e+06
                      Manhã           1.457794e+06
                      Tarde           1.548127e

In [151]:
prob2.cumsum()

Distancia
<2 milhas      5.345224e+06
2-5 milhas     9.997527e+06
5-10 milhas    1.229424e+07
>10 milhas     1.455714e+07
Name: total_amount, dtype: float64

In [152]:
prob3.cumsum()

array([0.4373416])

In [153]:
prob4.cumsum()

array([0.474702])

# **Referências**

[Materia que explica como funciona a parte financeira dos taxis nova iorquinos, ajudando a entender o sistema de gorjetas e tarifas.](https://www.novayork.net/taxi)




[Materia que explica sobre os taxis nova iorquinos de maneira geral, ensinando como navega-los e diferenciando os seus tipos.](https://www.visitenovayork.com.br/taxi-em-nova-york/)




[Materia que fala sobre o aumento da taxa dos taxis nova iorquinos.](https://www.nytimes.com/2022/11/17/nyregion/taxi-fare-hike-nyc.html)



[Materia que abrange todas as informações necessárias sobre os táxis nova iorquinos, incluindo horários.](https://novayorkevoce.com/blog/taxi-em-nova-york/)