## Etapa de Pré Processamento dos Dados

### Importação de bibliotecas

In [1]:
import pandas as pd

### Lendo base

In [4]:
df_corridas = pd.read_excel("../data/raw/trips_data.xlsx")

In [7]:
df_corridas.head()

Unnamed: 0,city,product_type,status,request_time,begin_trip_time,begintrip_lat,begintrip_lng,begintrip_address,dropoff_time,dropoff_lat,dropoff_lng,dropoff_address,distance,fare_currency,fare_amount
0,Manaus,UberX,completed,2025-05-29T13:12:25.000Z,2025-05-29T13:22:05.000Z,-30727084.0,-6006748.0,"Rua Ubaira, 65 - Manaus - AM, 69038-288",2025-05-29T13:44:07.000Z,-3092281.0,-60017246.0,"Av. Darcy Vargas, 1.200 - Parque Dez de Novemb...",5.0,Brazilian Real,14.91
1,Manaus,uberX VIP,rider_canceled,2025-05-29T12:18:44.000Z,,-30727746.0,-60067474.0,,,-30727746.0,-60067474.0,"Av. Darcy Vargas, 1.200 - Parque Dez de Novemb...",0.0,Brazilian Real,0.0
2,Manaus,uberX VIP,completed,2025-05-28T11:11:26.000Z,2025-05-28T11:27:22.000Z,-30727842.0,-6006745.0,"Rua Ubaira, 65 - Manaus - AM, 69038-288",2025-05-28T11:56:30.000Z,-30922253.0,-60017117.0,"Av. Darcy Vargas, 1.200 - Parque Dez de Novemb...",5.47,Brazilian Real,2025-08-20 00:00:00
3,Manaus,UberX,completed,2025-05-28T02:04:45.000Z,2025-05-28T02:12:01.000Z,-30831482.0,-60038486.0,"Rua Mem de Sá, 966 - Alvorada - Manaus - AM, 6...",2025-05-28T02:21:54.000Z,-3072587.0,-6006745.0,"Rua Ubaira, 65 - Manaus - AM, 69038-288",2025-09-02 00:00:00,Brazilian Real,11.92
4,Manaus,uberX VIP,completed,2025-05-27T12:11:36.000Z,2025-05-27T12:26:51.000Z,-30725782.0,-60067455.0,"Rua Ubaira, 65 - Manaus - AM, 69038-288",2025-05-27T12:56:05.000Z,-30922747.0,-60017235.0,"Av. Darcy Vargas, 1.200 - Parque Dez de Novemb...",4.95,Brazilian Real,16.93


### Tipos de Corridas

In [16]:
df_corridas["product_type"].drop_duplicates()

0             UberX
1         uberX VIP
34             Moto
35          Comfort
83       Flash Moto
102       Wait&Save
130      Prioridade
147     Flash Bikes
270           uberX
466           Flash
1623    UberX Promo
Name: product_type, dtype: object

### Tipos de Status

In [17]:
df_corridas["status"].drop_duplicates()

0            completed
1       rider_canceled
30         unfulfilled
114             failed
185    driver_canceled
Name: status, dtype: object

### Análises

In [34]:
# Quantidade de corridas totais
df_corridas.shape[0]

1647

In [31]:
# Quantidade de corridas não completas
df_corridas[df_corridas["status"] != "completed"].shape[0]

645

In [32]:
# Quantidade de corridas completas
df_corridas[df_corridas["status"] == "completed"].shape[0]

1002

In [33]:
# Quantidade de corridas completas em Manaus
df_corridas[(df_corridas["status"] == "completed") & (df_corridas["city"] == "Manaus")].shape[0]

993

In [35]:
# Filtra corridas completas em manaus
df_corridas_completas_manaus = df_corridas[
    (df_corridas["city"] == "Manaus") &
    (df_corridas["status"] == "completed")
]

# Conta o número de corridas por tipo de produto
contagem_por_modalidade = df_corridas_completas_manaus["product_type"].value_counts()

# Mostra o resultado
print(contagem_por_modalidade)

product_type
UberX          557
uberX VIP      329
Moto            46
Prioridade      25
Flash Moto      22
Comfort          5
Flash            4
UberX Promo      3
Flash Bikes      2
Name: count, dtype: int64


## Possíveis tratamentos:

- Filtar somente cidade de Manaus
- Filtrar somente colunas que vão ser utilizadas
- Conversão de colunas de data/hora para datetime
- Criação de colunas derivadas: mês, dia_da_semana, hora_do_dia
- Cálculo de nova métrica: custo por km
- Filtragem de corridas canceladas quando necessário
- Normalização de nomes de serviços, remoção de strings desnecessárias
- Filtrar somente corridas completas para análises específicas
- Descartar modalidades de corrida com poucos dados