# Projeto de Exploração e Limpeza de Dados - Locadora de Veículos
> Este projeto foi desenvolvido originalmente no Google Colab. Para interagir com o código e executá-lo na nuvem, utilize o link abaixo:

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1UrVuR81Xid6Uefv19VZl_OQu_dfmHigg?usp=sharing)

In [None]:
import pandas as pd

# Carregamento de dados

In [None]:
df_carbon = pd.read_csv("datasets/carbon_offsets.csv")
df_customer = pd.read_csv("datasets/customers_data.csv")
df_rentals = pd.read_json("datasets/rentals_data.json")
df_vehicles = pd.read_json("datasets/vehicles_data.json")

In [None]:
# pré-análise de dados
# comandos importantes
# .info()
# .head()
# .columns

df_carbon.info()
df_carbon.head()
df_carbon.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype
---  ------              --------------  -----
 0   year                2 non-null      int64
 1   carbon_offset_tons  2 non-null      int64
 2   cost_usd            2 non-null      int64
dtypes: int64(3)
memory usage: 180.0 bytes


Index(['year', 'carbon_offset_tons', 'cost_usd'], dtype='object')

In [None]:
df_customer.info()
df_customer.head()
df_customer.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   customer_id    4 non-null      object 
 1   customer_type  4 non-null      object 
 2   age            3 non-null      float64
 3   city           4 non-null      object 
 4   loyalty_score  4 non-null      int64  
dtypes: float64(1), int64(1), object(3)
memory usage: 292.0+ bytes


Index(['customer_id', 'customer_type', 'age', 'city', 'loyalty_score'], dtype='object')

In [None]:
df_rentals.info()
df_rentals.head()
df_rentals.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   rental_id    5 non-null      int64 
 1   customer_id  5 non-null      object
 2   vehicle_id   5 non-null      object
 3   start_date   5 non-null      object
 4   end_date     5 non-null      object
 5   city         5 non-null      object
 6   daily_rate   5 non-null      int64 
 7   distance_km  5 non-null      int64 
dtypes: int64(3), object(5)
memory usage: 452.0+ bytes


Index(['rental_id', 'customer_id', 'vehicle_id', 'start_date', 'end_date',
       'city', 'daily_rate', 'distance_km'],
      dtype='object')

In [None]:
df_vehicles.info()
df_vehicles.head()
df_vehicles.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   vehicle_id    5 non-null      object 
 1   model         5 non-null      object 
 2   fuel_type     5 non-null      object 
 3   co2_g_per_km  4 non-null      float64
 4   category      5 non-null      object 
dtypes: float64(1), object(4)
memory usage: 332.0+ bytes


Index(['vehicle_id', 'model', 'fuel_type', 'co2_g_per_km', 'category'], dtype='object')



1. customers - age - valor ausente   
2. rentals - daily_rate com valor < 0
3. vehicles - co2_g_per_km dado ausente
4. rentals - daily_rate está como string
5. rentals - data inválida
6. rentals - data com formatação diferente



# Identificação de dados
- Datas
- Valores negativos
- DataType



# Correções


In [None]:
# customers - age - valor ausente
media_idade = df_customer['age'].mean()
df_customer['age'] = df_customer['age'].fillna(media_idade)

In [None]:
# rentals - daily_rate com valor < 0
df_rentals.loc[df_rentals['daily_rate'] <=0, 'daily_rate'] = pd.NA

# usando valor médio
# df_rentals['daily_rate'] = pd.to_numeric(df_rentals['daily_rate'], errors='coerce')
# media_daily_rate = df_rentals['daily_rate'].mean()
# df_rentals['daily_rate'] = df_rentals['daily_rate'].fillna(media_daily_rate)
# escolher qual utilizar
display(df_rentals)

Unnamed: 0,rental_id,customer_id,vehicle_id,start_date,end_date,city,daily_rate,distance_km
0,2001,C001,V100,2024-01-05,2024-01-08,São Paulo,180.0,320
1,2002,C002,V101,2024/01/10,2024/01/12,Curitiba,150.0,210
2,2003,C003,V102,invalid_date,2024-01-15,Salvador,220.0,0
3,2004,C004,V103,2024-02-01,2024-02-10,São Paulo,300.0,980
4,2005,C001,V104,2024-02-15,2024-02-16,Rio de Janeiro,,120


In [None]:
# vehicles - co2_g_per_km dado ausente (colocar média ou o mesmo valor do eco)
df_vehicles['co2_g_per_km'] = df_vehicles['co2_g_per_km'].fillna(120)
display(df_vehicles)

Unnamed: 0,vehicle_id,model,fuel_type,co2_g_per_km,category
0,V100,HB20,Gasolina,120.0,Econômico
1,V101,Corolla,Gasolina,160.0,Sedan
2,V102,Compass,Diesel,180.0,SUV
3,V103,Tesla Model 3,Elétrico,0.0,Elétrico
4,V104,Onix,Gasolina,120.0,Econômico


In [None]:
# rentals - daily_rate esta como string
df_rentals['daily_rate'] = pd.to_numeric(df_rentals['daily_rate'], errors='coerce')
display(df_rentals)

Unnamed: 0,rental_id,customer_id,vehicle_id,start_date,end_date,city,daily_rate,distance_km
0,2001,C001,V100,2024-01-05,2024-01-08,São Paulo,180.0,320
1,2002,C002,V101,2024/01/10,2024/01/12,Curitiba,150.0,210
2,2003,C003,V102,invalid_date,2024-01-15,Salvador,220.0,0
3,2004,C004,V103,2024-02-01,2024-02-10,São Paulo,300.0,980
4,2005,C001,V104,2024-02-15,2024-02-16,Rio de Janeiro,,120


In [None]:
# rentals - data inválida
df_rentals['start_date'] = pd.to_datetime(df_rentals['start_date'], errors = 'coerce')
df_rentals['end_date'] = pd.to_datetime(df_rentals['end_date'], errors = 'coerce')
display(df_rentals)

Unnamed: 0,rental_id,customer_id,vehicle_id,start_date,end_date,city,daily_rate,distance_km
0,2001,C001,V100,2024-01-05,2024-01-08,São Paulo,180.0,320
1,2002,C002,V101,NaT,NaT,Curitiba,150.0,210
2,2003,C003,V102,NaT,2024-01-15,Salvador,220.0,0
3,2004,C004,V103,2024-02-01,2024-02-10,São Paulo,300.0,980
4,2005,C001,V104,2024-02-15,2024-02-16,Rio de Janeiro,,120


In [None]:
# rentals - data com formatação diferente
df_rentals['start_date'] = pd.to_datetime(df_rentals['start_date'], errors='coerce')
df_rentals['end_date'] = pd.to_datetime(df_rentals['end_date'], errors='coerce')

display(df_rentals)

Unnamed: 0,rental_id,customer_id,vehicle_id,start_date,end_date,city,daily_rate,distance_km
0,2001,C001,V100,2024-01-05,2024-01-08,São Paulo,180.0,320
1,2002,C002,V101,NaT,NaT,Curitiba,150.0,210
2,2003,C003,V102,NaT,2024-01-15,Salvador,220.0,0
3,2004,C004,V103,2024-02-01,2024-02-10,São Paulo,300.0,980
4,2005,C001,V104,2024-02-15,2024-02-16,Rio de Janeiro,,120


# Engenharia de Dados

- Calcule a duração de cada locação (em dias)
- Calcule a receita total por locação
- Faça o merge com a base de veículos
- Calcule a emissão de CO2 por locação
- Extraia ano e mês da data de início da locação


In [None]:
# criar backup de dados
df_carbon_clean = df_carbon
df_rentals_clean = df_rentals
df_customer_clean = df_customer
df_vehicles_clean = df_vehicles

In [None]:
# Calcule a duração de cada locação (em dias)
df_rentals_clean['dias_locacao'] = (df_rentals_clean['end_date'] - df_rentals_clean['start_date']).dt.days
display(df_rentals_clean)

Unnamed: 0,rental_id,customer_id,vehicle_id,start_date,end_date,city,daily_rate,distance_km,dias_locacao
0,2001,C001,V100,2024-01-05,2024-01-08,São Paulo,180.0,320,3.0
1,2002,C002,V101,NaT,NaT,Curitiba,150.0,210,
2,2003,C003,V102,NaT,2024-01-15,Salvador,220.0,0,
3,2004,C004,V103,2024-02-01,2024-02-10,São Paulo,300.0,980,9.0
4,2005,C001,V104,2024-02-15,2024-02-16,Rio de Janeiro,,120,1.0


In [None]:
# Calcule a receita total por locação
# valor da diária = daily_rate
# dias de locação * valor da diária
df_rentals_clean['receita_total'] = df_rentals_clean['dias_locacao'] * df_rentals_clean['daily_rate']


In [None]:
# Faça o merge com a base de veículos

df_consolidado = df_rentals_clean.merge(df_vehicles_clean, on='vehicle_id')

df_consolidado = df_consolidado.merge(df_customer_clean, on='customer_id')

In [None]:
# Calcule a emissão de CO2 por locação
df_consolidado['co2_emitido'] = df_consolidado['co2_g_per_km'] * df_consolidado['distance_km']

In [None]:
# Extraia ano e mês da data de início da locação
# para extrair informações de data, temos:
# .dt.days - dia
# .dt.month - mês
# .dt.year - ano
# .dt.weekday - dia da semana
df_consolidado['mes'] = df_consolidado['start_date'].dt.month
df_consolidado['ano'] = df_consolidado['start_date'].dt.year
df_consolidado['dia_da_semana'] = df_consolidado['start_date'].dt.weekday

display(df_consolidado)

Unnamed: 0,rental_id,customer_id,vehicle_id,start_date,end_date,city_x,daily_rate,distance_km,dias_locacao,receita_total,...,co2_g_per_km,category,customer_type,age,city_y,loyalty_score,co2_emitido,mes,ano,dia_da_semana
0,2001,C001,V100,2024-01-05,2024-01-08,São Paulo,180.0,320,3.0,540.0,...,120.0,Econômico,Recorrente,35.0,São Paulo,90,38400.0,1.0,2024.0,4.0
1,2002,C002,V101,NaT,NaT,Curitiba,150.0,210,,,...,160.0,Sedan,Novo,28.0,Curitiba,60,33600.0,,,
2,2003,C003,V102,NaT,2024-01-15,Salvador,220.0,0,,,...,180.0,SUV,Novo,36.0,Salvador,50,0.0,,,
3,2004,C004,V103,2024-02-01,2024-02-10,São Paulo,300.0,980,9.0,2700.0,...,0.0,Elétrico,Corporativo,45.0,São Paulo,95,0.0,2.0,2024.0,3.0
4,2005,C001,V104,2024-02-15,2024-02-16,Rio de Janeiro,,120,1.0,,...,120.0,Econômico,Recorrente,35.0,São Paulo,90,14400.0,2.0,2024.0,3.0
