# Análise de Locações de Veículos

Este notebook realiza a análise, visualização e modelagem preditiva dos dados de locações de veículos.

## 1. Introdução e Importações

In [1]:
import os
import sys
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Adicionar o diretório 'src' ao sys.path para permitir importações
sys.path.append('../src')

from data_cleaning import load_data, clean_data, save_data
from features import calculate_kpis, print_kpis
from models import train_model
from utils import plot_correlation_matrix, plot_distribution, plot_histogram

# Configurações gerais
sns.set(style="whitegrid")
results_dir = "../data/results"
os.makedirs(results_dir, exist_ok=True)

In [2]:
# Carregamento e Limpeza de Dados
raw_data_path = os.path.join("../data", "raw", "MOCK_DATA.csv")
processed_data_path = os.path.join("../data", "processed", "dados_limpos.csv")

# Carregar os dados
df = load_data(raw_data_path)

# Exibir as primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
print(df.head())

# Limpar os dados
df_clean = clean_data(df)

# Salvar os dados limpos
save_data(df_clean, processed_data_path)
print(f"\nDataFrame limpo salvo em '{processed_data_path}'")

# Exibir as primeiras linhas do DataFrame limpo
print("Primeiras linhas do DataFrame limpo:")
print(df_clean.head())

Primeiras linhas do DataFrame:
   id      cidade_nome            estado                bairro    cep  \
0   1       Aldergrove  British Columbia      60 Killdeer Pass    V4W   
1   2        Thới Bình               NaN   2543 Loeprich Trail    NaN   
2   3  Nong Muang Khai               NaN    17 Clarendon Court  12140   
3   4         Nong Hin               NaN  98 Butterfield Point  10250   
4   5          Jajawai               NaN  607 Autumn Leaf Road    NaN   

    latitude   longitude veiculo_marca veiculo_modelo  veiculo_ano  ...  \
0  49.058052 -122.470667      Cadillac       Escalade         2009  ...   
1   9.347363  105.172682         Lexus      RX Hybrid         2007  ...   
2  18.278467  100.179649          Audi             80         1991  ...   
3  12.889736  100.901042        Toyota           T100         1997  ...   
4  -6.927607  107.663944           Kia       Sportage         1995  ...   

  valor_total    cliente_nome               cliente_email  cliente_telefone  \


In [3]:
# Cálculo de KPIs
kpis = calculate_kpis(df_clean)
print_kpis(kpis)


Receita Total: R$64496.99
Tempo Médio de Locação: 15.71 dias

Distribuição por Forma de Pagamento:
forma_pagamento
credit card    41.025641
debit card     34.188034
cash           24.786325
Name: proportion, dtype: float64

Quantidade de Locações por Status:
status_locacao
in use      45
returned    42
reserved    30
Name: count, dtype: int64


In [4]:
# Visualizações
#plot_correlation_matrix(df_clean)
plot_distribution(df_clean, 'veiculo_marca', 'Distribuição de Locações por Marca de Veículo', 'Marca de Veículo', 'Contagem', 'distribuicao_por_marca.png')
plot_distribution(df_clean, 'mes_locacao', 'Distribuição de Locações por Mês', 'Mês', 'Contagem', 'distribuicao_por_mes.png')
plot_histogram(df_clean, 'avaliacao_veiculo', 'Distribuição das Avaliações dos Veículos', 'Avaliação', 'Frequência', 'distribuicao_avaliacoes_veiculos.png')
plot_histogram(df_clean, 'avaliacao_atendimento', 'Distribuição das Avaliações do Atendimento', 'Avaliação', 'Frequência', 'distribuicao_avaliacoes_atendimento.png')

print("Gráficos salvos na pasta '../data/results'")

Gráficos salvos na pasta '../data/results'


In [5]:
# Modelagem Preditiva
X = df_clean[['mes_locacao', 'veiculo_ano', 'valor_diaria']]
y = df_clean['tempo_locacao']
model, mse, r2 = train_model(X, y)

print(f"\nErro Quadrático Médio: {mse:.2f}")
print(f"Coeficiente de Determinação (R^2): {r2:.2f}")


Erro Quadrático Médio: 88.16
Coeficiente de Determinação (R^2): -0.07


In [6]:
# Conclusão
print("Análise concluída com sucesso. Os resultados foram salvos na pasta '../data/results'.")

Análise concluída com sucesso. Os resultados foram salvos na pasta '../data/results'.
