### Objetivo do Desafio

Utilizar a base histórica fictícia fornecida para projetar os seguintes indicadores por loja e por mês, no período de julho/2025 a junho/2026:

1. Diárias Locadas
2. Diária Média

### Sobre a Base de Dados

A base fornecida contém registros simulados de contratos de locação com as seguintes colunas:

* id_contrato
* data_inicio_locacao
* duracao_locacao (dias)
* id_loja
* cidade, estado
* dias_antecedencia (entre reserva e início locação)
* categoria_veiculo
* diaria_media
* valor_total_locacao (diaria_media x duração_locacao)

### Etapas Esperadas

Você deve realizar todas as etapas do pipeline de ciência de dados:

1. Análise Exploratória dos Dados: Análise do contexto e das variáveis, identificação de tendências, padrões sazonais e diferenças entre lojas, categorias e preços.

2. Análise Descritiva

3. Modelagem Preditiva:

    * Utilize pelo menos 4 modelos diferentes para previsão dos dois indicadores (ex.: regressão linear, ARIMA/Prophet, Random Forest, XGBoost, LSTM, etc).
    * Avalie os modelos com métricas apropriadas: RMSE, MAE, MAPE.
    * Explique as diferenças entre os modelos e suas vantagens/desvantagens.
    * Use validação apropriada (ex.: backtesting)
    * Pode apresentar graficamente as curvas e intervalos de confiança.

4. Interpretação e Insights: Destaque quais variáveis mais influenciam os resultados. Mostre comparações entre os modelos e recomende qual usar.

### Entrega Esperada

1. Notebook 
Com todas as etapas comentadas: análise, preparação, modelagem e previsão.

2. Apresentação executiva (PDF ou slides)


In [2]:
# Imports

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Data Reading

df = pd.read_excel("../data/Desafio Inteligência (Cientista de Dados).xlsx")


Unnamed: 0,id_contrato,data_inicio_locacao,duracao_locacao,id_loja,cidade,estado,dias_antecedencia,categoria_veiculo,diaria_media,valor_total_locacao,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,CTR0000001,2022-01-27,8,LJ_01,Recife,DF,13,EconÃ´mico,91.22,729.76,,,,,,
1,CTR0000002,2022-01-31,9,LJ_01,Curitiba,MG,9,IntermediÃ¡rio,78.70,708.30,,,,,,
2,CTR0000003,2022-01-10,7,LJ_01,Rio de Janeiro,MG,16,SUV,143.14,1001.98,,,,,,
3,CTR0000004,2022-01-28,7,LJ_01,Belo Horizonte,RS,4,IntermediÃ¡rio,135.86,951.02,,,,,,
4,CTR0000005,2022-01-28,9,LJ_01,Porto Alegre,PE,9,IntermediÃ¡rio,104.02,936.18,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
140244,CTR0140245,2024-06-22,3,LJ_10,Salvador,MG,28,EconÃ´mico,68.39,205.17,,,,,,
140245,CTR0140246,2024-06-20,2,LJ_10,Salvador,PR,14,EconÃ´mico,144.55,289.10,,,,,,
140246,CTR0140247,2024-06-21,4,LJ_10,Porto Alegre,PR,17,Luxo,110.23,440.92,,,,,,
140247,CTR0140248,2024-06-27,4,LJ_10,Porto Alegre,PR,27,IntermediÃ¡rio,107.83,431.32,,,,,,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140249 entries, 0 to 140248
Data columns (total 16 columns):
 #   Column               Non-Null Count   Dtype         
---  ------               --------------   -----         
 0   id_contrato          140249 non-null  object        
 1   data_inicio_locacao  140249 non-null  datetime64[ns]
 2   duracao_locacao      140249 non-null  int64         
 3   id_loja              140249 non-null  object        
 4   cidade               140249 non-null  object        
 5   estado               140249 non-null  object        
 6   dias_antecedencia    140249 non-null  int64         
 7   categoria_veiculo    140249 non-null  object        
 8   diaria_media         140249 non-null  float64       
 9   valor_total_locacao  140249 non-null  float64       
 10  Unnamed: 10          0 non-null       float64       
 11  Unnamed: 11          0 non-null       float64       
 12  Unnamed: 12          0 non-null       float64       
 13  Unnamed: 13   

In [17]:
# Display Dataframe

display(df.head())
display(df.info())
display(df.describe())


Unnamed: 0,id_contrato,data_inicio_locacao,duracao_locacao,id_loja,cidade,estado,dias_antecedencia,categoria_veiculo,diaria_media,valor_total_locacao
0,CTR0000001,2022-01-27,8,LJ_01,Recife,DF,13,Econômico,91.22,729.76
1,CTR0000002,2022-01-31,9,LJ_01,Curitiba,MG,9,Intermediário,78.7,708.3
2,CTR0000003,2022-01-10,7,LJ_01,Rio de Janeiro,MG,16,SUV,143.14,1001.98
3,CTR0000004,2022-01-28,7,LJ_01,Belo Horizonte,RS,4,Intermediário,135.86,951.02
4,CTR0000005,2022-01-28,9,LJ_01,Porto Alegre,PE,9,Intermediário,104.02,936.18


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140249 entries, 0 to 140248
Data columns (total 10 columns):
 #   Column               Non-Null Count   Dtype         
---  ------               --------------   -----         
 0   id_contrato          140249 non-null  object        
 1   data_inicio_locacao  140249 non-null  datetime64[ns]
 2   duracao_locacao      140249 non-null  int64         
 3   id_loja              140249 non-null  object        
 4   cidade               140249 non-null  object        
 5   estado               140249 non-null  object        
 6   dias_antecedencia    140249 non-null  int64         
 7   categoria_veiculo    140249 non-null  object        
 8   diaria_media         140249 non-null  float64       
 9   valor_total_locacao  140249 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(2), object(5)
memory usage: 10.7+ MB


None

Unnamed: 0,data_inicio_locacao,duracao_locacao,dias_antecedencia,diaria_media,valor_total_locacao
count,140249,140249.0,140249.0,140249.0,140249.0
mean,2023-03-13 18:31:13.553465600,6.347439,15.019287,120.045161,761.950563
min,2022-01-01 00:00:00,1.0,0.0,-5.19,-31.14
25%,2022-08-01 00:00:00,5.0,7.0,99.75,516.8
50%,2023-02-24 00:00:00,6.0,15.0,120.14,728.56
75%,2023-11-03 00:00:00,8.0,23.0,140.22,970.74
max,2024-06-30 00:00:00,16.0,30.0,259.86,2875.8
std,,2.271802,8.943597,30.002451,339.808277


In [15]:
# Data Processing

df.categoria_veiculo = df.categoria_veiculo.replace(
    {"IntermediÃ¡rio": "Intermediário", "EconÃ´mico": "Econômico"}
)

for column_name in df.columns:
    if "Unnamed" in column_name:
        df.drop(column_name, axis=1, inplace=True)