In [None]:
# 01 - Exploração dos Dados Rossmann
# Análise exploratória inicial do dataset Rossmann Store Sales (Kaggle)

# Objetivo:
# Entender a estrutura dos dados, visualizar séries temporais de vendas,
# identificar padrões sazonais e preparar o terreno para previsão e controle de estoque.

# Dataset:
# - train.csv: vendas diárias por loja
# - store.csv: informações adicionais das lojas

## 1. Importações

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

sns.set(style="whitegrid")

## 2. Carregamento dos Dados

In [None]:
# Caminho relativo (ajuste se necessário)
train = pd.read_csv('../data/train.csv', low_memory=False, parse_dates=['Date'])
store = pd.read_csv('../data/store.csv')

print(f"Train shape: {train.shape}")
print(f"Store shape: {store.shape}")

## 3. Visão Geral dos Dados

In [None]:
print("\nPrimeiras linhas - train:")
print(train.head())

print("\nPrimeiras linhas - store:")
print(store.head())

print("\nInformações do dataset train:")
print(train.info())

print("\nEstatísticas descritivas:")
print(train.describe())

## 4. Merge dos Datasets

In [None]:
df = train.merge(store, on='Store', how='left')
print(f"\nDataset merged shape: {df.shape}")
print(df.head())

## 5. Análise Inicial de Vendas (Loja 1 como exemplo)

In [None]:
# Filtrar apenas dias abertos e uma loja para visualização inicial
store_id = 1
df_store = df[(df['Store'] == store_id) & (df['Open'] == 1)].copy()

df_store = df_store[['Date', 'Sales', 'Customers', 'Promo', 'StateHoliday', 'SchoolHoliday']]
df_store.set_index('Date', inplace=True)
df_store.sort_index(inplace=True)

print(f"\nPeríodo de dados para loja {store_id}: {df_store.index.min()} até {df_store.index.max()}")
print(f"Dias com vendas: {len(df_store)}")

## 6. Visualizações Básicas

In [None]:
# Vendas ao longo do tempo
plt.figure(figsize=(15, 6))
df_store['Sales'].plot()
plt.title(f'Vendas Diárias - Loja {store_id}')
plt.ylabel('Vendas')
plt.xlabel('Data')
plt.show()

# Distribuição das vendas
plt.figure(figsize=(10, 5))
sns.histplot(df_store['Sales'], kde=True, bins=50)
plt.title('Distribuição das Vendas Diárias')
plt.show()

# Boxplot por dia da semana
df_store['DayOfWeek'] = df_store.index.dayofweek

plt.figure(figsize=(10, 6))
sns.boxplot(x='DayOfWeek', y='Sales', data=df_store)
plt.title('Vendas por Dia da Semana')
plt.show()

# Impacto de promoções
plt.figure(figsize=(10, 6))
sns.boxplot(x='Promo', y='Sales', data=df_store)
plt.title('Vendas com e sem Promoção')
plt.show()

