# ≡ƒôè An├ílise Explorat├│ria - E-commerce (Updated_sales.csv)

Este notebook realiza a an├ílise explorat├│ria do dataset de e-commerce.

**Dataset:** Updated_sales.csv  
**Colunas:** Order ID, Product, Quantity Ordered, Price Each, Order Date, Purchase Address


## 1. Setup e Imports


In [None]:
# Imports necess├írios
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configura├º├╡es
%matplotlib inline
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

# Caminho dos dados
DATA_PATH = Path("../../data/raw/Updated_sales.csv")


## 2. Carregamento dos Dados


In [None]:
# Mapeamento de tipos (evita que o pandas chute tipos errados)
dtypes = {
    "Order ID": "Int64",               # Int64 permite NA
    "Product": "string",
    "Quantity Ordered": "Int64",
    "Price Each": "float64",
    "Purchase Address": "string"
}

# Leitura do CSV
df_ecom = pd.read_csv(
    DATA_PATH,
    dtype=dtypes,
    parse_dates=["Order Date"],        # converte para datetime
    dayfirst=False,                    # datas v├¬m como 04/19/19 (MM/DD/YY)
    encoding="utf-8",
    na_values=["", "NA", "NaN", "null"]
)

print(f"Dataset carregado: {df_ecom.shape[0]:,} linhas x {df_ecom.shape[1]} colunas")


## 3. Vis├úo Geral dos Dados


In [None]:
# Informa├º├╡es b├ísicas
print("=" * 70)
print("INFORMA├ç├òES GERAIS DO DATASET")
print("=" * 70)
print(f"\nShape: {df_ecom.shape}")
print(f"Per├¡odo dos dados: {df_ecom['Order Date'].min()} at├⌐ {df_ecom['Order Date'].max()}")
print(f"\nColunas:")
print(df_ecom.dtypes)

print("\n" + "=" * 70)
print("PRIMEIRAS LINHAS")
print("=" * 70)
df_ecom.head(10)


## 4. Limpeza de Dados


In [None]:
# Verificar valores nulos
print("VALORES NULOS:")
print(df_ecom.isnull().sum())
print(f"\nTotal de linhas com valores nulos: {df_ecom.isnull().any(axis=1).sum()}")

# Remover linhas com valores nulos
df_ecom_clean = df_ecom.dropna()
print(f"\nDataset ap├│s limpeza: {df_ecom_clean.shape[0]:,} linhas")
print(f"Linhas removidas: {df_ecom.shape[0] - df_ecom_clean.shape[0]}")


## 5. Feature Engineering - Campos Derivados


In [None]:
# Campos derivados importantes
df_ecom_clean["Revenue"] = df_ecom_clean["Quantity Ordered"] * df_ecom_clean["Price Each"]
df_ecom_clean["Month"] = df_ecom_clean["Order Date"].dt.month
df_ecom_clean["Day"] = df_ecom_clean["Order Date"].dt.day
df_ecom_clean["Hour"] = df_ecom_clean["Order Date"].dt.hour
df_ecom_clean["DayOfWeek"] = df_ecom_clean["Order Date"].dt.dayofweek
df_ecom_clean["WeekOfYear"] = df_ecom_clean["Order Date"].dt.isocalendar().week

# Extrair cidade/estado/cep do endere├ºo (ex: "915 Willow St, San Francisco, CA 94016")
parts = df_ecom_clean["Purchase Address"].str.split(",", expand=True)
df_ecom_clean["City"] = parts[1].str.strip()
state_zip = parts[2].str.strip().str.split(" ", n=1, expand=True)
df_ecom_clean["State"] = state_zip[0]
df_ecom_clean["Zip"] = state_zip[1]

print("NOVAS FEATURES CRIADAS:")
print(df_ecom_clean[["Order Date", "Revenue", "Month", "Hour", "City", "State"]].head(10))


## 6. Estat├¡sticas Descritivas


In [None]:
# Estat├¡sticas gerais
print("=" * 70)
print("ESTAT├ìSTICAS DESCRITIVAS")
print("=" * 70)
print(df_ecom_clean[["Quantity Ordered", "Price Each", "Revenue"]].describe())

print("\n" + "=" * 70)
print("M├ëTRICAS DE NEG├ôCIO")
print("=" * 70)
print(f"Receita Total: ${df_ecom_clean['Revenue'].sum():,.2f}")
print(f"Ticket M├⌐dio: ${df_ecom_clean['Revenue'].mean():,.2f}")
print(f"Ticket Mediano: ${df_ecom_clean['Revenue'].median():,.2f}")
print(f"N├║mero de Pedidos: {df_ecom_clean['Order ID'].nunique():,}")
print(f"N├║mero de Produtos ├Ünicos: {df_ecom_clean['Product'].nunique()}")
print(f"Quantidade Total Vendida: {df_ecom_clean['Quantity Ordered'].sum():,} unidades")


## 7. An├ílise Temporal


In [None]:
# Vendas por m├¬s
monthly_sales = df_ecom_clean.groupby("Month").agg({
    "Revenue": "sum",
    "Order ID": "count"
}).round(2)
monthly_sales.columns = ["Receita Total", "N├║mero de Pedidos"]

print("VENDAS POR M├èS:")
print(monthly_sales)

# Gr├ífico de vendas mensais
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

monthly_sales["Receita Total"].plot(kind="bar", ax=axes[0], color="steelblue")
axes[0].set_title("Receita Total por M├¬s", fontsize=14, fontweight="bold")
axes[0].set_xlabel("M├¬s")
axes[0].set_ylabel("Receita ($)")
axes[0].tick_params(axis='x', rotation=0)

monthly_sales["N├║mero de Pedidos"].plot(kind="bar", ax=axes[1], color="coral")
axes[1].set_title("N├║mero de Pedidos por M├¬s", fontsize=14, fontweight="bold")
axes[1].set_xlabel("M├¬s")
axes[1].set_ylabel("Quantidade de Pedidos")
axes[1].tick_params(axis='x', rotation=0)

plt.tight_layout()
plt.show()


In [None]:
# Vendas por hora do dia
hourly_sales = df_ecom_clean.groupby("Hour").agg({
    "Revenue": "sum",
    "Order ID": "count"
}).round(2)

print("\nVENDAS POR HORA DO DIA:")
print(hourly_sales)

# Gr├ífico
plt.figure(figsize=(14, 5))
plt.subplot(1, 2, 1)
plt.plot(hourly_sales.index, hourly_sales["Revenue"], marker="o", linewidth=2, color="green")
plt.title("Receita por Hora do Dia", fontsize=14, fontweight="bold")
plt.xlabel("Hora")
plt.ylabel("Receita ($)")
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
plt.plot(hourly_sales.index, hourly_sales["Order ID"], marker="o", linewidth=2, color="orange")
plt.title("Pedidos por Hora do Dia", fontsize=14, fontweight="bold")
plt.xlabel("Hora")
plt.ylabel("N├║mero de Pedidos")
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


In [None]:
# Vendas por dia da semana (0=Segunda, 6=Domingo)
days_map = {0: "Segunda", 1: "Ter├ºa", 2: "Quarta", 3: "Quinta", 4: "Sexta", 5: "S├íbado", 6: "Domingo"}
df_ecom_clean["DayName"] = df_ecom_clean["DayOfWeek"].map(days_map)

dow_sales = df_ecom_clean.groupby("DayName").agg({
    "Revenue": "sum",
    "Order ID": "count"
}).reindex(days_map.values())

print("\nVENDAS POR DIA DA SEMANA:")
print(dow_sales)

# Gr├ífico
fig, ax = plt.subplots(figsize=(12, 5))
dow_sales["Revenue"].plot(kind="bar", ax=ax, color="purple", alpha=0.7)
ax.set_title("Receita por Dia da Semana", fontsize=14, fontweight="bold")
ax.set_xlabel("Dia da Semana")
ax.set_ylabel("Receita ($)")
ax.tick_params(axis='x', rotation=45)
plt.tight_layout()
plt.show()


## 8. An├ílise de Produtos


In [None]:
# Top 10 produtos mais vendidos (por quantidade)
top_products_qty = df_ecom_clean.groupby("Product")["Quantity Ordered"].sum().sort_values(ascending=False).head(10)

print("TOP 10 PRODUTOS MAIS VENDIDOS (Quantidade):")
print(top_products_qty)

# Top 10 produtos por receita
top_products_rev = df_ecom_clean.groupby("Product")["Revenue"].sum().sort_values(ascending=False).head(10)

print("\nTOP 10 PRODUTOS POR RECEITA:")
print(top_products_rev)

# Gr├íficos
fig, axes = plt.subplots(2, 1, figsize=(14, 10))

top_products_qty.plot(kind="barh", ax=axes[0], color="skyblue")
axes[0].set_title("Top 10 Produtos Mais Vendidos (Quantidade)", fontsize=14, fontweight="bold")
axes[0].set_xlabel("Quantidade Vendida")
axes[0].invert_yaxis()

top_products_rev.plot(kind="barh", ax=axes[1], color="lightcoral")
axes[1].set_title("Top 10 Produtos por Receita", fontsize=14, fontweight="bold")
axes[1].set_xlabel("Receita ($)")
axes[1].invert_yaxis()

plt.tight_layout()
plt.show()


In [None]:
# Distribui├º├úo de pre├ºos
plt.figure(figsize=(14, 5))

plt.subplot(1, 2, 1)
plt.hist(df_ecom_clean["Price Each"], bins=50, color="teal", alpha=0.7, edgecolor="black")
plt.title("Distribui├º├úo de Pre├ºos", fontsize=14, fontweight="bold")
plt.xlabel("Pre├ºo ($)")
plt.ylabel("Frequ├¬ncia")
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
plt.boxplot(df_ecom_clean["Price Each"])
plt.title("Box Plot - Pre├ºos", fontsize=14, fontweight="bold")
plt.ylabel("Pre├ºo ($)")
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nFaixa de pre├ºos: ${df_ecom_clean['Price Each'].min():.2f} - ${df_ecom_clean['Price Each'].max():.2f}")


## 9. An├ílise Geogr├ífica


In [None]:
# Vendas por cidade
city_sales = df_ecom_clean.groupby("City").agg({
    "Revenue": "sum",
    "Order ID": "count"
}).sort_values("Revenue", ascending=False)
city_sales.columns = ["Receita Total", "N├║mero de Pedidos"]

print("VENDAS POR CIDADE:")
print(city_sales)

# Gr├ífico
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

city_sales["Receita Total"].plot(kind="barh", ax=axes[0], color="darkgreen")
axes[0].set_title("Receita por Cidade", fontsize=14, fontweight="bold")
axes[0].set_xlabel("Receita ($)")
axes[0].invert_yaxis()

city_sales["N├║mero de Pedidos"].plot(kind="barh", ax=axes[1], color="darkblue")
axes[1].set_title("N├║mero de Pedidos por Cidade", fontsize=14, fontweight="bold")
axes[1].set_xlabel("N├║mero de Pedidos")
axes[1].invert_yaxis()

plt.tight_layout()
plt.show()


In [None]:
# Vendas por estado
state_sales = df_ecom_clean.groupby("State").agg({
    "Revenue": "sum",
    "Order ID": "count"
}).sort_values("Revenue", ascending=False)

print("\nVENDAS POR ESTADO:")
print(state_sales)

# Gr├ífico
fig, ax = plt.subplots(figsize=(12, 6))
state_sales["Revenue"].plot(kind="bar", ax=ax, color="darkorange", alpha=0.7)
ax.set_title("Receita por Estado", fontsize=14, fontweight="bold")
ax.set_xlabel("Estado")
ax.set_ylabel("Receita ($)")
ax.tick_params(axis='x', rotation=45)
plt.tight_layout()
plt.show()


## 10. Correla├º├╡es e An├ílise Avan├ºada


In [None]:
# Matriz de correla├º├úo
numeric_cols = ["Quantity Ordered", "Price Each", "Revenue", "Month", "Hour", "DayOfWeek"]
correlation_matrix = df_ecom_clean[numeric_cols].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt=".2f", cmap="coolwarm", center=0,
            square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title("Matriz de Correla├º├úo", fontsize=14, fontweight="bold")
plt.tight_layout()
plt.show()


In [None]:
# An├ílise de tend├¬ncia temporal - Vendas ao longo do tempo
daily_sales = df_ecom_clean.groupby(df_ecom_clean["Order Date"].dt.date)["Revenue"].sum()

plt.figure(figsize=(16, 6))
plt.plot(daily_sales.index, daily_sales.values, linewidth=1.5, color="darkblue", alpha=0.7)
plt.title("Evolu├º├úo Di├íria da Receita", fontsize=14, fontweight="bold")
plt.xlabel("Data")
plt.ylabel("Receita ($)")
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print(f"Maior receita di├íria: ${daily_sales.max():,.2f} em {daily_sales.idxmax()}")
print(f"Menor receita di├íria: ${daily_sales.min():,.2f} em {daily_sales.idxmin()}")


## 11. Prepara├º├úo para Modelagem Preditiva


In [None]:
# Preparar dados agregados para previs├úo de s├⌐ries temporais
# Agrega├º├úo di├íria
ts_daily = df_ecom_clean.groupby(df_ecom_clean["Order Date"].dt.date).agg({
    "Revenue": "sum",
    "Order ID": "count",
    "Quantity Ordered": "sum"
}).reset_index()
ts_daily.columns = ["Date", "Revenue", "Orders", "Quantity"]
ts_daily["Date"] = pd.to_datetime(ts_daily["Date"])

print("DADOS PARA MODELAGEM (S├⌐ries Temporais Di├írias):")
print(ts_daily.head(10))
print(f"\nShape: {ts_daily.shape}")

# Agrega├º├úo mensal
ts_monthly = df_ecom_clean.groupby(df_ecom_clean["Order Date"].dt.to_period("M")).agg({
    "Revenue": "sum",
    "Order ID": "count",
    "Quantity Ordered": "sum"
}).reset_index()
ts_monthly.columns = ["Month", "Revenue", "Orders", "Quantity"]
ts_monthly["Month"] = ts_monthly["Month"].dt.to_timestamp()

print("\nDADOS PARA MODELAGEM (S├⌐ries Temporais Mensais):")
print(ts_monthly)


## 12. Exportar Dados Processados


In [None]:
# Exportar dados limpos e com features
output_path_clean = Path("../../data/processed/ecommerce_clean.parquet")
output_path_daily = Path("../../data/processed/ecommerce_daily_ts.parquet")
output_path_monthly = Path("../../data/processed/ecommerce_monthly_ts.parquet")

df_ecom_clean.to_parquet(output_path_clean, index=False)
ts_daily.to_parquet(output_path_daily, index=False)
ts_monthly.to_parquet(output_path_monthly, index=False)

print(f"Γ£à Dados limpos exportados: {output_path_clean}")
print(f"Γ£à S├⌐rie temporal di├íria exportada: {output_path_daily}")
print(f"Γ£à S├⌐rie temporal mensal exportada: {output_path_monthly}")
print("\nPr├│ximos passos: Use esses dados para modelagem preditiva!")


## 13. Insights e Conclus├╡es


### ≡ƒôè Principais Descobertas

**1. Padr├╡es Temporais:**
- Identificar qual m├¬s tem maior receita
- Hor├írios de pico de vendas (provavelmente 11h-13h e 18h-20h)
- Dias da semana com melhor performance

**2. Produtos:**
- Produtos mais vendidos vs produtos mais lucrativos
- Distribui├º├úo de pre├ºos
- Oportunidades de cross-selling

**3. Geografia:**
- Cidades e estados com maior receita
- Oportunidades de expans├úo
- Concentra├º├úo geogr├ífica de vendas

**4. M├⌐tricas de Neg├│cio:**
- Receita total e tend├¬ncia
- Ticket m├⌐dio
- Sazonalidade

### ≡ƒÄ» Pr├│ximos Passos para Modelagem Preditiva

1. **Previs├úo de Vendas (Time Series)**
   - Usar ARIMA, Prophet ou SARIMA
   - Dataset: `ecommerce_daily_ts.parquet` ou `ecommerce_monthly_ts.parquet`
   - Objetivo: Prever receita futura

2. **Segmenta├º├úo de Produtos**
   - Clustering (K-means)
   - An├ílise de cesta de compras
   - Objetivo: Identificar grupos de produtos

3. **An├ílise de Demanda**
   - Prever demanda por produto
   - Otimizar estoque
   - Objetivo: Reduzir custos

4. **Recomenda├º├úo**
   - Produtos frequentemente comprados juntos
   - Objetivo: Aumentar vendas

### ≡ƒôü Arquivos Gerados

- `data/processed/ecommerce_clean.parquet` - Dados completos limpos
- `data/processed/ecommerce_daily_ts.parquet` - S├⌐rie temporal di├íria
- `data/processed/ecommerce_monthly_ts.parquet` - S├⌐rie temporal mensal

### ≡ƒÜÇ Continue em:

- **notebooks/04_modelagem/** - Para implementar modelos preditivos


## 4. Insights e Conclus├╡es

- **Insight 1:** ...
- **Insight 2:** ...
- **Pr├│ximos passos:** ...
