In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Carregar o dataset
df = pd.read_csv("ecommerce_sales.csv")

# Ver linhas
df


In [None]:
df.info()
df.describe(include='all').T

# Esses dois comandos servem pra ver: 

# Quais colunas s√£o num√©ricas, quais s√£o de texto. 
# Se tem valores vazios (NaN). 
# A m√©dia, m√≠nimo e m√°ximo de cada vari√°vel. 


In [None]:
df.isna().sum().sort_values(ascending=False)
df.duplicated().sum()

# Verificar valores √∫nicos em colunas categ√≥ricas

In [None]:
num_cols = df.select_dtypes(include=['int64', 'float64']).columns

for col in num_cols:
    plt.figure(figsize=(6,4))
    sns.histplot(df[col], kde=True)
    plt.title(f"Distribui√ß√£o de {col}")
    plt.show()

# Isso mostra se os valores est√£o concentrados num ponto ou espalhados.

In [None]:
for col in ['marketing_spend', 'website_traffic', 'avg_price', 'monthly_sales']:
    plt.figure(figsize=(6,3))
    sns.boxplot(x=df[col])
    plt.title(f"Outliers em {col}")
    plt.show()

# O boxplot √© aquele gr√°fico que mostra a ‚Äúcaixinha‚Äù com os valores m√©dios e os pontinhos isolados que s√£o extremos. 
# Esses pontinhos s√£o os poss√≠veis outliers. 
# Exemplo: uma loja que gastou 1 milh√£o em marketing enquanto a maioria gasta 50 mil. 

In [None]:
plt.figure(figsize=(10,8))
corr = df.corr(numeric_only=True)
sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Mapa de Correla√ß√£o entre Vari√°veis Num√©ricas")
plt.show()

# Esse mapa de calor (heatmap) mostra como as vari√°veis se relacionam entre si.

In [None]:
cat_cols = df.select_dtypes(include=['object']).columns

for col in cat_cols:
    plt.figure(figsize=(6,3))
    sns.boxplot(x=col, y='monthly_sales', data=df)
    plt.title(f"Vendas m√©dias por {col}")
    plt.xticks(rotation=45)
    plt.show()

# O boxplot √© aquele gr√°fico que mostra a ‚Äúcaixinha‚Äù com os valores m√©dios e os pontinhos isolados que s√£o extremos. 
# Esses pontinhos s√£o os poss√≠veis outliers. 
# Exemplo: uma loja que gastou 1 milh√£o em marketing enquanto a maioria gasta 50 mil. 

### üîç Conclus√µes da Etapa 1 (EDA)

- `marketing_spend`, `website_traffic` e `conversion_rate` est√£o fortemente ligados a `monthly_sales`.
- Algumas vari√°veis t√™m outliers (ex.: `avg_price`, `return_rate`).
- `free_shipping` parece aumentar as vendas m√©dias.
- `product_category` e `seasonality` mostram padr√µes de varia√ß√£o importantes.
- Pr√≥ximos passos: tratar valores ausentes e outliers na Etapa 2.


In [None]:
import pandas as pd

# L√™ novamente o dataset original
df = pd.read_csv("ecommerce_sales.csv")

# (opcional) faz qualquer filtro ou sele√ß√£o se quiser guardar s√≥ algumas colunas

# Salva o dataset 'explorado' (snapshot atual)
df.to_csv("dataset_explorado.csv", index=False)

print("Dataset explorado salvo com sucesso!")
