# Notebook 02 - Tratamento de Dados
Este notebook aplica as primeiras etapas de limpeza e padronização no dataset.

In [8]:
log_tratamento = []
log_tratamento.append("Início do tratamento de dados")

In [1]:
import pandas as pd

df = pd.read_csv("../data/DT_Store_Suplements.csv")

## 2. Tratamento de Valores Nulos
### Produto

In [None]:
df = df.dropna(subset=["Produto"])
log_tratamento.append("Removidos 32 registros nulos em Produto (3.2% da base)")

In [27]:
(df.isnull().sum() / len(df)) * 100

ID_Venda      0.0
Cliente       0.0
Produto       0.0
Marca         0.0
Preco         0.0
Quantidade    0.0
Data_Venda    0.0
Pagamento     0.0
Loja          0.0
dtype: float64

In [12]:
df = df.dropna(subset=["Marca"])
log_tratamento.append("Removidos 27 registros nulos em Marca (2.7% da base)")

In [18]:
df["Quantidade"].unique()


array([ 2., nan,  3.,  1.])

In [17]:
df["Quantidade"] = df["Quantidade"].replace({
    "duas": 2,
})

df["Quantidade"] = pd.to_numeric(df["Quantidade"], errors="coerce")


In [22]:
# 3. Substituir Quantidade nula pela mediana
mediana = df["Quantidade"].median()
nulos_qtd = df["Quantidade"].isna().sum()   # conta antes
df["Quantidade"] = df["Quantidade"].fillna(mediana)
log_tratamento.append(f"Substituídos {nulos_qtd} valores nulos em Quantidade pela mediana ({mediana})")


In [26]:
nulos_pag = df["Pagamento"].isna().sum()
df["Pagamento"] = df["Pagamento"].fillna("Não informado")
log_tratamento.append(f"Substituídos {nulos_pag} valores nulos em Pagamento por 'Não informado'")


In [24]:
nulos_loja = df["Loja"].isna().sum()
df["Loja"] = df["Loja"].fillna("Não informado")
log_tratamento.append(f"Substituídos {nulos_loja} valores nulos em Loja por 'Não informado'")


In [28]:
df.to_csv("../data/DT_Store_Suplements_clean.csv", index=False)

In [29]:
with open("../docs/tratamento.md", "w", encoding="utf-8") as f:
    f.write("# Relatório de Tratamento de Dados\n\n")
    for item in log_tratamento:
        f.write(f"- {item}\n")
