#### Fase 2 – Limpeza

📋 Checklist prática de limpeza:
- Remover espaços em branco nas colunas e valores (.str.strip())
- Uniformizar nomes (ex: formas de pagamento, localizações)
- ✅ Converter coluna 'Quantity' para int
- Converter colunas numéricas (Price Per Unit, Total Spent) para float
- Converter Transaction Date para datetime
- Preencher ou descartar valores nulos
- ✅​ Remover duplicatas
- Verificar consistência entre Quantity * Price Per Unit == Total Spent
- Criar novas colunas úteis se fizer sentido (ex: mês da transação)

In [0]:
import pandas as pd

path = "/Volumes/workspace/default/studies/dirty_cafe_sales.csv"
df = pd.read_csv(path)

In [0]:
# Criar cópia para limpar sem que altere df original
df_copy = df.copy()

# Agora, só mexa em df_copy (limpeza e transformações)

In [0]:
# Remover duplicatas
df_copy.drop_duplicates(inplace=True)

In [0]:
# A coluna 'Quantity' possui valores misturados como números e strings ('UNKNOWN', 'null', 'ERROR')

# Substitui valores inválidos por NaN
df_copy['Quantity'] = df_copy['Quantity'].replace(['UNKNOWN', 'null', 'ERROR'], pd.NA)

In [0]:
# Se tiver valores ausentes (NaN), precisará converter primeiro para float, porque int não aceita NaN diretamente
df_copy['Quantity'] = pd.to_numeric(df_copy['Quantity'], errors='coerce')

# Preencher os NaN com um valor inteiro válido (ex: 0):
df_copy['Quantity'] = df_copy['Quantity'].fillna(0)

In [0]:
# Convertendo para int
df_copy['Quantity'] = df_copy['Quantity'].astype('int')

In [0]:
display(df_copy.head(15))