# üßπ Data Cleaning Challenge: Enfrentando o Caos dos Dados Reais

## 1. O Problema
Muitos datasets acad√™micos s√£o entregues "limpos". Na vida real, os dados chegam incompletos, com formatos inconsistentes, duplicados e erros humanos. 

Este projeto demonstra minhas habilidades em **Data Wrangling** e **Data Cleaning**, transformando um CSV ca√≥tico em uma base de dados pronta para an√°lise.

## 2. Diagn√≥stico da Sujeira
Ao carregar o dataset `vendas_brutas_caos.csv`, identificamos os seguintes problemas:
- **Inconsist√™ncia de Texto:** Nomes em mai√∫sculas, min√∫sculas, com espa√ßos extras e caracteres especiais.
- **Formatos de Data:** Mistura de padr√µes ISO, brasileiro e erros de digita√ß√£o (m√™s 13).
- **Valores Num√©ricos:** Moeda (R$), separadores de milhar (.), decimais (,) e valores negativos sem sentido.
- **Duplica√ß√µes:** IDs de transa√ß√£o repetidos com informa√ß√µes conflitantes.
- **Missing Values:** Lacunas cr√≠ticas em colunas de valor e data.

In [None]:
import pandas as pd
import numpy as np
import re

# Carregando o caos
df = pd.read_csv('vendas_brutas_caos.csv', encoding='latin-1')
print("Amostra dos dados sujos:")
display(df.head(10))

## 3. Plano de Higieniza√ß√£o (Data Wrangling)

### 3.1 Tratamento de Nomes e Strings

In [None]:
def clean_names(name):
    if pd.isna(name): return "Desconhecido"
    name = str(name).strip().upper() # Padronizar para mai√∫sculo sem espa√ßos nas bordas
    name = re.sub(' +', ' ', name)   # Remover espa√ßos m√∫ltiplos internos
    name = name.replace('_', ' ')     # Corrigir separadores
    return name

df['cliente_nome'] = df['cliente_nome'].apply(clean_names)
df['status'] = df['status'].str.strip().str.upper()

### 3.2 Padroniza√ß√£o de Valores Monet√°rios

In [None]:
def clean_currency(value):
    if pd.isna(value) or value == 'NULL': return 0.0
    v = str(value).replace('R$', '').replace(' ', '')
    
    # L√≥gica para tratar separador de milhar vs decimal
    if ',' in v and '.' in v:
        v = v.replace('.', '').replace(',', '.')
    elif ',' in v:
        v = v.replace(',', '.')
        
    v_num = pd.to_numeric(v, errors='coerce')
    return abs(v_num) if v_num else 0.0 # Trade-off: assumimos valor absoluto para erros de sinal

df['valor_venda'] = df['valor_venda'].apply(clean_currency)

### 3.3 Conserto de Datas e Duplicados

In [None]:
# Converter para datetime for√ßando NaT para erros (como m√™s 13)
df['data_venda'] = pd.to_datetime(df['data_venda'], errors='coerce', dayfirst=True)

# Preencher datas nulas com a data anterior (forward fill) como pol√≠tica de neg√≥cio
df['data_venda'] = df['data_venda'].ffill()

# Remover duplicados de ID mantendo a √∫ltima ocorr√™ncia (supostamente a mais atualizada)
df = df.drop_duplicates(subset='transacao_id', keep='last')

print("Dados Higienizados:")
display(df.head())

## 4. Conclus√£o e Trade-offs

Neste projeto, tomei as seguintes decis√µes t√©cnicas:
1. **Nomes:** Optei por converter para Mai√∫sculas para facilitar joins futuros, mesmo perdendo a capitaliza√ß√£o original.
2. **Valores Negativos:** Usei a fun√ß√£o `abs()` assumindo que foram erros de entrada de dados (sinal invertido).
3. **Datas Inv√°lidas:** Usei Forward Fill (`ffill`). Em um cen√°rio real, isso dependeria de validar com o time de banco de dados, mas aqui serviu para manter a continuidade da s√©rie temporal.

**Resultado:** O dataset agora est√° 100% tipado e consistente para an√°lises estat√≠sticas.