# üìä Explora√ß√£o e Limpeza dos Dados
Este notebook tem como prop√≥sito realizar a **explora√ß√£o inicial, pr√©-processamento e transforma√ß√£o dos dados** de nosso conjunto, garantindo sua qualidade para an√°lises futuras.  
As etapas documentadas aqui incluem:

- Explora√ß√£o das vari√°veis (estat√≠stica descritiva, gr√°ficos e identifica√ß√£o de colunas num√©ricas e categ√≥ricas);  
- Tratamento de *missing values* e identifica√ß√£o/corre√ß√£o de *outliers*;  
- Transforma√ß√µes (codifica√ß√£o de vari√°veis categ√≥ricas e normaliza√ß√£o de vari√°veis num√©ricas);  
- Registro de decis√µes que ser√£o detalhadas na **Se√ß√£o 4.2 da documenta√ß√£o**.  

Este material serve como evid√™ncia pr√°tica e complementa a documenta√ß√£o te√≥rica escrita na se√ß√£o 4.2 (*Compreens√£o dos Dados*) da Documenta√ß√£o.

## 0. Prepara√ß√£o do Ambiente

- Instala√ß√£o e Importa√ß√£o das bibliotecas
- Carregamento da Nova Base de Dados


In [None]:
# Importa√ß√£o de bibliotecas
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
from sklearn.impute import SimpleImputer
import warnings
warnings.filterwarnings('ignore')

# Verifica√ß√£o das vers√µes das bibliotecas
print("=== VERIFICA√á√ÉO DAS BIBLIOTECAS ===")
print(f"pandas version: {pd.__version__}")
print(f"numpy version: {np.__version__}")
print("‚úÖ Bibliotecas importadas com sucesso!")

# Carregamento da Base de Dados com padr√£o de nomes
print("\n=== CARREGAMENTO DOS DADOS ===")
df_raw = pd.read_csv('../database/dataset inicial/nova_base_vendas_chillie.csv')
print(f"df_raw shape: {df_raw.shape}")

# C√≥pia para trabalho tempor√°rio
df = df_raw.copy()
print(f"df shape: {df.shape}")
print("‚úÖ Dados carregados com sucesso!")

## 1. Explora√ß√£o de Dados

Nesta se√ß√£o, realizaremos uma an√°lise inicial do conjunto de dados para compreender suas caracter√≠sticas principais. As etapas incluem:

- **Identifica√ß√£o de colunas num√©ricas e categ√≥ricas:** Classifica√ß√£o das vari√°veis para facilitar o tratamento e an√°lise posterior.
- **Estat√≠sticas descritivas:** C√°lculo de m√©tricas como m√©dia, mediana, desvio padr√£o, valores m√≠nimos e m√°ximos para vari√°veis num√©ricas.
Essas an√°lises iniciais s√£o fundamentais para orientar as etapas de pr√©-processamento e modelagem subsequentes.

### 1.1 Identifica√ß√£o de Colunas (Num√©ricas e Categ√≥ricas)

Nesta etapa, as colunas do dataset foram classificadas em diferentes categorias, como num√©ricas, categ√≥ricas, IDs e datas. Essa organiza√ß√£o facilita o tratamento e a an√°lise dos dados, permitindo aplicar estrat√©gias espec√≠ficas para cada tipo de vari√°vel.

In [None]:
# Identifica√ß√£o e Padroniza√ß√£o das Vari√°veis

# Colunas de identifica√ß√£o e CEPs (n√£o participam de an√°lises estat√≠sticas)
ID_COLUMNS = [
    'ID_Loja', 'ID_Cliente', 'ID_Produto', 'ID_Deposito', 
    'Num_Vale', 'ID_SAP', 'Dim_Cliente.Cep_Cliente', 'Dim_Lojas.Cep_Emp'
]

# Colunas num√©ricas relacionadas a pre√ßos e valores monet√°rios
NUMERIC_PRICE_COLUMNS = ['Preco_Custo', 'Valor_Total', 'Preco_Varejo', 'Desconto', 
                         'DESCONTO_CALCULADO', 'Total_Preco_Varejo', 'Total_Preco_Liquido']

# Outras colunas num√©ricas (quantidades, m√©tricas, etc.)
NUMERIC_OTHER_COLUMNS = ['Quantidade']

# Colunas categ√≥ricas (texto/string que representam categorias)
CATEGORICAL_COLUMNS = [
    'Natureza_Operacao', 'Nome_Tabela_Preco', 'Dim_Cliente.Bairro_Cliente',
    'Dim_Cliente.Cidade_cliente', 'Dim_Cliente.Uf_Cliente', 'Dim_Cliente.Pais',
    'Dim_Cliente.Sexo', 'Dim_Cliente.Estado_Civil', 'Dim_Cliente.Regiao_Cliente',
    'Dim_Lojas.Nome_Emp', 'Dim_Lojas.Bairro_Emp', 'Dim_Lojas.Cidade_Emp',
    'Dim_Lojas.Estado_Emp', 'Dim_Lojas.Regiao', 'Dim_Lojas.Tipo_PDV',
    'Dim_Lojas.CANAL_VENDA', 'Dim_Lojas.SAP_NOME', 'Dim_Lojas.REGIAO_CHILLI',
    'Dim_Produtos.NomeDim_Produtos.Nome', 'Dim_Produtos.Grupo_Produto',
    'Dim_Produtos.Sub_Grupo', 'Dim_Produtos.Cor1', 'Dim_Produtos.Cor2',
    'Dim_Produtos.Material1', 'Dim_Produtos.Material2', 'Dim_Produtos.Segmentacao',
    'Dim_Produtos.Shape', 'Dim_Produtos.Formato', 'Dim_Produtos.Sexo',
    'Dim_Produtos.Griffe', 'Dim_Produtos.GRUPO_CHILLI'
]

# Colunas de data (para tratamento futuro espec√≠fico)
DATE_COLUMNS = ['Dim_Cliente.Data_Cadastro', 'Dim_Cliente.Data_Nascimento']

print("‚úÖ VARI√ÅVEIS DE TIPO PADRONIZADAS DEFINIDAS")
print(f"üìã IDs/CEPs: {len(ID_COLUMNS)} colunas")
print(f"üí∞ Pre√ßos/Valores: {len(NUMERIC_PRICE_COLUMNS)} colunas") 
print(f"üî¢ Num√©ricas outras: {len(NUMERIC_OTHER_COLUMNS)} colunas")
print(f"üìù Categ√≥ricas: {len(CATEGORICAL_COLUMNS)} colunas")
print(f"üìÖ Datas: {len(DATE_COLUMNS)} colunas")
print(f"üéØ Total classificado: {len(ID_COLUMNS + NUMERIC_PRICE_COLUMNS + NUMERIC_OTHER_COLUMNS + CATEGORICAL_COLUMNS + DATE_COLUMNS)} colunas")

### 1.2 Estat√≠sticas B√°sicas

Nesta se√ß√£o, s√£o realizadas an√°lises descritivas das vari√°veis do conjunto de dados. As estat√≠sticas b√°sicas incluem:

- **Estat√≠sticas descritivas para vari√°veis num√©ricas:** c√°lculo de m√©tricas como m√©dia, mediana, desvio padr√£o, valores m√≠nimos e m√°ximos, al√©m de percentis. Essas informa√ß√µes ajudam a compreender a distribui√ß√£o e a variabilidade dos dados.
- **Estat√≠sticas descritivas para vari√°veis categ√≥ricas:** identifica√ß√£o de valores √∫nicos, moda e frequ√™ncia de categorias, permitindo uma vis√£o geral das caracter√≠sticas qualitativas do dataset.
- **Identifica√ß√£o de outliers:** an√°lise de valores extremos nas vari√°veis num√©ricas utilizando o m√©todo do IQR (Intervalo Interquart√≠lico), com c√°lculo de limites inferior e superior, al√©m da propor√ß√£o de outliers por vari√°vel.

Essas an√°lises s√£o fundamentais para identificar padr√µes, inconsist√™ncias e poss√≠veis problemas nos dados, orientando as etapas subsequentes de limpeza e transforma√ß√£o.


In [None]:

# Estat√≠sticas Descritivas b√°sicas das colunas num√©ricas
display(df.describe())

# Estat√≠sticas Descritivas b√°sicas das colunas categ√≥ricas
display(df.describe(include=['object', 'category']))


## 2. Pr√©-Processamento dos Dados

O pr√©-processamento √© uma etapa essencial para garantir a qualidade dos dados antes da aplica√ß√£o de modelos de aprendizado de m√°quina ou an√°lises mais profundas.  
Nesta se√ß√£o, realizamos a√ß√µes que permitem tornar a base mais consistente, como a remo√ß√£o de conulas irrelevantes para a an√°lise, o tratamento de valores ausentes, a remo√ß√£o ou corre√ß√£o de outliers, a normaliza√ß√£o e a codifica√ß√£o de vari√°veis.  


#### 2.1 Exclus√£o de Colunas N√£o Relevantes

Nesta etapa, removemos colunas que n√£o ser√£o utilizadas em nossas an√°lises ou transforma√ß√µes futuras.


In [None]:
# 2.1 Exclus√£o de Colunas Irrelevantes
print("=== INFORMA√á√ïES SOBRE VALORES NULOS (ANTES DA EXCLUS√ÉO) ===")
print(f"Total de valores nulos: {df.isnull().sum().sum()}")
print(f"Shape atual: {df.shape}")

# Colunas para serem exclu√≠das
colunas_para_excluir = [
    'Frete',
    'Dim_Lojas.Data_Criacao_Emp',
    'ID_Faturamento',
    'ID_Vendedor',
    'ID_Date',
    'Documento',
    'DOC_UNICO',
    'Transacao',
    'Dt_update',
    'Dim_Cliente.Ativo',
    'Dim_Lojas.Cod_Franqueado',
    'Dim_Produtos.Cod_Auxiliar',
    'Dim_Produtos.Referencia',
    'Quantidade',
    'Preco_Varejo',
    'Num_Vale',
    'DESCONTO_CALCULADO',
    'ID_Deposito',
    'Dim_Cliente.Sexo',
    'Dim_Cliente.Data_Cadastro',
    'Dim_Cliente.Estado_Civil',
    'Dim_Produtos.Sub_Grupo',
    'Dim_Produtos.Cor1',
    'Dim_Produtos.Cor2',
    'Dim_Produtos.Material1',
    'Dim_Produtos.Material2',
    'Dim_Produtos.Segmentacao',
    'Dim_Produtos.Shape',
    'Dim_Produtos.Formato',
    'Dim_Produtos.Sexo',
    'Dim_Produtos.Griffe',
    'Natureza_Operacao',
    'Preco_Custo',
    'Valor_Total',
    'Nome_Tabela_Preco',
    'Dim_Cliente.Bairro_Cliente',
    'Dim_Cliente.Cep_Cliente',
    'Dim_Cliente.Cidade_cliente',
    'Dim_Cliente.Uf_Cliente',
    'Dim_Cliente.Pais',
    'Dim_Lojas.ID_SAP',
    'Dim_Lojas.SAP_NOME',
    'Dim_Lojas.Cep_Emp',
    'Dim_Produtos.NomeDim_Produtos.Nome'

]

# Verificar quais colunas existem antes de excluir
colunas_existentes_para_excluir = [col for col in colunas_para_excluir if col in df.columns]
colunas_inexistentes_para_excluir = [col for col in colunas_para_excluir if col not in df.columns]

print(f"\nColunas encontradas para exclus√£o: {len(colunas_existentes_para_excluir)}")
print(f"Colunas que ser√£o exclu√≠das: {colunas_existentes_para_excluir}")

if colunas_inexistentes_para_excluir:
    print(f"Colunas n√£o encontradas (n√£o ser√£o exclu√≠das): {colunas_inexistentes_para_excluir}")

# Excluir as colunas que existem
if colunas_existentes_para_excluir:
    df = df.drop(columns=colunas_existentes_para_excluir)
    print(f"\n‚úÖ {len(colunas_existentes_para_excluir)} colunas foram exclu√≠das com sucesso!")

print(f"\n=== RESULTADO DA EXCLUS√ÉO ===")
print(f"Shape ap√≥s exclus√£o: {df.shape}")
print(f"Progress√£o: df_raw ({df_raw.shape}) -> df atual ({df.shape})")

### 2.2 Tratamento de Valores Ausentes  

Nesta etapa foram identificados e tratados os valores ausentes presentes no conjunto de dados.  
O processo teve como objetivo garantir a consist√™ncia da base e evitar distor√ß√µes nas an√°lises subsequentes.  

As a√ß√µes realizadas inclu√≠ram:  

- **Identifica√ß√£o de vari√°veis com dados faltantes;**  
- **Avalia√ß√£o da propor√ß√£o de valores ausentes por coluna;**  
- **Defini√ß√£o de estrat√©gias de tratamento,** que podem incluir remo√ß√£o de registros incompletos ou imputa√ß√£o de valores com base em medidas estat√≠sticas (m√©dia, mediana, moda) ou em crit√©rios definidos pelo contexto da an√°lise.  

O resultado √© uma base de dados mais √≠ntegra, reduzindo impactos negativos em processos de transforma√ß√£o, detec√ß√£o de outliers e modelagem futura.  


In [None]:
# 2.2 Tratamento de Valores Ausentes

print("=== TRATAMENTO DE VALORES AUSENTES ===")
print(f"Valores nulos antes do tratamento: {df.isnull().sum().sum()}")

# Identificar colunas categ√≥ricas (object ou category) e num√©ricas
categorical_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()

# Preencher colunas categ√≥ricas com a moda (valor mais frequente)
for col in categorical_cols:
    if df[col].isnull().sum() > 0:
        moda = df[col].mode(dropna=True)
        if not moda.empty:
            df[col] = df[col].fillna(moda[0])

# Preencher colunas num√©ricas com a mediana
for col in numeric_cols:
    if df[col].isnull().sum() > 0:
        mediana = df[col].median()
        df[col] = df[col].fillna(mediana)

# Criar df_clean ap√≥s remo√ß√£o de colunas e imputa√ß√£o completa
df_clean = df.copy()

print(f"\n=== RESULTADO DO TRATAMENTO ===")
print(f"Valores nulos ap√≥s tratamento: {df_clean.isnull().sum().sum()}")
print(f"‚úÖ df_clean criado com sucesso!")
print(f"df_clean shape: {df_clean.shape}")
print(f"Progress√£o: df_raw ({df_raw.shape}) -> df_clean ({df_clean.shape})")

### 2.2.1 Filtros de Limpeza Avan√ßada

Nesta etapa, aplicamos filtros espec√≠ficos para limpar inconsist√™ncias nos dados:

- **Corre√ß√£o de idades inv√°lidas:** Identifica√ß√£o e corre√ß√£o de datas de nascimento que resultem em idades menores que 18 anos ou maiores que 100 anos, substituindo-as pela idade m√©dia dos clientes v√°lidos.
- **Remo√ß√£o de registros com pre√ßos inv√°lidos:** Exclus√£o de registros onde `Preco_Varejo` ou `Total_Preco_Varejo` sejam menores que 1, indicando dados inconsistentes.
- Remo√ß√£o de registros que contenham "RELOGIO" na coluna "Dim_Produtos.GRUPO_CHILLI", indicando que produtos como rel√≥gios n√£o s√£o relevantes para a an√°lise.

Estes filtros garantem maior qualidade e consist√™ncia dos dados para an√°lises posteriores.



In [None]:
import datetime

print("=== FILTROS DE LIMPEZA AVAN√áADA ===")
print(f"Shape antes dos filtros: {df_clean.shape}")

# 1. Corre√ß√£o de Idades Inv√°lidas
print("\n--- CORRE√á√ÉO DE IDADES INV√ÅLIDAS ---")

# Verificar se a coluna de data de nascimento existe
if 'Dim_Cliente.Data_Nascimento' in df_clean.columns:
    # Converter para datetime
    df_clean['Dim_Cliente.Data_Nascimento'] = pd.to_datetime(df_clean['Dim_Cliente.Data_Nascimento'], errors='coerce')
    
    # Calcular idade atual
    hoje = datetime.datetime.now()
    df_clean['idade_calculada'] = (hoje - df_clean['Dim_Cliente.Data_Nascimento']).dt.days / 365.25
    
    # Identificar idades inv√°lidas (< 18 ou > 100)
    idade_invalida = (df_clean['idade_calculada'] < 18) | (df_clean['idade_calculada'] > 100) | df_clean['idade_calculada'].isna()
    n_idades_invalidas = idade_invalida.sum()
    
    print(f"Idades inv√°lidas encontradas: {n_idades_invalidas}")
    
    if n_idades_invalidas > 0:
        # Calcular idade m√©dia dos clientes v√°lidos
        idades_validas = df_clean[~idade_invalida]['idade_calculada']
        idade_media = idades_validas.mean()
        
        # Calcular data de nascimento correspondente √† idade m√©dia
        data_nascimento_media = hoje - datetime.timedelta(days=idade_media * 365.25)
        
        # Substituir datas inv√°lidas pela data m√©dia
        df_clean.loc[idade_invalida, 'Dim_Cliente.Data_Nascimento'] = data_nascimento_media
        
        print(f"‚úÖ {n_idades_invalidas} datas de nascimento corrigidas com idade m√©dia de {idade_media:.1f} anos")
    else:
        print("‚úÖ Nenhuma idade inv√°lida encontrada")
    
    # Remover coluna tempor√°ria
    df_clean = df_clean.drop('idade_calculada', axis=1)
else:
    print("‚ö†Ô∏è Coluna 'Dim_Cliente.Data_Nascimento' n√£o encontrada")

# 2. Remo√ß√£o de Registros com Pre√ßos Inv√°lidos
print("\n--- REMO√á√ÉO DE PRE√áOS INV√ÅLIDOS ---")

colunas_preco = ['Preco_Varejo', 'Total_Preco_Varejo']
colunas_preco_existentes = [col for col in colunas_preco if col in df_clean.columns]

if colunas_preco_existentes:
    # Identificar registros com pre√ßos baixos (< 1)
    mask_preco_baixo = pd.Series(False, index=df_clean.index)
    
    for col in colunas_preco_existentes:
        precos_baixos = (df_clean[col] < 1) | df_clean[col].isna()
        n_precos_baixos = precos_baixos.sum()
        print(f"Registros com {col} < 1: {n_precos_baixos}")
        mask_preco_baixo = mask_preco_baixo | precos_baixos
    
    # Aplicar filtro - manter apenas registros com pre√ßos v√°lidos
    df_clean = df_clean[~mask_preco_baixo].reset_index(drop=True)
    
    print(f"‚úÖ {mask_preco_baixo.sum()} registros removidos por pre√ßos inv√°lidos")
else:
    print("‚ö†Ô∏è Colunas de pre√ßo n√£o encontradas")

# Remo√ß√£o de registros que contenham "RELOGIO e BAG" na coluna "Dim_Produtos.GRUPO_CHILLI"
if 'Dim_Produtos.GRUPO_CHILLI' in df_clean.columns:
    mask_relogio = df_clean['Dim_Produtos.GRUPO_CHILLI'].astype(str).str.upper().str.contains('RELOGIO|BAG', na=False)
    n_relogio = mask_relogio.sum()
    df_clean = df_clean[~mask_relogio].reset_index(drop=True)
    print(f"‚úÖ {n_relogio} registros removidos contendo 'RELOGIO e BAG' em 'Dim_Produtos.GRUPO_CHILLI'")
else:
    print("‚ö†Ô∏è Coluna 'Dim_Produtos.GRUPO_CHILLI' n√£o encontrada")

# Verificar duplicatas
print("\n--- VERIFICA√á√ÉO DE DUPLICATAS ---")
n_duplicatas = df_clean.duplicated().sum()
if n_duplicatas > 0:
    df_clean = df_clean.drop_duplicates().reset_index(drop=True)
    print(f"‚úÖ {n_duplicatas} registros duplicados removidos")
else:
    print("‚úÖ Nenhuma duplicata encontrada")

print(f"\n=== RESULTADO DOS FILTROS ===")
print(f"Shape ap√≥s filtros: {df_clean.shape}")
print(f"Registros removidos: {df.shape[0] - df_clean.shape[0]}")
print(f"Progress√£o: df original ({df.shape}) -> df_clean filtrado ({df_clean.shape})")


### 2.2.2 Identifica√ß√£o e Tratamento de Outliers (IQR)

Nesta etapa, aplicamos o m√©todo do **IQR (Intervalo Interquartil)** para identificar e tratar outliers nas vari√°veis num√©ricas.

O processo consiste em:
- Calcular os quartis Q1 (25%) e Q3 (75%) para cada vari√°vel num√©rica
- Definir os limites inferior e superior usando a f√≥rmula: Q1 - 1.5*IQR e Q3 + 1.5*IQR
- Identificar valores que est√£o fora destes limites como outliers
- Aplicar tratamento adequado (remo√ß√£o ou winsoriza√ß√£o) conforme a natureza da vari√°vel

**Importante:** Vari√°veis de identifica√ß√£o (IDs) n√£o s√£o consideradas nesta an√°lise, pois n√£o possuem significado num√©rico interpret√°vel.

In [None]:
# 2.2.2 Identifica√ß√£o e Tratamento de Outliers (IQR)

print("=== IDENTIFICA√á√ÉO E TRATAMENTO DE OUTLIERS (IQR) ===")
print(f"Shape antes do tratamento de outliers: {df_clean.shape}")

# Usar apenas vari√°veis num√©ricas relevantes (excluindo IDs)
numeric_cols_for_outliers = [col for col in NUMERIC_PRICE_COLUMNS + NUMERIC_OTHER_COLUMNS if col in df_clean.columns]
print(f"\nVari√°veis num√©ricas para an√°lise de outliers: {len(numeric_cols_for_outliers)}")
print(f"Colunas: {numeric_cols_for_outliers}")

# Fun√ß√£o para calcular limites IQR
def calculate_iqr_bounds(series):
    """Calcula os limites inferior e superior usando o m√©todo IQR"""
    q1 = series.quantile(0.25)
    q3 = series.quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    return lower_bound, upper_bound

# An√°lise de outliers por vari√°vel
outlier_analysis = []
total_outliers_removed = 0

print(f"\n--- AN√ÅLISE DE OUTLIERS POR VARI√ÅVEL ---")

for col in numeric_cols_for_outliers:
    # Obter valores v√°lidos (n√£o nulos)
    valid_values = df_clean[col].dropna()
    
    if len(valid_values) > 0:
        # Calcular limites IQR
        lower_bound, upper_bound = calculate_iqr_bounds(valid_values)
        
        # Identificar outliers
        outlier_mask = (df_clean[col] < lower_bound) | (df_clean[col] > upper_bound)
        n_outliers = outlier_mask.sum()
        perc_outliers = (n_outliers / len(df_clean)) * 100
        
        # Armazenar informa√ß√µes
        outlier_info = {
            'variavel': col,
            'n_outliers': n_outliers,
            'perc_outliers': round(perc_outliers, 2),
            'limite_inferior': round(lower_bound, 2),
            'limite_superior': round(upper_bound, 2),
            'outlier_mask': outlier_mask
        }
        outlier_analysis.append(outlier_info)
        
        print(f"{col}:")
        print(f"  Outliers encontrados: {n_outliers} ({perc_outliers:.2f}%)")
        print(f"  Limites: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Criar DataFrame com resumo dos outliers
outlier_summary = pd.DataFrame([
    {
        'Vari√°vel': info['variavel'],
        'N¬∞ Outliers': info['n_outliers'],
        '% Outliers': info['perc_outliers'],
        'Limite Inferior': info['limite_inferior'],
        'Limite Superior': info['limite_superior']
    }
    for info in outlier_analysis
])

print(f"\n--- RESUMO DE OUTLIERS ---")
outliers_found = outlier_summary[outlier_summary['N¬∞ Outliers'] > 0].sort_values('N¬∞ Outliers', ascending=False)

if len(outliers_found) > 0:
    print(f"Vari√°veis com outliers: {len(outliers_found)}")
    display(outliers_found)
    
    # Tratamento de outliers - Remo√ß√£o de registros com outliers extremos
    print(f"\n--- TRATAMENTO DE OUTLIERS ---")
    
    # Identificar registros que s√£o outliers em m√∫ltiplas vari√°veis (mais propensos a serem erros)
    combined_outlier_mask = pd.Series(False, index=df_clean.index)
    
    # Considerar para remo√ß√£o apenas outliers em vari√°veis de pre√ßo/valor
    price_outlier_vars = [info for info in outlier_analysis 
                         if info['variavel'] in NUMERIC_PRICE_COLUMNS and info['n_outliers'] > 0]
    
    # Aplicar remo√ß√£o conservadora - apenas casos extremos
    for info in price_outlier_vars:
        # Remover apenas outliers extremos (al√©m de 3*IQR)
        col = info['variavel']
        series = df_clean[col].dropna()
        q1, q3 = series.quantile(0.25), series.quantile(0.75)
        iqr = q3 - q1
        extreme_lower = q1 - 3 * iqr
        extreme_upper = q3 + 3 * iqr
        
        extreme_outliers = (df_clean[col] < extreme_lower) | (df_clean[col] > extreme_upper)
        combined_outlier_mask = combined_outlier_mask | extreme_outliers
        
        if extreme_outliers.sum() > 0:
            print(f"{col}: {extreme_outliers.sum()} outliers extremos identificados para remo√ß√£o")
    
    # Aplicar remo√ß√£o
    if combined_outlier_mask.sum() > 0:
        df_clean = df_clean[~combined_outlier_mask].reset_index(drop=True)
        total_outliers_removed = combined_outlier_mask.sum()
        print(f"\n‚úÖ {total_outliers_removed} registros com outliers extremos removidos")
    else:
        print("\n‚úÖ Nenhum outlier extremo identificado para remo√ß√£o")
        
else:
    print("‚úÖ Nenhum outlier detectado nas vari√°veis num√©ricas!")

print(f"\n=== RESULTADO DO TRATAMENTO DE OUTLIERS ===")
print(f"Registros removidos por outliers extremos: {total_outliers_removed}")
print(f"Shape final ap√≥s tratamento: {df_clean.shape}")
print(f"Progress√£o total de limpeza: {df_raw.shape[0] - df_clean.shape[0]} registros removidos ({((df_raw.shape[0] - df_clean.shape[0]) / df_raw.shape[0] * 100):.1f}%)")

### 2.3 Transforma√ß√µes das Vari√°veis

Ap√≥s a limpeza inicial da base de dados, √© necess√°rio aplicar transforma√ß√µes nas vari√°veis para padronizar seus formatos e possibilitar an√°lises e modelagens mais consistentes.  
Nesta se√ß√£o, foram realizados os seguintes procedimentos: normaliza√ß√£o de vari√°veis num√©ricas e codifica√ß√£o de vari√°veis categ√≥ricas.  


In [None]:
print("=== USANDO VARI√ÅVEIS DE TIPO DEFINIDAS NO IN√çCIO ===")
print(f"IDs/CEPs: {len(ID_COLUMNS)} colunas")
print(f"Pre√ßos/Valores: {len(NUMERIC_PRICE_COLUMNS)} colunas") 
print(f"Num√©ricas outras: {len(NUMERIC_OTHER_COLUMNS)} colunas")
print(f"Categ√≥ricas: {len(CATEGORICAL_COLUMNS)} colunas")
print(f"Datas (p/ depois): {len(DATE_COLUMNS)} colunas")

In [None]:
# Criando a Classe de Tranforma√ß√£o
class DataTransformer:
    def __init__(self, df):
        self.df = df.copy()
        self.encoders = {}
        self.scalers = {}
        self.transformations_applied = {}

    def clean_categorical_data(self):
        """Padroniza strings e substitui valores problem√°ticos"""
        df_clean = self.df.copy()
        for col in CATEGORICAL_COLUMNS:
            if col in df_clean.columns:
                df_clean[col] = df_clean[col].astype(str).str.strip().str.upper()
                df_clean[col] = df_clean[col].replace(['NAN','NULL','NONE','','NaT'], np.nan)
        self.transformations_applied['categorical_cleaning'] = CATEGORICAL_COLUMNS
        return df_clean

    def encode_categorical_variables(self, df_clean):
        """Aplica encoding categ√≥rico"""
        df_encoded = df_clean.copy()
        for col in CATEGORICAL_COLUMNS:
            if col in df_encoded.columns:
                unique_count = df_encoded[col].nunique()
                if unique_count <= 10:
                    dummies = pd.get_dummies(df_encoded[col], prefix=f"{col}_", drop_first=True)
                    df_encoded = pd.concat([df_encoded.drop(col, axis=1), dummies], axis=1)
                    self.encoders[col] = 'one_hot'
                else:
                    le = LabelEncoder()
                    df_encoded[f"{col}_encoded"] = le.fit_transform(df_encoded[col])
                    df_encoded = df_encoded.drop(col, axis=1)
                    self.encoders[col] = le
        self.transformations_applied['encoding'] = CATEGORICAL_COLUMNS
        return df_encoded

    def scale_numeric_variables(self, df_encoded):
        """Aplica normaliza√ß√£o nas vari√°veis num√©ricas"""
        df_scaled = df_encoded.copy()
        for col in NUMERIC_PRICE_COLUMNS:
            if col in df_scaled.columns:
                scaler = MinMaxScaler()
                df_scaled[col] = scaler.fit_transform(df_scaled[[col]])
                self.scalers[col] = scaler
        for col in NUMERIC_OTHER_COLUMNS:
            if col in df_scaled.columns:
                scaler = StandardScaler()
                df_scaled[col] = scaler.fit_transform(df_scaled[[col]])
                self.scalers[col] = scaler
        self.transformations_applied['scaling'] = NUMERIC_PRICE_COLUMNS + NUMERIC_OTHER_COLUMNS
        return df_scaled

    def transform_all(self):
        df_clean = self.clean_categorical_data()
        df_encoded = self.encode_categorical_variables(df_clean)
        df_scaled = self.scale_numeric_variables(df_encoded)
        return df_scaled


In [None]:
# Aplicando as Transforma√ß√µes usando df_clean como entrada
print("=== APLICANDO TRANSFORMA√á√ïES ===")
print(f"Entrada: df_clean shape = {df_clean.shape}")

transformer = DataTransformer(df_clean)
df_transformed = transformer.transform_all()

print(f"\n=== RESULTADO DAS TRANSFORMA√á√ïES ===")
print(f"Transforma√ß√µes aplicadas: {list(transformer.transformations_applied.keys())}")
print(f"df_transformed shape: {df_transformed.shape}")

# Resumo da progress√£o completa
print(f"\n=== PROGRESS√ÉO COMPLETA DOS DATAFRAMES ===")
print(f"df_raw:         {df_raw.shape}")
print(f"df_clean:       {df_clean.shape}")
print(f"df_transformed: {df_transformed.shape}")
print(f"Colunas adicionadas: {df_transformed.shape[1] - df_clean.shape[1]}")

print(f"\n=== VERIFICA√á√ïES DE QUALIDADE ===")
print(f"Tipos de dados:")
print(df_transformed.dtypes.value_counts())

null_counts = df_transformed.isnull().sum()
if null_counts.sum() > 0:
    print(f"\n‚ö†Ô∏è VALORES NULOS RESTANTES:")
    print(null_counts[null_counts > 0])
else:
    print("\n‚úÖ Nenhum valor nulo restante!")

print(f"\n=== AMOSTRA DO RESULTADO FINAL ===")
df_transformed.head(5)

### 2.4 Salvamento das Bases de Dados  

Ap√≥s as etapas de pr√©-processamento realizadas (remo√ß√£o de colunas irrelevantes, tratamento de valores ausentes, filtros de limpeza avan√ßada e transforma√ß√µes das vari√°veis), salvamos duas vers√µes da base de dados:

1. **Dataset Limpo (`dataset_limpo.csv`):** Cont√©m os dados ap√≥s a limpeza e filtros, mas **antes das transforma√ß√µes** (normaliza√ß√£o e codifica√ß√£o). Esta vers√£o preserva os dados em formato original e √© ideal para an√°lises explorat√≥rias e visualiza√ß√µes.

2. **Dataset Codificado (`dataset_codificado.csv`):** Cont√©m os dados **ap√≥s todas as transforma√ß√µes** aplicadas (normaliza√ß√£o de vari√°veis num√©ricas e codifica√ß√£o de vari√°veis categ√≥ricas). Esta vers√£o √© otimizada para algoritmos de Machine Learning e modelagem estat√≠stica.

Ambas as vers√µes incluem os filtros de qualidade aplicados: corre√ß√£o de idades inv√°lidas, remo√ß√£o de registros com pre√ßos inconsistentes e elimina√ß√£o de duplicatas.  


In [None]:
# Salvamento Final dos Datasets
print("=== SALVAMENTO DOS DATASETS ===")

# 1. Salvamento do Dataset Limpo (df_clean)
print("\n--- SALVAMENTO DO DATASET LIMPO ---")
print(f"Dataset limpo (df_clean):")
print(f"  Shape: {df_clean.shape}")
print(f"  Valores nulos: {df_clean.isnull().sum().sum()}")
print(f"  Tipos de dados: {dict(df_clean.dtypes.value_counts())}")

output_path_clean = "../database/dataset gerado/dataset_limpo.csv"
df_clean.to_csv(output_path_clean, index=False, encoding="utf-8")

print(f"‚úÖ Dataset limpo exportado com sucesso!")
print(f"Arquivo: {output_path_clean}")

# 2. Salvamento do Dataset Codificado (df_transformed)
print("\n--- SALVAMENTO DO DATASET CODIFICADO ---")
print(f"Dataset codificado (df_transformed):")
print(f"  Shape: {df_transformed.shape}")
print(f"  Valores nulos: {df_transformed.isnull().sum().sum()}")
print(f"  Tipos de dados: {dict(df_transformed.dtypes.value_counts())}")

output_path_transformed = "../database/dataset gerado/dataset_codificado.csv"
df_transformed.to_csv(output_path_transformed, index=False, encoding="utf-8")

print(f"‚úÖ Dataset codificado exportado com sucesso!")
print(f"Arquivo: {output_path_transformed}")

# Resumo final da progress√£o
print(f"\n=== RESUMO FINAL DA PROGRESS√ÉO ===")
print(f"df_raw (original):     {df_raw.shape}")
print(f"df_clean (p√≥s-limpeza): {df_clean.shape}")
print(f"df_transformed (final): {df_transformed.shape}")
print(f"\nProcesso conclu√≠do: Dados limpos, transformados e salvos!")