# Tratamento de Dados - Base Kaiserhaus
Notebook para limpeza e prepara√ß√£o dos dados baseado na an√°lise explorat√≥ria.

**Objetivos:** aplicar limpeza inteligente usando insights da an√°lise descritiva.


## 0. Setup e Imports
Carregamento das bibliotecas e dados.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes visuais
plt.rcParams["figure.figsize"] = (10, 6)
plt.rcParams["axes.grid"] = True
plt.rcParams["font.size"] = 10

print("‚úÖ Bibliotecas importadas com sucesso!")


‚úÖ Bibliotecas importadas com sucesso!


## 1. Carregamento dos Dados
Carrega a base original e informa√ß√µes da an√°lise explorat√≥ria.


In [2]:
# Carregar dados originais
df = pd.read_csv("Base_Kaiserhaus.csv")

print("üìä Dados carregados:")
print(f"   ‚Ä¢ Registros: {len(df):,}")
print(f"   ‚Ä¢ Colunas: {df.shape[1]}")
print(f"   ‚Ä¢ Valores nulos: {df.isnull().sum().sum()}")

# Informa√ß√µes da an√°lise explorat√≥ria (valores conhecidos)
INFO_ANALISE = {
    'valores_nulos': {
        'distance_km': 323,
        'actual_delivery_minutes': 200
    },
    'valores_impossiveis': {
        'actual_delivery_minutes_negativos': 9
    },
    'colunas_numericas': ['distance_km', 'tempo_preparo_minutos', 'eta_minutes_quote', 
                         'actual_delivery_minutes', 'total_brl', 'platform_commission_pct', 
                         'num_itens', 'satisfacao_nivel'],
    'colunas_categoricas': ['macro_bairro', 'nome_cliente', 'bairro_destino', 'order_datetime', 
                           'platform', 'order_mode', 'status', 'classe_pedido']
}

print("\nüìã Informa√ß√µes da an√°lise explorat√≥ria carregadas!")


üìä Dados carregados:
   ‚Ä¢ Registros: 5,000
   ‚Ä¢ Colunas: 16
   ‚Ä¢ Valores nulos: 523

üìã Informa√ß√µes da an√°lise explorat√≥ria carregadas!


## 2. Fun√ß√µes de Tratamento
Fun√ß√µes baseadas nos insights da an√°lise explorat√≥ria.


In [3]:
def detectar_outliers_inteligente(df, coluna):
    """
    Detecta outliers usando m√©todo IQR + limites de neg√≥cio
    Baseado na an√°lise explorat√≥ria
    """
    Q1 = df[coluna].quantile(0.25)
    Q3 = df[coluna].quantile(0.75)
    IQR = Q3 - Q1
    
    # Limites estat√≠sticos
    limite_inferior_stat = Q1 - 1.5 * IQR
    limite_superior_stat = Q3 + 1.5 * IQR
    
    # Limites de neg√≥cio (baseados na an√°lise)
    limites_negocio = {
        'distance_km': {'min': 0, 'max': 30},
        'tempo_preparo_minutos': {'min': 0, 'max': 90},
        'eta_minutes_quote': {'min': 5, 'max': 120},
        'actual_delivery_minutes': {'min': 0, 'max': 120},
        'total_brl': {'min': 0, 'max': 2000},
        'platform_commission_pct': {'min': 0, 'max': 0.35},
        'num_itens': {'min': 1, 'max': 50},
        'satisfacao_nivel': {'min': 0, 'max': 5}
    }
    
    # Usar limite mais restritivo
    if coluna in limites_negocio:
        limite_inferior = max(limite_inferior_stat, limites_negocio[coluna]['min'])
        limite_superior = min(limite_superior_stat, limites_negocio[coluna]['max'])
    else:
        limite_inferior = limite_inferior_stat
        limite_superior = limite_superior_stat
    
    outliers_abaixo = df[df[coluna] < limite_inferior]
    outliers_acima = df[df[coluna] > limite_superior]
    
    return {
        'limite_inferior': limite_inferior,
        'limite_superior': limite_superior,
        'outliers_abaixo': outliers_abaixo,
        'outliers_acima': outliers_acima,
        'count_abaixo': len(outliers_abaixo),
        'count_acima': len(outliers_acima)
    }

def tratar_valores_nulos_geograficos(df):
    """
    Trata valores nulos usando padr√µes geogr√°ficos
    """
    df_limpo = df.copy()
    
    # Imputa√ß√£o de dist√¢ncia por bairro destino
    media_distancia_por_bairro = df_limpo.groupby('bairro_destino')['distance_km'].mean()
    df_limpo['distance_km'] = df_limpo['distance_km'].fillna(
        df_limpo['bairro_destino'].map(media_distancia_por_bairro)
    )
    
    # Imputa√ß√£o de tempo de entrega por bairro destino
    media_tempo_por_bairro = df_limpo.groupby('bairro_destino')['actual_delivery_minutes'].mean()
    df_limpo['actual_delivery_minutes'] = df_limpo['actual_delivery_minutes'].fillna(
        df_limpo['bairro_destino'].map(media_tempo_por_bairro)
    )
    
    return df_limpo

print("‚úÖ Fun√ß√µes de tratamento criadas!")


‚úÖ Fun√ß√µes de tratamento criadas!


## 3. Aplica√ß√£o do Tratamento
Executa a limpeza baseada na an√°lise explorat√≥ria.


In [4]:
# 2. CORRIGIR VALORES IMPOSS√çVEIS (tempos negativos usando m√©dia geogr√°fica)
df_tratado = df.copy()
print(f"\n‚ö†Ô∏è CORRIGINDO VALORES IMPOSS√çVEIS:")
tempos_negativos = df_tratado[df_tratado['actual_delivery_minutes'] < 0]
print(f"   ‚Ä¢ Tempos negativos encontrados: {len(tempos_negativos)}")

if len(tempos_negativos) > 0:
    print(f"   ‚Ä¢ Exemplos: {tempos_negativos['actual_delivery_minutes'].head(3).tolist()}")
    print(f"   ‚Ä¢ ETAs correspondentes: {tempos_negativos['eta_minutes_quote'].head(3).tolist()}")
    
    # Corrigir usando m√©dia geogr√°fica (mesma estrat√©gia dos nulos)
    for idx, row in tempos_negativos.iterrows():
        bairro = row['bairro_destino']
        media_tempo_bairro = df_tratado.groupby('bairro_destino')['actual_delivery_minutes'].mean()[bairro]
        df_tratado.loc[idx, 'actual_delivery_minutes'] = media_tempo_bairro
        print(f"   ‚Ä¢ Tempo negativo {row['actual_delivery_minutes']:.1f} min ‚Üí M√©dia do {bairro}: {media_tempo_bairro:.1f} min")
    
    print(f"   ‚Ä¢ Corrigidos usando m√©dia geogr√°fica (consistente com tratamento de nulos)")

print(f"\nüìä ESTADO FINAL:")
print(f"   ‚Ä¢ Registros: {len(df_tratado):,}")
print(f"   ‚Ä¢ Valores nulos: {df_tratado.isnull().sum().sum()}")
print(f"   ‚Ä¢ Tempos negativos: {len(df_tratado[df_tratado['actual_delivery_minutes'] < 0])}")

# Calcular score de qualidade
problemas_iniciais = df.isnull().sum().sum() + len(df[df['actual_delivery_minutes'] < 0])
problemas_finais = df_tratado.isnull().sum().sum()
melhoria = ((problemas_iniciais - problemas_finais) / problemas_iniciais) * 100

print(f"\nüéØ MELHORIA DE QUALIDADE: {melhoria:.1f}%")
print(f"   ‚Ä¢ Problemas resolvidos: {problemas_iniciais - problemas_finais}")
print(f"   ‚Ä¢ Problemas restantes: {problemas_finais}")


‚ö†Ô∏è CORRIGINDO VALORES IMPOSS√çVEIS:
   ‚Ä¢ Tempos negativos encontrados: 9
   ‚Ä¢ Exemplos: [-0.9, -1.1, -1.4]
   ‚Ä¢ ETAs correspondentes: [21, 21, 32]
   ‚Ä¢ Tempo negativo -0.9 min ‚Üí M√©dia do Ch√°cara Santo Ant√¥nio: 32.7 min
   ‚Ä¢ Tempo negativo -1.1 min ‚Üí M√©dia do Para√≠so: 30.9 min
   ‚Ä¢ Tempo negativo -1.4 min ‚Üí M√©dia do Campo Belo: 21.6 min
   ‚Ä¢ Tempo negativo -2.4 min ‚Üí M√©dia do Brooklin: 20.7 min
   ‚Ä¢ Tempo negativo -1.2 min ‚Üí M√©dia do Ibirapuera: 26.4 min
   ‚Ä¢ Tempo negativo -0.4 min ‚Üí M√©dia do Brooklin: 20.8 min
   ‚Ä¢ Tempo negativo -5.7 min ‚Üí M√©dia do Liberdade: 34.8 min
   ‚Ä¢ Tempo negativo -0.7 min ‚Üí M√©dia do Campo Belo: 21.6 min
   ‚Ä¢ Tempo negativo -3.7 min ‚Üí M√©dia do Aclima√ß√£o: 31.7 min
   ‚Ä¢ Corrigidos usando m√©dia geogr√°fica (consistente com tratamento de nulos)

üìä ESTADO FINAL:
   ‚Ä¢ Registros: 5,000
   ‚Ä¢ Valores nulos: 523
   ‚Ä¢ Tempos negativos: 0

üéØ MELHORIA DE QUALIDADE: 1.7%
   ‚Ä¢ Problemas resolvidos:

## 4. Salvamento da Base Limpa
Salva a base tratada para an√°lises futuras.


In [5]:
print("üíæ SALVANDO BASE LIMPA")
print("=" * 50)

# Salvar base tratada
df_tratado.to_csv('Base_Kaiserhaus_Limpa.csv', index=False)
print(f"‚úÖ Base limpa salva como 'Base_Kaiserhaus_Limpa.csv'")

# Criar relat√≥rio de tratamento
relatorio = f"""
RELAT√ìRIO DE TRATAMENTO DE DADOS - BASE KAISERHAUS
==================================================

Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

ESTAT√çSTICAS:
- Registros originais: {len(df):,}
- Registros finais: {len(df_tratado):,}
- Registros mantidos: {len(df_tratado)/len(df)*100:.1f}%

PROBLEMAS RESOLVIDOS:
- Valores nulos em distance_km: {INFO_ANALISE['valores_nulos']['distance_km']}
- Valores nulos em actual_delivery_minutes: {INFO_ANALISE['valores_nulos']['actual_delivery_minutes']}
- Tempos de entrega negativos: {INFO_ANALISE['valores_impossiveis']['actual_delivery_minutes_negativos']} (substitu√≠dos por ETA)

MELHORIA DE QUALIDADE: {melhoria:.1f}%

M√âTODOS APLICADOS:
1. Imputa√ß√£o geogr√°fica por bairro destino
2. Corre√ß√£o de valores imposs√≠veis usando ETA (tempo estimado)
3. Identifica√ß√£o de outliers com limites de neg√≥cio

ESTRAT√âGIA DE CORRE√á√ÉO:
- Tempos negativos ‚Üí Substitu√≠dos pelo ETA correspondente
- Mais realista que usar 0 ou remover registros
- Preserva informa√ß√£o temporal estimada

ARQUIVOS GERADOS:
- Base_Kaiserhaus_Limpa.csv
- relatorio_tratamento.txt
"""

with open('relatorio_tratamento.txt', 'w', encoding='utf-8') as f:
    f.write(relatorio)

print(f"‚úÖ Relat√≥rio salvo como 'relatorio_tratamento.txt'")
print(f"\nüìã Pr√≥ximos passos:")
print(f"   1. Usar 'Base_Kaiserhaus_Limpa.csv' para an√°lises")
print(f"   2. Revisar outliers identificados")
print(f"   3. Aplicar an√°lises das hip√≥teses")
print(f"   4. Documentar decis√µes sobre outliers")


üíæ SALVANDO BASE LIMPA
‚úÖ Base limpa salva como 'Base_Kaiserhaus_Limpa.csv'
‚úÖ Relat√≥rio salvo como 'relatorio_tratamento.txt'

üìã Pr√≥ximos passos:
   1. Usar 'Base_Kaiserhaus_Limpa.csv' para an√°lises
   2. Revisar outliers identificados
   3. Aplicar an√°lises das hip√≥teses
   4. Documentar decis√µes sobre outliers
