# An√°lise Descritiva - Base Kaiserhaus
Notebook organizado para **Google Colab**.

**Objetivos:** an√°lise explorat√≥ria inicial, qualidade dos dados e estat√≠sticas descritivas da base de pedidos do Kaiserhaus.


## 0. Setup (instala√ß√µes e imports)
Execute esta c√©lula apenas uma vez para instalar depend√™ncias no Colab.


In [152]:
# Se estiver no Colab, descomente a linha abaixo para garantir as depend√™ncias
# !pip install -q pandas numpy matplotlib seaborn

import os, math, textwrap
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Diret√≥rio de sa√≠da para gr√°ficos e artefatos
OUT_DIR = "out"
os.makedirs(OUT_DIR, exist_ok=True)

# Configs visuais b√°sicas (matplotlib)
plt.rcParams["figure.figsize"] = (10, 6)
plt.rcParams["axes.grid"] = True
plt.rcParams["font.size"] = 10

print("‚úÖ Bibliotecas importadas com sucesso!")


‚úÖ Bibliotecas importadas com sucesso!


## 1. Carregar dados
Coloque seu arquivo `Base_Kaiserhaus.csv` no ambiente do Colab (ou no Google Drive) e informe o caminho.


In [153]:
# Caminho para o arquivo CSV
caminho_csv = "Base_Kaiserhaus.csv"  # coloque o nome/caminho correto

# Leitura do arquivo CSV
df = pd.read_csv(caminho_csv)

print("üìä Dimens√£o da base:", df.shape)
print("üìã Colunas dispon√≠veis:", list(df.columns))
print("\nüîç Primeiras 5 linhas:")
df.head()


üìä Dimens√£o da base: (5000, 16)
üìã Colunas dispon√≠veis: ['macro_bairro', 'nome_cliente', 'bairro_destino', 'order_datetime', 'platform', 'order_mode', 'distance_km', 'tempo_preparo_minutos', 'status', 'eta_minutes_quote', 'actual_delivery_minutes', 'total_brl', 'classe_pedido', 'platform_commission_pct', 'num_itens', 'satisfacao_nivel']

üîç Primeiras 5 linhas:


Unnamed: 0,macro_bairro,nome_cliente,bairro_destino,order_datetime,platform,order_mode,distance_km,tempo_preparo_minutos,status,eta_minutes_quote,actual_delivery_minutes,total_brl,classe_pedido,platform_commission_pct,num_itens,satisfacao_nivel
0,Outros,J√∫lia Ramos,Bela Vista,2024-01-01 15:08:00,rappi,delivery,6.916192,34,delivered,50,62.4,288.01,familia,0.16,8,3
1,Santo Amaro,Gustavo R. Rezende,Santo Amaro,2024-01-02 07:49:00,ifood,delivery,5.753085,16,delivered,45,35.6,125.02,combo,0.16,3,5
2,Jardins,Valentina Y. Oliveira,Jardins,2024-01-02 10:14:00,ifood,delivery,4.545672,15,delivered,43,34.5,110.76,combo,0.12,4,5
3,Vila Ol√≠mpia,Mariana Moreira,Vila Ol√≠mpia,2024-01-02 10:58:00,site_proprio,retirada,0.059679,6,delivered,19,14.4,45.16,prato_unico,0.0,1,5
4,Moema,Daniel Rocha,Ibirapuera,2024-01-02 12:56:00,site_proprio,retirada,0.102063,25,delivered,28,26.6,123.12,combo,0.0,3,5


## 2. Informa√ß√µes b√°sicas da base
An√°lise inicial da estrutura e tipos de dados.


In [154]:
print("üìà INFORMA√á√ïES B√ÅSICAS DA BASE")
print("=" * 50)

print(f"\nüìä Dimens√µes:")
print(f"   ‚Ä¢ Linhas: {df.shape[0]:,}")
print(f"   ‚Ä¢ Colunas: {df.shape[1]}")

print(f"\nüîç Tipos de dados:")
print(df.dtypes)


üìà INFORMA√á√ïES B√ÅSICAS DA BASE

üìä Dimens√µes:
   ‚Ä¢ Linhas: 5,000
   ‚Ä¢ Colunas: 16

üîç Tipos de dados:
macro_bairro                object
nome_cliente                object
bairro_destino              object
order_datetime              object
platform                    object
order_mode                  object
distance_km                float64
tempo_preparo_minutos        int64
status                      object
eta_minutes_quote            int64
actual_delivery_minutes    float64
total_brl                  float64
classe_pedido               object
platform_commission_pct    float64
num_itens                    int64
satisfacao_nivel             int64
dtype: object


## 3. An√°lise de valores nulos
Identifica√ß√£o de dados faltantes na base.


In [155]:
print("üîç AN√ÅLISE DE VALORES NULOS")
print("=" * 50)

# Contagem de valores nulos por coluna
valores_nulos = df.isnull().sum()
percentual_nulos = (valores_nulos / len(df)) * 100

# Criar DataFrame com informa√ß√µes de nulos
info_nulos = pd.DataFrame({
    'Coluna': valores_nulos.index,
    'Valores_Nulos': valores_nulos.values,
    'Percentual': percentual_nulos.values
})

# Filtrar apenas colunas com valores nulos
info_nulos = info_nulos[info_nulos['Valores_Nulos'] > 0].sort_values('Valores_Nulos', ascending=False)

if len(info_nulos) > 0:
    print("\n‚ö†Ô∏è  Colunas com valores nulos:")
    print(info_nulos.to_string(index=False))
else:
    print("\n‚úÖ Nenhum valor nulo encontrado na base!")

print(f"\nüìä Resumo:")
print(f"   ‚Ä¢ Total de valores nulos: {df.isnull().sum().sum()}")
print(f"   ‚Ä¢ Percentual geral: {(df.isnull().sum().sum() / (df.shape[0] * df.shape[1])) * 100:.2f}%")


üîç AN√ÅLISE DE VALORES NULOS

‚ö†Ô∏è  Colunas com valores nulos:
                 Coluna  Valores_Nulos  Percentual
            distance_km            323        6.46
actual_delivery_minutes            200        4.00

üìä Resumo:
   ‚Ä¢ Total de valores nulos: 523
   ‚Ä¢ Percentual geral: 0.65%


## 5. An√°lise de vari√°veis categ√≥ricas
Explora√ß√£o das vari√°veis categ√≥ricas e suas distribui√ß√µes.


In [156]:
print("üìä AN√ÅLISE DE VARI√ÅVEIS CATEG√ìRICAS")
print("=" * 50)

# Identificar colunas categ√≥ricas
colunas_categoricas = df.select_dtypes(include=['object']).columns.tolist()

print(f"\nüîç Colunas categ√≥ricas identificadas: {colunas_categoricas}")

for coluna in colunas_categoricas:
    print(f"\nüìã {coluna.upper()}:")
    print(f"   ‚Ä¢ Valores √∫nicos: {df[coluna].nunique()}")
    print(f"   ‚Ä¢ Valores mais frequentes:")
    
    # Mostrar top 5 valores mais frequentes
    top_valores = df[coluna].value_counts().head(5)
    for valor, count in top_valores.items():
        percentual = (count / len(df)) * 100
        print(f"     - {valor}: {count:,} ({percentual:.1f}%)")
    
    # Se h√° muitos valores √∫nicos, mostrar resumo
    if df[coluna].nunique() > 10:
        print(f"   ‚Ä¢ ... e mais {df[coluna].nunique() - 5} valores √∫nicos")


üìä AN√ÅLISE DE VARI√ÅVEIS CATEG√ìRICAS

üîç Colunas categ√≥ricas identificadas: ['macro_bairro', 'nome_cliente', 'bairro_destino', 'order_datetime', 'platform', 'order_mode', 'status', 'classe_pedido']

üìã MACRO_BAIRRO:
   ‚Ä¢ Valores √∫nicos: 10
   ‚Ä¢ Valores mais frequentes:
     - Brooklin: 881 (17.6%)
     - Moema: 679 (13.6%)
     - Vila Mariana: 530 (10.6%)
     - Vila Ol√≠mpia: 516 (10.3%)
     - Itaim: 497 (9.9%)

üìã NOME_CLIENTE:
   ‚Ä¢ Valores √∫nicos: 2000
   ‚Ä¢ Valores mais frequentes:
     - J√∫lia Ramos: 3 (0.1%)
     - Tatiane B. Ferreira: 3 (0.1%)
     - Eduardo S. Borges: 3 (0.1%)
     - Isabela Batista: 3 (0.1%)
     - Felipe R. Correia: 3 (0.1%)
   ‚Ä¢ ... e mais 1995 valores √∫nicos

üìã BAIRRO_DESTINO:
   ‚Ä¢ Valores √∫nicos: 20
   ‚Ä¢ Valores mais frequentes:
     - Vila Ol√≠mpia: 516 (10.3%)
     - Itaim Bibi: 497 (9.9%)
     - Campo Belo: 446 (8.9%)
     - Brooklin: 435 (8.7%)
     - Pinheiros: 393 (7.9%)
   ‚Ä¢ ... e mais 15 valores √∫nicos

üìã ORDE

## 6. An√°lise de vari√°veis num√©ricas
Explora√ß√£o das vari√°veis num√©ricas e identifica√ß√£o de outliers.


In [157]:
print("üìä AN√ÅLISE DE VARI√ÅVEIS NUM√âRICAS")
print("=" * 50)

# Identificar colunas num√©ricas
colunas_numericas = df.select_dtypes(include=[np.number]).columns.tolist()

print(f"\nüîç Colunas num√©ricas identificadas: {colunas_numericas}")

# Estat√≠sticas descritivas
print(f"\nüìà ESTAT√çSTICAS DESCRITIVAS:")
desc_stats = df[colunas_numericas].describe()
print(desc_stats.round(2))


üìä AN√ÅLISE DE VARI√ÅVEIS NUM√âRICAS

üîç Colunas num√©ricas identificadas: ['distance_km', 'tempo_preparo_minutos', 'eta_minutes_quote', 'actual_delivery_minutes', 'total_brl', 'platform_commission_pct', 'num_itens', 'satisfacao_nivel']

üìà ESTAT√çSTICAS DESCRITIVAS:
       distance_km  tempo_preparo_minutos  eta_minutes_quote  \
count      4677.00                5000.00            5000.00   
mean          3.51                  16.42              37.48   
std           2.59                   7.92               8.55   
min           0.00                   6.00              12.00   
25%           0.74                  11.00              32.00   
50%           3.65                  15.00              39.00   
75%           5.59                  21.00              44.00   
max           9.95                  57.00              59.00   

       actual_delivery_minutes  total_brl  platform_commission_pct  num_itens  \
count                  4800.00    5000.00                  5000.00  

## 7. Identifica√ß√£o de outliers MELHORADA
Detec√ß√£o de valores extremos usando m√©todo IQR + limites de neg√≥cio.


In [158]:
print("üîç IDENTIFICA√á√ÉO DE OUTLIERS MELHORADA (IQR + L√≥gica de Neg√≥cio)")
print("=" * 65)

def detectar_outliers_inteligente(df, coluna):
    """
    Detecta outliers usando m√©todo IQR + limites de neg√≥cio
    """
    Q1 = df[coluna].quantile(0.25)
    Q3 = df[coluna].quantile(0.75)
    IQR = Q3 - Q1
    
    # Limites estat√≠sticos
    limite_inferior_stat = Q1 - 1.5 * IQR
    limite_superior_stat = Q3 + 1.5 * IQR
    
    # Limites de neg√≥cio espec√≠ficos por vari√°vel
    limites_negocio = {
        'distance_km': {'min': 0, 'max': 30},  # 0-30km faz sentido para delivery
        'tempo_preparo_minutos': {'min': 0, 'max': 90},  # 0-90min para preparo
        'eta_minutes_quote': {'min': 5, 'max': 120},  # 5-120min para ETA
        'actual_delivery_minutes': {'min': 0, 'max': 120},  # 0-120min para entrega real
        'total_brl': {'min': 0, 'max': 2000},  # 0-2000 reais por pedido
        'platform_commission_pct': {'min': 0, 'max': 0.35},  # 0-35% de comiss√£o
        'num_itens': {'min': 1, 'max': 50},  # 1-50 itens por pedido
        'satisfacao_nivel': {'min': 0, 'max': 5}  # 0-5 escala de satisfa√ß√£o
    }
    
    # Usar limite de neg√≥cio se dispon√≠vel, sen√£o usar estat√≠stico
    if coluna in limites_negocio:
        limite_inferior = max(limite_inferior_stat, limites_negocio[coluna]['min'])
        limite_superior = min(limite_superior_stat, limites_negocio[coluna]['max'])
    else:
        limite_inferior = limite_inferior_stat
        limite_superior = limite_superior_stat
    
    outliers = df[(df[coluna] < limite_inferior) | (df[coluna] > limite_superior)]
    
    # Separar outliers abaixo e acima dos limites
    outliers_abaixo = df[df[coluna] < limite_inferior]
    outliers_acima = df[df[coluna] > limite_superior]
    
    return {
        'Q1': Q1,
        'Q3': Q3,
        'IQR': IQR,
        'limite_inferior_stat': limite_inferior_stat,
        'limite_superior_stat': limite_superior_stat,
        'limite_inferior_final': limite_inferior,
        'limite_superior_final': limite_superior,
        'outliers': outliers,
        'outliers_abaixo': outliers_abaixo,
        'outliers_acima': outliers_acima,
        'count_outliers': len(outliers),
        'count_abaixo': len(outliers_abaixo),
        'count_acima': len(outliers_acima),
        'percentual_outliers': (len(outliers) / len(df)) * 100
    }

print("\nüìä An√°lise de outliers por vari√°vel (com limites de neg√≥cio):")

for coluna in colunas_numericas:
    resultado = detectar_outliers_inteligente(df, coluna)
    
    print(f"\nüîç {coluna.upper()}:")
    print(f"   ‚Ä¢ Q1: {resultado['Q1']:.2f}")
    print(f"   ‚Ä¢ Q3: {resultado['Q3']:.2f}")
    print(f"   ‚Ä¢ IQR: {resultado['IQR']:.2f}")
    print(f"   ‚Ä¢ Limites estat√≠sticos: [{resultado['limite_inferior_stat']:.2f}, {resultado['limite_superior_stat']:.2f}]")
    print(f"   ‚Ä¢ Limites finais: [{resultado['limite_inferior_final']:.2f}, {resultado['limite_superior_final']:.2f}]")
    print(f"   ‚Ä¢ Total outliers: {resultado['count_outliers']:,} ({resultado['percentual_outliers']:.1f}%)")
    
    # Mostrar exemplos separados
    if resultado['count_abaixo'] > 0:
        exemplos_abaixo = resultado['outliers_abaixo'][coluna].head(5).tolist()
        print(f"   ‚Ä¢ Abaixo do limite ({resultado['count_abaixo']} registros): {exemplos_abaixo}")
    
    if resultado['count_acima'] > 0:
        exemplos_acima = resultado['outliers_acima'][coluna].head(5).tolist()
        print(f"   ‚Ä¢ Acima do limite ({resultado['count_acima']} registros): {exemplos_acima}")


üîç IDENTIFICA√á√ÉO DE OUTLIERS MELHORADA (IQR + L√≥gica de Neg√≥cio)

üìä An√°lise de outliers por vari√°vel (com limites de neg√≥cio):

üîç DISTANCE_KM:
   ‚Ä¢ Q1: 0.74
   ‚Ä¢ Q3: 5.59
   ‚Ä¢ IQR: 4.85
   ‚Ä¢ Limites estat√≠sticos: [-6.53, 12.87]
   ‚Ä¢ Limites finais: [0.00, 12.87]
   ‚Ä¢ Total outliers: 0 (0.0%)

üîç TEMPO_PREPARO_MINUTOS:
   ‚Ä¢ Q1: 11.00
   ‚Ä¢ Q3: 21.00
   ‚Ä¢ IQR: 10.00
   ‚Ä¢ Limites estat√≠sticos: [-4.00, 36.00]
   ‚Ä¢ Limites finais: [0.00, 36.00]
   ‚Ä¢ Total outliers: 106 (2.1%)
   ‚Ä¢ Acima do limite (106 registros): [41, 54, 41, 57, 39]

üîç ETA_MINUTES_QUOTE:
   ‚Ä¢ Q1: 32.00
   ‚Ä¢ Q3: 44.00
   ‚Ä¢ IQR: 12.00
   ‚Ä¢ Limites estat√≠sticos: [14.00, 62.00]
   ‚Ä¢ Limites finais: [14.00, 62.00]
   ‚Ä¢ Total outliers: 2 (0.0%)
   ‚Ä¢ Abaixo do limite (2 registros): [13, 12]

üîç ACTUAL_DELIVERY_MINUTES:
   ‚Ä¢ Q1: 20.10
   ‚Ä¢ Q3: 37.90
   ‚Ä¢ IQR: 17.80
   ‚Ä¢ Limites estat√≠sticos: [-6.60, 64.60]
   ‚Ä¢ Limites finais: [0.00, 64.60]
   ‚Ä¢ Total out

## 8. An√°lise de valores imposs√≠veis
Identifica√ß√£o de valores que n√£o fazem sentido do ponto de vista de neg√≥cio.


In [159]:
print("‚ö†Ô∏è  AN√ÅLISE DE VALORES IMPOSS√çVEIS")
print("=" * 50)

# Verifica√ß√µes espec√≠ficas por vari√°vel
problemas_encontrados = False

# 1. Tempos negativos
tempos_negativos = df[df['actual_delivery_minutes'] < 0]
if len(tempos_negativos) > 0:
    print(f"\n‚ùå Tempos de entrega negativos: {len(tempos_negativos)} registros")
    print(f"   Exemplos: {tempos_negativos['actual_delivery_minutes'].head(3).tolist()}")
    problemas_encontrados = True

# 2. Dist√¢ncias negativas
distancias_negativas = df[df['distance_km'] < 0]
if len(distancias_negativas) > 0:
    print(f"\n‚ùå Dist√¢ncias negativas: {len(distancias_negativas)} registros")
    problemas_encontrados = True

# 3. Valores monet√°rios negativos
valores_negativos = df[df['total_brl'] < 0]
if len(valores_negativos) > 0:
    print(f"\n‚ùå Valores monet√°rios negativos: {len(valores_negativos)} registros")
    problemas_encontrados = True

# 4. Tempos de preparo negativos
preparo_negativo = df[df['tempo_preparo_minutos'] < 0]
if len(preparo_negativo) > 0:
    print(f"\n‚ùå Tempos de preparo negativos: {len(preparo_negativo)} registros")
    problemas_encontrados = True

# 5. Satisfa√ß√£o fora do range esperado (1-5)
satisfacao_invalida = df[(df['satisfacao_nivel'] < 1) | (df['satisfacao_nivel'] > 5)]
if len(satisfacao_invalida) > 0:
    print(f"\n‚ùå Satisfa√ß√£o fora do range (1-5): {len(satisfacao_invalida)} registros")
    problemas_encontrados = True

if not problemas_encontrados:
    print("\n‚úÖ Nenhum valor imposs√≠vel encontrado!")
else:
    print(f"\nüìä Total de registros com problemas: {len(tempos_negativos) + len(distancias_negativas) + len(valores_negativos) + len(preparo_negativo) + len(satisfacao_invalida)}")


‚ö†Ô∏è  AN√ÅLISE DE VALORES IMPOSS√çVEIS

‚ùå Tempos de entrega negativos: 9 registros
   Exemplos: [-0.9, -1.1, -1.4]

üìä Total de registros com problemas: 9


## 9. Resumo da qualidade dos dados
S√≠ntese final da qualidade da base de dados.


In [160]:
print("üìã RESUMO DA QUALIDADE DOS DADOS")
print("=" * 50)

# Calcular m√©tricas de qualidade
total_registros = len(df)
total_valores_nulos = df.isnull().sum().sum()
total_duplicatas = df.duplicated().sum()

# Contar outliers totais
total_outliers = 0
for coluna in colunas_numericas:
    resultado = detectar_outliers_iqr(df, coluna)
    total_outliers += resultado['count_outliers']

# Contar valores imposs√≠veis
valores_impossiveis = (
    len(df[df['actual_delivery_minutes'] < 0]) +
    len(df[df['distance_km'] < 0]) +
    len(df[df['total_brl'] < 0]) +
    len(df[df['tempo_preparo_minutos'] < 0]) +
    len(df[(df['satisfacao_nivel'] < 1) | (df['satisfacao_nivel'] > 5)])
)

print(f"\nüìä M√âTRICAS GERAIS:")
print(f"   ‚Ä¢ Total de registros: {total_registros:,}")
print(f"   ‚Ä¢ Total de colunas: {df.shape[1]}")
print(f"   ‚Ä¢ Uso de mem√≥ria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print(f"\nüîç PROBLEMAS IDENTIFICADOS:")
print(f"   ‚Ä¢ Valores nulos: {total_valores_nulos:,} ({(total_valores_nulos / (total_registros * df.shape[1])) * 100:.2f}%)")
print(f"   ‚Ä¢ Duplicatas completas: {total_duplicatas:,} ({(total_duplicatas / total_registros) * 100:.2f}%)")
print(f"   ‚Ä¢ Valores imposs√≠veis: {valores_impossiveis:,} ({(valores_impossiveis / total_registros) * 100:.2f}%)")
print(f"   ‚Ä¢ Outliers detectados: {total_outliers:,} ({(total_outliers / total_registros) * 100:.2f}%)")

# Calcular score de qualidade (0-100)
problemas_totais = total_valores_nulos + total_duplicatas + valores_impossiveis
score_qualidade = max(0, 100 - (problemas_totais / total_registros) * 100)

print(f"\nüéØ SCORE DE QUALIDADE: {score_qualidade:.1f}/100")

if score_qualidade >= 90:
    print("   ‚úÖ Excelente qualidade!")
elif score_qualidade >= 80:
    print("   ‚ö†Ô∏è  Boa qualidade, mas requer limpeza")
elif score_qualidade >= 70:
    print("   ‚ö†Ô∏è  Qualidade moderada, limpeza necess√°ria")
else:
    print("   ‚ùå Qualidade baixa, limpeza cr√≠tica necess√°ria")

print(f"\nüìù PR√ìXIMOS PASSOS:")
print(f"   1. Implementar limpeza de dados")
print(f"   2. Tratar valores nulos")
print(f"   3. Corrigir valores imposs√≠veis")
print(f"   4. Decidir estrat√©gia para outliers")
print(f"   5. Criar base limpa para an√°lises")


üìã RESUMO DA QUALIDADE DOS DADOS

üìä M√âTRICAS GERAIS:
   ‚Ä¢ Total de registros: 5,000
   ‚Ä¢ Total de colunas: 16
   ‚Ä¢ Uso de mem√≥ria: 2.99 MB

üîç PROBLEMAS IDENTIFICADOS:
   ‚Ä¢ Valores nulos: 523 (0.65%)
   ‚Ä¢ Duplicatas completas: 0 (0.00%)
   ‚Ä¢ Valores imposs√≠veis: 9 (0.18%)
   ‚Ä¢ Outliers detectados: 1,654 (33.08%)

üéØ SCORE DE QUALIDADE: 89.4/100
   ‚ö†Ô∏è  Boa qualidade, mas requer limpeza

üìù PR√ìXIMOS PASSOS:
   1. Implementar limpeza de dados
   2. Tratar valores nulos
   3. Corrigir valores imposs√≠veis
   4. Decidir estrat√©gia para outliers
   5. Criar base limpa para an√°lises
