# An√°lise Descritiva - Base Kaiserhaus
Notebook organizado para **Google Colab**.

**Objetivos:** an√°lise explorat√≥ria inicial, qualidade dos dados e estat√≠sticas descritivas da base de pedidos do Kaiserhaus.


## 0. Setup (instala√ß√µes e imports)
Execute esta c√©lula apenas uma vez para instalar depend√™ncias no Colab.


In [None]:
# Se estiver no Colab, descomente a linha abaixo para garantir as depend√™ncias
# !pip install -q pandas numpy matplotlib seaborn

import os, math, textwrap
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Diret√≥rio de sa√≠da para gr√°ficos e artefatos
OUT_DIR = "out"
os.makedirs(OUT_DIR, exist_ok=True)

# Configs visuais b√°sicas (matplotlib)
plt.rcParams["figure.figsize"] = (10, 6)
plt.rcParams["axes.grid"] = True
plt.rcParams["font.size"] = 10

print("‚úÖ Bibliotecas importadas com sucesso!")


## 1. Carregar dados
Coloque seu arquivo `Base_Kaiserhaus.csv` no ambiente do Colab (ou no Google Drive) e informe o caminho.


In [None]:
# Caminho para o arquivo CSV
caminho_csv = "Base_Kaiserhaus.csv"  # coloque o nome/caminho correto

# Leitura do arquivo CSV
df = pd.read_csv(caminho_csv)

print("üìä Dimens√£o da base:", df.shape)
print("üìã Colunas dispon√≠veis:", list(df.columns))
print("\nüîç Primeiras 5 linhas:")
df.head()


## 2. Informa√ß√µes b√°sicas da base
An√°lise inicial da estrutura e tipos de dados.


In [None]:
print("üìà INFORMA√á√ïES B√ÅSICAS DA BASE")
print("=" * 50)

print(f"\nüìä Dimens√µes:")
print(f"   ‚Ä¢ Linhas: {df.shape[0]:,}")
print(f"   ‚Ä¢ Colunas: {df.shape[1]}")

print(f"\nüîç Tipos de dados:")
print(df.dtypes)


## 3. An√°lise de valores nulos
Identifica√ß√£o de dados faltantes na base.


In [None]:
print("üîç AN√ÅLISE DE VALORES NULOS")
print("=" * 50)

# Contagem de valores nulos por coluna
valores_nulos = df.isnull().sum()
percentual_nulos = (valores_nulos / len(df)) * 100

# Criar DataFrame com informa√ß√µes de nulos
info_nulos = pd.DataFrame({
    'Coluna': valores_nulos.index,
    'Valores_Nulos': valores_nulos.values,
    'Percentual': percentual_nulos.values
})

# Filtrar apenas colunas com valores nulos
info_nulos = info_nulos[info_nulos['Valores_Nulos'] > 0].sort_values('Valores_Nulos', ascending=False)

if len(info_nulos) > 0:
    print("\n‚ö†Ô∏è  Colunas com valores nulos:")
    print(info_nulos.to_string(index=False))
else:
    print("\n‚úÖ Nenhum valor nulo encontrado na base!")

print(f"\nüìä Resumo:")
print(f"   ‚Ä¢ Total de valores nulos: {df.isnull().sum().sum()}")
print(f"   ‚Ä¢ Percentual geral: {(df.isnull().sum().sum() / (df.shape[0] * df.shape[1])) * 100:.2f}%")


## 4. An√°lise de duplicatas
Verifica√ß√£o de registros duplicados na base.


In [None]:
print("üîç AN√ÅLISE DE DUPLICATAS")
print("=" * 50)

# Verificar duplicatas completas
duplicatas_completas = df.duplicated().sum()

# Verificar duplicatas por pedido (assumindo que order_datetime + nome_cliente identifica pedido √∫nico)
duplicatas_pedido = df.duplicated(subset=['order_datetime', 'nome_cliente']).sum()

print(f"\nüìä Duplicatas encontradas:")
print(f"   ‚Ä¢ Duplicatas completas: {duplicatas_completas:,}")
print(f"   ‚Ä¢ Duplicatas de pedido: {duplicatas_pedido:,}")

if duplicatas_completas > 0:
    print(f"\n‚ö†Ô∏è  Exemplo de duplicatas completas:")
    print(df[df.duplicated()].head())

if duplicatas_pedido > 0:
    print(f"\n‚ö†Ô∏è  Exemplo de duplicatas de pedido:")
    print(df[df.duplicated(subset=['order_datetime', 'nome_cliente'])].head())


## 5. An√°lise de vari√°veis categ√≥ricas
Explora√ß√£o das vari√°veis categ√≥ricas e suas distribui√ß√µes.


In [None]:
print("üìä AN√ÅLISE DE VARI√ÅVEIS CATEG√ìRICAS")
print("=" * 50)

# Identificar colunas categ√≥ricas
colunas_categoricas = df.select_dtypes(include=['object']).columns.tolist()

print(f"\nüîç Colunas categ√≥ricas identificadas: {colunas_categoricas}")

for coluna in colunas_categoricas:
    print(f"\nüìã {coluna.upper()}:")
    print(f"   ‚Ä¢ Valores √∫nicos: {df[coluna].nunique()}")
    print(f"   ‚Ä¢ Valores mais frequentes:")
    
    # Mostrar top 5 valores mais frequentes
    top_valores = df[coluna].value_counts().head(5)
    for valor, count in top_valores.items():
        percentual = (count / len(df)) * 100
        print(f"     - {valor}: {count:,} ({percentual:.1f}%)")
    
    # Se h√° muitos valores √∫nicos, mostrar resumo
    if df[coluna].nunique() > 10:
        print(f"   ‚Ä¢ ... e mais {df[coluna].nunique() - 5} valores √∫nicos")


## 6. An√°lise de vari√°veis num√©ricas
Explora√ß√£o das vari√°veis num√©ricas e identifica√ß√£o de outliers.


In [None]:
print("üìä AN√ÅLISE DE VARI√ÅVEIS NUM√âRICAS")
print("=" * 50)

# Identificar colunas num√©ricas
colunas_numericas = df.select_dtypes(include=[np.number]).columns.tolist()

print(f"\nüîç Colunas num√©ricas identificadas: {colunas_numericas}")

# Estat√≠sticas descritivas
print(f"\nüìà ESTAT√çSTICAS DESCRITIVAS:")
desc_stats = df[colunas_numericas].describe()
print(desc_stats.round(2))


## 7. Identifica√ß√£o de outliers
Detec√ß√£o de valores extremos usando m√©todo IQR.


In [None]:
print("üîç IDENTIFICA√á√ÉO DE OUTLIERS (M√©todo IQR)")
print("=" * 50)

def detectar_outliers_iqr(df, coluna):
    """
    Detecta outliers usando o m√©todo IQR
    """
    Q1 = df[coluna].quantile(0.25)
    Q3 = df[coluna].quantile(0.75)
    IQR = Q3 - Q1
    
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    outliers = df[(df[coluna] < limite_inferior) | (df[coluna] > limite_superior)]
    
    return {
        'Q1': Q1,
        'Q3': Q3,
        'IQR': IQR,
        'limite_inferior': limite_inferior,
        'limite_superior': limite_superior,
        'outliers': outliers,
        'count_outliers': len(outliers),
        'percentual_outliers': (len(outliers) / len(df)) * 100
    }

print("\nüìä An√°lise de outliers por vari√°vel:")

for coluna in colunas_numericas:
    resultado = detectar_outliers_iqr(df, coluna)
    
    print(f"\nüîç {coluna.upper()}:")
    print(f"   ‚Ä¢ Q1: {resultado['Q1']:.2f}")
    print(f"   ‚Ä¢ Q3: {resultado['Q3']:.2f}")
    print(f"   ‚Ä¢ IQR: {resultado['IQR']:.2f}")
    print(f"   ‚Ä¢ Limites: [{resultado['limite_inferior']:.2f}, {resultado['limite_superior']:.2f}]")
    print(f"   ‚Ä¢ Outliers: {resultado['count_outliers']:,} ({resultado['percentual_outliers']:.1f}%)")
    
    # Mostrar alguns exemplos de outliers
    if resultado['count_outliers'] > 0:
        print(f"   ‚Ä¢ Exemplos de outliers: {resultado['outliers'][coluna].head(3).tolist()}")


## 8. An√°lise de valores imposs√≠veis
Identifica√ß√£o de valores que n√£o fazem sentido do ponto de vista de neg√≥cio.


In [None]:
print("‚ö†Ô∏è  AN√ÅLISE DE VALORES IMPOSS√çVEIS")
print("=" * 50)

# Verifica√ß√µes espec√≠ficas por vari√°vel
problemas_encontrados = False

# 1. Tempos negativos
tempos_negativos = df[df['actual_delivery_minutes'] < 0]
if len(tempos_negativos) > 0:
    print(f"\n‚ùå Tempos de entrega negativos: {len(tempos_negativos)} registros")
    print(f"   Exemplos: {tempos_negativos['actual_delivery_minutes'].head(3).tolist()}")
    problemas_encontrados = True

# 2. Dist√¢ncias negativas
distancias_negativas = df[df['distance_km'] < 0]
if len(distancias_negativas) > 0:
    print(f"\n‚ùå Dist√¢ncias negativas: {len(distancias_negativas)} registros")
    problemas_encontrados = True

# 3. Valores monet√°rios negativos
valores_negativos = df[df['total_brl'] < 0]
if len(valores_negativos) > 0:
    print(f"\n‚ùå Valores monet√°rios negativos: {len(valores_negativos)} registros")
    problemas_encontrados = True

# 4. Tempos de preparo negativos
preparo_negativo = df[df['tempo_preparo_minutos'] < 0]
if len(preparo_negativo) > 0:
    print(f"\n‚ùå Tempos de preparo negativos: {len(preparo_negativo)} registros")
    problemas_encontrados = True

# 5. Satisfa√ß√£o fora do range esperado (1-5)
satisfacao_invalida = df[(df['satisfacao_nivel'] < 1) | (df['satisfacao_nivel'] > 5)]
if len(satisfacao_invalida) > 0:
    print(f"\n‚ùå Satisfa√ß√£o fora do range (1-5): {len(satisfacao_invalida)} registros")
    problemas_encontrados = True

if not problemas_encontrados:
    print("\n‚úÖ Nenhum valor imposs√≠vel encontrado!")
else:
    print(f"\nüìä Total de registros com problemas: {len(tempos_negativos) + len(distancias_negativas) + len(valores_negativos) + len(preparo_negativo) + len(satisfacao_invalida)}")


## 9. Resumo da qualidade dos dados
S√≠ntese final da qualidade da base de dados.


In [None]:
print("üìã RESUMO DA QUALIDADE DOS DADOS")
print("=" * 50)

# Calcular m√©tricas de qualidade
total_registros = len(df)
total_valores_nulos = df.isnull().sum().sum()
total_duplicatas = df.duplicated().sum()

# Contar outliers totais
total_outliers = 0
for coluna in colunas_numericas:
    resultado = detectar_outliers_iqr(df, coluna)
    total_outliers += resultado['count_outliers']

# Contar valores imposs√≠veis
valores_impossiveis = (
    len(df[df['actual_delivery_minutes'] < 0]) +
    len(df[df['distance_km'] < 0]) +
    len(df[df['total_brl'] < 0]) +
    len(df[df['tempo_preparo_minutos'] < 0]) +
    len(df[(df['satisfacao_nivel'] < 1) | (df['satisfacao_nivel'] > 5)])
)

print(f"\nüìä M√âTRICAS GERAIS:")
print(f"   ‚Ä¢ Total de registros: {total_registros:,}")
print(f"   ‚Ä¢ Total de colunas: {df.shape[1]}")
print(f"   ‚Ä¢ Uso de mem√≥ria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print(f"\nüîç PROBLEMAS IDENTIFICADOS:")
print(f"   ‚Ä¢ Valores nulos: {total_valores_nulos:,} ({(total_valores_nulos / (total_registros * df.shape[1])) * 100:.2f}%)")
print(f"   ‚Ä¢ Duplicatas completas: {total_duplicatas:,} ({(total_duplicatas / total_registros) * 100:.2f}%)")
print(f"   ‚Ä¢ Valores imposs√≠veis: {valores_impossiveis:,} ({(valores_impossiveis / total_registros) * 100:.2f}%)")
print(f"   ‚Ä¢ Outliers detectados: {total_outliers:,} ({(total_outliers / total_registros) * 100:.2f}%)")

# Calcular score de qualidade (0-100)
problemas_totais = total_valores_nulos + total_duplicatas + valores_impossiveis
score_qualidade = max(0, 100 - (problemas_totais / total_registros) * 100)

print(f"\nüéØ SCORE DE QUALIDADE: {score_qualidade:.1f}/100")

if score_qualidade >= 90:
    print("   ‚úÖ Excelente qualidade!")
elif score_qualidade >= 80:
    print("   ‚ö†Ô∏è  Boa qualidade, mas requer limpeza")
elif score_qualidade >= 70:
    print("   ‚ö†Ô∏è  Qualidade moderada, limpeza necess√°ria")
else:
    print("   ‚ùå Qualidade baixa, limpeza cr√≠tica necess√°ria")

print(f"\nüìù PR√ìXIMOS PASSOS:")
print(f"   1. Implementar limpeza de dados")
print(f"   2. Tratar valores nulos")
print(f"   3. Corrigir valores imposs√≠veis")
print(f"   4. Decidir estrat√©gia para outliers")
print(f"   5. Criar base limpa para an√°lises")
