In [1]:
# An√°lise de M√©dia de Pessoas em Aglomera√ß√µes por Per√≠odo
# Base: Planilha processada com campos parseados
# Data in√≠cio: Informada pelo usu√°rio
# Data fim: Informada pelo usu√°rio

# %% [markdown]
# # 1. Configura√ß√£o Inicial

# %%
import pandas as pd
import numpy as np
from datetime import datetime
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.2f}'.format)

# Definir caminho da raiz do projeto
# Funciona tanto como script .py quanto em notebook
if '__file__' in globals():
    # Executando como script .py
    projeto_root = Path(__file__).parent.parent.parent
else:
    # Executando como notebook ou c√©lula
    projeto_root = Path.cwd()
    # Se estiver em notebooks/, subir um n√≠vel
    if projeto_root.name == 'notebooks':
        projeto_root = projeto_root.parent

print("=" * 80)
print("AN√ÅLISE: M√©dia de Pessoas em Aglomera√ß√µes por Per√≠odo")
print("=" * 80)
print(f"‚úì Bibliotecas importadas")
print(f"‚úì An√°lise iniciada em: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")

# %% [markdown]
# # 2. Definir Caminhos

# %%
PROCESSED_DIR = projeto_root / 'data' / 'processed'
DOCS_DIR = projeto_root / 'docs'

# Garantir que o diret√≥rio docs existe
DOCS_DIR.mkdir(exist_ok=True)

print(f"\n‚úì Diret√≥rio base: {projeto_root}")
print(f"‚úì Planilhas processadas: {PROCESSED_DIR}")
print(f"‚úì Sa√≠da de documentos: {DOCS_DIR}")

# %% [markdown]
# # 3. Listar e Selecionar Planilha Processada

# %%
# Listar arquivos .xlsx na pasta processed
arquivos_disponiveis = sorted(PROCESSED_DIR.glob('*.xlsx'))

if not arquivos_disponiveis:
    print("\n‚ö†Ô∏è  ERRO: Nenhum arquivo .xlsx encontrado na pasta 'data/processed/'")
    print("   Certifique-se de que existem planilhas processadas no diret√≥rio.")
    exit()

print(f"\nüìÅ Arquivos dispon√≠veis em 'data/processed/':")
print("-" * 80)
for idx, arquivo in enumerate(arquivos_disponiveis, 1):
    print(f"  [{idx}] {arquivo.name}")
print("-" * 80)

# Solicitar sele√ß√£o do usu√°rio
while True:
    try:
        selecao = input(f"\nSelecione o n√∫mero do arquivo [1-{len(arquivos_disponiveis)}]: ").strip()
        idx_selecionado = int(selecao) - 1
        
        if 0 <= idx_selecionado < len(arquivos_disponiveis):
            arquivo_selecionado = arquivos_disponiveis[idx_selecionado]
            print(f"\n‚úì Arquivo selecionado: {arquivo_selecionado.name}")
            break
        else:
            print(f"‚ö†Ô∏è  Por favor, escolha um n√∫mero entre 1 e {len(arquivos_disponiveis)}")
    except ValueError:
        print("‚ö†Ô∏è  Entrada inv√°lida. Digite apenas o n√∫mero do arquivo.")
    except KeyboardInterrupt:
        print("\n\n‚ö†Ô∏è  Opera√ß√£o cancelada pelo usu√°rio.")
        exit()

# %% [markdown]
# # 4. Solicitar Datas de In√≠cio e Fim da An√°lise

# %%
print("\n" + "=" * 80)
print("DEFINIR PER√çODO DE AN√ÅLISE")
print("=" * 80)

# Solicitar data de in√≠cio
while True:
    try:
        data_inicio_input = input("\nüìÖ Digite a data IN√çCIO da an√°lise (formato: DD/MM/AAAA): ").strip()
        data_inicio = datetime.strptime(data_inicio_input, '%d/%m/%Y')
        print(f"‚úì Data in√≠cio definida: {data_inicio.strftime('%d/%m/%Y')}")
        break
        
    except ValueError:
        print("‚ö†Ô∏è  Formato inv√°lido. Use DD/MM/AAAA (exemplo: 01/05/2025)")
    except KeyboardInterrupt:
        print("\n\n‚ö†Ô∏è  Opera√ß√£o cancelada pelo usu√°rio.")
        exit()

# Solicitar data de fim
while True:
    try:
        data_fim_input = input("\nüìÖ Digite a data FIM da an√°lise (formato: DD/MM/AAAA): ").strip()
        data_fim = datetime.strptime(data_fim_input, '%d/%m/%Y')
        
        # Validar se a data fim √© posterior √† data in√≠cio
        if data_fim < data_inicio:
            print(f"‚ö†Ô∏è  A data fim deve ser posterior √† data in√≠cio ({data_inicio.strftime('%d/%m/%Y')})")
            continue
        
        # Validar se as datas n√£o s√£o iguais
        if data_fim == data_inicio:
            print("‚ö†Ô∏è  A data fim deve ser diferente da data in√≠cio")
            continue
        
        print(f"‚úì Data fim definida: {data_fim.strftime('%d/%m/%Y')}")
        print(f"\n‚úì Per√≠odo de an√°lise: {data_inicio.strftime('%d/%m/%Y')} at√© {data_fim.strftime('%d/%m/%Y')}")
        
        # Calcular e mostrar dura√ß√£o
        dias_totais = (data_fim - data_inicio).days + 1
        print(f"‚úì Dura√ß√£o: {dias_totais} dias")
        break
        
    except ValueError:
        print("‚ö†Ô∏è  Formato inv√°lido. Use DD/MM/AAAA (exemplo: 20/10/2025)")
    except KeyboardInterrupt:
        print("\n\n‚ö†Ô∏è  Opera√ß√£o cancelada pelo usu√°rio.")
        exit()

# %% [markdown]
# # 5. Carregar e Validar Dados

# %%
print(f"\nüìä Carregando dados de: {arquivo_selecionado.name}")
print("-" * 80)

try:
    df = pd.read_excel(arquivo_selecionado)
    print(f"‚úì Planilha carregada com sucesso!")
    print(f"‚úì Total de registros: {len(df):,}")
    
except Exception as e:
    print(f"\n‚ö†Ô∏è  ERRO ao carregar planilha: {e}")
    exit()

# %% [markdown]
# # 6. Validar Estrutura Esperada

# %%
colunas_esperadas = [
    'Equipe', 'Data', 'Logradouro', 'Per√≠odo', 'Qtd. pessoas',
    'tipo_logradouro', 'nome_logradouro', 'numero_logradouro', 
    'complemento_logradouro'
]

colunas_faltantes = [col for col in colunas_esperadas if col not in df.columns]

if colunas_faltantes:
    print(f"\n‚ö†Ô∏è  ERRO: Colunas obrigat√≥rias n√£o encontradas:")
    for col in colunas_faltantes:
        print(f"   - {col}")
    print("\n   Certifique-se de que est√° usando uma planilha processada.")
    exit()

print(f"\n‚úì Estrutura da planilha validada!")

# %% [markdown]
# # 7. Converter Campo Data e Filtrar Per√≠odo

# %%
# Converter coluna Data para datetime
df['Data'] = pd.to_datetime(df['Data'], errors='coerce')

# Verificar convers√£o
datas_invalidas = df['Data'].isna().sum()
if datas_invalidas > 0:
    print(f"\n‚ö†Ô∏è  Aten√ß√£o: {datas_invalidas} registros com datas inv√°lidas (ser√£o removidos)")
    df = df.dropna(subset=['Data'])

# Extrair m√™s e ano
df['Mes'] = df['Data'].dt.month
df['Ano'] = df['Data'].dt.year

print(f"\n‚úì Convers√£o de datas conclu√≠da")
print(f"‚úì Per√≠odo dos dados: {df['Data'].min().strftime('%d/%m/%Y')} at√© {df['Data'].max().strftime('%d/%m/%Y')}")

# Filtrar dados de acordo com o per√≠odo definido
df_filtrado = df[(df['Data'] >= data_inicio) & (df['Data'] <= data_fim)].copy()

print(f"\nüîç Filtrando dados:")
print("-" * 80)
print(f"‚úì Data in√≠cio: {data_inicio.strftime('%d/%m/%Y')}")
print(f"‚úì Data fim: {data_fim.strftime('%d/%m/%Y')}")
print(f"‚úì Total de registros ap√≥s filtro: {len(df_filtrado):,}")

if len(df_filtrado) == 0:
    print(f"\n‚ö†Ô∏è  ERRO: Nenhum registro encontrado para o per√≠odo especificado.")
    print(f"   Per√≠odo solicitado: {data_inicio.strftime('%d/%m/%Y')} a {data_fim.strftime('%d/%m/%Y')}")
    print(f"   Per√≠odo dispon√≠vel nos dados: {df['Data'].min().strftime('%d/%m/%Y')} a {df['Data'].max().strftime('%d/%m/%Y')}")
    exit()

# %% [markdown]
# # 8. Garantir Tipo Num√©rico

# %%
# Garantir que Qtd. pessoas √© num√©rico
df_filtrado['Qtd. pessoas'] = pd.to_numeric(df_filtrado['Qtd. pessoas'], errors='coerce')
df_filtrado = df_filtrado.dropna(subset=['Qtd. pessoas'])

print(f"\n‚úì Total de registros com Qtd. pessoas v√°lida: {len(df_filtrado):,}")

# %% [markdown]
# # 9. Mapear Per√≠odos

# %%
# Mapear per√≠odos para categorias
mapeamento_periodo = {
    '05h - Madrugada': 'Madrugada',
    '10h - Manh√£': 'Manh√£',
    '15h - Tarde': 'Tarde',
    '20h - Noite': 'Noite'
}

df_filtrado['Periodo_Categoria'] = df_filtrado['Per√≠odo'].map(mapeamento_periodo)

# Verificar mapeamento
periodos_nao_mapeados = df_filtrado['Periodo_Categoria'].isna().sum()
if periodos_nao_mapeados > 0:
    print(f"\n‚ö†Ô∏è  Aten√ß√£o: {periodos_nao_mapeados} registros com per√≠odos n√£o mapeados")
else:
    print(f"\n‚úì Todos os per√≠odos mapeados com sucesso!")

# Remover registros sem per√≠odo mapeado
df_filtrado = df_filtrado.dropna(subset=['Periodo_Categoria'])

# %% [markdown]
# # 10. Filtrar Aglomera√ß√µes (> 10 pessoas)

# %%
df_aglomeracoes = df_filtrado[df_filtrado['Qtd. pessoas'] > 10].copy()

print(f"\nüë• Filtrando aglomera√ß√µes (> 10 pessoas):")
print("-" * 80)
print(f"‚úì Total de registros no per√≠odo: {len(df_filtrado):,}")
print(f"‚úì Total de aglomera√ß√µes (>10 pessoas): {len(df_aglomeracoes):,}")

if len(df_filtrado) > 0:
    print(f"‚úì Percentual de aglomera√ß√µes: {(len(df_aglomeracoes) / len(df_filtrado) * 100):.1f}%")

# %% [markdown]
# # 11. Calcular Dias por M√™s

# %%
# Calcular dias √∫nicos por m√™s
dias_por_mes = df_filtrado.groupby('Mes')['Data'].nunique().to_dict()

nomes_meses = {
    1: 'Janeiro', 2: 'Fevereiro', 3: 'Mar√ßo', 4: 'Abril',
    5: 'Maio', 6: 'Junho', 7: 'Julho', 8: 'Agosto',
    9: 'Setembro', 10: 'Outubro', 11: 'Novembro', 12: 'Dezembro'
}

print(f"\nüìÖ Quantidade de dias em cada m√™s:")
print("-" * 80)
meses_unicos = sorted(df_filtrado['Mes'].unique())
for mes in meses_unicos:
    dias = dias_por_mes.get(mes, 0)
    print(f"  ‚Ä¢ {nomes_meses[mes]}: {dias} dias")

# %% [markdown]
# # 12. Calcular Agrega√ß√µes por M√™s e Per√≠odo

# %%
print(f"\nüìà Calculando agrega√ß√µes:")
print("-" * 80)

periodos = ['Madrugada', 'Manh√£', 'Tarde', 'Noite']

# Agrega√ß√µes gerais (todas as pessoas)
agg_geral = df_filtrado.groupby(['Mes', 'Periodo_Categoria']).agg({
    'Qtd. pessoas': ['sum', 'count']
}).reset_index()
agg_geral.columns = ['Mes', 'Periodo_Categoria', 'Soma_Pessoas', 'Qtd_Registros']

# Agrega√ß√µes de aglomera√ß√µes (apenas >10)
agg_aglom = df_aglomeracoes.groupby(['Mes', 'Periodo_Categoria']).agg({
    'Qtd. pessoas': ['sum', 'count']
}).reset_index()
agg_aglom.columns = ['Mes', 'Periodo_Categoria', 'Soma_Pessoas_Aglom', 'Qtd_Aglomeracoes']

# Merge
dados_completos = pd.merge(agg_geral, agg_aglom, on=['Mes', 'Periodo_Categoria'], how='left')
dados_completos['Qtd_Aglomeracoes'] = dados_completos['Qtd_Aglomeracoes'].fillna(0).astype(int)
dados_completos['Soma_Pessoas_Aglom'] = dados_completos['Soma_Pessoas_Aglom'].fillna(0)

print(f"‚úì Agrega√ß√µes conclu√≠das!")

# %% [markdown]
# # 13. Criar Aba Geral

# %%
print(f"\nüìä Criando aba geral...")

linhas_geral = []

for mes in meses_unicos:
    dias = dias_por_mes.get(mes, 0)
    
    # Somar todos os per√≠odos do m√™s
    dados_mes = dados_completos[dados_completos['Mes'] == mes]
    
    soma_pessoas = dados_mes['Soma_Pessoas'].sum()
    qtd_aglomeracoes = dados_mes['Qtd_Aglomeracoes'].sum()
    soma_pessoas_aglom = dados_mes['Soma_Pessoas_Aglom'].sum()
    
    # Calcular m√©dias
    # M√©dia de pessoas: soma total / (dias * 4 per√≠odos)
    # Pois cada dia tem 4 contagens (Madrugada, Manh√£, Tarde, Noite)
    total_contagens = dias * 4
    media_pessoas = soma_pessoas / total_contagens if total_contagens > 0 else 0
    media_pessoas_aglom = soma_pessoas_aglom / total_contagens if total_contagens > 0 else 0
    
    linhas_geral.append({
        'M√™s': nomes_meses[mes],
        'Qtd. Dias': dias,
        'Soma Pessoas': int(soma_pessoas),
        'M√©dia Pessoas': round(media_pessoas, 2),
        'Qtd. Aglomera√ß√µes': int(qtd_aglomeracoes),
        'Soma Pessoas Aglomera√ß√µes': int(soma_pessoas_aglom),
        'M√©dia Pessoas Aglomera√ß√µes': round(media_pessoas_aglom, 2)
    })

df_geral = pd.DataFrame(linhas_geral)
print(f"‚úì Aba geral criada com {len(df_geral)} linhas")

# %% [markdown]
# # 14. Criar Abas por Per√≠odo

# %%
print(f"\nüìä Criando abas por per√≠odo...")

dfs_periodos = {}

for periodo in periodos:
    linhas_periodo = []
    
    for mes in meses_unicos:
        dias = dias_por_mes.get(mes, 0)
        
        # Filtrar dados do per√≠odo espec√≠fico
        dados_periodo = dados_completos[
            (dados_completos['Mes'] == mes) & 
            (dados_completos['Periodo_Categoria'] == periodo)
        ]
        
        if len(dados_periodo) > 0:
            soma_pessoas = dados_periodo['Soma_Pessoas'].values[0]
            qtd_aglomeracoes = dados_periodo['Qtd_Aglomeracoes'].values[0]
            soma_pessoas_aglom = dados_periodo['Soma_Pessoas_Aglom'].values[0]
        else:
            soma_pessoas = 0
            qtd_aglomeracoes = 0
            soma_pessoas_aglom = 0
        
        # Calcular m√©dias
        media_pessoas = soma_pessoas / dias if dias > 0 else 0
        media_pessoas_aglom = soma_pessoas_aglom / dias if dias > 0 else 0
        
        linhas_periodo.append({
            'M√™s': nomes_meses[mes],
            'Qtd. Dias': dias,
            'Soma Pessoas': int(soma_pessoas),
            'M√©dia Pessoas': round(media_pessoas, 2),
            'Qtd. Aglomera√ß√µes': int(qtd_aglomeracoes),
            'Soma Pessoas Aglomera√ß√µes': int(soma_pessoas_aglom),
            'M√©dia Pessoas Aglomera√ß√µes': round(media_pessoas_aglom, 2)
        })
    
    dfs_periodos[periodo] = pd.DataFrame(linhas_periodo)
    print(f"‚úì Aba '{periodo}' criada com {len(linhas_periodo)} linhas")

# %% [markdown]
# # 15. Criar Aba para Gr√°fico

# %%
print(f"\nüìä Criando aba para gr√°fico...")

linhas_grafico = []

for mes in meses_unicos:
    dias = dias_por_mes.get(mes, 0)
    linha = {'M√™s': nomes_meses[mes]}
    
    for periodo in periodos:
        dados_periodo = dados_completos[
            (dados_completos['Mes'] == mes) & 
            (dados_completos['Periodo_Categoria'] == periodo)
        ]
        
        if len(dados_periodo) > 0:
            soma_pessoas = dados_periodo['Soma_Pessoas'].values[0]
        else:
            soma_pessoas = 0
        
        media_diaria = soma_pessoas / dias if dias > 0 else 0
        linha[periodo] = round(media_diaria, 2)
    
    linhas_grafico.append(linha)

df_grafico = pd.DataFrame(linhas_grafico)
print(f"‚úì Aba 'Para Gr√°fico' criada com {len(df_grafico)} linhas")

# %% [markdown]
# # 16. Exportar para Excel

# %%
# Criar nome do arquivo com as datas do per√≠odo
data_inicio_str = data_inicio.strftime('%Y%m%d')
data_fim_str = data_fim.strftime('%Y%m%d')
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
nome_arquivo_saida = f"media_pessoas_aglomeracoes_{data_inicio_str}_a_{data_fim_str}_{timestamp}.xlsx"
caminho_saida = DOCS_DIR / nome_arquivo_saida

print(f"\nüíæ Exportando para Excel:")
print("-" * 80)

try:
    with pd.ExcelWriter(caminho_saida, engine='openpyxl') as writer:
        # Aba Geral
        df_geral.to_excel(writer, sheet_name='Geral', index=False)
        
        # Abas por per√≠odo
        df_madrugada = dfs_periodos['Madrugada']
        df_manha = dfs_periodos['Manh√£']
        df_tarde = dfs_periodos['Tarde']
        df_noite = dfs_periodos['Noite']
        
        df_madrugada.to_excel(writer, sheet_name='05h - Madrugada', index=False)
        df_manha.to_excel(writer, sheet_name='10h - Manh√£', index=False)
        df_tarde.to_excel(writer, sheet_name='15h - Tarde', index=False)
        df_noite.to_excel(writer, sheet_name='20h - Noite', index=False)
        
        # Aba para gr√°fico
        df_grafico.to_excel(writer, sheet_name='Para Gr√°fico', index=False)
        
        # Ajustar largura das colunas em todas as abas
        for sheet_name in writer.sheets:
            worksheet = writer.sheets[sheet_name]
            for col in worksheet.columns:
                max_length = 0
                column = col[0].column_letter
                for cell in col:
                    try:
                        if len(str(cell.value)) > max_length:
                            max_length = len(cell.value)
                    except:
                        pass
                adjusted_width = min(max_length + 2, 50)
                worksheet.column_dimensions[column].width = adjusted_width
    
    print(f"‚úì Arquivo exportado com sucesso!")
    print(f"‚úì Localiza√ß√£o: {caminho_saida}")
    print(f"‚úì Nome do arquivo: {nome_arquivo_saida}")
    
except Exception as e:
    print(f"\n‚ö†Ô∏è  ERRO ao exportar arquivo: {e}")

# %% [markdown]
# # 17. Resumo Executivo

# %%
print(f"\n" + "=" * 80)
print("RESUMO EXECUTIVO")
print("=" * 80)

print(f"\nüìä An√°lise Conclu√≠da:")
print(f"  ‚Ä¢ Per√≠odo: {data_inicio.strftime('%d/%m/%Y')} at√© {data_fim.strftime('%d/%m/%Y')}")
print(f"  ‚Ä¢ Dura√ß√£o: {(data_fim - data_inicio).days + 1} dias")
print(f"  ‚Ä¢ Total de registros: {len(df_filtrado):,}")
print(f"  ‚Ä¢ Total de aglomera√ß√µes (>10): {len(df_aglomeracoes):,}")
print(f"  ‚Ä¢ Meses analisados: {len(meses_unicos)}")

print(f"\nüìÅ Arquivo gerado:")
print(f"  ‚Ä¢ {nome_arquivo_saida}")
print(f"  ‚Ä¢ Localiza√ß√£o: docs/")

print(f"\nüìã Abas criadas:")
print(f"  ‚úì Geral - Vis√£o consolidada de todos os per√≠odos")
print(f"  ‚úì 05h - Madrugada - Dados espec√≠ficos da madrugada")
print(f"  ‚úì 10h - Manh√£ - Dados espec√≠ficos da manh√£")
print(f"  ‚úì 15h - Tarde - Dados espec√≠ficos da tarde")
print(f"  ‚úì 20h - Noite - Dados espec√≠ficos da noite")
print(f"  ‚úì Para Gr√°fico - Formata√ß√£o ideal para criar gr√°ficos")

print(f"\n‚úÖ An√°lise conclu√≠da com sucesso!")
print("=" * 80)

AN√ÅLISE: M√©dia de Pessoas em Aglomera√ß√µes por Per√≠odo
‚úì Bibliotecas importadas
‚úì An√°lise iniciada em: 12/11/2025 15:14:00

‚úì Diret√≥rio base: c:\Users\x387162\Desktop\Relatorio_Diario\projeto_etl_dados-main
‚úì Planilhas processadas: c:\Users\x387162\Desktop\Relatorio_Diario\projeto_etl_dados-main\data\processed
‚úì Sa√≠da de documentos: c:\Users\x387162\Desktop\Relatorio_Diario\projeto_etl_dados-main\docs

üìÅ Arquivos dispon√≠veis em 'data/processed/':
--------------------------------------------------------------------------------
  [1] Contagem_diaria_centro - Padronizada_processada_20251112_151254.xlsx
  [2] cruzamento_nomes_base_okuhara.xlsx
  [3] cruzamento_nomes_base_tablet.xlsx
  [4] lista_logradouros_corretos.xlsx
--------------------------------------------------------------------------------

‚úì Arquivo selecionado: Contagem_diaria_centro - Padronizada_processada_20251112_151254.xlsx

DEFINIR PER√çODO DE AN√ÅLISE
‚úì Data in√≠cio definida: 01/06/2025
‚úì Data 