In [2]:
# An√°lise de M√©dia de Pessoas em Aglomera√ß√µes por Per√≠odo - POR REGI√ÉO
# Base: Planilha RAW (data/raw)
# Data in√≠cio: Julho/2025 (01/07/2025 - fixo)
# Data fim: Informada pelo usu√°rio
# Per√≠odos: Manh√£ (10h) e Tarde (15h)

# %% [markdown]
# # 1. Configura√ß√£o Inicial

# %%
import pandas as pd
import numpy as np
from datetime import datetime
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.2f}'.format)

# Definir caminho da raiz do projeto
# Funciona tanto como script .py quanto em notebook
if '__file__' in globals():
    # Executando como script .py
    projeto_root = Path(__file__).parent.parent.parent
else:
    # Executando como notebook ou c√©lula
    projeto_root = Path.cwd()
    # Se estiver em notebooks/, subir um n√≠vel
    if projeto_root.name == 'notebooks':
        projeto_root = projeto_root.parent

print("=" * 80)
print("AN√ÅLISE: M√©dia de Pessoas em Aglomera√ß√µes por Per√≠odo (POR REGI√ÉO)")
print("=" * 80)
print(f"‚úì Bibliotecas importadas")
print(f"‚úì An√°lise iniciada em: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")

# %% [markdown]
# # 2. Definir Caminhos

# %%
RAW_DIR = projeto_root / 'data' / 'raw'
DOCS_DIR = projeto_root / 'docs'

# Garantir que o diret√≥rio docs existe
DOCS_DIR.mkdir(exist_ok=True)

print(f"\n‚úì Diret√≥rio base: {projeto_root}")
print(f"‚úì Planilhas RAW: {RAW_DIR}")
print(f"‚úì Sa√≠da de documentos: {DOCS_DIR}")

# %% [markdown]
# # 3. Listar e Selecionar Planilha RAW

# %%
# Listar arquivos .xlsx na pasta raw
arquivos_disponiveis = sorted(RAW_DIR.glob('*.xlsx'))

if not arquivos_disponiveis:
    print("\n‚ö†Ô∏è  ERRO: Nenhum arquivo .xlsx encontrado na pasta 'data/raw/'")
    print("   Certifique-se de que existem planilhas na pasta raw.")
    exit()

print(f"\nüìÅ Arquivos dispon√≠veis em 'data/raw/':")
print("-" * 80)
for idx, arquivo in enumerate(arquivos_disponiveis, 1):
    print(f"  [{idx}] {arquivo.name}")
print("-" * 80)

# Solicitar sele√ß√£o do usu√°rio
while True:
    try:
        selecao = input(f"\nSelecione o n√∫mero do arquivo [1-{len(arquivos_disponiveis)}]: ").strip()
        idx_selecionado = int(selecao) - 1
        
        if 0 <= idx_selecionado < len(arquivos_disponiveis):
            arquivo_selecionado = arquivos_disponiveis[idx_selecionado]
            print(f"\n‚úì Arquivo selecionado: {arquivo_selecionado.name}")
            break
        else:
            print(f"‚ö†Ô∏è  Por favor, escolha um n√∫mero entre 1 e {len(arquivos_disponiveis)}")
    except ValueError:
        print("‚ö†Ô∏è  Entrada inv√°lida. Digite apenas o n√∫mero do arquivo.")
    except KeyboardInterrupt:
        print("\n\n‚ö†Ô∏è  Opera√ß√£o cancelada pelo usu√°rio.")
        exit()

# %% [markdown]
# # 4. Solicitar Data Fim da An√°lise

# %%
print("\n" + "=" * 80)
print("DEFINIR PER√çODO DE AN√ÅLISE")
print("=" * 80)
print("\nüìÖ Data de in√≠cio: 01/07/2025 (fixo)")

while True:
    try:
        data_fim_input = input("\nüìÖ Digite a data FIM da an√°lise (formato: DD/MM/AAAA): ").strip()
        data_fim = datetime.strptime(data_fim_input, '%d/%m/%Y')
        
        # Validar se a data fim √© posterior a julho de 2025
        data_inicio = datetime(2025, 7, 1)
        if data_fim < data_inicio:
            print("‚ö†Ô∏è  A data fim deve ser posterior a 01/07/2025")
            continue
        
        print(f"\n‚úì Data fim definida: {data_fim.strftime('%d/%m/%Y')}")
        print(f"‚úì Per√≠odo de an√°lise: 01/07/2025 at√© {data_fim.strftime('%d/%m/%Y')}")
        break
        
    except ValueError:
        print("‚ö†Ô∏è  Formato inv√°lido. Use DD/MM/AAAA (exemplo: 20/10/2025)")
    except KeyboardInterrupt:
        print("\n\n‚ö†Ô∏è  Opera√ß√£o cancelada pelo usu√°rio.")
        exit()

# %% [markdown]
# # 5. Carregar e Validar Dados

# %%
print(f"\nüìä Carregando dados de: {arquivo_selecionado.name}")
print("-" * 80)

try:
    df = pd.read_excel(arquivo_selecionado)
    print(f"‚úì Planilha carregada com sucesso!")
    print(f"‚úì Total de registros: {len(df):,}")
    
except Exception as e:
    print(f"\n‚ö†Ô∏è  ERRO ao carregar planilha: {e}")
    exit()

# %% [markdown]
# # 6. Validar Estrutura Esperada

# %%
colunas_esperadas = ['Data', 'Equipe', 'Logradouro', 'Per√≠odo', 'Quantidade']

colunas_faltantes = [col for col in colunas_esperadas if col not in df.columns]

if colunas_faltantes:
    print(f"\n‚ö†Ô∏è  ERRO: Colunas obrigat√≥rias n√£o encontradas:")
    for col in colunas_faltantes:
        print(f"   - {col}")
    print("\n   Certifique-se de que est√° usando uma planilha RAW.")
    exit()

print(f"\n‚úì Estrutura da planilha validada!")

# %% [markdown]
# # 7. Extrair Regi√£o do Logradouro

# %%
# Extrair regi√£o (tudo antes do primeiro " - ")
df['Regi√£o'] = df['Logradouro'].str.split(' - ', n=1).str[0].str.strip()

print(f"\nüó∫Ô∏è  Extraindo regi√µes dos logradouros:")
print("-" * 80)
regioes_unicas = sorted(df['Regi√£o'].unique())
for regiao in regioes_unicas:
    qtd_log = df[df['Regi√£o'] == regiao]['Logradouro'].nunique()
    print(f"  ‚Ä¢ {regiao} ({qtd_log} logradouros)")

# %% [markdown]
# # 8. Converter Campo Data e Filtrar Per√≠odo

# %%
# Converter coluna Data para datetime
df['Data'] = pd.to_datetime(df['Data'], errors='coerce')

# Verificar convers√£o
datas_invalidas = df['Data'].isna().sum()
if datas_invalidas > 0:
    print(f"\n‚ö†Ô∏è  Aten√ß√£o: {datas_invalidas} registros com datas inv√°lidas (ser√£o removidos)")
    df = df.dropna(subset=['Data'])

# Extrair m√™s e ano
df['Mes'] = df['Data'].dt.month
df['Ano'] = df['Data'].dt.year

print(f"\n‚úì Convers√£o de datas conclu√≠da")
print(f"‚úì Per√≠odo dos dados: {df['Data'].min().strftime('%d/%m/%Y')} at√© {df['Data'].max().strftime('%d/%m/%Y')}")

# Filtrar dados de acordo com o per√≠odo definido
data_inicio = datetime(2025, 7, 1)
df_filtrado = df[(df['Data'] >= data_inicio) & (df['Data'] <= data_fim)].copy()

print(f"\nüîç Filtrando dados:")
print("-" * 80)
print(f"‚úì Data in√≠cio: {data_inicio.strftime('%d/%m/%Y')}")
print(f"‚úì Data fim: {data_fim.strftime('%d/%m/%Y')}")
print(f"‚úì Total de registros ap√≥s filtro: {len(df_filtrado):,}")

if len(df_filtrado) == 0:
    print(f"\n‚ö†Ô∏è  ERRO: Nenhum registro encontrado para o per√≠odo especificado.")
    exit()

# %% [markdown]
# # 9. Garantir Tipo Num√©rico

# %%
# Garantir que Quantidade √© num√©rico
df_filtrado['Quantidade'] = pd.to_numeric(df_filtrado['Quantidade'], errors='coerce')
df_filtrado = df_filtrado.dropna(subset=['Quantidade'])

print(f"\n‚úì Total de registros com Quantidade v√°lida: {len(df_filtrado):,}")

# %% [markdown]
# # 10. Mapear Per√≠odos

# %%
# Mapear per√≠odos para categorias
mapeamento_periodo = {
    '10h': 'Manh√£',
    '15h': 'Tarde'
}

df_filtrado['Periodo_Categoria'] = df_filtrado['Per√≠odo'].map(mapeamento_periodo)

# Verificar mapeamento
periodos_nao_mapeados = df_filtrado['Periodo_Categoria'].isna().sum()
if periodos_nao_mapeados > 0:
    print(f"\n‚ö†Ô∏è  Aten√ß√£o: {periodos_nao_mapeados} registros com per√≠odos n√£o mapeados (ser√£o removidos)")
    df_filtrado = df_filtrado.dropna(subset=['Periodo_Categoria'])
else:
    print(f"\n‚úì Todos os per√≠odos mapeados com sucesso!")

print(f"\nPer√≠odos encontrados:")
for periodo in sorted(df_filtrado['Periodo_Categoria'].unique()):
    print(f"  ‚Ä¢ {periodo}")

# %% [markdown]
# # 11. Calcular Soma Total por Regi√£o (para ordena√ß√£o)

# %%
print(f"\nüìä Calculando soma total por regi√£o:")
print("-" * 80)

# Calcular soma total de pessoas por regi√£o
soma_por_regiao = df_filtrado.groupby('Regi√£o')['Quantidade'].sum().sort_values(ascending=False)

print(f"‚úì Regi√µes ordenadas por soma total:")
for regiao, soma in soma_por_regiao.items():
    print(f"  ‚Ä¢ {regiao}: {soma:,.0f} pessoas")

# Lista ordenada de regi√µes (ser√° usada para ordenar as abas)
regioes_ordenadas = soma_por_regiao.index.tolist()

# Dicion√°rio de nomes de meses
nomes_meses = {
    1: 'Janeiro', 2: 'Fevereiro', 3: 'Mar√ßo', 4: 'Abril',
    5: 'Maio', 6: 'Junho', 7: 'Julho', 8: 'Agosto',
    9: 'Setembro', 10: 'Outubro', 11: 'Novembro', 12: 'Dezembro'
}

# Meses √∫nicos no dataset
meses_unicos = sorted(df_filtrado['Mes'].unique())

print(f"\nüìÖ Meses encontrados:")
for mes in meses_unicos:
    print(f"  ‚Ä¢ {nomes_meses[mes]}")

# %% [markdown]
# # 12. Criar Abas por Regi√£o (Nova Estrutura)

# %%
print(f"\nüìä Criando abas por regi√£o (novo formato):")
print("-" * 80)

periodos = ['Manh√£', 'Tarde']

# Dicion√°rios para armazenar DataFrames
dfs_regioes = {}
dfs_graficos = {}

for regiao in regioes_ordenadas:
    print(f"\nProcessando regi√£o: {regiao}")
    
    # Filtrar dados da regi√£o
    df_regiao = df_filtrado[df_filtrado['Regi√£o'] == regiao].copy()
    
    # Agrupar por M√™s, Logradouro e Per√≠odo
    agg_logradouro = df_regiao.groupby(['Mes', 'Logradouro', 'Periodo_Categoria']).agg({
        'Quantidade': 'sum',
        'Data': 'nunique'  # Contar dias √∫nicos
    }).reset_index()
    agg_logradouro.rename(columns={'Data': 'Dias_Unicos'}, inplace=True)
    
    # Lista para armazenar linhas da aba principal
    linhas_regiao = []
    
    # Lista para armazenar linhas totais (para aba gr√°fico)
    linhas_grafico = []
    
    # Processar cada m√™s
    for mes in meses_unicos:
        # Filtrar dados do m√™s
        dados_mes = agg_logradouro[agg_logradouro['Mes'] == mes].copy()
        
        # Obter logradouros √∫nicos do m√™s e ordenar alfabeticamente
        logradouros_mes = sorted(dados_mes['Logradouro'].unique())
        
        # Vari√°veis para acumular totais do m√™s
        soma_total_mes = 0
        soma_manha_mes = 0
        soma_tarde_mes = 0
        soma_dias_mes = 0  # Soma dos Qtd. Dias
        
        # Processar cada logradouro
        for logradouro in logradouros_mes:
            dados_log = dados_mes[dados_mes['Logradouro'] == logradouro]
            
            # Calcular soma por per√≠odo
            soma_manha = dados_log[dados_log['Periodo_Categoria'] == 'Manh√£']['Quantidade'].sum()
            soma_tarde = dados_log[dados_log['Periodo_Categoria'] == 'Tarde']['Quantidade'].sum()
            soma_total = soma_manha + soma_tarde
            
            # Contar dias √∫nicos (considerar ambos os per√≠odos)
            dias_manha = dados_log[dados_log['Periodo_Categoria'] == 'Manh√£']['Dias_Unicos'].sum()
            dias_tarde = dados_log[dados_log['Periodo_Categoria'] == 'Tarde']['Dias_Unicos'].sum()
            # Usar o m√°ximo entre os dois (caso um per√≠odo tenha mais dias que o outro)
            dias_unicos = max(dias_manha, dias_tarde)
            
            # Acumular para total do m√™s
            soma_total_mes += soma_total
            soma_manha_mes += soma_manha
            soma_tarde_mes += soma_tarde
            soma_dias_mes += dias_unicos  # SOMA dos dias
            
            # Calcular m√©dias
            media_total = soma_total / (dias_unicos * 2) if dias_unicos > 0 else 0
            media_manha = soma_manha / dias_unicos if dias_unicos > 0 else 0
            media_tarde = soma_tarde / dias_unicos if dias_unicos > 0 else 0
            
            # Adicionar linha do logradouro
            linhas_regiao.append({
                'M√™s': nomes_meses[mes],
                'Logradouro': logradouro,
                'Soma Pessoas': int(soma_total),
                'Qtd. Dias': dias_unicos,
                'M√©dia Pessoas': round(media_total, 2),
                'M√©dia Manh√£': round(media_manha, 2),
                'M√©dia Tarde': round(media_tarde, 2)
            })
        
        # Calcular m√©dias do TOTAL DO M√äS (usando SOMA dos dias)
        media_total_mes = soma_total_mes / (soma_dias_mes * 2) if soma_dias_mes > 0 else 0
        media_manha_mes = soma_manha_mes / soma_dias_mes if soma_dias_mes > 0 else 0
        media_tarde_mes = soma_tarde_mes / soma_dias_mes if soma_dias_mes > 0 else 0
        
        # Adicionar linha TOTAL DO M√äS
        linhas_regiao.append({
            'M√™s': nomes_meses[mes].upper(),
            'Logradouro': 'TOTAL DO M√äS',
            'Soma Pessoas': int(soma_total_mes),
            'Qtd. Dias': soma_dias_mes,  # SOMA dos Qtd. Dias
            'M√©dia Pessoas': round(media_total_mes, 2),
            'M√©dia Manh√£': round(media_manha_mes, 2),
            'M√©dia Tarde': round(media_tarde_mes, 2)
        })
        
        # Adicionar linha para aba gr√°fico (apenas totais)
        linhas_grafico.append({
            'M√™s': nomes_meses[mes],
            'M√©dia Manh√£': round(media_manha_mes, 2),
            'M√©dia Tarde': round(media_tarde_mes, 2)
        })
    
    # Criar DataFrames
    dfs_regioes[regiao] = pd.DataFrame(linhas_regiao)
    dfs_graficos[regiao] = pd.DataFrame(linhas_grafico)
    
    print(f"  ‚úì Aba '{regiao}' criada com {len(linhas_regiao)} linhas")
    print(f"  ‚úì Aba '{regiao} - Gr√°fico' criada com {len(linhas_grafico)} linhas")

# %% [markdown]
# # 13. Exportar para Excel

# %%
nome_arquivo_saida = f"media_pessoas_por_regiao_{datetime.now().strftime('%Y%m%d_%H%M%S')}.xlsx"
caminho_saida = DOCS_DIR / nome_arquivo_saida

print(f"\nüíæ Exportando para Excel:")
print("-" * 80)

try:
    with pd.ExcelWriter(caminho_saida, engine='openpyxl') as writer:
        # Para cada regi√£o (em ordem de soma total)
        for regiao in regioes_ordenadas:
            # Aba principal da regi√£o
            nome_aba = regiao
            if len(nome_aba) > 31:
                nome_aba = nome_aba[:31]
            
            dfs_regioes[regiao].to_excel(writer, sheet_name=nome_aba, index=False)
            print(f"  ‚úì Aba '{nome_aba}' exportada")
            
            # Aba para gr√°fico da regi√£o
            nome_aba_grafico = f"{regiao} - Gr√°fico"
            if len(nome_aba_grafico) > 31:
                nome_aba_grafico = f"{regiao[:20]} - Gr√°fico"
            
            dfs_graficos[regiao].to_excel(writer, sheet_name=nome_aba_grafico, index=False)
            print(f"  ‚úì Aba '{nome_aba_grafico}' exportada")
        
        # Ajustar largura das colunas em todas as abas
        for sheet_name in writer.sheets:
            worksheet = writer.sheets[sheet_name]
            for col in worksheet.columns:
                max_length = 0
                column = col[0].column_letter
                for cell in col:
                    try:
                        if len(str(cell.value)) > max_length:
                            max_length = len(cell.value)
                    except:
                        pass
                adjusted_width = min(max_length + 2, 50)
                worksheet.column_dimensions[column].width = adjusted_width
    
    print(f"\n‚úì Arquivo exportado com sucesso!")
    print(f"‚úì Localiza√ß√£o: {caminho_saida}")
    print(f"‚úì Nome do arquivo: {nome_arquivo_saida}")
    
except Exception as e:
    print(f"\n‚ö†Ô∏è  ERRO ao exportar arquivo: {e}")

# %% [markdown]
# # 14. Resumo Executivo

# %%
print(f"\n" + "=" * 80)
print("RESUMO EXECUTIVO")
print("=" * 80)

print(f"\nüìä An√°lise Conclu√≠da:")
print(f"  ‚Ä¢ Per√≠odo: 01/07/2025 at√© {data_fim.strftime('%d/%m/%Y')}")
print(f"  ‚Ä¢ Total de registros: {len(df_filtrado):,}")
print(f"  ‚Ä¢ Meses analisados: {len(meses_unicos)}")
print(f"  ‚Ä¢ Regi√µes encontradas: {len(regioes_ordenadas)}")

print(f"\nüìÅ Arquivo gerado:")
print(f"  ‚Ä¢ {nome_arquivo_saida}")
print(f"  ‚Ä¢ Localiza√ß√£o: docs/")

print(f"\nüó∫Ô∏è  Regi√µes processadas (ordenadas por soma total):")
for idx, regiao in enumerate(regioes_ordenadas, 1):
    print(f"  {idx}. {regiao} - Soma: {soma_por_regiao[regiao]:,.0f} pessoas")

print(f"\nüìã Estrutura das abas:")
print(f"  Para cada regi√£o:")
print(f"    ‚Ä¢ Aba principal: Logradouros por m√™s + linha TOTAL DO M√äS")
print(f"    ‚Ä¢ Aba gr√°fico: Apenas totais mensais (Manh√£ e Tarde)")

print(f"\n‚úÖ An√°lise conclu√≠da com sucesso!")
print("=" * 80)

AN√ÅLISE: M√©dia de Pessoas em Aglomera√ß√µes por Per√≠odo (POR REGI√ÉO)
‚úì Bibliotecas importadas
‚úì An√°lise iniciada em: 06/11/2025 17:28:37

‚úì Diret√≥rio base: c:\Users\x504693\Documents\projetos\projeto_etl_dados
‚úì Planilhas RAW: c:\Users\x504693\Documents\projetos\projeto_etl_dados\data\raw
‚úì Sa√≠da de documentos: c:\Users\x504693\Documents\projetos\projeto_etl_dados\docs

üìÅ Arquivos dispon√≠veis em 'data/raw/':
--------------------------------------------------------------------------------
  [1] Base Okuhara Kohei.xlsx
  [2] Base Tablet.xlsx
  [3] CidadaosVinculadosXBeneficios.xlsx
  [4] CONTAGEM 2025 - CnR.xlsx
  [5] Contagem di√°ria - Compilado.xlsx
  [6] Contagem_diaria_centro - Padronizada.xlsx
  [7] nomes_Abordados.xlsx
  [8] RelatorioCidadaoVinculado.xlsx
--------------------------------------------------------------------------------

‚úì Arquivo selecionado: CONTAGEM 2025 - CnR.xlsx

DEFINIR PER√çODO DE AN√ÅLISE

üìÖ Data de in√≠cio: 01/07/2025 (fixo)

‚úì D