In [None]:
# An√°lise dos 10 Logradouros - VERS√ÉO RAW COM GR√ÅFICOS
# Base: Planilha RAW (data/raw)
# Estrutura: Data, Equipe, Logradouro, Per√≠odo, Quantidade
# Per√≠odos: 10h (Manh√£) e 15h (Tarde)
# Per√≠odo: Solicitado ao usu√°rio

# %% [markdown]
# # 1. Configura√ß√£o Inicial

# %%
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from pathlib import Path
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import matplotlib.dates as mdates

warnings.filterwarnings('ignore')

# Configurar estilo dos gr√°ficos
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")

print("‚úì Bibliotecas importadas")
print(f"‚úì An√°lise iniciada em: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")

# %% [markdown]
# # 2. Definir Per√≠odo de An√°lise

# %%
print("\n" + "=" * 80)
print("DEFINIR PER√çODO DO RELAT√ìRIO")
print("=" * 80)

data_inicio_str = input("\nDigite a DATA INICIAL (dd/mm/aaaa): ")
data_fim_str = input("Digite a DATA FINAL (dd/mm/aaaa): ")

# Converter datas
try:
    data_inicio_dt = datetime.strptime(data_inicio_str, "%d/%m/%Y")
    data_fim_dt = datetime.strptime(data_fim_str, "%d/%m/%Y")
    
    # Converter para formato string usado nos filtros
    data_inicio = data_inicio_dt.strftime('%Y-%m-%d')
    data_fim = data_fim_dt.strftime('%Y-%m-%d')
    
    print(f"\n‚úì Per√≠odo selecionado: {data_inicio_dt.strftime('%d/%m/%Y')} a {data_fim_dt.strftime('%d/%m/%Y')}")
    
    # Calcular quantidade de dias
    dias_periodo = (data_fim_dt - data_inicio_dt).days + 1
    total_periodos = dias_periodo * 2  # 2 per√≠odos por dia (Manh√£ e Tarde)
    
    print(f"\n{'=' * 80}")
    print(f"Per√≠odo: {data_inicio_dt.strftime('%d/%m/%Y')} a {data_fim_dt.strftime('%d/%m/%Y')}")
    print(f"  ‚Ä¢ Dias: {dias_periodo}")
    print(f"  ‚Ä¢ Per√≠odos por dia: 2 (Manh√£ e Tarde)")
    print(f"  ‚Ä¢ Total de per√≠odos: {total_periodos}")
    print(f"{'=' * 80}")
    
except ValueError:
    print("‚ùå Formato de data inv√°lido! Use dd/mm/aaaa")
    raise Exception("Formato de data inv√°lido")

# %% [markdown]
# # 3. Selecionar Arquivo RAW

# %%
from pathlib import Path

print("\n" + "=" * 80)
print("SELE√á√ÉO DO ARQUIVO RAW")
print("=" * 80)

# Detectar raiz do projeto
script_dir = Path(__file__).parent if '__file__' in globals() else Path.cwd()
if script_dir.name == 'notebooks':
    project_root = script_dir.parent
elif script_dir.name == 'etl':
    project_root = script_dir.parent.parent
else:
    project_root = script_dir

pasta_raw = project_root / 'data' / 'raw'
print(f"üìÇ Pasta raw: {pasta_raw}")

# Listar arquivos dispon√≠veis
arquivos_disponiveis = sorted(list(pasta_raw.glob('*.xlsx')), 
                               key=lambda x: x.stat().st_mtime, 
                               reverse=True)

if arquivos_disponiveis:
    print(f"\nüìÅ Arquivos dispon√≠veis (mais recentes primeiro):")
    for i, arq in enumerate(arquivos_disponiveis, 1):
        modificado = datetime.fromtimestamp(arq.stat().st_mtime).strftime('%d/%m/%Y %H:%M')
        print(f"  {i}. {arq.name}")
        print(f"     Modificado em: {modificado}\n")
    
    print("=" * 80)
    selecao = int(input("Digite o n√∫mero do arquivo que deseja analisar: "))
    arquivo_selecionado = arquivos_disponiveis[selecao - 1]
    print(f"‚úì Arquivo selecionado: {arquivo_selecionado.name}")
else:
    print(f"\n‚ö†Ô∏è Nenhum arquivo .xlsx encontrado em '{pasta_raw}'")
    raise FileNotFoundError(f"Nenhum arquivo em {pasta_raw}")

print("=" * 80)

# %% [markdown]
# # 4. Carregar Dados RAW

# %%
print("\n" + "=" * 80)
print("CARREGANDO DADOS RAW")
print("=" * 80)

try:
    df = pd.read_excel(arquivo_selecionado)
    print(f"‚úì Arquivo carregado: {arquivo_selecionado.name}")
    print(f"‚úì Total de registros: {len(df):,}")
    print(f"\nColunas dispon√≠veis:")
    for col in df.columns:
        print(f"  - {col}")
    
    # Verificar campos necess√°rios
    campos_necessarios = ['Data', 'Logradouro', 'Per√≠odo', 'Quantidade']
    campos_faltando = [c for c in campos_necessarios if c not in df.columns]
    
    if campos_faltando:
        print(f"\n‚úó ERRO: Campos faltando: {campos_faltando}")
        raise KeyError("Campos necess√°rios n√£o encontrados")
    
except Exception as e:
    print(f"‚úó ERRO ao carregar arquivo: {str(e)}")
    raise

# %% [markdown]
# # 5. Preparar Dados

# %%
print("\n" + "=" * 80)
print("PREPARANDO DADOS")
print("=" * 80)

# Converter data
df['Data'] = pd.to_datetime(df['Data'], errors='coerce')

# Garantir que Quantidade seja num√©rico
df['Quantidade'] = pd.to_numeric(df['Quantidade'], errors='coerce').fillna(0)

# Limpar espa√ßos em branco no Logradouro e Per√≠odo
df['Logradouro'] = df['Logradouro'].astype(str).str.strip()
df['Per√≠odo'] = df['Per√≠odo'].astype(str).str.strip()

print(f"‚úì Campo 'Data' convertido para datetime")
print(f"‚úì Campo 'Quantidade' convertido para num√©rico")
print(f"‚úì Campo 'Logradouro' limpo")
print(f"‚úì Registros preparados: {len(df):,}")

# Extrair regi√£o do logradouro (tudo antes do primeiro " - ")
df['Regi√£o'] = df['Logradouro'].str.split(' - ', n=1).str[0].str.strip()

print(f"\nRegi√µes encontradas:")
regioes_unicas = sorted(df['Regi√£o'].unique())
for regiao in regioes_unicas:
    qtd_log = df[df['Regi√£o'] == regiao]['Logradouro'].nunique()
    print(f"  - {regiao} ({qtd_log} logradouros)")

# Verificar per√≠odos √∫nicos ANTES do mapeamento
print(f"\nPer√≠odos encontrados (originais):")
for periodo in sorted(df['Per√≠odo'].unique()):
    print(f"  - {periodo}")

# Mapear per√≠odos: 10h ‚Üí Manh√£, 15h ‚Üí Tarde
mapeamento_periodos = {
    '10h': 'Manh√£',
    '15h': 'Tarde'
}

df['Per√≠odo_padrao'] = df['Per√≠odo'].map(mapeamento_periodos)

# Verificar se h√° per√≠odos n√£o mapeados
periodos_nao_mapeados = df[df['Per√≠odo_padrao'].isna()]['Per√≠odo'].unique()
if len(periodos_nao_mapeados) > 0:
    print(f"\n‚ö†Ô∏è ATEN√á√ÉO: Per√≠odos n√£o mapeados encontrados:")
    for periodo in periodos_nao_mapeados:
        print(f"  - '{periodo}'")
    print(f"\n   Esses registros ser√£o ignorados na an√°lise.")
    # Remover registros n√£o mapeados
    df = df[df['Per√≠odo_padrao'].notna()].copy()

print(f"\nPer√≠odos padronizados:")
for periodo in sorted(df['Per√≠odo_padrao'].unique()):
    print(f"  - {periodo}")

print(f"\n‚úì Registros ap√≥s limpeza: {len(df):,}")

# %% [markdown]
# # 6. Filtrar Per√≠odo

# %%
print("\n" + "=" * 80)
print("FILTRANDO PER√çODO")
print("=" * 80)

# Filtrar per√≠odo
df_periodo = df[
    (df['Data'] >= data_inicio) & 
    (df['Data'] <= data_fim)
].copy()

print(f"Data in√≠cio: {data_inicio}")
print(f"Data fim: {data_fim}")
print(f"Dias no per√≠odo: {dias_periodo}")
print(f"‚úì Registros no per√≠odo: {len(df_periodo):,}")
print(f"  Logradouros √∫nicos: {df_periodo['Logradouro'].nunique()}")
print(f"  Regi√µes √∫nicas: {df_periodo['Regi√£o'].nunique()}")
print(f"  Per√≠odos √∫nicos: {sorted(df_periodo['Per√≠odo_padrao'].unique())}")

# %% [markdown]
# # 7. Calcular Soma Total por Regi√£o (para ordena√ß√£o)

# %%
print("\n" + "=" * 80)
print("CALCULANDO SOMA TOTAL POR REGI√ÉO")
print("=" * 80)

# Calcular soma total de pessoas por regi√£o
soma_por_regiao = df_periodo.groupby('Regi√£o')['Quantidade'].sum().sort_values(ascending=False)

print(f"‚úì Regi√µes ordenadas por soma total:")
for regiao, soma in soma_por_regiao.items():
    print(f"  {regiao}: {soma:,.0f} pessoas")

# Lista ordenada de regi√µes (ser√° usada para ordenar as abas)
regioes_ordenadas = soma_por_regiao.index.tolist()

# %% [markdown]
# # 8. Agrupar por Regi√£o e Logradouro

# %%
print("\n" + "=" * 80)
print("AGRUPANDO POR REGI√ÉO E LOGRADOURO")
print("=" * 80)

# Agrupar por Regi√£o e Logradouro
df_agrupado = df_periodo.groupby(['Regi√£o', 'Logradouro']).agg({
    'Quantidade': 'sum'
}).reset_index()

# Renomear coluna
df_agrupado.rename(columns={'Quantidade': 'Soma pessoas'}, inplace=True)

# Calcular M√©dia pessoas (soma / total de per√≠odos)
df_agrupado['M√©dia pessoas'] = df_agrupado['Soma pessoas'] / total_periodos

# Para cada logradouro, calcular m√©dia por per√≠odo
print("\n‚úì Calculando m√©dias por per√≠odo para cada logradouro...")

medias_lista = []

for idx, row in df_agrupado.iterrows():
    regiao = row['Regi√£o']
    logradouro = row['Logradouro']
    
    # Filtrar dados desse logradouro
    df_log = df_periodo[df_periodo['Logradouro'] == logradouro].copy()
    
    # Agrupar por per√≠odo e somar
    soma_por_periodo = df_log.groupby('Per√≠odo_padrao')['Quantidade'].sum()
    
    # Calcular m√©dia (dividir pela quantidade de dias)
    media_manha = soma_por_periodo.get('Manh√£', 0) / dias_periodo
    media_tarde = soma_por_periodo.get('Tarde', 0) / dias_periodo
    
    medias_lista.append({
        'Regi√£o': regiao,
        'Logradouro': logradouro,
        'Soma pessoas': row['Soma pessoas'],
        'M√©dia pessoas': row['M√©dia pessoas'],
        'Manh√£': media_manha,
        'Tarde': media_tarde
    })

df_completo = pd.DataFrame(medias_lista)

print(f"‚úì Agrupamento conclu√≠do")
print(f"  Total de logradouros: {len(df_completo)}")
print(f"  Total de regi√µes: {df_completo['Regi√£o'].nunique()}")

# %% [markdown]
# # 9. Criar Rankings por Regi√£o (M√©dia)

# %%
print("\n" + "=" * 80)
print("CRIANDO RANKINGS DE M√âDIA POR REGI√ÉO")
print("=" * 80)

rankings_media = {}

for regiao in regioes_ordenadas:
    df_regiao = df_completo[df_completo['Regi√£o'] == regiao].copy()
    
    # Ordenar por M√©dia pessoas (decrescente)
    df_regiao = df_regiao.sort_values('M√©dia pessoas', ascending=False)
    
    rankings_media[regiao] = df_regiao
    
    print(f"\n‚úì Regi√£o: {regiao}")
    print(f"  Total de logradouros: {len(df_regiao)}")
    print(f"  Maior m√©dia: {df_regiao['M√©dia pessoas'].max():.2f}")
    print(f"  Menor m√©dia: {df_regiao['M√©dia pessoas'].min():.2f}")

# %% [markdown]
# # 10. Criar Abas no Excel

# %%
def limpar_nome_aba(nome):
    """Remove caracteres inv√°lidos para nomes de abas do Excel"""
    # Caracteres inv√°lidos no Excel: : \ / ? * [ ]
    caracteres_invalidos = [':', '\\', '/', '?', '*', '[', ']']
    nome_limpo = nome
    for char in caracteres_invalidos:
        nome_limpo = nome_limpo.replace(char, '-')
    # Limitar a 31 caracteres
    return nome_limpo[:31]

print("\n" + "=" * 80)
print("CRIANDO ABAS NO EXCEL POR REGI√ÉO")
print("=" * 80)

# Caminho do arquivo de sa√≠da
pasta_docs = project_root / 'docs'
pasta_docs.mkdir(parents=True, exist_ok=True)
output_file = pasta_docs / 'top10_raw_analise_por_regiao.xlsx'

# Criar o arquivo Excel
with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
    
    # Contador de abas para garantir nomes √∫nicos
    nomes_abas_usados = {}
    
    # Para cada regi√£o (ordenadas por soma total)
    for regiao in regioes_ordenadas:
        
        print(f"\n{'=' * 80}")
        print(f"Processando Regi√£o: {regiao}")
        print(f"{'=' * 80}")
        
        # 1. ABA: Rank M√©dia [Regi√£o]
        df_rank_media = rankings_media[regiao].copy()
        df_rank_media_exportar = df_rank_media[[
            'Logradouro', 
            'Soma pessoas', 
            'M√©dia pessoas',
            'Manh√£',
            'Tarde'
        ]].copy()
        df_rank_media_exportar.insert(0, '#', range(1, len(df_rank_media_exportar) + 1))
        
        # Nome da aba (limitar a 31 caracteres)
        nome_aba_media = f"Rank M√©dia {regiao}"
        if len(nome_aba_media) > 31:
            nome_aba_media = f"M√©dia {regiao}"[:31]
        
        # Limpar caracteres inv√°lidos
        nome_aba_media = limpar_nome_aba(nome_aba_media)
        
        # Garantir nome √∫nico
        nome_aba_media_final = nome_aba_media
        contador = 1
        while nome_aba_media_final in nomes_abas_usados:
            nome_aba_media_final = f"{nome_aba_media[:28]}_{contador}"
            contador += 1
        nomes_abas_usados[nome_aba_media_final] = True
        
        df_rank_media_exportar.to_excel(writer, sheet_name=nome_aba_media_final, index=False)
        print(f"‚úì Aba '{nome_aba_media_final}' criada ({len(df_rank_media_exportar)} logradouros)")
        
        # 2. ABAS INDIVIDUAIS: Para cada logradouro do Rank M√©dia (NA ORDEM DO RANKING)
        logradouros_ordenados = df_rank_media['Logradouro'].tolist()
        
        for idx, logradouro in enumerate(logradouros_ordenados, 1):
            
            # Filtrar dados originais para esse logradouro
            df_detalhado = df_periodo[
                df_periodo['Logradouro'] == logradouro
            ].copy()
            
            # Criar pivot: transformar per√≠odos em colunas
            df_pivot = df_detalhado.pivot_table(
                index='Data',
                columns='Per√≠odo_padrao',
                values='Quantidade',
                aggfunc='sum',
                fill_value=0
            ).reset_index()
            
            # PREENCHER DATAS FALTANTES
            # Criar range completo de datas do per√≠odo
            data_inicio_dt_range = pd.to_datetime(data_inicio)
            data_fim_dt_range = pd.to_datetime(data_fim)
            todas_datas = pd.date_range(start=data_inicio_dt_range, end=data_fim_dt_range, freq='D')
            
            # Criar DataFrame com todas as datas
            df_todas_datas = pd.DataFrame({'Data': todas_datas})
            
            # Fazer merge para incluir datas faltantes
            df_pivot = df_todas_datas.merge(df_pivot, on='Data', how='left')
            
            # Preencher valores faltantes com 0 (colunas de per√≠odo)
            colunas_periodo = [col for col in df_pivot.columns if col != 'Data']
            df_pivot[colunas_periodo] = df_pivot[colunas_periodo].fillna(0)
            
            # Garantir que todas as colunas de per√≠odo existam
            for periodo in ['Manh√£', 'Tarde']:
                if periodo not in df_pivot.columns:
                    df_pivot[periodo] = 0
            
            # Preparar DataFrame para exporta√ß√£o na ordem correta
            df_exportar = pd.DataFrame()
            df_exportar['Logradouro'] = [logradouro] * len(df_pivot)
            df_exportar['Data'] = df_pivot['Data'].dt.strftime('%d/%m/%Y')
            df_exportar['Manh√£'] = df_pivot['Manh√£'].astype(int)
            df_exportar['Tarde'] = df_pivot['Tarde'].astype(int)
            
            # Nome da aba (limitado a 31 caracteres)
            # Extrair apenas o nome do logradouro (depois do " - ")
            if ' - ' in logradouro:
                nome_logr_curto = logradouro.split(' - ', 1)[1]
            else:
                nome_logr_curto = logradouro
            
            # Limpar caracteres inv√°lidos
            nome_aba = limpar_nome_aba(nome_logr_curto)
            
            # Garantir nome √∫nico de aba
            nome_aba_final = nome_aba
            contador = 1
            while nome_aba_final in nomes_abas_usados:
                sufixo = f"_{contador}"
                nome_aba_final = nome_aba[:31-len(sufixo)] + sufixo
                contador += 1
            nomes_abas_usados[nome_aba_final] = True
            
            # Escrever aba
            df_exportar.to_excel(writer, sheet_name=nome_aba_final, index=False)
            print(f"  [{idx}/{len(logradouros_ordenados)}] ‚úì '{nome_aba_final}' ({len(df_exportar)} dias)")

print(f"\n{'=' * 80}")
print(f"‚úì Arquivo criado: {output_file}")
print(f"  Total de abas criadas: {len(nomes_abas_usados)}")
print(f"{'=' * 80}")

# %% [markdown]
# # 11. Resumo Executivo

# %%
print("\n" + "=" * 80)
print("RESUMO EXECUTIVO")
print("=" * 80)

# Contar total de logradouros
total_logradouros = df_completo['Logradouro'].nunique()
total_regioes = len(regioes_ordenadas)

# Resumo por regi√£o
resumo_regioes = []
for regiao in regioes_ordenadas:
    qtd_logradouros = len(rankings_media[regiao])
    soma_total = soma_por_regiao[regiao]
    
    resumo_regioes.append(f"""
  ‚Ä¢ {regiao}:
    - Logradouros: {qtd_logradouros}
    - Soma total: {soma_total:,.0f} pessoas""")

resumo_regioes_str = "\n".join(resumo_regioes)

print(f"""
AN√ÅLISE: RANKINGS POR REGI√ÉO (VERS√ÉO RAW)

ARQUIVO ANALISADO:
- {arquivo_selecionado.name}

PER√çODO:
- De: {data_inicio_dt.strftime('%d/%m/%Y')}
- At√©: {data_fim_dt.strftime('%d/%m/%Y')}
- Total de dias: {dias_periodo}
- Total de per√≠odos: {total_periodos} ({dias_periodo} dias √ó 2 per√≠odos)

METODOLOGIA:
- Fonte: Planilha RAW (data/raw)
- Estrutura: Data, Equipe, Logradouro, Per√≠odo, Quantidade
- Per√≠odos: 10h (Manh√£) e 15h (Tarde)
- Extra√ß√£o de Regi√£o: Tudo antes do primeiro " - "
- Agrupamento: Por Regi√£o e depois por Logradouro
- Ordena√ß√£o das Regi√µes: Por soma total de pessoas (decrescente)

C√ÅLCULOS:
- Soma pessoas: Soma de Quantidade de todos os per√≠odos
- M√©dia pessoas: Soma pessoas √∑ {total_periodos} per√≠odos
- M√©dia por per√≠odo: Soma do per√≠odo √∑ {dias_periodo} dias

DADOS PROCESSADOS:
- Registros totais no per√≠odo: {len(df_periodo):,}
- Regi√µes encontradas: {total_regioes}
- Logradouros √∫nicos: {total_logradouros}

RESUMO POR REGI√ÉO:
{resumo_regioes_str}

ARQUIVO GERADO:
‚úì {output_file}

ESTRUTURA DAS ABAS:
Para cada regi√£o (ordenadas por soma total):
  1. Rank M√©dia [Regi√£o] - Todos os logradouros ordenados por m√©dia
  2. Abas individuais de cada logradouro (na ordem do rank, com TODAS as datas)

REGI√ÉO COM MAIOR SOMA TOTAL:
- Regi√£o: {regioes_ordenadas[0]}
- Soma total: {soma_por_regiao[regioes_ordenadas[0]]:,.0f} pessoas
- Logradouros: {len(rankings_media[regioes_ordenadas[0]])}
""")

# Top 1 de cada regi√£o
print(f"\nTOP 1 DE CADA REGI√ÉO (POR M√âDIA):")
print("=" * 80)

for regiao in regioes_ordenadas:
    df_regiao = rankings_media[regiao]
    if len(df_regiao) > 0:
        top1 = df_regiao.iloc[0]
        print(f"\n{regiao}:")
        print(f"  ‚Ä¢ Logradouro: {top1['Logradouro']}")
        print(f"  ‚Ä¢ M√©dia pessoas: {top1['M√©dia pessoas']:.2f}")
        print(f"  ‚Ä¢ Manh√£: {top1['Manh√£']:.2f} | Tarde: {top1['Tarde']:.2f}")

print("\n" + "=" * 80)
print("‚úì AN√ÅLISE CONCLU√çDA!")
print(f"‚úì {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")
print("=" * 80)

# %% [markdown]
# # 12. Gera√ß√£o de Gr√°ficos - Evolu√ß√£o Temporal

# %%
print("\n" + "=" * 80)
print("GERANDO GR√ÅFICOS DE EVOLU√á√ÉO TEMPORAL")
print("=" * 80)

# Criar pastas para salvar gr√°ficos - ESTRUTURA CORRETA
pasta_graficos = project_root / 'docs' / 'graficos'
pasta_complexo = pasta_graficos / 'complexo_okuhara'
pasta_graficos_individuais = pasta_complexo / 'logradouros_individuais'
pasta_graficos_regioes = pasta_complexo / 'regioes'

pasta_graficos.mkdir(parents=True, exist_ok=True)
pasta_complexo.mkdir(parents=True, exist_ok=True)
pasta_graficos_individuais.mkdir(parents=True, exist_ok=True)
pasta_graficos_regioes.mkdir(parents=True, exist_ok=True)

print(f"üìÅ Pasta principal: {pasta_graficos}")
print(f"üìÅ Pasta complexo: {pasta_complexo}")
print(f"üìÅ Pasta individuais: {pasta_graficos_individuais}")
print(f"üìÅ Pasta regi√µes: {pasta_graficos_regioes}")

# %%
def calcular_tendencia(datas, valores):
    """
    Calcula linha de tend√™ncia linear
    Retorna valores da tend√™ncia para plotagem e varia√ß√£o absoluta
    """
    # Converter datas para n√∫meros (dias desde a primeira data)
    datas_num = [(d - datas.min()).days for d in datas]
    
    # Calcular regress√£o linear
    slope, intercept, r_value, p_value, std_err = stats.linregress(datas_num, valores)
    
    # Calcular valores da linha de tend√™ncia
    tendencia = [slope * x + intercept for x in datas_num]
    
    # Calcular varia√ß√£o ABSOLUTA do in√≠cio ao fim (diferen√ßa no eixo Y)
    if len(tendencia) > 0:
        valor_inicio = tendencia[0]
        valor_fim = tendencia[-1]
        variacao_absoluta = valor_fim - valor_inicio
    else:
        variacao_absoluta = 0
    
    return tendencia, slope, r_value**2, variacao_absoluta

def limpar_nome_arquivo(nome):
    """
    Remove caracteres problem√°ticos para nomes de arquivos
    """
    # Caracteres problem√°ticos: : \ / ? * " < > |
    caracteres_problematicos = [':', '\\', '/', '?', '*', '"', '<', '>', '|']
    nome_limpo = nome
    for char in caracteres_problematicos:
        nome_limpo = nome_limpo.replace(char, '-')
    return nome_limpo

print("‚úì Fun√ß√µes auxiliares definidas")

# %%
# CALCULAR VALOR M√ÅXIMO GLOBAL PARA PADRONIZA√á√ÉO DOS EIXOS (INDIVIDUAIS)
print("\n" + "=" * 80)
print("CALCULANDO VALOR M√ÅXIMO GLOBAL (GR√ÅFICOS INDIVIDUAIS)")
print("=" * 80)

# Encontrar o maior valor entre todos os logradouros (Manh√£ e Tarde)
valor_max_global_individuais = 0

for regiao in regioes_ordenadas:
    logradouros_regiao = rankings_media[regiao]['Logradouro'].tolist()
    
    for logradouro in logradouros_regiao:
        df_log = df_periodo[df_periodo['Logradouro'] == logradouro].copy()
        
        if len(df_log) > 0:
            max_manha = df_log[df_log['Per√≠odo_padrao'] == 'Manh√£']['Quantidade'].max()
            max_tarde = df_log[df_log['Per√≠odo_padrao'] == 'Tarde']['Quantidade'].max()
            valor_max_logradouro = max(max_manha, max_tarde)
            
            if valor_max_logradouro > valor_max_global_individuais:
                valor_max_global_individuais = valor_max_logradouro

# Adicionar margem de 10% para melhor visualiza√ß√£o
valor_max_global_individuais = int(valor_max_global_individuais * 1.1)

print(f"‚úì Valor m√°ximo global (individuais): {valor_max_global_individuais}")
print(f"  Este ser√° o limite superior do eixo Y em todos os gr√°ficos individuais")
print("=" * 80)

# %%
# CALCULAR VALOR M√ÅXIMO GLOBAL PARA PADRONIZA√á√ÉO DOS EIXOS (REGI√ïES)
print("\n" + "=" * 80)
print("CALCULANDO VALOR M√ÅXIMO GLOBAL (GR√ÅFICOS DE REGI√ïES)")
print("=" * 80)

# Encontrar o maior valor entre todas as m√©dias de regi√µes
valor_max_global_regioes = 0

for regiao in regioes_ordenadas:
    df_regiao = rankings_media[regiao].copy()
    max_manha = df_regiao['Manh√£'].max()
    max_tarde = df_regiao['Tarde'].max()
    valor_max_regiao = max(max_manha, max_tarde)
    
    if valor_max_regiao > valor_max_global_regioes:
        valor_max_global_regioes = valor_max_regiao

# Arredondar e adicionar margem de 10%
valor_max_global_regioes = int(valor_max_global_regioes * 1.1)

print(f"‚úì Valor m√°ximo global (regi√µes): {valor_max_global_regioes}")
print(f"  Este ser√° o limite superior do eixo X em todos os gr√°ficos de regi√µes")
print("=" * 80)

# %% [markdown]
# ## 12.1. Gr√°ficos Individuais de Evolu√ß√£o por Logradouro

# %%
print("\n" + "=" * 80)
print("GERANDO GR√ÅFICOS INDIVIDUAIS POR LOGRADOURO")
print("=" * 80)

total_graficos = 0

for regiao in regioes_ordenadas:
    print(f"\n{'=' * 80}")
    print(f"üìä Regi√£o: {regiao}")
    print(f"{'=' * 80}")
    
    # Pegar logradouros da regi√£o (ordenados por m√©dia)
    logradouros_regiao = rankings_media[regiao]['Logradouro'].tolist()
    
    for idx, logradouro in enumerate(logradouros_regiao, 1):
        
        # Filtrar dados do logradouro
        df_log = df_periodo[df_periodo['Logradouro'] == logradouro].copy()
        
        # Criar pivot com TODAS as datas do per√≠odo
        data_inicio_dt_range = pd.to_datetime(data_inicio)
        data_fim_dt_range = pd.to_datetime(data_fim)
        todas_datas = pd.date_range(start=data_inicio_dt_range, end=data_fim_dt_range, freq='D')
        
        df_todas_datas = pd.DataFrame({'Data': todas_datas})
        
        df_pivot = df_log.pivot_table(
            index='Data',
            columns='Per√≠odo_padrao',
            values='Quantidade',
            aggfunc='sum',
            fill_value=0
        ).reset_index()
        
        # Merge para incluir todas as datas
        df_pivot = df_todas_datas.merge(df_pivot, on='Data', how='left')
        
        # Preencher valores faltantes com 0
        for periodo in ['Manh√£', 'Tarde']:
            if periodo not in df_pivot.columns:
                df_pivot[periodo] = 0
            else:
                df_pivot[periodo] = df_pivot[periodo].fillna(0)
        
        # ARREDONDAR OS DADOS ANTES DE PLOTAR
        df_pivot['Manh√£'] = df_pivot['Manh√£'].round(0).astype(int)
        df_pivot['Tarde'] = df_pivot['Tarde'].round(0).astype(int)
        
        # Criar o gr√°fico
        fig, ax = plt.subplots(figsize=(16, 9))
        
        # Plotar linhas de dados - NOVAS CORES
        line_manha = ax.plot(df_pivot['Data'], df_pivot['Manh√£'], 
                marker='o', linewidth=2.5, markersize=7, 
                label='Manh√£ (10h)', color='#76B6FF', alpha=0.9, zorder=3)
        
        line_tarde = ax.plot(df_pivot['Data'], df_pivot['Tarde'], 
                marker='s', linewidth=2.5, markersize=7, 
                label='Tarde (15h)', color='#E67E22', alpha=0.9, zorder=3)
        
        # Adicionar r√≥tulos de dados nas linhas - NOVAS CORES
        for i, (data, valor) in enumerate(zip(df_pivot['Data'], df_pivot['Manh√£'])):
            if valor > 0:  # S√≥ mostrar se houver valor
                ax.annotate(f'{valor}', 
                           xy=(data, valor), 
                           xytext=(0, 8),
                           textcoords='offset points',
                           ha='center', va='bottom',
                           fontsize=8, color='#76B6FF',
                           fontweight='bold')
        
        for i, (data, valor) in enumerate(zip(df_pivot['Data'], df_pivot['Tarde'])):
            if valor > 0:  # S√≥ mostrar se houver valor
                ax.annotate(f'{valor}', 
                           xy=(data, valor), 
                           xytext=(0, -12),
                           textcoords='offset points',
                           ha='center', va='top',
                           fontsize=8, color='#E67E22',
                           fontweight='bold')
        
        # Calcular e plotar linhas de tend√™ncia COM VARIA√á√ÉO ABSOLUTA - NOVAS CORES
        tendencia_manha, slope_manha, r2_manha, var_abs_manha = calcular_tendencia(
            df_pivot['Data'], df_pivot['Manh√£']
        )
        tendencia_tarde, slope_tarde, r2_tarde, var_abs_tarde = calcular_tendencia(
            df_pivot['Data'], df_pivot['Tarde']
        )
        
        # Formatar texto da varia√ß√£o com sinal
        sinal_manha = '+' if var_abs_manha >= 0 else ''
        sinal_tarde = '+' if var_abs_tarde >= 0 else ''
        
        ax.plot(df_pivot['Data'], tendencia_manha, 
                linestyle='--', linewidth=2, 
                label=f'Tend√™ncia Manh√£ ({sinal_manha}{var_abs_manha:.1f})', 
                color='#76B6FF', alpha=0.7, zorder=2)
        
        ax.plot(df_pivot['Data'], tendencia_tarde, 
                linestyle='--', linewidth=2, 
                label=f'Tend√™ncia Tarde ({sinal_tarde}{var_abs_tarde:.1f})', 
                color='#E67E22', alpha=0.7, zorder=2)
        
        # PADRONIZAR EIXO Y (0 at√© valor_max_global_individuais)
        ax.set_ylim(0, valor_max_global_individuais)
        
        # Configurar eixos e formata√ß√£o
        ax.set_xlabel('Data', fontsize=12, fontweight='bold')
        ax.set_ylabel('Quantidade de Pessoas', fontsize=12, fontweight='bold')
        
        # Extrair nome curto do logradouro
        if ' - ' in logradouro:
            nome_log_curto = logradouro.split(' - ', 1)[1]
        else:
            nome_log_curto = logradouro
        
        ax.set_title(
            f'Evolu√ß√£o - {nome_log_curto}\n'
            f'Regi√£o: {regiao} | Per√≠odo: {data_inicio_dt.strftime("%d/%m/%Y")} a {data_fim_dt.strftime("%d/%m/%Y")}',
            fontsize=14, fontweight='bold', pad=20
        )
        
        # Formatar eixo X com datas
        ax.xaxis.set_major_formatter(mdates.DateFormatter('%d/%m'))
        ax.xaxis.set_major_locator(mdates.DayLocator(interval=max(1, dias_periodo // 15)))
        plt.xticks(rotation=45, ha='right')
        
        # Grid
        ax.grid(True, alpha=0.3, linestyle='--', zorder=1)
        
        # Legenda CENTRALIZADA ABAIXO DO GR√ÅFICO
        ax.legend(loc='upper center', bbox_to_anchor=(0.5, -0.15), 
                 ncol=4, fontsize=10, framealpha=0.9)
        
        # Adicionar estat√≠sticas no canto
        stats_text = (
            f'Manh√£: M√©dia={int(df_pivot["Manh√£"].mean())} | '
            f'Max={int(df_pivot["Manh√£"].max())} | '
            f'Min={int(df_pivot["Manh√£"].min())}\n'
            f'Tarde: M√©dia={int(df_pivot["Tarde"].mean())} | '
            f'Max={int(df_pivot["Tarde"].max())} | '
            f'Min={int(df_pivot["Tarde"].min())}'
        )
        ax.text(0.02, 0.98, stats_text, 
                transform=ax.transAxes, 
                fontsize=9, 
                verticalalignment='top',
                bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))
        
        # Ajustar layout para acomodar a legenda
        plt.tight_layout()
        plt.subplots_adjust(bottom=0.15)
        
        # Salvar gr√°fico com nome limpo (sem caracteres problem√°ticos)
        nome_arquivo_limpo = limpar_nome_arquivo(nome_log_curto[:50])
        nome_arquivo = f"{regiao.replace(' ', '_')}_{idx:02d}_{nome_arquivo_limpo}.png"
        caminho_arquivo = pasta_graficos_individuais / nome_arquivo
        plt.savefig(caminho_arquivo, dpi=300, bbox_inches='tight')
        plt.close()
        
        total_graficos += 1
        print(f"  [{idx}/{len(logradouros_regiao)}] ‚úì {nome_log_curto[:60]}")

print(f"\n{'=' * 80}")
print(f"‚úì Total de gr√°ficos individuais gerados: {total_graficos}")
print(f"{'=' * 80}")

# %% [markdown]
# ## 12.2. Gr√°ficos de M√©dias por Regi√£o

# %%
print("\n" + "=" * 80)
print("GERANDO GR√ÅFICOS DE M√âDIAS POR REGI√ÉO")
print("=" * 80)

for regiao in regioes_ordenadas:
    print(f"\nüìä Gerando gr√°fico: {regiao}")
    
    # Pegar dados da regi√£o
    df_regiao = rankings_media[regiao].copy()
    
    # ARREDONDAR OS DADOS ANTES DE PLOTAR
    df_regiao['Manh√£'] = df_regiao['Manh√£'].round(0).astype(int)
    df_regiao['Tarde'] = df_regiao['Tarde'].round(0).astype(int)
    
    # Limitar aos top 15 para n√£o poluir o gr√°fico (ou todos se forem poucos)
    max_logradouros = min(15, len(df_regiao))
    df_regiao_plot = df_regiao.head(max_logradouros)
    
    # Extrair nomes curtos dos logradouros (COMPLETOS)
    nomes_curtos = []
    for log in df_regiao_plot['Logradouro']:
        if ' - ' in log:
            nome_curto = log.split(' - ', 1)[1]
        else:
            nome_curto = log
        nomes_curtos.append(nome_curto)
    
    # Criar figura com altura ajust√°vel
    fig, ax = plt.subplots(figsize=(16, max(10, max_logradouros * 0.6)))
    
    # Preparar dados
    x = np.arange(len(df_regiao_plot))
    width = 0.35
    
    # Criar barras agrupadas - NOVAS CORES
    bars1 = ax.barh(x - width/2, df_regiao_plot['Manh√£'], width,
                    label='Manh√£ (10h)', color='#FF8C00', alpha=0.9)
    bars2 = ax.barh(x + width/2, df_regiao_plot['Tarde'], width,
                    label='Tarde (15h)', color='#1E90FF', alpha=0.9)
    
    # Configurar eixos
    ax.set_yticks(x)
    ax.set_yticklabels(nomes_curtos, fontsize=10)
    ax.set_xlabel('M√©dia de Pessoas por Per√≠odo', fontsize=12, fontweight='bold')
    ax.set_title(
        f'M√©dia de Pessoas por Per√≠odo - {regiao}\n'
        f'Per√≠odo: {data_inicio_dt.strftime("%d/%m/%Y")} a {data_fim_dt.strftime("%d/%m/%Y")} '
        f'({dias_periodo} dias)',
        fontsize=14, fontweight='bold', pad=20
    )
    
    # PADRONIZAR EIXO X (0 at√© valor_max_global_regioes)
    ax.set_xlim(0, valor_max_global_regioes)
    
    # Adicionar r√≥tulos de dados nas barras
    for bars in [bars1, bars2]:
        for bar in bars:
            width_val = bar.get_width()
            if width_val > 0:  # S√≥ mostrar se houver valor
                ax.text(width_val, bar.get_y() + bar.get_height()/2,
                       f' {int(width_val)}',
                       va='center', fontsize=9, fontweight='bold')
    
    # Inverter eixo Y para ranking crescente
    ax.invert_yaxis()
    
    # Grid
    ax.grid(axis='x', alpha=0.3, linestyle='--')
    
    # Legenda CENTRALIZADA ABAIXO DO GR√ÅFICO
    ax.legend(loc='upper center', bbox_to_anchor=(0.5, -0.08), 
             ncol=2, fontsize=11, framealpha=0.9)
    
    # Ajustar layout para acomodar legenda (SEM NOTA)
    plt.tight_layout()
    plt.subplots_adjust(bottom=0.10)
    
    # Salvar gr√°fico
    nome_arquivo = f"media_periodos_{regiao.replace(' ', '_')}.png"
    caminho_arquivo = pasta_graficos_regioes / nome_arquivo
    plt.savefig(caminho_arquivo, dpi=300, bbox_inches='tight')
    plt.close()
    
    print(f"  ‚úì Salvo: {nome_arquivo}")
    print(f"  ‚úì Logradouros no gr√°fico: {max_logradouros}")

print(f"\n{'=' * 80}")
print(f"‚úì Total de gr√°ficos de regi√£o gerados: {len(regioes_ordenadas)}")
print(f"{'=' * 80}")

# %% [markdown]
# ## 12.3. Gr√°fico Consolidado - Vis√£o Geral

# %%
print("\n" + "=" * 80)
print("GERANDO GR√ÅFICO CONSOLIDADO - VIS√ÉO GERAL")
print("=" * 80)

# Pegar Top 10 geral
top10_geral = df_completo.nlargest(10, 'M√©dia pessoas').copy()

# ARREDONDAR OS DADOS ANTES DE PLOTAR
top10_geral['Manh√£'] = top10_geral['Manh√£'].round(0).astype(int)
top10_geral['Tarde'] = top10_geral['Tarde'].round(0).astype(int)

# Criar figura
fig, ax = plt.subplots(figsize=(16, 12))

# Preparar dados - NOMES COMPLETOS
nomes_completos = []
for log in top10_geral['Logradouro']:
    if ' - ' in log:
        nome = log.split(' - ', 1)[1]  # Pegar s√≥ depois do " - "
    else:
        nome = log
    nomes_completos.append(nome)

x = np.arange(len(top10_geral))
width = 0.35

# Criar barras - NOVAS CORES
bars1 = ax.barh(x - width/2, top10_geral['Manh√£'], width,
                label='Manh√£ (10h)', color='#FF8C00', alpha=0.9)
bars2 = ax.barh(x + width/2, top10_geral['Tarde'], width,
                label='Tarde (15h)', color='#1E90FF', alpha=0.9)

# Configurar
ax.set_yticks(x)
ax.set_yticklabels(nomes_completos, fontsize=11)
ax.set_xlabel('M√©dia de Pessoas por Per√≠odo', fontsize=13, fontweight='bold')
ax.set_title(
    f'Top 10 Logradouros - M√©dia de Pessoas por Per√≠odo (Consolidado)\n'
    f'Per√≠odo: {data_inicio_dt.strftime("%d/%m/%Y")} a {data_fim_dt.strftime("%d/%m/%Y")} '
    f'({dias_periodo} dias, {total_periodos} per√≠odos)',
    fontsize=15, fontweight='bold', pad=20
)

# Adicionar r√≥tulos de dados nas barras
for bars in [bars1, bars2]:
    for bar in bars:
        width_val = bar.get_width()
        if width_val > 0:
            ax.text(width_val, bar.get_y() + bar.get_height()/2,
                   f' {int(width_val)}',
                   va='center', fontsize=10, fontweight='bold')

# Inverter eixo Y
ax.invert_yaxis()

# Grid
ax.grid(axis='x', alpha=0.3, linestyle='--')

# Legenda CENTRALIZADA ABAIXO DO GR√ÅFICO
ax.legend(loc='upper center', bbox_to_anchor=(0.5, -0.08), 
         ncol=2, fontsize=12, framealpha=0.9)

# Ajustar layout para acomodar legenda
plt.tight_layout()
plt.subplots_adjust(bottom=0.10)

# Salvar NO COMPLEXO_OKUHARA
caminho_consolidado = pasta_complexo / 'top10_consolidado_periodos.png'
plt.savefig(caminho_consolidado, dpi=300, bbox_inches='tight')
plt.close()

print(f"‚úì Gr√°fico consolidado salvo: top10_consolidado_periodos.png")
print(f"‚úì Localiza√ß√£o: {pasta_complexo}")
print(f"{'=' * 80}")

# %% [markdown]
# ## 12.4. Resumo dos Gr√°ficos Gerados

# %%
print("\n" + "=" * 80)
print("RESUMO - GR√ÅFICOS GERADOS")
print("=" * 80)

total_individuais = len(list(pasta_graficos_individuais.glob('*.png')))
total_regioes = len(list(pasta_graficos_regioes.glob('*.png')))
total_consolidado = len(list(pasta_complexo.glob('*.png')))

print(f"""
üìä GR√ÅFICOS DE EVOLU√á√ÉO TEMPORAL

ESTRUTURA DE PASTAS:
  üìÅ graficos/
      - complexo_okuhara/
          - top10_consolidado_periodos.png
          - logradouros_individuais/
          - regioes/

TOTAIS GERADOS:
  ‚Ä¢ Gr√°ficos individuais (evolu√ß√£o temporal): {total_individuais}
    - Linhas de evolu√ß√£o di√°ria (Manh√£ e Tarde)
    - Linhas de tend√™ncia com varia√ß√£o absoluta no eixo Y
    - Estat√≠sticas (m√©dia, m√°x, m√≠n)
    - Eixos padronizados (0 a {valor_max_global_individuais})
    - R√≥tulos com valores inteiros em todas as linhas
  
  ‚Ä¢ Gr√°ficos por regi√£o (m√©dias): {total_regioes}
    - Barras horizontais comparando Manh√£ vs Tarde
    - Top 15 logradouros de cada regi√£o
    - Nomes completos dos logradouros
    - Eixos padronizados (0 a {valor_max_global_regioes})
    - R√≥tulos com valores inteiros em todas as barras
  
  ‚Ä¢ Gr√°fico consolidado: {total_consolidado}
    - Top 10 geral com m√©dias por per√≠odo
    - Nomes completos dos logradouros
    - R√≥tulos com valores inteiros em todas as barras

TOTAL: {total_individuais + total_regioes + total_consolidado} gr√°ficos

CARACTER√çSTICAS:
  ‚úì Resolu√ß√£o: 300 DPI (alta qualidade)
  ‚úì Per√≠odo analisado: {data_inicio_dt.strftime('%d/%m/%Y')} a {data_fim_dt.strftime('%d/%m/%Y')}
  ‚úì Total de dias: {dias_periodo}
  ‚úì Total de per√≠odos: {total_periodos}
  ‚úì Linhas de tend√™ncia com varia√ß√£o absoluta (diferen√ßa no eixo Y)
  ‚úì Estat√≠sticas descritivas em cada gr√°fico individual
  ‚úì Eixos padronizados (individuais e regi√µes)
  ‚úì Valores inteiros em todos os r√≥tulos de dados
  ‚úì Legendas centralizadas abaixo dos gr√°ficos
  ‚úì Nomes completos dos logradouros em todos os gr√°ficos
  ‚úì Nomes de arqueres sem caracteres problem√°ticos

""")
print("=" * 80)
print("‚úì GERA√á√ÉO DE GR√ÅFICOS CONCLU√çDA!")
print(f"‚úì {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")
print("=" * 80)

‚úì Bibliotecas importadas
‚úì An√°lise iniciada em: 10/11/2025 13:05:51

DEFINIR PER√çODO DO RELAT√ìRIO

‚úì Per√≠odo selecionado: 01/10/2025 a 31/10/2025

Per√≠odo: 01/10/2025 a 31/10/2025
  ‚Ä¢ Dias: 31
  ‚Ä¢ Per√≠odos por dia: 2 (Manh√£ e Tarde)
  ‚Ä¢ Total de per√≠odos: 62

SELE√á√ÉO DO ARQUIVO RAW
üìÇ Pasta raw: c:\Users\x504693\Documents\projetos\projeto_etl_dados\data\raw

üìÅ Arquivos dispon√≠veis (mais recentes primeiro):
  1. Contagem_diaria_centro - Padronizada.xlsx
     Modificado em: 07/11/2025 18:00

  2. Contagem di√°ria - Compilado.xlsx
     Modificado em: 07/11/2025 11:51

  3. CONTAGEM 2025 - CnR.xlsx
     Modificado em: 06/11/2025 12:37

  4. RelatorioCidadaoVinculado.xlsx
     Modificado em: 05/11/2025 16:38

  5. CidadaosVinculadosXBeneficios.xlsx
     Modificado em: 05/11/2025 10:42

  6. Base Okuhara Kohei.xlsx
     Modificado em: 21/10/2025 18:54

  7. nomes_Abordados.xlsx
     Modificado em: 21/10/2025 17:51

  8. Base Tablet.xlsx
     Modificado em: 21/10/2