In [13]:
import pandas as pd
import numpy as np

In [14]:
# Definir caminho base do projeto
import os

# Detectar o diretório do projeto (onde está o README.md)
current_dir = os.getcwd()
print(f"Diretório atual: {current_dir}")

# Procurar pelo diretório que contém o README.md
project_root = current_dir
while project_root != os.path.dirname(project_root):  # Enquanto não chegou na raiz
    if os.path.exists(os.path.join(project_root, "README.md")):
        break
    project_root = os.path.dirname(project_root)

# Se não encontrou, usar o diretório atual e subir 2 níveis (scripts/database -> scripts -> projeto)
if not os.path.exists(os.path.join(project_root, "README.md")):
    project_root = os.path.dirname(os.path.dirname(current_dir))

data_raw_path = os.path.join(project_root, "data", "raw")

print(f"Diretório do projeto: {project_root}")
print(f"Diretório de dados brutos: {data_raw_path}")
print(f"README.md existe: {os.path.exists(os.path.join(project_root, 'README.md'))}")
print(f"Pasta data/raw existe: {os.path.exists(data_raw_path)}")

# Listar arquivos na pasta data/raw para verificar
if os.path.exists(data_raw_path):
    print(f"Arquivos em data/raw: {os.listdir(data_raw_path)}")
else:
    print("[ERRO] Pasta data/raw nao encontrada!")

# Carregar os datasets disponíveis
print("Carregando datasets disponíveis...")

# Lista de arquivos esperados e suas configurações
arquivos_esperados = {
    "lista-de-semaforos.csv": {"sep": ",", "encoding": "utf-8"},
    "equipamentos-de-medicao-de-velocidade.csv": {"sep": ",", "encoding": "utf-8"},
    "fluxo-veiculos-hora-janeiro.csv": {"sep": ";", "encoding": "utf-8"},
    "fluxo-velocidade-em-quinze-minutos-foto-jan-2025.csv": {"sep": ";", "encoding": "utf-8"},
    "monitoramento-cttu.csv": {"sep": ";", "encoding": "utf-8"},
    "relatorio-fluxo-de-15-em-15-minutos-lomb-jan-25.csv": {"sep": ";", "encoding": "utf-8"},
    "relatorio-fluxo-de-15-em-15-minutos-lomb-fev-25.csv": {"sep": ";", "encoding": "utf-8"},
    "relatorio-fluxo-de-15-em-15-minutos-lomb-mar-25.csv": {"sep": ";", "encoding": "utf-8"},
    "relatorio-fluxo-de-15-em-15-minutos-lomb-abr-25.csv": {"sep": ";", "encoding": "utf-8"},
    "relatorio-fluxo-de-15-em-15-minutos-lomb-mai-25.csv": {"sep": ";", "encoding": "utf-8"},
    "relatorio-fluxo-de-15-em-15-minutos-lomb-jun-25.csv": {"sep": ";", "encoding": "utf-8"},
    "relatorio-fluxo-de-15-em-15-minutos-lomb-jul-25.csv": {"sep": ";", "encoding": "utf-8"},
    "relatorio-fluxo-de-15-em-15-minutos-lomb-ago-25.csv": {"sep": ";", "encoding": "utf-8"}
}

# Carregar apenas os arquivos que existem
datasets_carregados = {}
for arquivo, config in arquivos_esperados.items():
    caminho_arquivo = os.path.join(data_raw_path, arquivo)
    if os.path.exists(caminho_arquivo):
        try:
            df = pd.read_csv(caminho_arquivo, **config)
            datasets_carregados[arquivo] = df
            print(f"[OK] {arquivo} carregado ({df.shape[0]} registros)")
        except Exception as e:
            print(f"[ERRO] Erro ao carregar {arquivo}: {e}")
    else:
        print(f"[AVISO] {arquivo} nao encontrado")

# Atribuir aos DataFrames principais (apenas os que existem)
semaforos_df = datasets_carregados.get("lista-de-semaforos.csv")
equip_med_vel_df = datasets_carregados.get("equipamentos-de-medicao-de-velocidade.csv")

print(f"\nTotal de datasets carregados: {len(datasets_carregados)}")


Diretório atual: c:\Users\berna\OneDrive\Documentos\Computação\projetos\urban-flow-project-g16\scripts\database
Diretório do projeto: c:\Users\berna\OneDrive\Documentos\Computação\projetos\urban-flow-project-g16
Diretório de dados brutos: c:\Users\berna\OneDrive\Documentos\Computação\projetos\urban-flow-project-g16\data\raw
README.md existe: True
Pasta data/raw existe: True
Arquivos em data/raw: ['equipamentos-de-medicao-de-velocidade.csv', 'faixaazul.geojson', 'fluxo-veiculos-hora-janeiro.csv', 'fluxo-velocidade-em-quinze-minutos-foto-jan-2025.csv', 'lista-de-semaforos.csv', 'monitoramento-cttu.csv', 'relatorio-fluxo-de-15-em-15-minutos-lomb-abr-25.csv', 'relatorio-fluxo-de-15-em-15-minutos-lomb-ago-25.csv', 'relatorio-fluxo-de-15-em-15-minutos-lomb-fev-25.csv', 'relatorio-fluxo-de-15-em-15-minutos-lomb-jan-25.csv', 'relatorio-fluxo-de-15-em-15-minutos-lomb-jul-25.csv', 'relatorio-fluxo-de-15-em-15-minutos-lomb-jun-25.csv', 'relatorio-fluxo-de-15-em-15-minutos-lomb-mai-25.csv', 'relat

In [22]:
# Carregar os datasets restantes
print("Carregando datasets restantes...")

# Atribuir os datasets restantes
fluxo_veiculos_hora_df = datasets_carregados.get("fluxo-veiculos-hora-janeiro.csv")
fluxo_velocidade_15min_df = datasets_carregados.get("fluxo-velocidade-em-quinze-minutos-foto-jan-2025.csv")
monitoramento_cttu_df = datasets_carregados.get("monitoramento-cttu.csv")
relatorio_fluxo_jan_df = datasets_carregados.get("relatorio-fluxo-de-15-em-15-minutos-lomb-jan-25.csv")
relatorio_fluxo_fev_df = datasets_carregados.get("relatorio-fluxo-de-15-em-15-minutos-lomb-fev-25.csv")
relatorio_fluxo_mar_df = datasets_carregados.get("relatorio-fluxo-de-15-em-15-minutos-lomb-mar-25.csv")
relatorio_fluxo_abr_df = datasets_carregados.get("relatorio-fluxo-de-15-em-15-minutos-lomb-abr-25.csv")
relatorio_fluxo_mai_df = datasets_carregados.get("relatorio-fluxo-de-15-em-15-minutos-lomb-mai-25.csv")
relatorio_fluxo_jun_df = datasets_carregados.get("relatorio-fluxo-de-15-em-15-minutos-lomb-jun-25.csv")
relatorio_fluxo_jul_df = datasets_carregados.get("relatorio-fluxo-de-15-em-15-minutos-lomb-jul-25.csv")
relatorio_fluxo_ago_df = datasets_carregados.get("relatorio-fluxo-de-15-em-15-minutos-lomb-ago-25.csv")


# Verificar quais datasets foram carregados com sucesso
datasets_info = {
    "Semáforos": semaforos_df,
    "Equipamentos de Medição de Velocidade": equip_med_vel_df,
    "Fluxo de Veículos por Hora": fluxo_veiculos_hora_df,
    "Fluxo e Velocidade 15min": fluxo_velocidade_15min_df,
    "Monitoramento CTTU": monitoramento_cttu_df,
    "Relatório Fluxo Agosto": relatorio_fluxo_ago_df,
    "Relatório Fluxo Fevereiro": relatorio_fluxo_fev_df
}

print("\nStatus dos datasets:")
for nome, df in datasets_info.items():
    if df is not None:
        print(f"[OK] {nome}: {df.shape[0]} registros")
    else:
        print(f"[ERRO] {nome}: Nao disponivel")

print(f"\nTotal de datasets disponíveis: {sum(1 for df in datasets_info.values() if df is not None)}")


Carregando datasets restantes...

Status dos datasets:
[OK] Semáforos: 712 registros
[OK] Equipamentos de Medição de Velocidade: 62 registros
[OK] Fluxo de Veículos por Hora: 672 registros
[OK] Fluxo e Velocidade 15min: 342796 registros
[OK] Monitoramento CTTU: 54 registros
[OK] Relatório Fluxo Agosto: 298228 registros
[OK] Relatório Fluxo Fevereiro: 273529 registros

Total de datasets disponíveis: 7


In [24]:
# Análise exploratória inicial dos datasets
print("=== ANÁLISE EXPLORATÓRIA DOS DATASETS ===\n")

datasets = {
    "Semáforos": semaforos_df,
    "Equipamentos de Medição de Velocidade": equip_med_vel_df,
    "Fluxo de Veículos por Hora": fluxo_veiculos_hora_df,
    "Fluxo e Velocidade 15min": fluxo_velocidade_15min_df,
    "Monitoramento CTTU": monitoramento_cttu_df,
    "Relatório Fluxo Janeiro": relatorio_fluxo_jan_df,
    "Relatório Fluxo Fevereiro": relatorio_fluxo_fev_df,
    "Relatório Fluxo Março": relatorio_fluxo_mar_df,
    "Relatório Fluxo Abril": relatorio_fluxo_abr_df,
    "Relatório Fluxo Maio": relatorio_fluxo_mai_df,
    "Relatório Fluxo Junho": relatorio_fluxo_jun_df,
    "Relatório Fluxo Julho": relatorio_fluxo_jul_df,
    "Relatório Fluxo Agosto": relatorio_fluxo_ago_df
}

for nome, df in datasets.items():
    print(f"[INFO] {nome}:")
    if df is not None:
        print(f"   - Dimensões: {df.shape[0]} linhas x {df.shape[1]} colunas")
        print(f"   - Colunas: {list(df.columns)}")
        print(f"   - Tipos de dados:")
        for col in df.columns:
            print(f"     * {col}: {df[col].dtype}")
        print(f"   - Valores nulos: {df.isnull().sum().sum()}")
        print(f"   - Memória: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
    else:
        print("   - Status: Não disponível")
    print()


=== ANÁLISE EXPLORATÓRIA DOS DATASETS ===

[INFO] Semáforos:
   - Dimensões: 712 linhas x 9 colunas
   - Colunas: ['_id', 'semaforo', 'localizacao1', 'localizacao2', 'bairro', 'latitude', 'longitude', 'tipo', 'funcionamento']
   - Tipos de dados:
     * _id: int64
     * semaforo: int64
     * localizacao1: object
     * localizacao2: object
     * bairro: object
     * latitude: object
     * longitude: float64
     * tipo: object
     * funcionamento: object
   - Valores nulos: 0
   - Memória: 0.28 MB

[INFO] Equipamentos de Medição de Velocidade:
   - Dimensões: 62 linhas x 7 colunas
   - Colunas: ['_id', 'equipamento', 'tipo', 'logradouro', 'velocidade_via', 'latitude', 'longitude']
   - Tipos de dados:
     * _id: int64
     * equipamento: object
     * tipo: object
     * logradouro: object
     * velocidade_via: object
     * latitude: float64
     * longitude: float64
   - Valores nulos: 0
   - Memória: 0.02 MB

[INFO] Fluxo de Veículos por Hora:
   - Dimensões: 672 linhas x 28

In [25]:
# LIMPEZA E PADRONIZAÇÃO DOS DADOS

print("=== INICIANDO LIMPEZA DOS DADOS ===\n")

# 1. LIMPEZA DOS SEMÁFOROS
if semaforos_df is not None:
    print("[PROCESSANDO] Limpando dados de semaforos...")
    semaforos_clean = semaforos_df.copy()

    # Padronizar coordenadas
    semaforos_clean['latitude'] = pd.to_numeric(semaforos_clean['latitude'], errors='coerce')
    semaforos_clean['longitude'] = pd.to_numeric(semaforos_clean['longitude'], errors='coerce')

    # Limpar strings (apenas se forem do tipo object/string)
    if 'localizacao1' in semaforos_clean.columns and semaforos_clean['localizacao1'].dtype == 'object':
        semaforos_clean['localizacao1'] = semaforos_clean['localizacao1'].astype(str).str.strip()
    if 'localizacao2' in semaforos_clean.columns and semaforos_clean['localizacao2'].dtype == 'object':
        semaforos_clean['localizacao2'] = semaforos_clean['localizacao2'].astype(str).str.strip()
    if 'bairro' in semaforos_clean.columns and semaforos_clean['bairro'].dtype == 'object':
        semaforos_clean['bairro'] = semaforos_clean['bairro'].astype(str).str.strip().str.upper()

    # Adicionar coluna de identificação única
    semaforos_clean['id_semaforo'] = semaforos_clean['_id']

    print(f"   [OK] Semaforos limpos: {semaforos_clean.shape[0]} registros")
    print(f"   [OK] Valores nulos: {semaforos_clean.isnull().sum().sum()}")
else:
    print("[AVISO] Semaforos nao disponivel - pulando limpeza")
    semaforos_clean = None


=== INICIANDO LIMPEZA DOS DADOS ===

[PROCESSANDO] Limpando dados de semaforos...
   [OK] Semaforos limpos: 712 registros
   [OK] Valores nulos: 1


In [26]:
# 2. LIMPEZA DOS EQUIPAMENTOS DE MEDIÇÃO DE VELOCIDADE
if equip_med_vel_df is not None:
    print("[CONFIGURANDO] Limpando dados de equipamentos de medição de velocidade...")
    equip_med_vel_clean = equip_med_vel_df.copy()
    
    # Mostrar colunas disponíveis para debug
    print(f"   Colunas disponíveis: {list(equip_med_vel_clean.columns)}")

    # Padronizar coordenadas
    equip_med_vel_clean['latitude'] = pd.to_numeric(equip_med_vel_clean['latitude'], errors='coerce')
    equip_med_vel_clean['longitude'] = pd.to_numeric(equip_med_vel_clean['longitude'], errors='coerce')

    # Padronizar valores numéricos (apenas se as colunas existirem)
    if 'faixas_fiscalizadas' in equip_med_vel_clean.columns:
        equip_med_vel_clean['faixas_fiscalizadas'] = pd.to_numeric(equip_med_vel_clean['faixas_fiscalizadas'], errors='coerce')
    if 'velocidade_fiscalizada' in equip_med_vel_clean.columns:
        equip_med_vel_clean['velocidade_fiscalizada'] = pd.to_numeric(equip_med_vel_clean['velocidade_fiscalizada'], errors='coerce')
    if 'vmd' in equip_med_vel_clean.columns:
        equip_med_vel_clean['vmd'] = pd.to_numeric(equip_med_vel_clean['vmd'], errors='coerce')

    # Limpar strings (apenas se as colunas existirem e forem do tipo object/string)
    if 'local_instalacao' in equip_med_vel_clean.columns and equip_med_vel_clean['local_instalacao'].dtype == 'object':
        equip_med_vel_clean['local_instalacao'] = equip_med_vel_clean['local_instalacao'].astype(str).str.strip()
    if 'sentido_fiscalizacao' in equip_med_vel_clean.columns and equip_med_vel_clean['sentido_fiscalizacao'].dtype == 'object':
        equip_med_vel_clean['sentido_fiscalizacao'] = equip_med_vel_clean['sentido_fiscalizacao'].astype(str).str.strip()
    if 'periodo_vmd' in equip_med_vel_clean.columns and equip_med_vel_clean['periodo_vmd'].dtype == 'object':
        equip_med_vel_clean['periodo_vmd'] = equip_med_vel_clean['periodo_vmd'].astype(str).str.strip()

    print(f"   [OK] Equipamentos de medição limpos: {equip_med_vel_clean.shape[0]} registros")
    print(f"   [OK] Valores nulos: {equip_med_vel_clean.isnull().sum().sum()}")
else:
    print("[ATENCAO]  Equipamentos de medição não disponível - pulando limpeza")
    equip_med_vel_clean = None


[CONFIGURANDO] Limpando dados de equipamentos de medição de velocidade...
   Colunas disponíveis: ['_id', 'equipamento', 'tipo', 'logradouro', 'velocidade_via', 'latitude', 'longitude']
   [OK] Equipamentos de medição limpos: 62 registros
   [OK] Valores nulos: 0


In [27]:
# 3. LIMPEZA DO FLUXO DE VEÍCULOS POR HORA
if fluxo_veiculos_hora_df is not None:
    print("[CONFIGURANDO] Limpando dados de fluxo de veículos por hora...")
    fluxo_veiculos_hora_clean = fluxo_veiculos_hora_df.copy()

    # Converter colunas de quantidade para numérico
    quantidade_cols = [col for col in fluxo_veiculos_hora_clean.columns if col.startswith('quant')]
    for col in quantidade_cols:
        fluxo_veiculos_hora_clean[col] = pd.to_numeric(fluxo_veiculos_hora_clean[col], errors='coerce')

    # Converter colunas de porcentagem para numérico (substituir vírgula por ponto)
    porcentagem_cols = [col for col in fluxo_veiculos_hora_clean.columns if col.startswith('porcentagem')]
    for col in porcentagem_cols:
        fluxo_veiculos_hora_clean[col] = fluxo_veiculos_hora_clean[col].astype(str).str.replace(',', '.').astype(float)

    # Limpar strings (apenas se forem do tipo object/string)
    if 'equipamento' in fluxo_veiculos_hora_clean.columns and fluxo_veiculos_hora_clean['equipamento'].dtype == 'object':
        fluxo_veiculos_hora_clean['equipamento'] = fluxo_veiculos_hora_clean['equipamento'].astype(str).str.strip()
    if 'logradouro' in fluxo_veiculos_hora_clean.columns and fluxo_veiculos_hora_clean['logradouro'].dtype == 'object':
        fluxo_veiculos_hora_clean['logradouro'] = fluxo_veiculos_hora_clean['logradouro'].astype(str).str.strip()

    # Converter horários para datetime
    fluxo_veiculos_hora_clean['horainicio'] = pd.to_datetime(fluxo_veiculos_hora_clean['horainicio'], format='%H:%M', errors='coerce')
    fluxo_veiculos_hora_clean['horafinal'] = pd.to_datetime(fluxo_veiculos_hora_clean['horafinal'], format='%H:%M', errors='coerce')

    print(f"   [OK] Fluxo de veículos por hora limpo: {fluxo_veiculos_hora_clean.shape[0]} registros")
    print(f"   [OK] Valores nulos: {fluxo_veiculos_hora_clean.isnull().sum().sum()}")
else:
    print("[ATENCAO]  Fluxo de veículos por hora não disponível - pulando limpeza")
    fluxo_veiculos_hora_clean = None


[CONFIGURANDO] Limpando dados de fluxo de veículos por hora...
   [OK] Fluxo de veículos por hora limpo: 672 registros
   [OK] Valores nulos: 0


In [28]:
# 4. LIMPEZA DO FLUXO E VELOCIDADE EM 15 MINUTOS
if fluxo_velocidade_15min_df is not None:
    print("[CONFIGURANDO] Limpando dados de fluxo e velocidade em 15 minutos...")
    fluxo_velocidade_15min_clean = fluxo_velocidade_15min_df.copy()
    
    # CORREÇÃO: O arquivo tem colunas trocadas no cabeçalho
    # Renomear colunas para corrigir a estrutura
    print("   [ATUALIZANDO] Corrigindo estrutura das colunas...")
    
    # Primeiro, remover a coluna minutos_intervalo original se existir (para evitar duplicata após renomeação)
    if 'minutos_intervalo' in fluxo_velocidade_15min_clean.columns:
        fluxo_velocidade_15min_clean = fluxo_velocidade_15min_clean.drop('minutos_intervalo', axis=1)
    fluxo_velocidade_15min_clean = fluxo_velocidade_15min_clean.rename(columns={
        'mes': 'equipamento',           # mes contém códigos de equipamento
        'equipamento': 'faixa',         # equipamento contém números de faixa
        'faixa': 'data',                # faixa contém datas
        'data': 'hora',                 # data contém horas
        'hora': 'minutos_intervalo'     # hora contém intervalos de minutos
    })
    
    # Adicionar coluna mes correta (extrair do equipamento ou usar valor padrão)
    fluxo_velocidade_15min_clean['mes'] = 1  # Janeiro 2025
    
    # Garantir que não há colunas duplicadas (remover duplicatas por nome)
    fluxo_velocidade_15min_clean = fluxo_velocidade_15min_clean.loc[:, ~fluxo_velocidade_15min_clean.columns.duplicated()]
    
    # Remover coluna duplicada se existir
    if 'minutos_intervalo.1' in fluxo_velocidade_15min_clean.columns:
        fluxo_velocidade_15min_clean = fluxo_velocidade_15min_clean.drop('minutos_intervalo.1', axis=1)
        print("   [ATUALIZANDO] Coluna duplicada removida")
    
    # Mostrar colunas corrigidas
    print(f"   Colunas corrigidas: {list(fluxo_velocidade_15min_clean.columns)}")
    
    # Converter colunas de quantidade para numérico
    quantidade_cols = [col for col in fluxo_velocidade_15min_clean.columns if col.startswith('qtd_')]
    for col in quantidade_cols:
        fluxo_velocidade_15min_clean[col] = pd.to_numeric(fluxo_velocidade_15min_clean[col], errors='coerce')
    
    # Preencher valores NaN com 0 nas colunas de quantidade
    for col in quantidade_cols:
        fluxo_velocidade_15min_clean[col] = fluxo_velocidade_15min_clean[col].fillna(0)

    # Converter data para datetime
    if 'data' in fluxo_velocidade_15min_clean.columns:
        fluxo_velocidade_15min_clean['data'] = pd.to_datetime(fluxo_velocidade_15min_clean['data'], errors='coerce')

    # Limpar strings (apenas se forem do tipo object/string)
    if 'equipamento' in fluxo_velocidade_15min_clean.columns and fluxo_velocidade_15min_clean['equipamento'].dtype == 'object':
        fluxo_velocidade_15min_clean['equipamento'] = fluxo_velocidade_15min_clean['equipamento'].astype(str).str.strip()
    if 'faixa' in fluxo_velocidade_15min_clean.columns and fluxo_velocidade_15min_clean['faixa'].dtype == 'object':
        fluxo_velocidade_15min_clean['faixa'] = fluxo_velocidade_15min_clean['faixa'].astype(str).str.strip()

    # Converter hora para int
    if 'hora' in fluxo_velocidade_15min_clean.columns:
        fluxo_velocidade_15min_clean['hora'] = pd.to_numeric(fluxo_velocidade_15min_clean['hora'], errors='coerce')

    print(f"   [OK] Fluxo e velocidade 15min limpo: {fluxo_velocidade_15min_clean.shape[0]} registros")
    print(f"   [OK] Valores nulos: {fluxo_velocidade_15min_clean.isnull().sum().sum()}")
else:
    print("[ATENCAO]  Fluxo e velocidade 15min não disponível - pulando limpeza")
    fluxo_velocidade_15min_clean = None


[CONFIGURANDO] Limpando dados de fluxo e velocidade em 15 minutos...
   [ATUALIZANDO] Corrigindo estrutura das colunas...
   Colunas corrigidas: ['equipamento', 'faixa', 'data', 'hora', 'minutos_intervalo', 'qtd_0a10km', 'qtd_11a20km', 'qtd_21a30km', 'qtd_31a40km', 'qtd_41a50km', 'qtd_51a60km', 'qtd_61a70km', 'qtd_71a80km', 'qtd_81a90km', 'qtd_91a100km', 'qtd_acimade100km', 'mes']
   [OK] Fluxo e velocidade 15min limpo: 342796 registros
   [OK] Valores nulos: 0


In [29]:
# 5. LIMPEZA DOS RELATÓRIOS DE FLUXO (AGOSTO E FEVEREIRO)
print("[CONFIGURANDO] Limpando dados dos relatórios de fluxo...")

# Limpeza do relatório de Janeiro
if relatorio_fluxo_jan_df is not None:
    relatorio_fluxo_jan_clean = relatorio_fluxo_jan_df.copy()
    quantidade_cols = [col for col in relatorio_fluxo_jan_clean.columns if col.startswith('qtd_')]
    for col in quantidade_cols:
        relatorio_fluxo_jan_clean[col] = pd.to_numeric(relatorio_fluxo_jan_clean[col], errors='coerce')

    if 'data' in relatorio_fluxo_jan_clean.columns:
        relatorio_fluxo_jan_clean['data'] = pd.to_datetime(relatorio_fluxo_jan_clean['data'], errors='coerce')
    if 'equipamento' in relatorio_fluxo_jan_clean.columns and relatorio_fluxo_jan_clean['equipamento'].dtype == 'object':
        relatorio_fluxo_jan_clean['equipamento'] = relatorio_fluxo_jan_clean['equipamento'].astype(str).str.strip()
    if 'faixa' in relatorio_fluxo_jan_clean.columns and relatorio_fluxo_jan_clean['faixa'].dtype == 'object':
        relatorio_fluxo_jan_clean['faixa'] = relatorio_fluxo_jan_clean['faixa'].astype(str).str.strip()
    if 'hora' in relatorio_fluxo_jan_clean.columns:
        relatorio_fluxo_jan_clean['hora'] = pd.to_numeric(relatorio_fluxo_jan_clean['hora'], errors='coerce')
    print(f"   [OK] Relatório Janeiro limpo: {relatorio_fluxo_jan_clean.shape[0]} registros")
else:
    relatorio_fluxo_jan_clean = None
    print("   [ATENCAO]  Relatório Janeiro não disponível")

# Limpeza do relatório de Fevereiro
if relatorio_fluxo_fev_df is not None:
    relatorio_fluxo_fev_clean = relatorio_fluxo_fev_df.copy()
    quantidade_cols = [col for col in relatorio_fluxo_fev_clean.columns if col.startswith('qtd_')]
    for col in quantidade_cols:
        relatorio_fluxo_fev_clean[col] = pd.to_numeric(relatorio_fluxo_fev_clean[col], errors='coerce')

    if 'data' in relatorio_fluxo_fev_clean.columns:
        relatorio_fluxo_fev_clean['data'] = pd.to_datetime(relatorio_fluxo_fev_clean['data'], errors='coerce')
    if 'equipamento' in relatorio_fluxo_fev_clean.columns and relatorio_fluxo_fev_clean['equipamento'].dtype == 'object':
        relatorio_fluxo_fev_clean['equipamento'] = relatorio_fluxo_fev_clean['equipamento'].astype(str).str.strip()
    if 'faixa' in relatorio_fluxo_fev_clean.columns and relatorio_fluxo_fev_clean['faixa'].dtype == 'object':
        relatorio_fluxo_fev_clean['faixa'] = relatorio_fluxo_fev_clean['faixa'].astype(str).str.strip()
    if 'hora' in relatorio_fluxo_fev_clean.columns:
        relatorio_fluxo_fev_clean['hora'] = pd.to_numeric(relatorio_fluxo_fev_clean['hora'], errors='coerce')
    print(f"   [OK] Relatório Fevereiro limpo: {relatorio_fluxo_fev_clean.shape[0]} registros")
else:
    relatorio_fluxo_fev_clean = None
    print("   [ATENCAO]  Relatório Fevereiro não disponível")

# Limpeza do relatório de Março
if relatorio_fluxo_mar_df is not None:
    relatorio_fluxo_mar_clean = relatorio_fluxo_mar_df.copy()
    quantidade_cols = [col for col in relatorio_fluxo_mar_clean.columns if col.startswith('qtd_')]
    for col in quantidade_cols:
        relatorio_fluxo_mar_clean[col] = pd.to_numeric(relatorio_fluxo_mar_clean[col], errors='coerce')

    if 'data' in relatorio_fluxo_mar_clean.columns:
        relatorio_fluxo_mar_clean['data'] = pd.to_datetime(relatorio_fluxo_mar_clean['data'], errors='coerce')
    if 'equipamento' in relatorio_fluxo_mar_clean.columns and relatorio_fluxo_mar_clean['equipamento'].dtype == 'object':
        relatorio_fluxo_mar_clean['equipamento'] = relatorio_fluxo_mar_clean['equipamento'].astype(str).str.strip()
    if 'faixa' in relatorio_fluxo_mar_clean.columns and relatorio_fluxo_mar_clean['faixa'].dtype == 'object':
        relatorio_fluxo_mar_clean['faixa'] = relatorio_fluxo_mar_clean['faixa'].astype(str).str.strip()
    if 'hora' in relatorio_fluxo_mar_clean.columns:
        relatorio_fluxo_mar_clean['hora'] = pd.to_numeric(relatorio_fluxo_mar_clean['hora'], errors='coerce')
    print(f"   [OK] Relatório Março limpo: {relatorio_fluxo_mar_clean.shape[0]} registros")
else:
    relatorio_fluxo_mar_clean = None
    print("   [ATENCAO]  Relatório Março não disponível")

# Limpeza do relatório de Abril
if relatorio_fluxo_abr_df is not None:
    relatorio_fluxo_abr_clean = relatorio_fluxo_abr_df.copy()
    quantidade_cols = [col for col in relatorio_fluxo_abr_clean.columns if col.startswith('qtd_')]
    for col in quantidade_cols:
        relatorio_fluxo_abr_clean[col] = pd.to_numeric(relatorio_fluxo_abr_clean[col], errors='coerce')

    if 'data' in relatorio_fluxo_abr_clean.columns:
        relatorio_fluxo_abr_clean['data'] = pd.to_datetime(relatorio_fluxo_abr_clean['data'], errors='coerce')
    if 'equipamento' in relatorio_fluxo_abr_clean.columns and relatorio_fluxo_abr_clean['equipamento'].dtype == 'object':
        relatorio_fluxo_abr_clean['equipamento'] = relatorio_fluxo_abr_clean['equipamento'].astype(str).str.strip()
    if 'faixa' in relatorio_fluxo_abr_clean.columns and relatorio_fluxo_abr_clean['faixa'].dtype == 'object':
        relatorio_fluxo_abr_clean['faixa'] = relatorio_fluxo_abr_clean['faixa'].astype(str).str.strip()
    if 'hora' in relatorio_fluxo_abr_clean.columns:
        relatorio_fluxo_abr_clean['hora'] = pd.to_numeric(relatorio_fluxo_abr_clean['hora'], errors='coerce')
    print(f"   [OK] Relatório Abril limpo: {relatorio_fluxo_abr_clean.shape[0]} registros")
else:
    relatorio_fluxo_abr_clean = None
    print("   [ATENCAO]  Relatório Abril não disponível")

# Limpeza do relatório de Maio
if relatorio_fluxo_mai_df is not None:
    relatorio_fluxo_mai_clean = relatorio_fluxo_mai_df.copy()
    quantidade_cols = [col for col in relatorio_fluxo_mai_clean.columns if col.startswith('qtd_')]
    for col in quantidade_cols:
        relatorio_fluxo_mai_clean[col] = pd.to_numeric(relatorio_fluxo_mai_clean[col], errors='coerce')

    if 'data' in relatorio_fluxo_mai_clean.columns:
        relatorio_fluxo_mai_clean['data'] = pd.to_datetime(relatorio_fluxo_mai_clean['data'], errors='coerce')
    if 'equipamento' in relatorio_fluxo_mai_clean.columns and relatorio_fluxo_mai_clean['equipamento'].dtype == 'object':
        relatorio_fluxo_mai_clean['equipamento'] = relatorio_fluxo_mai_clean['equipamento'].astype(str).str.strip()
    if 'faixa' in relatorio_fluxo_mai_clean.columns and relatorio_fluxo_mai_clean['faixa'].dtype == 'object':
        relatorio_fluxo_mai_clean['faixa'] = relatorio_fluxo_mai_clean['faixa'].astype(str).str.strip()
    if 'hora' in relatorio_fluxo_mai_clean.columns:
        relatorio_fluxo_mai_clean['hora'] = pd.to_numeric(relatorio_fluxo_mai_clean['hora'], errors='coerce')
    print(f"   [OK] Relatório Maio limpo: {relatorio_fluxo_mai_clean.shape[0]} registros")
else:
    relatorio_fluxo_mai_clean = None
    print("   [ATENCAO]  Relatório Maio não disponível")

# Limpeza do relatório de Junho
if relatorio_fluxo_jun_df is not None:
    relatorio_fluxo_jun_clean = relatorio_fluxo_jun_df.copy()
    quantidade_cols = [col for col in relatorio_fluxo_jun_clean.columns if col.startswith('qtd_')]
    for col in quantidade_cols:
        relatorio_fluxo_jun_clean[col] = pd.to_numeric(relatorio_fluxo_jun_clean[col], errors='coerce')

    if 'data' in relatorio_fluxo_jun_clean.columns:
        relatorio_fluxo_jun_clean['data'] = pd.to_datetime(relatorio_fluxo_jun_clean['data'], errors='coerce')
    if 'equipamento' in relatorio_fluxo_jun_clean.columns and relatorio_fluxo_jun_clean['equipamento'].dtype == 'object':
        relatorio_fluxo_jun_clean['equipamento'] = relatorio_fluxo_jun_clean['equipamento'].astype(str).str.strip()
    if 'faixa' in relatorio_fluxo_jun_clean.columns and relatorio_fluxo_jun_clean['faixa'].dtype == 'object':
        relatorio_fluxo_jun_clean['faixa'] = relatorio_fluxo_jun_clean['faixa'].astype(str).str.strip()
    if 'hora' in relatorio_fluxo_jun_clean.columns:
        relatorio_fluxo_jun_clean['hora'] = pd.to_numeric(relatorio_fluxo_jun_clean['hora'], errors='coerce')
    print(f"   [OK] Relatório Junho limpo: {relatorio_fluxo_jun_clean.shape[0]} registros")
else:
    relatorio_fluxo_jun_clean = None
    print("   [ATENCAO]  Relatório Junho não disponível")

# Limpeza do relatório de Julho
if relatorio_fluxo_jul_df is not None:
    relatorio_fluxo_jul_clean = relatorio_fluxo_jul_df.copy()
    quantidade_cols = [col for col in relatorio_fluxo_jul_clean.columns if col.startswith('qtd_')]
    for col in quantidade_cols:
        relatorio_fluxo_jul_clean[col] = pd.to_numeric(relatorio_fluxo_jul_clean[col], errors='coerce')

    if 'data' in relatorio_fluxo_jul_clean.columns:
        relatorio_fluxo_jul_clean['data'] = pd.to_datetime(relatorio_fluxo_jul_clean['data'], errors='coerce')
    if 'equipamento' in relatorio_fluxo_jul_clean.columns and relatorio_fluxo_jul_clean['equipamento'].dtype == 'object':
        relatorio_fluxo_jul_clean['equipamento'] = relatorio_fluxo_jul_clean['equipamento'].astype(str).str.strip()
    if 'faixa' in relatorio_fluxo_jul_clean.columns and relatorio_fluxo_jul_clean['faixa'].dtype == 'object':
        relatorio_fluxo_jul_clean['faixa'] = relatorio_fluxo_jul_clean['faixa'].astype(str).str.strip()
    if 'hora' in relatorio_fluxo_jul_clean.columns:
        relatorio_fluxo_jul_clean['hora'] = pd.to_numeric(relatorio_fluxo_jul_clean['hora'], errors='coerce')
    print(f"   [OK] Relatório Julho limpo: {relatorio_fluxo_jul_clean.shape[0]} registros")
else:
    relatorio_fluxo_jul_clean = None
    print("   [ATENCAO]  Relatório Julho não disponível")

# Limpeza do relatório de Agosto
if relatorio_fluxo_ago_df is not None:
    relatorio_fluxo_ago_clean = relatorio_fluxo_ago_df.copy()
    quantidade_cols = [col for col in relatorio_fluxo_ago_clean.columns if col.startswith('qtd_')]
    for col in quantidade_cols:
        relatorio_fluxo_ago_clean[col] = pd.to_numeric(relatorio_fluxo_ago_clean[col], errors='coerce')

    if 'data' in relatorio_fluxo_ago_clean.columns:
        relatorio_fluxo_ago_clean['data'] = pd.to_datetime(relatorio_fluxo_ago_clean['data'], errors='coerce')
    if 'equipamento' in relatorio_fluxo_ago_clean.columns and relatorio_fluxo_ago_clean['equipamento'].dtype == 'object':
        relatorio_fluxo_ago_clean['equipamento'] = relatorio_fluxo_ago_clean['equipamento'].astype(str).str.strip()
    if 'faixa' in relatorio_fluxo_ago_clean.columns and relatorio_fluxo_ago_clean['faixa'].dtype == 'object':
        relatorio_fluxo_ago_clean['faixa'] = relatorio_fluxo_ago_clean['faixa'].astype(str).str.strip()
    if 'hora' in relatorio_fluxo_ago_clean.columns:
        relatorio_fluxo_ago_clean['hora'] = pd.to_numeric(relatorio_fluxo_ago_clean['hora'], errors='coerce')
    print(f"   [OK] Relatório Agosto limpo: {relatorio_fluxo_ago_clean.shape[0]} registros")
else:
    relatorio_fluxo_ago_clean = None
    print("   [ATENCAO]  Relatório Agosto não disponível")


[CONFIGURANDO] Limpando dados dos relatórios de fluxo...
   [OK] Relatório Janeiro limpo: 283999 registros
   [OK] Relatório Fevereiro limpo: 273529 registros
   [OK] Relatório Março limpo: 301067 registros
   [OK] Relatório Abril limpo: 292669 registros


  relatorio_fluxo_mai_clean['data'] = pd.to_datetime(relatorio_fluxo_mai_clean['data'], errors='coerce')


   [OK] Relatório Maio limpo: 300932 registros
   [OK] Relatório Junho limpo: 289577 registros
   [OK] Relatório Julho limpo: 297149 registros
   [OK] Relatório Agosto limpo: 298228 registros


In [37]:
# 6. LIMPEZA DOS RELATÓRIOS DE FLUXO (AGOSTO E FEVEREIRO)
print("[CONFIGURANDO] Limpando dados dos relatórios de fluxo...")

# Limpeza do relatório de Agosto
relatorio_fluxo_ago_clean = relatorio_fluxo_ago_df.copy()
quantidade_cols = [col for col in relatorio_fluxo_ago_clean.columns if col.startswith('qtd_')]
for col in quantidade_cols:
    relatorio_fluxo_ago_clean[col] = pd.to_numeric(relatorio_fluxo_ago_clean[col], errors='coerce')

relatorio_fluxo_ago_clean['data'] = pd.to_datetime(relatorio_fluxo_ago_clean['data'], errors='coerce')
relatorio_fluxo_ago_clean['equipamento'] = relatorio_fluxo_ago_clean['equipamento'].str.strip()
relatorio_fluxo_ago_clean['faixa'] = relatorio_fluxo_ago_clean['faixa'].str.strip()
relatorio_fluxo_ago_clean['hora'] = pd.to_numeric(relatorio_fluxo_ago_clean['hora'], errors='coerce')

# Limpeza do relatório de Fevereiro
relatorio_fluxo_fev_clean = relatorio_fluxo_fev_df.copy()
for col in quantidade_cols:
    relatorio_fluxo_fev_clean[col] = pd.to_numeric(relatorio_fluxo_fev_clean[col], errors='coerce')

relatorio_fluxo_fev_clean['data'] = pd.to_datetime(relatorio_fluxo_fev_clean['data'], errors='coerce')
relatorio_fluxo_fev_clean['equipamento'] = relatorio_fluxo_fev_clean['equipamento'].str.strip()
relatorio_fluxo_fev_clean['faixa'] = relatorio_fluxo_fev_clean['faixa'].str.strip()
relatorio_fluxo_fev_clean['hora'] = pd.to_numeric(relatorio_fluxo_fev_clean['hora'], errors='coerce')

# Limpeza do relatório de Janeiro
relatorio_fluxo_jan_clean = relatorio_fluxo_jan_df.copy()
for col in quantidade_cols:
    relatorio_fluxo_jan_clean[col] = pd.to_numeric(relatorio_fluxo_jan_clean[col], errors='coerce')

relatorio_fluxo_jan_clean['data'] = pd.to_datetime(relatorio_fluxo_jan_clean['data'], errors='coerce')
relatorio_fluxo_jan_clean['equipamento'] = relatorio_fluxo_jan_clean['equipamento'].str.strip()
relatorio_fluxo_jan_clean['faixa'] = relatorio_fluxo_jan_clean['faixa'].str.strip()
relatorio_fluxo_jan_clean['hora'] = pd.to_numeric(relatorio_fluxo_jan_clean['hour'], errors='coerce')

# Limpeza do relatório de Março
relatorio_fluxo_mar_clean = relatorio_fluxo_mar_df.copy()
for col in quantidade_cols:
    relatorio_fluxo_mar_clean[col] = pd.to_numeric(relatorio_fluxo_mar_clean[col], errors='coerce')

relatorio_fluxo_mar_clean['data'] = pd.to_datetime(relatorio_fluxo_mar_clean['data'], errors='coerce')
relatorio_fluxo_mar_clean['equipamento'] = relatorio_fluxo_mar_clean['equipamento'].str.strip()
relatorio_fluxo_mar_clean['faixa'] = relatorio_fluxo_mar_clean['faixa'].str.strip()
relatorio_fluxo_mar_clean['hora'] = pd.to_numeric(relatorio_fluxo_mar_clean['hora'], errors='coerce')

# Limpeza do relatório de Abril
relatorio_fluxo_abr_clean = relatorio_fluxo_abr_df.copy()
for col in quantidade_cols:
    relatorio_fluxo_abr_clean[col] = pd.to_numeric(relatorio_fluxo_abr_clean[col], errors='coerce')

relatorio_fluxo_abr_clean['data'] = pd.to_datetime(relatorio_fluxo_abr_clean['data'], errors='coerce')
relatorio_fluxo_abr_clean['equipamento'] = relatorio_fluxo_abr_clean['equipamento'].str.strip()
relatorio_fluxo_abr_clean['faixa'] = relatorio_fluxo_abr_clean['faixa'].str.strip()
relatorio_fluxo_abr_clean['hora'] = pd.to_numeric(relatorio_fluxo_abr_clean['hora'], errors='coerce')

# Limpeza do relatório de Maio
relatorio_fluxo_mai_clean = relatorio_fluxo_mai_df.copy()
for col in quantidade_cols:
    relatorio_fluxo_mai_clean[col] = pd.to_numeric(relatorio_fluxo_mai_clean[col], errors='coerce')

relatorio_fluxo_mai_clean['data'] = pd.to_datetime(relatorio_fluxo_mai_clean['data'], errors='coerce')
relatorio_fluxo_mai_clean['equipamento'] = relatorio_fluxo_mai_clean['equipamento'].astype(str).str.strip()
relatorio_fluxo_mai_clean['faixa'] = relatorio_fluxo_mai_clean['faixa'].str.strip()
relatorio_fluxo_mai_clean['hora'] = pd.to_numeric(relatorio_fluxo_mai_clean['hora'], errors='coerce')

# Limpeza do relatório de Junho
relatorio_fluxo_jun_clean = relatorio_fluxo_jun_df.copy()
for col in quantidade_cols:
    relatorio_fluxo_jun_clean[col] = pd.to_numeric(relatorio_fluxo_jun_clean[col], errors='coerce')

relatorio_fluxo_jun_clean['data'] = pd.to_datetime(relatorio_fluxo_jun_clean['data'], errors='coerce')
relatorio_fluxo_jun_clean['equipamento'] = relatorio_fluxo_jun_clean['equipamento'].str.strip()
relatorio_fluxo_jun_clean['faixa'] = relatorio_fluxo_jun_clean['faixa'].str.strip()
relatorio_fluxo_jun_clean['hora'] = pd.to_numeric(relatorio_fluxo_jun_clean['hora'], errors='coerce')

# Limpeza do relatório de Julho
relatorio_fluxo_jul_clean = relatorio_fluxo_jul_df.copy()
for col in quantidade_cols:
    relatorio_fluxo_jul_clean[col] = pd.to_numeric(relatorio_fluxo_jul_clean[col], errors='coerce')

relatorio_fluxo_jul_clean['data'] = pd.to_datetime(relatorio_fluxo_jul_clean['data'], errors='coerce')
relatorio_fluxo_jul_clean['equipamento'] = relatorio_fluxo_jul_clean['equipamento'].str.strip()
relatorio_fluxo_jul_clean['faixa'] = relatorio_fluxo_jul_clean['faixa'].str.strip()
relatorio_fluxo_jul_clean['hora'] = pd.to_numeric(relatorio_fluxo_jul_clean['hora'], errors='coerce')

print(f"   [OK] Relatório Fevereiro limpo: {relatorio_fluxo_jan_clean.shape[0]} registros")
print(f"   [OK] Relatório Fevereiro limpo: {relatorio_fluxo_fev_clean.shape[0]} registros")
print(f"   [OK] Relatório Fevereiro limpo: {relatorio_fluxo_mar_clean.shape[0]} registros")
print(f"   [OK] Relatório Fevereiro limpo: {relatorio_fluxo_abr_clean.shape[0]} registros")
print(f"   [OK] Relatório Fevereiro limpo: {relatorio_fluxo_mai_clean.shape[0]} registros")
print(f"   [OK] Relatório Fevereiro limpo: {relatorio_fluxo_jun_clean.shape[0]} registros")
print(f"   [OK] Relatório Fevereiro limpo: {relatorio_fluxo_jul_clean.shape[0]} registros")
print(f"   [OK] Relatório Agosto limpo: {relatorio_fluxo_ago_clean.shape[0]} registros")

print(f"   [OK] Valores nulos Fevereiro: {relatorio_fluxo_jan_clean.isnull().sum().sum()}")
print(f"   [OK] Valores nulos Fevereiro: {relatorio_fluxo_fev_clean.isnull().sum().sum()}")
print(f"   [OK] Valores nulos Fevereiro: {relatorio_fluxo_mar_clean.isnull().sum().sum()}")
print(f"   [OK] Valores nulos Fevereiro: {relatorio_fluxo_abr_clean.isnull().sum().sum()}")
print(f"   [OK] Valores nulos Fevereiro: {relatorio_fluxo_mai_clean.isnull().sum().sum()}")
print(f"   [OK] Valores nulos Fevereiro: {relatorio_fluxo_jun_clean.isnull().sum().sum()}")
print(f"   [OK] Valores nulos Fevereiro: {relatorio_fluxo_jul_clean.isnull().sum().sum()}")
print(f"   [OK] Valores nulos Agosto: {relatorio_fluxo_ago_clean.isnull().sum().sum()}")



[CONFIGURANDO] Limpando dados dos relatórios de fluxo...


  relatorio_fluxo_mai_clean['data'] = pd.to_datetime(relatorio_fluxo_mai_clean['data'], errors='coerce')


   [OK] Relatório Fevereiro limpo: 283999 registros
   [OK] Relatório Fevereiro limpo: 273529 registros
   [OK] Relatório Fevereiro limpo: 301067 registros
   [OK] Relatório Fevereiro limpo: 292669 registros
   [OK] Relatório Fevereiro limpo: 300932 registros
   [OK] Relatório Fevereiro limpo: 289577 registros
   [OK] Relatório Fevereiro limpo: 297149 registros
   [OK] Relatório Agosto limpo: 298228 registros
   [OK] Valores nulos Fevereiro: 283999
   [OK] Valores nulos Fevereiro: 0
   [OK] Valores nulos Fevereiro: 301067
   [OK] Valores nulos Fevereiro: 292669
   [OK] Valores nulos Fevereiro: 1203739
   [OK] Valores nulos Fevereiro: 0
   [OK] Valores nulos Fevereiro: 297149
   [OK] Valores nulos Agosto: 0


In [38]:
# ANÁLISES EXPLORATÓRIAS E ESTATÍSTICAS

print("=== ANÁLISES EXPLORATÓRIAS ===\n")

# 1. ANÁLISE DOS SEMÁFOROS
if semaforos_clean is not None:
    print("[SINAL] ANÁLISE DOS SEMÁFOROS:")
    print(f"   - Total de semáforos: {len(semaforos_clean)}")
    print(f"   - Bairros únicos: {semaforos_clean['bairro'].nunique()}")
    print(f"   - Tipos de funcionamento: {semaforos_clean['funcionamento'].value_counts().to_dict()}")
    print(f"   - Coordenadas válidas: {semaforos_clean[['latitude', 'longitude']].notna().all(axis=1).sum()}")
else:
    print("[SINAL] SEMÁFOROS: Não disponível")

# 2. ANÁLISE DOS EQUIPAMENTOS DE MEDIÇÃO
if equip_med_vel_clean is not None:
    print("\n[ANALISE] ANÁLISE DOS EQUIPAMENTOS DE MEDIÇÃO:")
    print(f"   - Total de equipamentos: {len(equip_med_vel_clean)}")
    print(f"   - Colunas disponíveis: {list(equip_med_vel_clean.columns)}")
    
    # Análises condicionais baseadas nas colunas disponíveis
    if 'velocidade_fiscalizada' in equip_med_vel_clean.columns:
        print(f"   - Velocidade fiscalizada média: {equip_med_vel_clean['velocidade_fiscalizada'].mean():.1f} km/h")
    if 'vmd' in equip_med_vel_clean.columns:
        print(f"   - VMD médio: {equip_med_vel_clean['vmd'].mean():.0f} veículos")
    if 'faixas_fiscalizadas' in equip_med_vel_clean.columns:
        print(f"   - Faixas fiscalizadas: {equip_med_vel_clean['faixas_fiscalizadas'].value_counts().to_dict()}")
else:
    print("\n[ANALISE] EQUIPAMENTOS DE MEDIÇÃO: Não disponível")

# 3. ANÁLISE DO FLUXO DE VEÍCULOS
if fluxo_veiculos_hora_clean is not None:
    print("\n[VEICULO] ANÁLISE DO FLUXO DE VEÍCULOS:")
    print(f"   - Registros de fluxo por hora: {len(fluxo_veiculos_hora_clean)}")
    print(f"   - Equipamentos únicos: {fluxo_veiculos_hora_clean['equipamento'].nunique()}")
    print(f"   - Total de veículos registrados: {fluxo_veiculos_hora_clean['quanttotal'].sum():,.0f}")
else:
    print("\n[VEICULO] FLUXO DE VEÍCULOS: Não disponível")

# 4. ANÁLISE DOS DADOS DE VELOCIDADE EM 15 MINUTOS
if fluxo_velocidade_15min_clean is not None:
    print("\n[RAPIDO] ANÁLISE DE VELOCIDADE EM 15 MINUTOS:")
    print(f"   - Registros de velocidade: {len(fluxo_velocidade_15min_clean)}")
    print(f"   - Período dos dados: {fluxo_velocidade_15min_clean['data'].min()} a {fluxo_velocidade_15min_clean['data'].max()}")
    print(f"   - Equipamentos únicos: {fluxo_velocidade_15min_clean['equipamento'].nunique()}")
else:
    print("\n[RAPIDO] VELOCIDADE EM 15 MINUTOS: Não disponível")

# 5. ANÁLISE DOS RELATÓRIOS DE FLUXO
if relatorio_fluxo_jan_clean is not None and relatorio_fluxo_fev_clean is not None and relatorio_fluxo_mar_clean is not None and relatorio_fluxo_abr_clean is not None and relatorio_fluxo_mai_clean is not None and relatorio_fluxo_jun_clean is not None and relatorio_fluxo_jul_clean is not None and relatorio_fluxo_ago_clean is not None:
    print("\n[CRESCIMENTO] ANÁLISE DOS RELATÓRIOS DE FLUXO:")
    print(f"   - Registros Janeiro 2025: {len(relatorio_fluxo_jan_clean)}")
    print(f"   - Registros Fevereiro 2025: {len(relatorio_fluxo_fev_clean)}")
    print(f"   - Registros Março 2025: {len(relatorio_fluxo_mar_clean)}")
    print(f"   - Registros Abril 2025: {len(relatorio_fluxo_abr_clean)}")
    print(f"   - Registros Maio 2025: {len(relatorio_fluxo_mai_clean)}")
    print(f"   - Registros Junho 2025: {len(relatorio_fluxo_jun_clean)}")
    print(f"   - Registros Julho 2025: {len(relatorio_fluxo_jul_clean)}")
    print(f"   - Registros Agosto 2025: {len(relatorio_fluxo_ago_clean)}")
    print(f"   - Total de registros: {len(relatorio_fluxo_ago_clean) + len(relatorio_fluxo_fev_clean) + len(relatorio_fluxo_jan_clean) + len(relatorio_fluxo_mar_clean) + len(relatorio_fluxo_abr_clean) + len(relatorio_fluxo_mai_clean) + len(relatorio_fluxo_jun_clean) + len(relatorio_fluxo_jul_clean)}")
else:
    print("\n[CRESCIMENTO] RELATÓRIOS DE FLUXO: Parcialmente disponível")


=== ANÁLISES EXPLORATÓRIAS ===

[SINAL] ANÁLISE DOS SEMÁFOROS:
   - Total de semáforos: 712
   - Bairros únicos: 86
   - Tipos de funcionamento: {'Veicular': 336, 'Ocasional/Ped.': 217, 'Veic.C/Ped.Paral.': 58, 'Veic.C/Ped.Ocas.': 48, 'Veic.C/Ped.': 32, 'Pedestre': 14, 'Veic.c/Ped.Ocas.': 6, 'Veic.C/Laço Det.': 1}
   - Coordenadas válidas: 711

[ANALISE] ANÁLISE DOS EQUIPAMENTOS DE MEDIÇÃO:
   - Total de equipamentos: 62
   - Colunas disponíveis: ['_id', 'equipamento', 'tipo', 'logradouro', 'velocidade_via', 'latitude', 'longitude']

[VEICULO] ANÁLISE DO FLUXO DE VEÍCULOS:
   - Registros de fluxo por hora: 672
   - Equipamentos únicos: 28
   - Total de veículos registrados: 15,295,616

[RAPIDO] ANÁLISE DE VELOCIDADE EM 15 MINUTOS:
   - Registros de velocidade: 342796
   - Período dos dados: 2025-01-01 00:00:00 a 2025-01-31 00:00:00
   - Equipamentos únicos: 40

[CRESCIMENTO] ANÁLISE DOS RELATÓRIOS DE FLUXO:
   - Registros Janeiro 2025: 283999
   - Registros Fevereiro 2025: 273529
   - 

In [39]:
# SALVAR DADOS PROCESSADOS

print("=== SALVANDO DADOS PROCESSADOS ===\n")

import os

# Criar diretório de dados processados se não existir
data_processed_path = os.path.join(project_root, "data", "processed")
os.makedirs(data_processed_path, exist_ok=True)

# Salvar apenas os datasets que foram processados
datasets_clean = {
    "semaforos_clean.csv": semaforos_clean,
    "equipamentos_medicao_velocidade_clean.csv": equip_med_vel_clean,
    "fluxo_veiculos_hora_clean.csv": fluxo_veiculos_hora_clean,
    "fluxo_velocidade_15min_clean.csv": fluxo_velocidade_15min_clean,
    "monitoramento_cttu_clean.csv": monitoramento_cttu_df,  # Este não foi limpo ainda
    "relatorio_fluxo_janeiro_2025_clean.csv": relatorio_fluxo_jan_clean,
    "relatorio_fluxo_fevereiro_2025_clean.csv": relatorio_fluxo_fev_clean,
    "relatorio_fluxo_marco_2025_clean.csv": relatorio_fluxo_mar_clean,
    "relatorio_fluxo_abril_2025_clean.csv": relatorio_fluxo_abr_clean,
    "relatorio_fluxo_maio_2025_clean.csv": relatorio_fluxo_mai_clean,
    "relatorio_fluxo_junho_2025_clean.csv": relatorio_fluxo_jun_clean,
    "relatorio_fluxo_julho_2025_clean.csv": relatorio_fluxo_jul_clean,
    "relatorio_fluxo_agosto_2025_clean.csv": relatorio_fluxo_ago_clean
}

# Filtrar apenas datasets que não são None
datasets_para_salvar = {k: v for k, v in datasets_clean.items() if v is not None}

for filename, df in datasets_para_salvar.items():
    filepath = os.path.join(data_processed_path, filename)
    df.to_csv(filepath, index=False, encoding='utf-8')
    print(f"[OK] Salvo: {filename} ({df.shape[0]} registros)")

# Mostrar quais datasets não foram salvos
datasets_nao_salvos = {k: v for k, v in datasets_clean.items() if v is None}
if datasets_nao_salvos:
    print(f"\n[ATENCAO]  Datasets não salvos (não disponíveis): {list(datasets_nao_salvos.keys())}")

print(f"\n[SUCESSO] Dados processados salvos em '{data_processed_path}'")
print(f"[ARQUIVO] Total de arquivos salvos: {len(datasets_para_salvar)}")

# Resumo final
print("\n=== RESUMO FINAL ===")
total_registros = sum(df.shape[0] for df in datasets_para_salvar.values())
print(f"[ANALISE] Total de registros processados: {total_registros:,}")
print(f"[ARMAZENANDO] Tamanho total estimado: {sum(df.memory_usage(deep=True).sum() for df in datasets_para_salvar.values()) / 1024**2:.2f} MB")


=== SALVANDO DADOS PROCESSADOS ===

[OK] Salvo: semaforos_clean.csv (712 registros)
[OK] Salvo: equipamentos_medicao_velocidade_clean.csv (62 registros)
[OK] Salvo: fluxo_veiculos_hora_clean.csv (672 registros)
[OK] Salvo: fluxo_velocidade_15min_clean.csv (342796 registros)
[OK] Salvo: monitoramento_cttu_clean.csv (54 registros)
[OK] Salvo: relatorio_fluxo_janeiro_2025_clean.csv (283999 registros)
[OK] Salvo: relatorio_fluxo_fevereiro_2025_clean.csv (273529 registros)
[OK] Salvo: relatorio_fluxo_marco_2025_clean.csv (301067 registros)
[OK] Salvo: relatorio_fluxo_abril_2025_clean.csv (292669 registros)
[OK] Salvo: relatorio_fluxo_maio_2025_clean.csv (300932 registros)
[OK] Salvo: relatorio_fluxo_junho_2025_clean.csv (289577 registros)
[OK] Salvo: relatorio_fluxo_julho_2025_clean.csv (297149 registros)
[OK] Salvo: relatorio_fluxo_agosto_2025_clean.csv (298228 registros)

[SUCESSO] Dados processados salvos em 'c:\Users\berna\OneDrive\Documentos\Computação\projetos\urban-flow-project-g16\d

In [40]:
# GERAÇÃO AUTOMÁTICA DE SCHEMAS SQL

print("=== GERAÇÃO AUTOMÁTICA DE SCHEMAS SQL ===\n")

def generate_sql_schema(df, table_name, primary_key=None):
    """Gera schema SQL automaticamente baseado no DataFrame"""
    if df is None or df.empty:
        return None
    
    schema_lines = [f"CREATE TABLE IF NOT EXISTS {table_name} ("]
    
    # Adicionar colunas
    for i, (col, dtype) in enumerate(df.dtypes.items()):
        # Converter tipos do pandas para SQL
        if dtype == 'int64':
            sql_type = "INTEGER"
        elif dtype == 'float64':
            sql_type = "DECIMAL(10, 2)"
        elif dtype == 'object':
            # Para strings, verificar tamanho máximo
            try:
                max_len = df[col].astype(str).str.len().max()
                if max_len > 255:
                    sql_type = "TEXT"
                else:
                    sql_type = f"VARCHAR({max(255, max_len)})"
            except:
                sql_type = "TEXT"
        elif 'datetime' in str(dtype):
            sql_type = "TIMESTAMP"
        else:
            sql_type = "TEXT"
        
        # CORREÇÕES ESPECÍFICAS PARA TIPOS DE DADOS
        # Coordenadas com precisão correta
        if col in ['latitude']:
            sql_type = "DECIMAL(10, 8)"
        elif col in ['longitude']:
            sql_type = "DECIMAL(11, 8)"
        
        # Horários como TIME em vez de TIMESTAMP
        if col in ['horainicio', 'horafinal']:
            sql_type = "TIME"
        
        # Datas como DATE em vez de TIMESTAMP
        if col == 'data' and 'datetime' in str(dtype):
            sql_type = "DATE"
        
        # Adicionar PRIMARY KEY se especificado
        if primary_key and col == primary_key:
            if col == '_id':
                sql_type += " PRIMARY KEY"  # INTEGER PRIMARY KEY
            else:
                sql_type += " SERIAL PRIMARY KEY"  # SERIAL PRIMARY KEY
        elif not primary_key and i == 0:
            sql_type += " SERIAL PRIMARY KEY"
        
        col_name = col.replace('-', '_')
        schema_lines.append(f"    {col_name} {sql_type},")
    
    # Adicionar campo created_at
    schema_lines.append("    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP")
    schema_lines.append(");")
    
    return "\n".join(schema_lines)

# Gerar schemas para todos os datasets processados
print("[RESUMO] Gerando schemas SQL automaticamente...")

schemas_generated = {}

# 1. Semáforos - usar _id como PRIMARY KEY
if semaforos_clean is not None:
    schema = generate_sql_schema(semaforos_clean, "semaforos", "_id")
    if schema:
        schemas_generated["semaforos_schema.sql"] = schema
        print("[OK] Schema gerado: semaforos")

# 2. Equipamentos de medição - usar _id como PRIMARY KEY
if equip_med_vel_clean is not None:
    schema = generate_sql_schema(equip_med_vel_clean, "equipamentos_medicao_velocidade", "_id")
    if schema:
        schemas_generated["equipamentos_medicao_schema.sql"] = schema
        print("[OK] Schema gerado: equipamentos_medicao_velocidade")

# 3. Fluxo de veículos por hora - usar id SERIAL
if fluxo_veiculos_hora_clean is not None:
    schema = generate_sql_schema(fluxo_veiculos_hora_clean, "fluxo_veiculos_hora", "id")
    if schema:
        schemas_generated["fluxo_veiculos_hora_schema.sql"] = schema
        print("[OK] Schema gerado: fluxo_veiculos_hora")

# 4. Fluxo e velocidade 15min - usar id SERIAL
if fluxo_velocidade_15min_clean is not None:
    schema = generate_sql_schema(fluxo_velocidade_15min_clean, "fluxo_velocidade_15min", "id")
    if schema:
        schemas_generated["fluxo_velocidade_15min_schema.sql"] = schema
        print("[OK] Schema gerado: fluxo_velocidade_15min")

# 5. Monitoramento CTTU - usar id SERIAL
if monitoramento_cttu_df is not None:
    schema = generate_sql_schema(monitoramento_cttu_df, "monitoramento_cttu", "id")
    if schema:
        schemas_generated["monitoramento_cttu_schema.sql"] = schema
        print("[OK] Schema gerado: monitoramento_cttu")

# 6. Relatório fluxo Agosto - usar id SERIAL
if relatorio_fluxo_ago_clean is not None:
    schema = generate_sql_schema(relatorio_fluxo_ago_clean, "relatorio_fluxo_agosto", "id")
    if schema:
        schemas_generated["relatorio_fluxo_agosto_schema.sql"] = schema
        print("[OK] Schema gerado: relatorio_fluxo_agosto")

# 7. Relatório fluxo Fevereiro - usar id SERIAL
if relatorio_fluxo_fev_clean is not None:
    schema = generate_sql_schema(relatorio_fluxo_fev_clean, "relatorio_fluxo_fevereiro", "id")
    if schema:
        schemas_generated["relatorio_fluxo_fevereiro_schema.sql"] = schema
        print("[OK] Schema gerado: relatorio_fluxo_fevereiro")

if relatorio_fluxo_jan_clean is not None:
    schema = generate_sql_schema(relatorio_fluxo_jan_clean, "relatorio_fluxo_janeiro", "id")
    if schema:
        schemas_generated["relatorio_fluxo_janeiro_schema.sql"] = schema
        print("[OK] Schema gerado: relatorio_fluxo_janeiro")

if relatorio_fluxo_mar_clean is not None:
    schema = generate_sql_schema(relatorio_fluxo_mar_clean, "relatorio_fluxo_marco", "id")
    if schema:
        schemas_generated["relatorio_fluxo_marco_schema.sql"] = schema
        print("[OK] Schema gerado: relatorio_fluxo_marco")

if relatorio_fluxo_abr_clean is not None:
    schema = generate_sql_schema(relatorio_fluxo_abr_clean, "relatorio_fluxo_abril", "id")
    if schema:
        schemas_generated["relatorio_fluxo_abril_schema.sql"] = schema
        print("[OK] Schema gerado: relatorio_fluxo_abril")

if relatorio_fluxo_mai_clean is not None:
    schema = generate_sql_schema(relatorio_fluxo_mai_clean, "relatorio_fluxo_maio", "id")
    if schema:
        schemas_generated["relatorio_fluxo_maio_schema.sql"] = schema
        print("[OK] Schema gerado: relatorio_fluxo_maio")

if relatorio_fluxo_jun_clean is not None:
    schema = generate_sql_schema(relatorio_fluxo_jun_clean, "relatorio_fluxo_junho", "id")
    if schema:
        schemas_generated["relatorio_fluxo_junho_schema.sql"] = schema
        print("[OK] Schema gerado: relatorio_fluxo_junho")

if relatorio_fluxo_jul_clean is not None:
    schema = generate_sql_schema(relatorio_fluxo_jul_clean, "relatorio_fluxo_julho", "id")
    if schema:
        schemas_generated["relatorio_fluxo_julho_schema.sql"] = schema
        print("[OK] Schema gerado: relatorio_fluxo_julho")
        
# Salvar schemas em arquivos
if schemas_generated:
    database_schemas_path = os.path.join(project_root, "database", "schemas")
    os.makedirs(database_schemas_path, exist_ok=True)
    
    for filename, schema in schemas_generated.items():
        filepath = os.path.join(database_schemas_path, filename)
        with open(filepath, 'w', encoding='utf-8') as f:
            f.write(schema)
        print(f"[ARMAZENANDO] Schema salvo: {filename}")
    
    print(f"\n[SUCESSO] {len(schemas_generated)} schemas SQL gerados automaticamente!")
    print(f"[ARQUIVO] Salvos em: {database_schemas_path}")
else:
    print("[ATENCAO]  Nenhum dataset processado encontrado para gerar schemas")


=== GERAÇÃO AUTOMÁTICA DE SCHEMAS SQL ===

[RESUMO] Gerando schemas SQL automaticamente...
[OK] Schema gerado: semaforos
[OK] Schema gerado: equipamentos_medicao_velocidade
[OK] Schema gerado: fluxo_veiculos_hora
[OK] Schema gerado: fluxo_velocidade_15min
[OK] Schema gerado: monitoramento_cttu
[OK] Schema gerado: relatorio_fluxo_agosto
[OK] Schema gerado: relatorio_fluxo_fevereiro
[OK] Schema gerado: relatorio_fluxo_janeiro
[OK] Schema gerado: relatorio_fluxo_marco
[OK] Schema gerado: relatorio_fluxo_abril
[OK] Schema gerado: relatorio_fluxo_maio
[OK] Schema gerado: relatorio_fluxo_junho
[OK] Schema gerado: relatorio_fluxo_julho
[ARMAZENANDO] Schema salvo: semaforos_schema.sql
[ARMAZENANDO] Schema salvo: equipamentos_medicao_schema.sql
[ARMAZENANDO] Schema salvo: fluxo_veiculos_hora_schema.sql
[ARMAZENANDO] Schema salvo: fluxo_velocidade_15min_schema.sql
[ARMAZENANDO] Schema salvo: monitoramento_cttu_schema.sql
[ARMAZENANDO] Schema salvo: relatorio_fluxo_agosto_schema.sql
[ARMAZENANDO]

### Limpando faixaazul.geojson para Grafana

In [6]:
import json
import geopandas as gpd
from http.server import SimpleHTTPRequestHandler, HTTPServer
import threading
import os

geojson_path = "../../data/raw/faixaazul.geojson"

# Ler e validar o .geojson
try:
    gdf = gpd.read_file(geojson_path)
    print("GeoJSON carregado com sucesso!")
    print("Número de faixas:", len(gdf))
except Exception as e:
    print("Erro ao ler o GeoJSON:", e)

# Garantir que o CRS está em WGS84 (EPSG:4326)
if gdf.crs is None or gdf.crs.to_string() != "EPSG:4326":
    gdf = gdf.to_crs(epsg=4326)
    print("Sistema de coordenadas ajustado para WGS84 (EPSG:4326)")

# Salvar uma versão "limpa" do GeoJSON
clean_path = "../../data/processed/faixaazul_clean.geojson"
gdf.to_file(clean_path, driver="GeoJSON")
print(f"Arquivo salvo: {clean_path}")

# Servidor HTTP para expor o arquivo

# Função para iniciar servidor simples
def start_server(directory=".", port=8080):
    os.chdir(directory)
    handler = SimpleHTTPRequestHandler
    httpd = HTTPServer(("", port), handler)
    print(f"Servidor rodando em http://localhost:{port}/")
    print(f"Acesse no Grafana: http://localhost:{port}/{os.path.basename(clean_path)}")
    httpd.serve_forever()

# Rodar o servidor em thread paralela
thread = threading.Thread(target=start_server, args=(".", 8080))
thread.daemon = True
thread.start()

GeoJSON carregado com sucesso!
Número de faixas: 12
Arquivo salvo: ../../data/processed/faixaazul_clean.geojson
Servidor rodando em http://localhost:8080/
Acesse no Grafana: http://localhost:8080/faixaazul_clean.geojson
