In [None]:
üìì 3_Integracao_Demografia/ ‚îÇ   ‚îú‚îÄ‚îÄ 3.1_Distribuicao_Populacional.ipynb ‚îÇ   ‚îú‚îÄ‚îÄ 3.2_Calculo_Densidade_Habitacional.ipynb ‚îÇ   ‚îî‚îÄ‚îÄ 3.3_Modelagem_Padroes_Temporais.ipynb

3.1_Distribuicao_Populacional.ipynb

In [None]:
# Distribui√ß√£o Populacional: Aloca√ß√£o da Popula√ß√£o para Edif√≠cios
# Este notebook distribui a popula√ß√£o dos setores censit√°rios para edif√≠cios individuais

import os
import pickle
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.notebook import tqdm
import numpy as np
import contextily as cx
from shapely.geometry import box
import warnings

# Ignorar avisos espec√≠ficos
warnings.filterwarnings('ignore', category=UserWarning)
warnings.filterwarnings('ignore', category=FutureWarning)

# Montando o Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Defini√ß√£o dos diret√≥rios
data_dir = '/content/drive/MyDrive/geoprocessamento_gnn/DATA'
results_dir = os.path.join(data_dir, 'results')
categorical_buildings_path = os.path.join(data_dir, 'intermediate_results', 'buildings_categorized.pkl')

# Verificando se arquivos necess√°rios existem
if not os.path.exists(categorical_buildings_path):
    raise FileNotFoundError(f"Arquivo n√£o encontrado: {categorical_buildings_path}. Execute os notebooks anteriores primeiro.")

# Carregando os dados de edif√≠cios categorizados
with open(categorical_buildings_path, 'rb') as f:
    buildings = pickle.load(f)

print(f"Dados carregados: {len(buildings)} edif√≠cios categorizados.")

In [None]:
# Identificando e carregando os dados dos setores censit√°rios
def load_census_data(datasets_dir, file_pattern='setores_censitarios'):
    """
    Identifica e carrega os dados dos setores censit√°rios.
    
    Args:
        datasets_dir: Diret√≥rio que cont√©m os datasets
        file_pattern: Padr√£o de nome para identificar o arquivo de setores censit√°rios
    
    Returns:
        GeoDataFrame com os dados dos setores censit√°rios
    """
    # Buscar arquivos que correspondem ao padr√£o
    census_files = []
    for root, dirs, files in os.walk(datasets_dir):
        for file in files:
            if file_pattern in file.lower() and (file.endswith('.gpkg') or file.endswith('.shp')):
                census_files.append(os.path.join(root, file))
    
    if not census_files:
        raise FileNotFoundError(f"Nenhum arquivo de setores censit√°rios encontrado com o padr√£o '{file_pattern}'")
    
    # Usar o primeiro arquivo encontrado
    census_file = census_files[0]
    print(f"Carregando dados de setores censit√°rios: {os.path.basename(census_file)}")
    
    # Identificar o tipo de arquivo e carregar adequadamente
    if census_file.endswith('.gpkg'):
        # Se for GeoPackage, listar as camadas dispon√≠veis
        import fiona
        layers = fiona.listlayers(census_file)
        
        if len(layers) == 0:
            raise ValueError(f"Nenhuma camada encontrada no arquivo {os.path.basename(census_file)}")
        
        # Usar a primeira camada
        layer = layers[0]
        print(f"Usando camada: {layer}")
        census_data = gpd.read_file(census_file, layer=layer)
    else:
        # Se for Shapefile
        census_data = gpd.read_file(census_file)
    
    # Verificar se o CRS √© compat√≠vel com os edif√≠cios
    if census_data.crs != buildings.crs:
        print(f"Transformando CRS de setores censit√°rios para compatibilidade: {census_data.crs} -> {buildings.crs}")
        census_data = census_data.to_crs(buildings.crs)
    
    # Explorar os dados carregados
    print(f"Dados carregados: {len(census_data)} setores censit√°rios")
    print(f"Colunas dispon√≠veis: {census_data.columns.tolist()}")
    
    return census_data

# Carregar os dados dos setores censit√°rios
census_data = load_census_data(data_dir)

In [None]:
# Identificando as colunas populacionais nos dados censit√°rios
def identify_population_columns(census_gdf):
    """
    Identifica colunas relacionadas √† popula√ß√£o nos dados censit√°rios.
    
    Args:
        census_gdf: GeoDataFrame com os dados dos setores censit√°rios
    
    Returns:
        Dicion√°rio com colunas populacionais identificadas
    """
    population_columns = {}
    
    # Palavras-chave para buscar em nomes de colunas
    keywords = {
        'total_population': ['populacao', 'pop_total', 'est_populacao', 'pop_', 'habitantes', 'pessoas'],
        'male_population': ['pop_masc', 'homens', 'masculino'],
        'female_population': ['pop_fem', 'mulheres', 'feminino'],
        'household_count': ['domicilios', 'residencias', 'habitacoes'],
        'density': ['densidade', 'dens_pop', 'densidade_pop'],
        'age_groups': ['faixa_', 'idade_', 'pop_0', 'pop_1', 'pop_2', 'pop_3', 'pop_4', 'pop_5', 'pop_6', 'pop_7', 'pop_8', 'pop_9']
    }
    
    # Buscar por correspond√™ncias nos nomes das colunas
    for category, search_terms in keywords.items():
        for col in census_gdf.columns:
            col_lower = col.lower()
            if any(term in col_lower for term in search_terms):
                if category == 'age_groups':
                    if 'age_groups' not in population_columns:
                        population_columns['age_groups'] = []
                    population_columns['age_groups'].append(col)
                else:
                    population_columns[category] = col
                    break
    
    # Verificar se encontramos a coluna principal de popula√ß√£o
    if 'total_population' not in population_columns:
        print("AVISO: N√£o foi poss√≠vel identificar a coluna de popula√ß√£o total.")
        print("Colunas num√©ricas dispon√≠veis:")
        numeric_cols = census_gdf.select_dtypes(include=['int64', 'float64']).columns.tolist()
        for col in numeric_cols:
            print(f"- {col}: {census_gdf[col].max()}")
        
        # Tentar usar a primeira coluna num√©rica com valores razo√°veis
        for col in numeric_cols:
            if census_gdf[col].max() > 100 and census_gdf[col].min() >= 0:
                population_columns['total_population'] = col
                print(f"Usando coluna '{col}' como popula√ß√£o total.")
                break
    
    # Exibir as colunas identificadas
    print("\nColunas populacionais identificadas:")
    for category, col in population_columns.items():
        if category != 'age_groups':
            print(f"- {category}: {col}")
        else:
            print(f"- {category}: {len(col)} colunas encontradas")
    
    return population_columns

# Identificar colunas populacionais
population_columns = identify_population_columns(census_data)

# Verificar e imprimir estat√≠sticas b√°sicas da popula√ß√£o
if 'total_population' in population_columns:
    pop_col = population_columns['total_population']
    print(f"\nEstat√≠sticas da popula√ß√£o total ({pop_col}):")
    print(f"- Total: {census_data[pop_col].sum():,.0f} habitantes")
    print(f"- M√©dia por setor: {census_data[pop_col].mean():,.2f} habitantes")
    print(f"- M√≠nimo: {census_data[pop_col].min():,.0f}")
    print(f"- M√°ximo: {census_data[pop_col].max():,.0f}")
else:
    raise ValueError("N√£o foi poss√≠vel identificar a coluna de popula√ß√£o total. Verifique os dados censit√°rios.")

In [None]:
# Verificar e visualizar os dados antes da distribui√ß√£o
def explore_input_data(buildings_gdf, census_gdf, pop_column):
    """
    Explora e visualiza os dados de entrada antes da distribui√ß√£o populacional.
    
    Args:
        buildings_gdf: GeoDataFrame com os edif√≠cios
        census_gdf: GeoDataFrame com os setores censit√°rios
        pop_column: Nome da coluna de popula√ß√£o total
    """
    # Verificar a sobreposi√ß√£o espacial entre os conjuntos de dados
    buildings_bbox = box(*buildings_gdf.total_bounds)
    census_bbox = box(*census_gdf.total_bounds)
    
    overlap = buildings_bbox.intersection(census_bbox).area / buildings_bbox.union(census_bbox).area
    print(f"Sobreposi√ß√£o espacial entre os conjuntos de dados: {overlap:.2%}")
    
    # Visualizar os dois conjuntos de dados
    fig, ax = plt.subplots(figsize=(15, 15))
    
    # Plotar setores censit√°rios com gradiente de popula√ß√£o
    census_gdf.plot(column=pop_column, ax=ax, alpha=0.5, cmap='viridis', legend=True,
                   legend_kwds={'label': f'Popula√ß√£o ({pop_column})', 'orientation': 'horizontal'})
    
    # Amostrar edif√≠cios para n√£o sobrecarregar a visualiza√ß√£o
    sample_size = min(5000, len(buildings_gdf))
    buildings_sample = buildings_gdf.sample(sample_size)
    
    # Plotar edif√≠cios por categoria
    if 'building_class_enhanced' in buildings_gdf.columns:
        buildings_sample.plot(column='building_class_enhanced', ax=ax, 
                              markersize=5, categorical=True, legend=False)
    else:
        buildings_sample.plot(ax=ax, color='red', markersize=5, alpha=0.5)
    
    # Adicionar mapa base
    try:
        cx.add_basemap(ax, crs=buildings_gdf.crs)
    except Exception as e:
        print(f"N√£o foi poss√≠vel adicionar o mapa base: {e}")
    
    # Configurar o gr√°fico
    ax.set_title('Setores Censit√°rios e Edif√≠cios', fontsize=16)
    plt.tight_layout()
    plt.show()
    
    # Analisar os tipos de edif√≠cios para a distribui√ß√£o populacional
    print("\nAn√°lise dos tipos de edif√≠cios para distribui√ß√£o populacional:")
    
    # Identificar edif√≠cios residenciais
    building_col = next((col for col in ['building', 'building_type', 'building_class_enhanced'] 
                         if col in buildings_gdf.columns), None)
    
    if building_col:
        # Contar tipos de edif√≠cios
        building_counts = buildings_gdf[building_col].value_counts()
        
        # Identificar tipos residenciais
        residential_keywords = ['residencial', 'residential', 'house', 'apartamento', 'apartments', 'habitacional', 'dwelling']
        residential_types = [t for t in building_counts.index if any(kw in str(t).lower() for kw in residential_keywords)]
        
        print(f"Tipos de edif√≠cios identificados como residenciais:")
        for res_type in residential_types:
            print(f"- {res_type}: {building_counts[res_type]} edif√≠cios")
        
        # Quantificar edif√≠cios potencialmente residenciais
        residential_count = sum(buildings_gdf[building_col].isin(residential_types))
        print(f"\nTotal de edif√≠cios potencialmente residenciais: {residential_count} ({residential_count/len(buildings_gdf):.2%})")
    else:
        print("N√£o foi poss√≠vel identificar uma coluna de tipos de edif√≠cios.")

# Explorar os dados de entrada
pop_column = population_columns['total_population']
explore_input_data(buildings, census_data, pop_column)

In [None]:
# Determinar quais edif√≠cios s√£o residenciais
def identify_residential_buildings(buildings_gdf):
    """
    Identifica edif√≠cios residenciais para distribui√ß√£o populacional.
    
    Args:
        buildings_gdf: GeoDataFrame com os edif√≠cios
    
    Returns:
        GeoDataFrame com coluna adicional indicando se o edif√≠cio √© residencial
    """
    buildings_copy = buildings_gdf.copy()
    
    # Adicionar coluna para indicar se o edif√≠cio √© residencial
    buildings_copy['is_residential'] = False
    
    # Palavras-chave que indicam uso residencial
    residential_keywords = [
        'residencial', 'residential', 'house', 'apartamento', 'apartments', 
        'habitacional', 'dwelling', 'casa', 'moradia', 'housing',
        'residencia', 'residence', 'home', 'domestic', 'domiciliar'
    ]
    
    # Colunas a verificar para uso residencial
    cols_to_check = [
        'building_class_enhanced', 'categoria_funcional', 'building', 
        'tipo', 'type', 'amenity', 'land_category', 'landuse'
    ]
    
    # Verificar em cada coluna se h√° indica√ß√£o de uso residencial
    for col in cols_to_check:
        if col in buildings_copy.columns:
            # Marcar como residencial se alguma palavra-chave for encontrada
            mask = buildings_copy[col].notna() & buildings_copy[col].astype(str).str.lower().apply(
                lambda x: any(kw in x for kw in residential_keywords)
            )
            buildings_copy.loc[mask, 'is_residential'] = True
    
    # Caso espec√≠fico: se tiver coluna 'building_class_enhanced' com classifica√ß√£o espec√≠fica
    if 'building_class_enhanced' in buildings_copy.columns:
        residential_classes = [
            'residencial_unifamiliar', 'residencial_multifamiliar', 
            'residencial_misto', 'residencial'
        ]
        mask = buildings_copy['building_class_enhanced'].isin(residential_classes)
        buildings_copy.loc[mask, 'is_residential'] = True
    
    # Estat√≠sticas sobre edif√≠cios residenciais identificados
    residential_count = buildings_copy['is_residential'].sum()
    print(f"Edif√≠cios residenciais identificados: {residential_count} ({residential_count/len(buildings_copy):.2%})")
    
    # Se nenhum edif√≠cio residencial for identificado, emitir aviso
    if residential_count == 0:
        print("AVISO: Nenhum edif√≠cio residencial identificado!")
        # Como alternativa, considerar todos os edif√≠cios
        buildings_copy['is_residential'] = True
        print("Considerando todos os edif√≠cios como potencialmente residenciais para distribui√ß√£o populacional.")
    
    return buildings_copy

# Identificar edif√≠cios residenciais
buildings_with_residential = identify_residential_buildings(buildings)

In [None]:
# Identificar crit√©rios para pesos de distribui√ß√£o populacional
def identify_distribution_weights(buildings_gdf):
    """
    Identifica crit√©rios para pesos na distribui√ß√£o populacional.
    
    Args:
        buildings_gdf: GeoDataFrame com os edif√≠cios
    
    Returns:
        Dicion√°rio com colunas a usar como pesos e estrat√©gia de distribui√ß√£o
    """
    weight_columns = {}
    
    # Verificar coluna de √°rea
    area_cols = [col for col in buildings_gdf.columns if 'area' in col.lower()]
    if area_cols:
        print("Colunas de √°rea encontradas:")
        for col in area_cols:
            non_zero = (buildings_gdf[col] > 0).sum()
            print(f"- {col}: {non_zero} valores n√£o-zero ({non_zero/len(buildings_gdf):.2%})")
        
        # Selecionar a coluna de √°rea com mais valores n√£o-zero
        best_area_col = max(area_cols, key=lambda c: (buildings_gdf[c] > 0).sum())
        weight_columns['area'] = best_area_col
    
    # Verificar coluna de volume
    volume_cols = [col for col in buildings_gdf.columns if 'volume' in col.lower()]
    if volume_cols:
        print("\nColunas de volume encontradas:")
        for col in volume_cols:
            non_zero = (buildings_gdf[col] > 0).sum()
            print(f"- {col}: {non_zero} valores n√£o-zero ({non_zero/len(buildings_gdf):.2%})")
        
        # Selecionar a coluna de volume com mais valores n√£o-zero
        best_volume_col = max(volume_cols, key=lambda c: (buildings_gdf[c] > 0).sum())
        weight_columns['volume'] = best_volume_col
    
    # Verificar coluna de altura ou n√∫mero de andares
    height_cols = [col for col in buildings_gdf.columns 
                  if any(term in col.lower() for term in ['height', 'altura', 'levels', 'andar', 'pavimento'])]
    if height_cols:
        print("\nColunas de altura/andares encontradas:")
        for col in height_cols:
            non_zero = (buildings_gdf[col] > 0).sum()
            print(f"- {col}: {non_zero} valores n√£o-zero ({non_zero/len(buildings_gdf):.2%})")
        
        # Selecionar a coluna de altura com mais valores n√£o-zero
        best_height_col = max(height_cols, key=lambda c: (buildings_gdf[c] > 0).sum())
        weight_columns['height'] = best_height_col
    
    # Determinar estrat√©gia de distribui√ß√£o
    strategy = 'area'  # Padr√£o: usar √°rea
    
    if 'volume' in weight_columns and (buildings_gdf[weight_columns['volume']] > 0).mean() > 0.5:
        # Se temos volume para mais de 50% dos edif√≠cios, usar volume
        strategy = 'volume'
        print("\nEstrat√©gia selecionada: Distribui√ß√£o por VOLUME (melhor representa√ß√£o do espa√ßo habit√°vel)")
    
    elif 'area' in weight_columns and 'height' in weight_columns:
        # Se temos √°rea e altura, usar produto (aproxima√ß√£o de volume)
        strategy = 'area_height'
        print("\nEstrat√©gia selecionada: Distribui√ß√£o por √ÅREA x ALTURA (aproxima√ß√£o de volume)")
    
    elif 'area' in weight_columns:
        # Se s√≥ temos √°rea, usar √°rea
        strategy = 'area'
        print("\nEstrat√©gia selecionada: Distribui√ß√£o por √ÅREA (√∫nica m√©trica dispon√≠vel)")
    
    else:
        # Se n√£o temos nenhuma m√©trica, usar contagem simples
        strategy = 'count'
        print("\nEstrat√©gia selecionada: Distribui√ß√£o por CONTAGEM (sem m√©tricas dimensionais dispon√≠veis)")
    
    weight_columns['strategy'] = strategy
    
    return weight_columns

# Identificar crit√©rios para pesos
weight_criteria = identify_distribution_weights(buildings_with_residential)

In [None]:
# Realizar jun√ß√£o espacial entre edif√≠cios e setores censit√°rios
def spatial_join_buildings_census(buildings_gdf, census_gdf):
    """
    Realiza a jun√ß√£o espacial entre edif√≠cios e setores censit√°rios.
    
    Args:
        buildings_gdf: GeoDataFrame com os edif√≠cios
        census_gdf: GeoDataFrame com os setores censit√°rios
    
    Returns:
        GeoDataFrame dos edif√≠cios com informa√ß√µes do setor censit√°rio
    """
    print("Realizando jun√ß√£o espacial entre edif√≠cios e setores censit√°rios...")
    
    # Verificar se os CRS s√£o compat√≠veis
    if buildings_gdf.crs != census_gdf.crs:
        print(f"Transformando CRS dos setores censit√°rios para compatibilidade")
        census_gdf = census_gdf.to_crs(buildings_gdf.crs)
    
    # Selecionar colunas relevantes dos setores censit√°rios para a jun√ß√£o
    census_cols = ['geometry']
    if 'total_population' in population_columns:
        census_cols.append(population_columns['total_population'])
    
    # Adicionar outras colunas demograficamente relevantes
    for cat, col in population_columns.items():
        if cat != 'age_groups' and cat != 'total_population':
            census_cols.append(col)
    
    # Adicionar colunas de faixa et√°ria, se dispon√≠veis
    if 'age_groups' in population_columns:
        census_cols.extend(population_columns['age_groups'])
    
    # Garantir que n√£o haja colunas duplicadas
    census_cols = list(dict.fromkeys(census_cols))
    
    # Realizar a jun√ß√£o espacial
    buildings_census = gpd.sjoin(buildings_gdf, census_gdf[census_cols], how='left', predicate='within')
    
    # Verificar resultados da jun√ß√£o
    matched = buildings_census[population_columns['total_population']].notna().sum()
    not_matched = buildings_census[population_columns['total_population']].isna().sum()
    
    print(f"Edif√≠cios associados a setores censit√°rios: {matched} ({matched/len(buildings_gdf):.2%})")
    
    if not_matched > 0:
        print(f"Edif√≠cios n√£o associados a setores censit√°rios: {not_matched} ({not_matched/len(buildings_gdf):.2%})")
        
        # Para edif√≠cios n√£o associados por 'within', tentar com 'intersects'
        if not_matched / len(buildings_gdf) > 0.05:  # Se mais de 5% n√£o foi associado
            print("Tentando associar edif√≠cios restantes usando interse√ß√£o...")
            
            # Identificar edif√≠cios n√£o associados
            unmatched_buildings = buildings_gdf[~buildings_gdf.index.isin(buildings_census.dropna(subset=[population_columns['total_population']]).index)]
            
            # Realizar jun√ß√£o por interse√ß√£o para os n√£o associados
            if len(unmatched_buildings) > 0:
                buildings_intersect = gpd.sjoin(unmatched_buildings, census_gdf[census_cols], how='left', predicate='intersects')
                
                # Adicionar os edif√≠cios associados por interse√ß√£o
                matched_by_intersect = buildings_intersect[population_columns['total_population']].notna().sum()
                
                if matched_by_intersect > 0:
                    # Mesclar os resultados
                    buildings_census = pd.concat([
                        buildings_census.dropna(subset=[population_columns['total_population']]),
                        buildings_intersect.dropna(subset=[population_columns['total_population']])
                    ])
                    
                    print(f"Edif√≠cios associados por interse√ß√£o: {matched_by_intersect}")
                    print(f"Total de edif√≠cios associados: {len(buildings_census)} ({len(buildings_census)/len(buildings_gdf):.2%})")
    
    return buildings_census

# Realizar jun√ß√£o espacial
buildings_with_census = spatial_join_buildings_census(buildings_with_residential, census_data)

In [None]:
# Calcular pesos para distribui√ß√£o populacional
def calculate_distribution_weights(buildings_census, weight_criteria):
    """
    Calcula pesos para distribui√ß√£o populacional com base na estrat√©gia selecionada.
    
    Args:
        buildings_census: GeoDataFrame dos edif√≠cios com dados censit√°rios
        weight_criteria: Dicion√°rio com crit√©rios de peso
    
    Returns:
        GeoDataFrame com pesos calculados
    """
    buildings_weights = buildings_census.copy()
    
    # Adicionar coluna de peso
    buildings_weights['weight'] = 0.0
    
    # Filtrar apenas edif√≠cios residenciais associados a setores censit√°rios
    pop_col = population_columns['total_population']
    mask_residential = buildings_weights['is_residential'] & buildings_weights[pop_col].notna()
    
    # Se n√£o houver edif√≠cios residenciais associados, usar todos os edif√≠cios
    if mask_residential.sum() == 0:
        print("AVISO: Nenhum edif√≠cio identificado como residencial com dados censit√°rios.")
        mask_residential = buildings_weights[pop_col].notna()
        print(f"Usando todos os {mask_residential.sum()} edif√≠cios com dados censit√°rios.")
    else:
        print(f"Usando {mask_residential.sum()} edif√≠cios residenciais com dados censit√°rios.")
    
    # Calcular pesos com base na estrat√©gia selecionada
    strategy = weight_criteria['strategy']
    
    if strategy == 'volume' and 'volume' in weight_criteria:
        print(f"Calculando pesos usando volume ({weight_criteria['volume']})")
        volume_col = weight_criteria['volume']
        
        # Garantir que n√£o haja valores negativos ou nulos
        buildings_weights.loc[mask_residential & (buildings_weights[volume_col] <= 0), volume_col] = buildings_weights.loc[mask_residential, volume_col].median()
        
        # Usar volume como peso
        buildings_weights.loc[mask_residential, 'weight'] = buildings_weights.loc[mask_residential, volume_col]
    
    elif strategy == 'area_height' and 'area' in weight_criteria and 'height' in weight_criteria:
        print(f"Calculando pesos usando √°rea ({weight_criteria['area']}) √ó altura ({weight_criteria['height']})")
        area_col = weight_criteria['area']
        height_col = weight_criteria['height']
        
        # Garantir que n√£o haja valores negativos ou nulos
        buildings_weights.loc[mask_residential & (buildings_weights[area_col] <= 0), area_col] = buildings_weights.loc[mask_residential, area_col].median()
        buildings_weights.loc[mask_residential & (buildings_weights[height_col] <= 0), height_col] = 1.0
        
        # Usar √°rea √ó altura como peso (aproxima√ß√£o de volume)
        buildings_weights.loc[mask_residential, 'weight'] = buildings_weights.loc[mask_residential, area_col] * buildings_weights.loc[mask_residential, height_col]
    
    elif strategy == 'area' and 'area' in weight_criteria:
        print(f"Calculando pesos usando √°rea ({weight_criteria['area']})")
        area_col = weight_criteria['area']
        
        # Garantir que n√£o haja valores negativos ou nulos
        buildings_weights.loc[mask_residential & (buildings_weights[area_col] <= 0), area_col] = buildings_weights.loc[mask_residential, area_col].median()
        
        # Usar √°rea como peso
        buildings_weights.loc[mask_residential, 'weight'] = buildings_weights.loc[mask_residential, area_col]
    
    else:
        print("Calculando pesos usando contagem simples (todos os edif√≠cios recebem peso igual)")
        # Usar contagem simples (peso igual para todos os edif√≠cios)
        buildings_weights.loc[mask_residential, 'weight'] = 1.0
    
    # Verificar se h√° pesos v√°lidos
    valid_weights = (buildings_weights['weight'] > 0).sum()
    
    if valid_weights == 0:
        print("AVISO: Nenhum peso v√°lido calculado. Usando contagem simples.")
        buildings_weights.loc[mask_residential, 'weight'] = 1.0
    else:
        print(f"Pesos v√°lidos calculados para {valid_weights} edif√≠cios.")
    
    # Estat√≠sticas dos pesos
    if valid_weights > 0:
        print("\nEstat√≠sticas dos pesos:")
        weight_stats = buildings_weights.loc[buildings_weights['weight'] > 0, 'weight'].describe()
        for stat, value in weight_stats.items():
            print(f"- {stat}: {value:.2f}")
    
    return buildings_weights

# Calcular pesos para distribui√ß√£o
buildings_with_weights = calculate_distribution_weights(buildings_with_census, weight_criteria)

In [None]:
# Distribuir a popula√ß√£o para os edif√≠cios
def distribute_population(buildings_weights, pop_column):
    """
    Distribui a popula√ß√£o dos setores censit√°rios para os edif√≠cios com base nos pesos.
    
    Args:
        buildings_weights: GeoDataFrame com pesos calculados
        pop_column: Coluna de popula√ß√£o total
    
    Returns:
        GeoDataFrame com popula√ß√£o distribu√≠da
    """
    print("Distribuindo popula√ß√£o para os edif√≠cios...")
    
    # Copiar o GeoDataFrame
    buildings_population = buildings_weights.copy()
    
    # Criar coluna para a popula√ß√£o distribu√≠da
    buildings_population['estimated_population'] = 0.0
    
    # Obter o √≠ndice do setor censit√°rio para agrupar
    census_index = buildings_population.columns.get_loc('index_right') if 'index_right' in buildings_population.columns else None
    
    if census_index is None:
        print("AVISO: Coluna 'index_right' n√£o encontrada ap√≥s a jun√ß√£o espacial.")
        # Tentar encontrar o √≠ndice de outra forma
        join_suffix = "_right"
        index_cols = [col for col in buildings_population.columns if col.endswith(join_suffix)]
        
        if index_cols:
            # Usar a primeira coluna como √≠ndice
            census_id_col = index_cols[0]
            print(f"Usando coluna '{census_id_col}' como identificador do setor censit√°rio.")
        else:
            # Criar ID tempor√°rio baseado no setor censit√°rio
            print("Criando ID tempor√°rio para os setores censit√°rios...")
            buildings_population['temp_census_id'] = buildings_population.groupby(pop_column).ngroup()
            census_id_col = 'temp_census_id'
    else:
        census_id_col = 'index_right'
    
    # Distribuir a popula√ß√£o por setor censit√°rio
    for census_id, group in tqdm(buildings_population.groupby(census_id_col), 
                              desc="Processando setores censit√°rios"):
        # Verificar se h√° edif√≠cios com peso neste grupo
        valid_group = group[group['weight'] > 0]
        
        if len(valid_group) == 0:
            continue
        
        # Obter a popula√ß√£o total do setor
        if pop_column in valid_group.columns:
            total_pop = valid_group[pop_column].iloc[0]
            
            # Verificar se a popula√ß√£o √© v√°lida
            if pd.isna(total_pop) or total_pop <= 0:
                continue
            
            # Calcular a soma dos pesos no setor
            sum_weights = valid_group['weight'].sum()
            
            if sum_weights > 0:
                # Distribuir proporcionalmente ao peso
                for idx in valid_group.index:
                    buildings_population.at[idx, 'estimated_population'] = (
                        valid_group.at[idx, 'weight'] / sum_weights * total_pop
                    )
    
    # Arredondar para n√∫mero inteiro de pessoas (preservando o total)
    # Esta t√©cnica mant√©m o total arredondando os maiores res√≠duos para cima
    buildings_population['temp_floor'] = np.floor(buildings_population['estimated_population']).astype(int)
    buildings_population['temp_residual'] = buildings_population['estimated_population'] - buildings_population['temp_floor']
    
    # Distribuir a popula√ß√£o por setor censit√°rio para garantir que o total seja mantido
    for census_id, group in buildings_population.groupby(census_id_col):
        # Calcular quantas pessoas est√£o faltando para atingir o total do setor
        if pop_column in group.columns:
            total_pop = group[pop_column].iloc[0] if len(group) > 0 else 0
            
            if pd.isna(total_pop) or total_pop <= 0:
                continue
            
            # Pessoas j√° alocadas (floor)
            allocated = group['temp_floor'].sum()
            
            # Pessoas faltando para atingir o total
            missing = int(round(total_pop - allocated))
            
            if missing > 0:
                # Ordenar por residual descendente
                residual_order = group.sort_values('temp_residual', ascending=False).index[:missing]
                
                # Adicionar 1 para os maiores residuais
                buildings_population.loc[residual_order, 'temp_floor'] += 1
    
    # Atualizar a popula√ß√£o estimada com os valores arredondados
    buildings_population['estimated_population'] = buildings_population['temp_floor']
    
    # Remover colunas tempor√°rias
    buildings_population = buildings_population.drop(columns=['temp_floor', 'temp_residual'])
    
    # Verificar resultados da distribui√ß√£o
    total_distributed = buildings_population['estimated_population'].sum()
    total_census = buildings_population[pop_column].dropna().iloc[0] if len(buildings_population) > 0 else 0
    
    print(f"\nResultados da distribui√ß√£o populacional:")
    print(f"- Popula√ß√£o total nos setores censit√°rios: {total_census:,.0f}")
    print(f"- Popula√ß√£o total distribu√≠da: {total_distributed:,.0f}")
    print(f"- Diferen√ßa: {total_distributed - total_census:,.0f} ({(total_distributed - total_census)/total_census*100:.2f}%)")
    
    # Estat√≠sticas da popula√ß√£o distribu√≠da para edif√≠cios residenciais
    res_pop = buildings_population[buildings_population['is_residential']]['estimated_population']
    if len(res_pop) > 0:
        print("\nEstat√≠sticas de popula√ß√£o por edif√≠cio residencial:")
        print(f"- M√©dia: {res_pop.mean():.2f} pessoas/edif√≠cio")
        print(f"- Mediana: {res_pop.median():.2f} pessoas/edif√≠cio")
        print(f"- M√°ximo: {res_pop.max():.2f} pessoas/edif√≠cio")
        print(f"- M√≠nimo: {res_pop[res_pop > 0].min():.2f} pessoas/edif√≠cio")
    
    return buildings_population

# Distribuir a popula√ß√£o
buildings_with_population = distribute_population(buildings_with_weights, population_columns['total_population'])

In [None]:
# Visualizar resultados da distribui√ß√£o populacional
def visualize_population_distribution(buildings_population, census_data, pop_column):
    """
    Visualiza os resultados da distribui√ß√£o populacional.
    
    Args:
        buildings_population: GeoDataFrame com popula√ß√£o distribu√≠da
        census_data: GeoDataFrame com setores censit√°rios
        pop_column: Coluna de popula√ß√£o total
    """
    # Criar figura com dois mapas lado a lado
    fig, axs = plt.subplots(1, 2, figsize=(20, 10))
    
    # Mapa 1: Setores censit√°rios com popula√ß√£o original
    census_data.plot(column=pop_column, ax=axs[0], alpha=0.5, cmap='viridis', legend=True,
                   legend_kwds={'label': f'Popula√ß√£o Original ({pop_column})', 'orientation': 'horizontal'})
    
    # Adicionar t√≠tulo
    axs[0].set_title('Popula√ß√£o por Setor Censit√°rio (Original)', fontsize=14)
    
    # Mapa 2: Edif√≠cios com popula√ß√£o distribu√≠da
    # Utilizar tamanho proporcional √† popula√ß√£o
    buildings_with_pop = buildings_population[buildings_population['estimated_population'] > 0]
    
    if len(buildings_with_pop) > 0:
        # Normalizar o tamanho dos pontos para melhor visualiza√ß√£o
        min_pop = buildings_with_pop['estimated_population'].min()
        max_pop = buildings_with_pop['estimated_population'].max()
        
        # Fun√ß√£o para calcular tamanho do ponto (entre 5 e 100)
        def point_size(pop):
            if max_pop == min_pop:
                return 10
            return 5 + (pop - min_pop) / (max_pop - min_pop) * 95
        
        # Aplicar fun√ß√£o para calcular tamanho
        buildings_with_pop['point_size'] = buildings_with_pop['estimated_population'].apply(point_size)
        
        # Plotar edif√≠cios com tamanho proporcional √† popula√ß√£o
        buildings_with_pop.plot(ax=axs[1], markersize='point_size', column='estimated_population',
                              alpha=0.7, cmap='plasma', legend=True,
                              legend_kwds={'label': 'Popula√ß√£o Distribu√≠da', 'orientation': 'horizontal'})
        
        # Adicionar t√≠tulo
        axs[1].set_title('Popula√ß√£o Distribu√≠da por Edif√≠cio', fontsize=14)
    else:
        axs[1].set_title('Nenhum edif√≠cio com popula√ß√£o distribu√≠da', fontsize=14)
    
    # Adicionar mapa base em ambos
    try:
        for ax in axs:
            cx.add_basemap(ax, crs=buildings_population.crs)
    except Exception as e:
        print(f"N√£o foi poss√≠vel adicionar o mapa base: {e}")
    
    # Ajustar layout
    plt.tight_layout()
    plt.show()
    
    # Gr√°ficos adicionais para an√°lise da distribui√ß√£o
    plt.figure(figsize=(10, 6))
    
    # Histograma da popula√ß√£o por edif√≠cio
    sns.histplot(buildings_population[buildings_population['estimated_population'] > 0]['estimated_population'], 
                 bins=30, kde=True)
    
    plt.title('Distribui√ß√£o da Popula√ß√£o por Edif√≠cio')
    plt.xlabel('Habitantes por Edif√≠cio')
    plt.ylabel('Frequ√™ncia')
    plt.tight_layout()
    plt.show()

# Visualizar resultados
visualize_population_distribution(buildings_with_population, census_data, population_columns['total_population'])

In [None]:
# Armazenar os resultados da distribui√ß√£o populacional
def save_population_distribution(buildings_population, filename='buildings_population.gpkg'):
    """
    Salva os resultados da distribui√ß√£o populacional para uso em an√°lises subsequentes.
    
    Args:
        buildings_population: GeoDataFrame com popula√ß√£o distribu√≠da
        filename: Nome do arquivo para salvamento
    
    Returns:
        Caminho para o arquivo salvo
    """
    # Criar pasta de resultados intermedi√°rios se n√£o existir
    results_dir = os.path.join(data_dir, 'intermediate_results')
    os.makedirs(results_dir, exist_ok=True)
    
    # Caminho completo para o arquivo
    result_path = os.path.join(results_dir, filename)
    
    # Salvar como GeoPackage
    buildings_population.to_file(result_path, driver='GPKG')
    
    # Salvar tamb√©m como pickle para preservar tipos de dados
    pickle_path = os.path.join(results_dir, 'buildings_population.pkl')
    with open(pickle_path, 'wb') as f:
        pickle.dump(buildings_population, f)
    
    print(f"Resultados da distribui√ß√£o populacional salvos em:\n- {result_path}\n- {pickle_path}")
    
    # Criar um relat√≥rio resumido em CSV
    report_data = {
        'building_type': [],
        'count': [],
        'total_population': [],
        'mean_population': [],
        'population_percentage': []
    }
    
    # Identificar coluna de tipo de edif√≠cio
    building_col = next((col for col in ['building_class_enhanced', 'building', 'categoria_funcional'] 
                      if col in buildings_population.columns), None)
    
    if building_col:
        # Agrupar por tipo de edif√≠cio
        for building_type, group in buildings_population.groupby(building_col):
            pop_sum = group['estimated_population'].sum()
            
            report_data['building_type'].append(building_type)
            report_data['count'].append(len(group))
            report_data['total_population'].append(pop_sum)
            report_data['mean_population'].append(pop_sum / len(group) if len(group) > 0 else 0)
            report_data['population_percentage'].append(pop_sum / buildings_population['estimated_population'].sum() * 100 if buildings_population['estimated_population'].sum() > 0 else 0)
    
        # Criar DataFrame e salvar como CSV
        report_df = pd.DataFrame(report_data)
        report_df = report_df.sort_values('total_population', ascending=False)
        
        report_path = os.path.join(results_dir, 'population_distribution_report.csv')
        report_df.to_csv(report_path, index=False)
        
        print(f"Relat√≥rio resumido salvo em: {report_path}")
    
    return result_path, pickle_path

# Salvar os resultados
gpkg_path, pickle_path = save_population_distribution(buildings_with_population)

In [None]:
# Resumo e conclus√£o
print("="*80)
print("RESUMO DA DISTRIBUI√á√ÉO POPULACIONAL")
print("="*80)

# Estat√≠sticas gerais
total_buildings = len(buildings_with_population)
residential_buildings = buildings_with_population['is_residential'].sum()
buildings_with_pop = (buildings_with_population['estimated_population'] > 0).sum()
total_pop = buildings_with_population['estimated_population'].sum()

print(f"Total de edif√≠cios processados: {total_buildings}")
print(f"Edif√≠cios identificados como residenciais: {residential_buildings} ({residential_buildings/total_buildings*100:.2f}%)")
print(f"Edif√≠cios com popula√ß√£o atribu√≠da: {buildings_with_pop} ({buildings_with_pop/total_buildings*100:.2f}%)")
print(f"Popula√ß√£o total distribu√≠da: {total_pop:,.0f}")

# Identificar coluna de tipo de edif√≠cio
building_col = next((col for col in ['building_class_enhanced', 'building', 'categoria_funcional'] 
                   if col in buildings_with_population.columns), None)

if building_col:
    # Top 5 tipos de edif√≠cios por popula√ß√£o
    pop_by_type = buildings_with_population.groupby(building_col)['estimated_population'].sum().sort_values(ascending=False)
    
    print("\nTop 5 tipos de edif√≠cios por popula√ß√£o:")
    for i, (building_type, pop) in enumerate(pop_by_type.head(5).items()):
        print(f"{i+1}. {building_type}: {pop:,.0f} habitantes ({pop/total_pop*100:.2f}%)")

# Benef√≠cios da distribui√ß√£o populacional
print("\nBenef√≠cios da distribui√ß√£o populacional:")
print("1. Estimativa detalhada da popula√ß√£o em escala de edif√≠cio")
print("2. Base para an√°lises avan√ßadas de exposi√ß√£o a riscos e planejamento urbano")
print("3. Identifica√ß√£o de hotspots populacionais de alta resolu√ß√£o")
print("4. Suporte para modelagem de padr√µes temporais de ocupa√ß√£o")

# Pr√≥ximos passos
print("\nPr√≥ximos passos:")
print("1. C√°lculo de m√©tricas de densidade habitacional")
print("2. Modelagem de padr√µes temporais de ocupa√ß√£o por tipo de edif√≠cio")
print("3. An√°lises de acessibilidade a servi√ßos essenciais")

print(f"\nOs resultados da distribui√ß√£o populacional foram salvos e est√£o prontos para o pr√≥ximo notebook:")
print(f"- GeoPackage: {os.path.basename(gpkg_path)}")
print(f"- Pickle: {os.path.basename(pickle_path)}")
print("="*80)

3.2_Calculo_Densidade_Habitacional.ipynb

In [None]:
# C√°lculo de Densidade Habitacional
# Este notebook calcula m√©tricas de densidade habitacional a partir da popula√ß√£o distribu√≠da

import os
import pickle
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.notebook import tqdm
import numpy as np
import contextily as cx
from matplotlib.colors import LinearSegmentedColormap
import warnings
from matplotlib.colors import TwoSlopeNorm
from shapely.geometry import box

# Ignorar avisos espec√≠ficos
warnings.filterwarnings('ignore', category=UserWarning)
warnings.filterwarnings('ignore', category=FutureWarning)

# Montando o Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Defini√ß√£o dos diret√≥rios
data_dir = '/content/drive/MyDrive/geoprocessamento_gnn/DATA'
results_dir = os.path.join(data_dir, 'intermediate_results')
buildings_population_path = os.path.join(results_dir, 'buildings_population.pkl')

# Verificando se arquivos necess√°rios existem
if not os.path.exists(buildings_population_path):
    raise FileNotFoundError(f"Arquivo n√£o encontrado: {buildings_population_path}. Execute o notebook 3.1_Distribuicao_Populacional.ipynb primeiro.")

# Carregando os dados de edif√≠cios com popula√ß√£o
with open(buildings_population_path, 'rb') as f:
    buildings_population = pickle.load(f)

print(f"Dados carregados: {len(buildings_population)} edif√≠cios com dados populacionais.")

In [None]:
# Verificar os dados carregados
def explore_population_data(buildings_gdf):
    """
    Explora os dados de popula√ß√£o distribu√≠da para an√°lise de densidade.
    
    Args:
        buildings_gdf: GeoDataFrame com edif√≠cios e popula√ß√£o distribu√≠da
    """
    # Verificar se a coluna de popula√ß√£o estimada existe
    if 'estimated_population' not in buildings_gdf.columns:
        raise ValueError("Coluna 'estimated_population' n√£o encontrada. Verifique se a distribui√ß√£o populacional foi realizada corretamente.")
    
    # Estat√≠sticas b√°sicas da popula√ß√£o
    pop_stats = buildings_gdf['estimated_population'].describe()
    
    print("Estat√≠sticas da popula√ß√£o distribu√≠da:")
    for stat, value in pop_stats.items():
        print(f"- {stat}: {value:.2f}")
    
    # Edif√≠cios com popula√ß√£o atribu√≠da
    buildings_with_pop = buildings_gdf[buildings_gdf['estimated_population'] > 0]
    
    print(f"\nEdif√≠cios com popula√ß√£o atribu√≠da: {len(buildings_with_pop)} ({len(buildings_with_pop)/len(buildings_gdf)*100:.2f}%)")
    print(f"Popula√ß√£o total: {buildings_gdf['estimated_population'].sum():,.0f} habitantes")
    
    # Verificar colunas dispon√≠veis para c√°lculo de densidade
    area_cols = [col for col in buildings_gdf.columns if 'area' in col.lower()]
    volume_cols = [col for col in buildings_gdf.columns if 'volume' in col.lower()]
    
    print("\nColunas dispon√≠veis para c√°lculo de densidade:")
    
    print("Colunas de √°rea:")
    for col in area_cols:
        coverage = buildings_gdf[col].notna().mean() * 100
        print(f"- {col}: {coverage:.2f}% de cobertura")
    
    print("\nColunas de volume:")
    for col in volume_cols:
        coverage = buildings_gdf[col].notna().mean() * 100
        print(f"- {col}: {coverage:.2f}% de cobertura")
    
    # Histograma da popula√ß√£o por edif√≠cio
    plt.figure(figsize=(10, 6))
    sns.histplot(buildings_with_pop['estimated_population'], bins=30, kde=True)
    plt.title('Distribui√ß√£o da Popula√ß√£o por Edif√≠cio')
    plt.xlabel('Habitantes por Edif√≠cio')
    plt.ylabel('Frequ√™ncia')
    plt.tight_layout()
    plt.show()

# Explorar os dados carregados
explore_population_data(buildings_population)

In [None]:
# Identificar colunas relevantes para c√°lculo de densidade
def identify_density_columns(buildings_gdf):
    """
    Identifica as colunas relevantes para c√°lculo de densidade habitacional.
    
    Args:
        buildings_gdf: GeoDataFrame com edif√≠cios e popula√ß√£o distribu√≠da
    
    Returns:
        Dicion√°rio com colunas identificadas para cada tipo de densidade
    """
    density_columns = {}
    
    # Identificar melhor coluna de √°rea
    area_candidates = [
        'area_m2', 'area', 'footprint_area', 'building_area',
        'roof_area_m2', 'roof_area', 'floor_area'
    ]
    
    # Verificar quais colunas existem e t√™m dados
    existing_area_cols = []
    for col in area_candidates:
        if col in buildings_gdf.columns and buildings_gdf[col].notna().any():
            coverage = buildings_gdf[col].notna().mean() * 100
            non_zero = (buildings_gdf[col] > 0).mean() * 100
            existing_area_cols.append((col, coverage, non_zero))
    
    # Selecionar a melhor coluna de √°rea (com maior cobertura e valores n√£o-zero)
    if existing_area_cols:
        # Ordenar por cobertura e depois por valores n√£o-zero
        existing_area_cols.sort(key=lambda x: (x[1], x[2]), reverse=True)
        best_area_col = existing_area_cols[0][0]
        density_columns['area'] = best_area_col
        print(f"Melhor coluna de √°rea identificada: {best_area_col} ({existing_area_cols[0][1]:.2f}% de cobertura)")
    else:
        print("Nenhuma coluna de √°rea identificada. Tentando buscar colunas alternativas...")
        # Buscar colunas que possam conter √°rea
        for col in buildings_gdf.columns:
            if 'area' in col.lower() and buildings_gdf[col].notna().any():
                density_columns['area'] = col
                coverage = buildings_gdf[col].notna().mean() * 100
                print(f"Coluna de √°rea alternativa: {col} ({coverage:.2f}% de cobertura)")
                break
    
    # Identificar melhor coluna de volume ou aproxima√ß√£o de volume
    volume_candidates = [
        'volume_m3', 'volume', 'building_volume'
    ]
    
    # Verificar quais colunas existem e t√™m dados
    existing_volume_cols = []
    for col in volume_candidates:
        if col in buildings_gdf.columns and buildings_gdf[col].notna().any():
            coverage = buildings_gdf[col].notna().mean() * 100
            non_zero = (buildings_gdf[col] > 0).mean() * 100
            existing_volume_cols.append((col, coverage, non_zero))
    
    # Selecionar a melhor coluna de volume
    if existing_volume_cols:
        existing_volume_cols.sort(key=lambda x: (x[1], x[2]), reverse=True)
        best_volume_col = existing_volume_cols[0][0]
        density_columns['volume'] = best_volume_col
        print(f"Melhor coluna de volume identificada: {best_volume_col} ({existing_volume_cols[0][1]:.2f}% de cobertura)")
    else:
        print("Nenhuma coluna de volume identificada.")
        
        # Verificar se temos altura/andares para aproxima√ß√£o de volume
        height_cols = [col for col in buildings_gdf.columns 
                      if any(term in col.lower() for term in ['height', 'altura', 'levels', 'andar', 'pavimento'])]
        
        if height_cols and 'area' in density_columns:
            # Usar a primeira coluna de altura encontrada
            height_col = height_cols[0]
            density_columns['height'] = height_col
            
            # Calcular aproxima√ß√£o de volume (√°rea √ó altura)
            print(f"Calculando aproxima√ß√£o de volume a partir de {density_columns['area']} √ó {height_col}")
            
            # Verificar cobertura da coluna de altura
            coverage = buildings_gdf[height_col].notna().mean() * 100
            print(f"Coluna de altura: {height_col} ({coverage:.2f}% de cobertura)")
    
    # Identificar coluna de tipo de edif√≠cio para an√°lises espec√≠ficas
    type_candidates = ['building_class_enhanced', 'categoria_funcional', 'building', 'type']
    
    for col in type_candidates:
        if col in buildings_gdf.columns and buildings_gdf[col].notna().any():
            density_columns['type'] = col
            coverage = buildings_gdf[col].notna().mean() * 100
            print(f"Coluna de tipo de edif√≠cio: {col} ({coverage:.2f}% de cobertura)")
            break
    
    return density_columns

# Identificar colunas para c√°lculo de densidade
density_columns = identify_density_columns(buildings_population)

# Verificar se temos as colunas necess√°rias
if 'area' not in density_columns:
    raise ValueError("N√£o foi poss√≠vel identificar uma coluna de √°rea. N√£o √© poss√≠vel calcular densidades habitacionais.")

In [None]:
# Calcular m√©tricas de densidade habitacional
def calculate_density_metrics(buildings_gdf, density_columns):
    """
    Calcula m√©tricas de densidade habitacional a partir da popula√ß√£o distribu√≠da.
    
    Args:
        buildings_gdf: GeoDataFrame com edif√≠cios e popula√ß√£o distribu√≠da
        density_columns: Dicion√°rio com colunas para c√°lculo de densidade
    
    Returns:
        GeoDataFrame com m√©tricas de densidade calculadas
    """
    # Copiar o GeoDataFrame para n√£o modificar o original
    buildings_density = buildings_gdf.copy()
    
    # Filtrar apenas edif√≠cios com popula√ß√£o
    buildings_with_pop = buildings_density[buildings_density['estimated_population'] > 0]
    
    print(f"Calculando m√©tricas de densidade para {len(buildings_with_pop)} edif√≠cios com popula√ß√£o...")
    
    # 1. Densidade por √°rea (habitantes/m¬≤) - m√©trica b√°sica
    area_col = density_columns['area']
    
    # Verificar se h√° valores nulos ou negativos
    invalid_area = (buildings_with_pop[area_col].isna()) | (buildings_with_pop[area_col] <= 0)
    if invalid_area.any():
        print(f"AVISO: {invalid_area.sum()} edif√≠cios t√™m √°rea inv√°lida (nula ou n√£o positiva).")
        
        # Usar √°rea m√©dia para substituir valores inv√°lidos
        median_area = buildings_with_pop.loc[~invalid_area, area_col].median()
        buildings_density.loc[invalid_area & (buildings_density['estimated_population'] > 0), area_col] = median_area
        print(f"Substituindo √°reas inv√°lidas pela mediana: {median_area:.2f} m¬≤")
    
    # Calcular densidade por √°rea
    buildings_density['density_per_area'] = buildings_density['estimated_population'] / buildings_density[area_col]
    
    # 2. Densidade por volume (habitantes/m¬≥), se dispon√≠vel
    if 'volume' in density_columns:
        volume_col = density_columns['volume']
        
        # Verificar valores inv√°lidos
        invalid_volume = (buildings_with_pop[volume_col].isna()) | (buildings_with_pop[volume_col] <= 0)
        if invalid_volume.any():
            print(f"AVISO: {invalid_volume.sum()} edif√≠cios t√™m volume inv√°lido (nulo ou n√£o positivo).")
            
            # Usar volume m√©dio para substituir valores inv√°lidos
            median_volume = buildings_with_pop.loc[~invalid_volume, volume_col].median()
            buildings_density.loc[invalid_volume & (buildings_density['estimated_population'] > 0), volume_col] = median_volume
            print(f"Substituindo volumes inv√°lidos pela mediana: {median_volume:.2f} m¬≥")
        
        # Calcular densidade por volume
        buildings_density['density_per_volume'] = buildings_density['estimated_population'] / buildings_density[volume_col]
    
    # Alternativa: densidade aproximada por √°rea √ó altura, se dispon√≠vel
    elif 'height' in density_columns:
        height_col = density_columns['height']
        
        # Verificar valores inv√°lidos
        invalid_height = (buildings_with_pop[height_col].isna()) | (buildings_with_pop[height_col] <= 0)
        if invalid_height.any():
            print(f"AVISO: {invalid_height.sum()} edif√≠cios t√™m altura inv√°lida (nula ou n√£o positiva).")
            
            # Usar altura m√©dia para substituir valores inv√°lidos
            median_height = buildings_with_pop.loc[~invalid_height, height_col].median()
            buildings_density.loc[invalid_height & (buildings_density['estimated_population'] > 0), height_col] = median_height
            print(f"Substituindo alturas inv√°lidas pela mediana: {median_height:.2f}")
        
        # Calcular volume aproximado (√°rea √ó altura)
        buildings_density['approx_volume'] = buildings_density[area_col] * buildings_density[height_col]
        
        # Calcular densidade por volume aproximado
        buildings_density['density_per_volume'] = buildings_density['estimated_population'] / buildings_density['approx_volume']
    
    # 3. Densidade por unidade habitacional (ocupa√ß√£o m√©dia), se poss√≠vel inferir unidades
    # Sup√µe-se que cada unidade habitacional tenha em m√©dia X m¬≤ (valor t√≠pico para resid√™ncias)
    avg_unit_area = 60  # Valor m√©dio t√≠pico para unidades habitacionais (ajustar conforme necess√°rio)
    
    # Estimativa do n√∫mero de unidades habitacionais
    if 'height' in density_columns:
        # Se temos altura, considerar o n√∫mero de pavimentos
        buildings_density['estimated_floors'] = buildings_density[height_col].map(lambda h: max(1, int(h / 3)))  # Estimativa de 3m por pavimento
        buildings_density['estimated_units'] = (buildings_density[area_col] * buildings_density['estimated_floors'] / avg_unit_area).round()
    else:
        # Sen√£o, assumir que toda a √°rea √© ocupada por unidades (edif√≠cio t√©rreo)
        buildings_density['estimated_units'] = (buildings_density[area_col] / avg_unit_area).round()
    
    # Evitar unidades zeradas
    buildings_density.loc[buildings_density['estimated_units'] <= 0, 'estimated_units'] = 1
    
    # Calcular densidade por unidade (ocupa√ß√£o m√©dia)
    buildings_density['occupancy_per_unit'] = buildings_density['estimated_population'] / buildings_density['estimated_units']
    
    # 4. Classificar edif√≠cios por n√≠vel de densidade
    # Criar intervalos de densidade por √°rea para classifica√ß√£o
    density_breaks = [0, 0.005, 0.01, 0.02, 0.05, float('inf')]  # habitantes/m¬≤
    density_labels = ['Muito baixa', 'Baixa', 'M√©dia', 'Alta', 'Muito alta']
    
    # Classificar usando pd.cut
    buildings_density['density_class'] = pd.cut(
        buildings_density['density_per_area'], 
        bins=density_breaks, 
        labels=density_labels,
        include_lowest=True
    )
    
    # 5. Calcular √≠ndice de densidade normalizado (0-1)
    # Usar m√©todo de normaliza√ß√£o min-max
    valid_density = buildings_density[buildings_density['density_per_area'] > 0]['density_per_area']
    
    if len(valid_density) > 0:
        min_density = valid_density.quantile(0.01)  # Usar 1¬∫ percentil para evitar outliers
        max_density = valid_density.quantile(0.99)  # Usar 99¬∫ percentil para evitar outliers
        
        # Normalizar entre 0 e 1
        buildings_density['density_index'] = buildings_density['density_per_area'].map(
            lambda x: max(0, min(1, (x - min_density) / (max_density - min_density))) if x > 0 else 0
        )
    
    # Exibir estat√≠sticas das m√©tricas calculadas
    print("\nEstat√≠sticas das m√©tricas de densidade:")
    
    metrics = ['density_per_area', 'density_per_volume', 'occupancy_per_unit', 'density_index']
    available_metrics = [m for m in metrics if m in buildings_density.columns]
    
    for metric in available_metrics:
        valid_values = buildings_density[buildings_density[metric] > 0][metric]
        
        if len(valid_values) > 0:
            print(f"\n{metric}:")
            stats = valid_values.describe(percentiles=[0.1, 0.25, 0.5, 0.75, 0.9])
            for stat, value in stats.items():
                print(f"- {stat}: {value:.6f}")
    
    # Distribui√ß√£o de classes de densidade
    if 'density_class' in buildings_density.columns:
        class_counts = buildings_density['density_class'].value_counts()
        print("\nDistribui√ß√£o de classes de densidade:")
        for cls, count in class_counts.items():
            print(f"- {cls}: {count} edif√≠cios ({count/len(buildings_density)*100:.2f}%)")
    
    return buildings_density

# Calcular m√©tricas de densidade
buildings_with_density = calculate_density_metrics(buildings_population, density_columns)

In [None]:
# Analisar densidade por tipo de edif√≠cio
def analyze_density_by_building_type(buildings_density, density_columns):
    """
    Analisa as m√©tricas de densidade por tipo de edif√≠cio.
    
    Args:
        buildings_density: GeoDataFrame com m√©tricas de densidade calculadas
        density_columns: Dicion√°rio com colunas para an√°lise
    """
    if 'type' not in density_columns:
        print("Coluna de tipo de edif√≠cio n√£o identificada. N√£o √© poss√≠vel analisar por tipo.")
        return
    
    type_col = density_columns['type']
    
    # Considerar apenas edif√≠cios com popula√ß√£o
    buildings_with_pop = buildings_density[buildings_density['estimated_population'] > 0]
    
    # Agrupar por tipo de edif√≠cio
    type_groups = buildings_with_pop.groupby(type_col)
    
    # Criar DataFrame para armazenar estat√≠sticas por tipo
    type_stats = []
    
    for building_type, group in type_groups:
        if pd.isna(building_type) or len(group) == 0:
            continue
        
        # Estat√≠sticas b√°sicas
        stats = {
            'building_type': building_type,
            'count': len(group),
            'total_population': group['estimated_population'].sum(),
            'mean_population': group['estimated_population'].mean()
        }
        
        # Adicionar estat√≠sticas de densidade
        if 'density_per_area' in group.columns:
            stats['mean_density_area'] = group['density_per_area'].mean()
            stats['median_density_area'] = group['density_per_area'].median()
        
        if 'density_per_volume' in group.columns:
            stats['mean_density_volume'] = group['density_per_volume'].mean()
            stats['median_density_volume'] = group['density_per_volume'].median()
        
        if 'occupancy_per_unit' in group.columns:
            stats['mean_occupancy'] = group['occupancy_per_unit'].mean()
            stats['median_occupancy'] = group['occupancy_per_unit'].median()
        
        # Distribui√ß√£o de classes de densidade
        if 'density_class' in group.columns:
            class_distribution = group['density_class'].value_counts(normalize=True).to_dict()
            for cls, proportion in class_distribution.items():
                stats[f'class_{cls}'] = proportion
        
        type_stats.append(stats)
    
    # Converter para DataFrame
    type_stats_df = pd.DataFrame(type_stats)
    
    # Ordenar por popula√ß√£o total
    if 'total_population' in type_stats_df.columns:
        type_stats_df = type_stats_df.sort_values('total_population', ascending=False)
    
    # Exibir estat√≠sticas
    print("Estat√≠sticas de densidade por tipo de edif√≠cio:")
    display(type_stats_df.head(10))
    
    # Visualizar compara√ß√µes
    if len(type_stats_df) > 1:
        # 1. Gr√°fico de barras para popula√ß√£o m√©dia por tipo
        plt.figure(figsize=(12, 6))
        
        # Limitar a 15 tipos para melhor visualiza√ß√£o
        plot_df = type_stats_df.head(15).copy()
        
        # Criar gr√°fico
        ax = sns.barplot(x='building_type', y='mean_population', data=plot_df)
        plt.title('Popula√ß√£o M√©dia por Tipo de Edif√≠cio', fontsize=14)
        plt.xlabel('Tipo de Edif√≠cio')
        plt.ylabel('Popula√ß√£o M√©dia')
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout()
        plt.show()
        
        # 2. Densidade m√©dia por tipo (se dispon√≠vel)
        if 'mean_density_area' in plot_df.columns:
            plt.figure(figsize=(12, 6))
            ax = sns.barplot(x='building_type', y='mean_density_area', data=plot_df)
            plt.title('Densidade M√©dia (hab/m¬≤) por Tipo de Edif√≠cio', fontsize=14)
            plt.xlabel('Tipo de Edif√≠cio')
            plt.ylabel('Densidade M√©dia (hab/m¬≤)')
            plt.xticks(rotation=45, ha='right')
            plt.tight_layout()
            plt.show()
        
        # 3. Ocupa√ß√£o m√©dia por tipo (se dispon√≠vel)
        if 'mean_occupancy' in plot_df.columns:
            plt.figure(figsize=(12, 6))
            ax = sns.barplot(x='building_type', y='mean_occupancy', data=plot_df)
            plt.title('Ocupa√ß√£o M√©dia por Unidade Habitacional por Tipo de Edif√≠cio', fontsize=14)
            plt.xlabel('Tipo de Edif√≠cio')
            plt.ylabel('Ocupa√ß√£o M√©dia (hab/unidade)')
            plt.xticks(rotation=45, ha='right')
            plt.tight_layout()
            plt.show()
    
    return type_stats_df

# Analisar densidade por tipo de edif√≠cio
type_density_stats = analyze_density_by_building_type(buildings_with_density, density_columns)

In [None]:
# Visualizar a distribui√ß√£o espacial de densidade
def visualize_density_distribution(buildings_density, variable='density_per_area', title=None):
    """
    Visualiza a distribui√ß√£o espacial de densidade habitacional.
    
    Args:
        buildings_density: GeoDataFrame com m√©tricas de densidade calculadas
        variable: Coluna de densidade a visualizar
        title: T√≠tulo do mapa (opcional)
    """
    # Filtrar edif√≠cios com densidade v√°lida
    valid_buildings = buildings_density[(buildings_density[variable] > 0) & buildings_density[variable].notna()]
    
    if len(valid_buildings) == 0:
        print(f"Nenhum edif√≠cio com valores v√°lidos para '{variable}'")
        return
    
    # Limitar valores extremos para melhor visualiza√ß√£o
    min_val = valid_buildings[variable].quantile(0.01)
    max_val = valid_buildings[variable].quantile(0.99)
    
    # Criar figura
    fig, ax = plt.subplots(figsize=(15, 15))
    
    # Definir paleta de cores personalizada
    cmap = LinearSegmentedColormap.from_list(
        'density', 
        ['#f2f0f7', '#cbc9e2', '#9e9ac8', '#6a51a3', '#320064'], 
        N=256
    )
    
    # Calcular tamanho dos pontos baseado na popula√ß√£o (para representa√ß√£o visual)
    max_pop = valid_buildings['estimated_population'].max()
    min_pop = valid_buildings['estimated_population'].min()
    
    if max_pop > min_pop:
        valid_buildings['point_size'] = valid_buildings['estimated_population'].map(
            lambda p: 5 + (p - min_pop) / (max_pop - min_pop) * 95
        )
    else:
        valid_buildings['point_size'] = 10
    
    # Plotar mapa de densidade
    im = valid_buildings.plot(
        column=variable,
        cmap=cmap,
        markersize='point_size',
        ax=ax,
        alpha=0.8,
        vmin=min_val,
        vmax=max_val,
        legend=True,
        legend_kwds={
            'label': f"Densidade Habitacional ({variable})",
            'orientation': 'horizontal',
            'shrink': 0.8,
            'pad': 0.01
        }
    )
    
    # Adicionar mapa base
    try:
        cx.add_basemap(ax, crs=buildings_density.crs)
    except Exception as e:
        print(f"N√£o foi poss√≠vel adicionar o mapa base: {e}")
    
    # Adicionar t√≠tulo
    if title:
        ax.set_title(title, fontsize=16)
    else:
        ax.set_title(f'Distribui√ß√£o Espacial de Densidade Habitacional ({variable})', fontsize=16)
    
    plt.tight_layout()
    plt.show()
    
    # Mapa adicional para classes de densidade (se dispon√≠vel)
    if 'density_class' in buildings_density.columns:
        # Criar figura
        fig, ax = plt.subplots(figsize=(15, 15))
        
        # Plotar mapa de classes de densidade
        buildings_density.plot(
            column='density_class',
            categorical=True,
            cmap='viridis',
            markersize='point_size' if 'point_size' in valid_buildings.columns else 10,
            ax=ax,
            alpha=0.8,
            legend=True,
            legend_kwds={
                'title': "Classe de Densidade",
                'loc': 'upper left',
                'bbox_to_anchor': (1, 1)
            }
        )
        
        # Adicionar mapa base
        try:
            cx.add_basemap(ax, crs=buildings_density.crs)
        except Exception as e:
            print(f"N√£o foi poss√≠vel adicionar o mapa base: {e}")
        
        # Adicionar t√≠tulo
        ax.set_title('Classifica√ß√£o de Densidade Habitacional', fontsize=16)
        
        plt.tight_layout()
        plt.show()

# Visualizar mapa de densidade habitacional
if 'density_per_area' in buildings_with_density.columns:
    visualize_density_distribution(buildings_with_density, 'density_per_area', 'Densidade Habitacional (hab/m¬≤)')

# Visualizar mapa de ocupa√ß√£o por unidade habitacional
if 'occupancy_per_unit' in buildings_with_density.columns:
    visualize_density_distribution(buildings_with_density, 'occupancy_per_unit', 'Ocupa√ß√£o por Unidade Habitacional')

In [None]:
# Calcular m√©tricas de densidade por c√©lula/grade para an√°lise espacial
def calculate_grid_density(buildings_gdf, cell_size=100):
    """
    Cria uma grade regular e calcula m√©tricas de densidade habitacional por c√©lula.
    
    Args:
        buildings_gdf: GeoDataFrame com edif√≠cios e popula√ß√£o
        cell_size: Tamanho da c√©lula da grade em metros
    
    Returns:
        GeoDataFrame com c√©lulas da grade e m√©tricas de densidade
    """
    # Verificar se o CRS √© projetado (necess√°rio para c√°lculos em metros)
    if not buildings_gdf.crs or not buildings_gdf.crs.is_projected:
        print("CRS n√£o √© projetado. Transformando para sistema de coordenadas projetado (UTM)...")
        buildings_gdf = buildings_gdf.to_crs(epsg=31983)  # UTM 23S (SIRGAS 2000)
    
    # Criar grade regular
    xmin, ymin, xmax, ymax = buildings_gdf.total_bounds
    
    # Ajustar os limites para m√∫ltiplos de cell_size
    xmin = np.floor(xmin / cell_size) * cell_size
    ymin = np.floor(ymin / cell_size) * cell_size
    xmax = np.ceil(xmax / cell_size) * cell_size
    ymax = np.ceil(ymax / cell_size) * cell_size
    
    # Criar sequ√™ncias de coordenadas
    x_coords = np.arange(xmin, xmax + cell_size, cell_size)
    y_coords = np.arange(ymin, ymax + cell_size, cell_size)
    
    # Criar c√©lulas da grade
    cells = []
    cell_id = 0
    
    for x in x_coords[:-1]:
        for y in y_coords[:-1]:
            # Criar pol√≠gono da c√©lula
            cell = box(x, y, x + cell_size, y + cell_size)
            
            cells.append({
                'cell_id': cell_id,
                'geometry': cell
            })
            
            cell_id += 1
    
    # Criar GeoDataFrame da grade
    grid = gpd.GeoDataFrame(cells, crs=buildings_gdf.crs)
    
    print(f"Grade criada com {len(grid)} c√©lulas de {cell_size}m √ó {cell_size}m")
    
    # Realizar jun√ß√£o espacial com edif√≠cios
    buildings_in_cells = gpd.sjoin(
        buildings_gdf[buildings_gdf['estimated_population'] > 0], 
        grid, 
        how='inner', 
        predicate='intersects'
    )
    
    # Agrupar por c√©lula e calcular m√©tricas
    cell_metrics = []
    
    for cell_id, group in tqdm(buildings_in_cells.groupby('cell_id'), desc="Calculando m√©tricas por c√©lula"):
        # Extrair geometria da c√©lula
        cell_geom = grid.loc[grid['cell_id'] == cell_id, 'geometry'].iloc[0]
        
        # Calcular m√©tricas
        metrics = {
            'cell_id': cell_id,
            'building_count': len(group),
            'population': group['estimated_population'].sum(),
            'population_density': group['estimated_population'].sum() / (cell_size * cell_size / 1e6),  # hab/km¬≤
            'geometry': cell_geom
        }
        
        # Adicionar estat√≠sticas de edif√≠cios
        if 'density_per_area' in group.columns:
            metrics['mean_building_density'] = group['density_per_area'].mean()
        
        if 'occupancy_per_unit' in group.columns:
            metrics['mean_occupancy'] = group['occupancy_per_unit'].mean()
        
        cell_metrics.append(metrics)
    
    # Criar GeoDataFrame com m√©tricas por c√©lula
    grid_metrics = gpd.GeoDataFrame(cell_metrics, crs=buildings_gdf.crs)
    
    # Adicionar classifica√ß√£o de densidade populacional
    if 'population_density' in grid_metrics.columns:
        # Definir intervalos para classifica√ß√£o
        density_breaks = [0, 1000, 5000, 10000, 20000, float('inf')]  # hab/km¬≤
        density_labels = ['Muito baixa', 'Baixa', 'M√©dia', 'Alta', 'Muito alta']
        
        # Classificar usando pd.cut
        grid_metrics['density_class'] = pd.cut(
            grid_metrics['population_density'], 
            bins=density_breaks, 
            labels=density_labels,
            include_lowest=True
        )
    
    # Exibir estat√≠sticas da grade
    if 'population' in grid_metrics.columns:
        print("\nEstat√≠sticas de densidade habitacional por c√©lula:")
        print(f"- C√©lulas com popula√ß√£o: {(grid_metrics['population'] > 0).sum()} ({(grid_metrics['population'] > 0).sum()/len(grid_metrics)*100:.2f}%)")
        print(f"- Popula√ß√£o total: {grid_metrics['population'].sum():,.0f}")
        print(f"- Densidade m√©dia: {grid_metrics['population_density'].mean():,.2f} hab/km¬≤")
        print(f"- Densidade m√°xima: {grid_metrics['population_density'].max():,.2f} hab/km¬≤")
    
    # Distribui√ß√£o de classes de densidade
    if 'density_class' in grid_metrics.columns:
        class_counts = grid_metrics['density_class'].value_counts()
        print("\nDistribui√ß√£o de classes de densidade por c√©lula:")
        for cls, count in class_counts.items():
            print(f"- {cls}: {count} c√©lulas ({count/(grid_metrics['population'] > 0).sum()*100:.2f}% das c√©lulas habitadas)")
    
    return grid_metrics

# Calcular densidade por grade regular
grid_density = calculate_grid_density(buildings_with_density, cell_size=200)

In [None]:
# Visualizar m√©tricas de densidade por c√©lula
def visualize_grid_density(grid_metrics):
    """
    Visualiza as m√©tricas de densidade habitacional por c√©lula da grade.
    
    Args:
        grid_metrics: GeoDataFrame com c√©lulas da grade e m√©tricas de densidade
    """
    # Verificar se temos dados de popula√ß√£o
    if 'population' not in grid_metrics.columns:
        print("Dados de popula√ß√£o por c√©lula n√£o encontrados.")
        return
    
    # Filtrar c√©lulas com popula√ß√£o
    inhabited_cells = grid_metrics[grid_metrics['population'] > 0]
    
    if len(inhabited_cells) == 0:
        print("Nenhuma c√©lula com popula√ß√£o encontrada.")
        return
    
    # 1. Mapa de densidade populacional
    fig, ax = plt.subplots(figsize=(15, 15))
    
    # Definir diverging colormap para densidade
    pop_min = inhabited_cells['population_density'].min()
    pop_max = inhabited_cells['population_density'].max()
    pop_median = inhabited_cells['population_density'].median()
    
    # Criar norma centralizada na mediana
    norm = TwoSlopeNorm(vmin=pop_min, vcenter=pop_median, vmax=pop_max)
    
    # Plotar mapa de densidade
    inhabited_cells.plot(
        column='population_density',
        cmap='viridis',
        ax=ax,
        alpha=0.7,
        norm=norm,
        legend=True,
        legend_kwds={
            'label': "Densidade Populacional (hab/km¬≤)",
            'orientation': 'horizontal',
            'shrink': 0.8,
            'pad': 0.01
        }
    )
    
    # Adicionar mapa base
    try:
        cx.add_basemap(ax, crs=grid_metrics.crs)
    except Exception as e:
        print(f"N√£o foi poss√≠vel adicionar o mapa base: {e}")
    
    # Adicionar t√≠tulo
    ax.set_title('Densidade Populacional por C√©lula (hab/km¬≤)', fontsize=16)
    
    plt.tight_layout()
    plt.show()
    
    # 2. Mapa de classes de densidade
    if 'density_class' in grid_metrics.columns:
        fig, ax = plt.subplots(figsize=(15, 15))
        
        # Plotar mapa de classes de densidade
        inhabited_cells.plot(
            column='density_class',
            categorical=True,
            cmap='plasma',
            ax=ax,
            alpha=0.7,
            legend=True,
            legend_kwds={
                'title': "Classe de Densidade",
                'loc': 'upper left',
                'bbox_to_anchor': (1, 1)
            }
        )
        
        # Adicionar mapa base
        try:
            cx.add_basemap(ax, crs=grid_metrics.crs)
        except Exception as e:
            print(f"N√£o foi poss√≠vel adicionar o mapa base: {e}")
        
        # Adicionar t√≠tulo
        ax.set_title('Classifica√ß√£o de Densidade Populacional por C√©lula', fontsize=16)
        
        plt.tight_layout()
        plt.show()
    
    # 3. Mapa de contagem de edif√≠cios
    if 'building_count' in grid_metrics.columns:
        fig, ax = plt.subplots(figsize=(15, 15))
        
        # Plotar mapa de contagem de edif√≠cios
        inhabited_cells.plot(
            column='building_count',
            cmap='YlOrRd',
            ax=ax,
            alpha=0.7,
            legend=True,
            legend_kwds={
                'label': "N√∫mero de Edif√≠cios",
                'orientation': 'horizontal',
                'shrink': 0.8,
                'pad': 0.01
            }
        )
        
        # Adicionar mapa base
        try:
            cx.add_basemap(ax, crs=grid_metrics.crs)
        except Exception as e:
            print(f"N√£o foi poss√≠vel adicionar o mapa base: {e}")
        
        # Adicionar t√≠tulo
        ax.set_title('N√∫mero de Edif√≠cios por C√©lula', fontsize=16)
        
        plt.tight_layout()
        plt.show()

# Visualizar densidade por grade
visualize_grid_density(grid_density)

In [None]:
# Calcular estat√≠sticas de ocupa√ß√£o por dormit√≥rio
def calculate_occupancy_statistics(buildings_gdf):
    """
    Calcula estat√≠sticas de ocupa√ß√£o por dormit√≥rio com base nas m√©tricas de densidade.
    
    Args:
        buildings_gdf: GeoDataFrame com m√©tricas de densidade calculadas
    
    Returns:
        DataFrame com estat√≠sticas de ocupa√ß√£o por dormit√≥rio
    """
    # Verificar se temos dados de ocupa√ß√£o por unidade
    if 'occupancy_per_unit' not in buildings_gdf.columns:
        print("Dados de ocupa√ß√£o por unidade n√£o encontrados.")
        return None
    
    # Filtrar apenas edif√≠cios residenciais com popula√ß√£o
    residential_buildings = buildings_gdf[(buildings_gdf['is_residential'] == True) & 
                                         (buildings_gdf['estimated_population'] > 0)]
    
    if len(residential_buildings) == 0:
        print("Nenhum edif√≠cio residencial com popula√ß√£o encontrado.")
        return None
    
    # Definir par√¢metros para estimativa de dormit√≥rios
    # Sup√µe-se que cada unidade tenha um certo n√∫mero de dormit√≥rios conforme a √°rea
    
    # Fun√ß√£o para estimar n√∫mero de dormit√≥rios com base na √°rea da unidade
    def estimate_bedrooms(unit_area):
        if unit_area < 40:
            return 1  # Est√∫dio ou 1 dormit√≥rio
        elif unit_area < 70:
            return 2  # 2 dormit√≥rios
        elif unit_area < 100:
            return 3  # 3 dormit√≥rios
        else:
            return 4  # 4 ou mais dormit√≥rios
    
    # Estimar √°rea m√©dia por unidade
    area_col = density_columns['area']
    
    if 'estimated_units' in residential_buildings.columns and 'estimated_floors' in residential_buildings.columns:
        # Calcular √°rea m√©dia por unidade
        residential_buildings['unit_area'] = residential_buildings[area_col] * residential_buildings['estimated_floors'] / residential_buildings['estimated_units']
    else:
        # Usar √°rea total dividida pelo n√∫mero estimado de unidades
        residential_buildings['unit_area'] = residential_buildings[area_col] / residential_buildings['estimated_units']
    
    # Estimar n√∫mero de dormit√≥rios
    residential_buildings['estimated_bedrooms'] = residential_buildings['unit_area'].apply(estimate_bedrooms)
    
    # Calcular ocupa√ß√£o por dormit√≥rio
    residential_buildings['occupancy_per_bedroom'] = residential_buildings['estimated_population'] / (residential_buildings['estimated_bedrooms'] * residential_buildings['estimated_units'])
    
    # Corrigir valores inv√°lidos
    residential_buildings.loc[residential_buildings['occupancy_per_bedroom'].isna() | 
                          (residential_buildings['occupancy_per_bedroom'] <= 0) |
                          (residential_buildings['occupancy_per_bedroom'] > 10), 'occupancy_per_bedroom'] = np.nan
    
    # Estat√≠sticas de ocupa√ß√£o por dormit√≥rio
    bedroom_stats = residential_buildings['occupancy_per_bedroom'].describe(percentiles=[0.1, 0.25, 0.5, 0.75, 0.9])
    
    print("Estat√≠sticas de ocupa√ß√£o por dormit√≥rio:")
    for stat, value in bedroom_stats.items():
        print(f"- {stat}: {value:.4f}")
    
    # Classificar ocupa√ß√£o por dormit√≥rio
    # Definir intervalos para classifica√ß√£o
    occupancy_breaks = [0, 0.5, 1.0, 1.5, 2.0, float('inf')]
    occupancy_labels = ['Muito baixa', 'Baixa', 'Normal', 'Alta', 'Muito alta']
    
    # Classificar usando pd.cut
    residential_buildings['bedroom_occupancy_class'] = pd.cut(
        residential_buildings['occupancy_per_bedroom'], 
        bins=occupancy_breaks, 
        labels=occupancy_labels,
        include_lowest=True
    )
    
    # Resumo da classifica√ß√£o
    occupancy_class_stats = residential_buildings['bedroom_occupancy_class'].value_counts()
    
    print("\nDistribui√ß√£o de classes de ocupa√ß√£o por dormit√≥rio:")
    for cls, count in occupancy_class_stats.items():
        print(f"- {cls}: {count} edif√≠cios ({count/len(residential_buildings)*100:.2f}%)")
    
    # Analisar por tipo de edif√≠cio, se dispon√≠vel
    if 'type' in density_columns:
        type_col = density_columns['type']
        
        # Agrupar por tipo de edif√≠cio
        type_occupancy = residential_buildings.groupby(type_col)['occupancy_per_bedroom'].agg(['mean', 'median', 'std', 'count']).reset_index()
        type_occupancy = type_occupancy.sort_values('mean', ascending=False)
        
        print("\nOcupa√ß√£o m√©dia por dormit√≥rio por tipo de edif√≠cio:")
        display(type_occupancy.head(10))
    
    return residential_buildings

# Calcular estat√≠sticas de ocupa√ß√£o por dormit√≥rio
buildings_with_occupancy = calculate_occupancy_statistics(buildings_with_density)

In [None]:
# Salvar os resultados do c√°lculo de densidade habitacional
def save_density_metrics(buildings_gdf, grid_metrics=None, filename='buildings_density.gpkg'):
    """
    Salva os resultados do c√°lculo de densidade habitacional para uso em an√°lises subsequentes.
    
    Args:
        buildings_gdf: GeoDataFrame com m√©tricas de densidade calculadas
        grid_metrics: GeoDataFrame com m√©tricas de densidade por c√©lula (opcional)
        filename: Nome do arquivo para salvamento
    
    Returns:
        Caminhos para os arquivos salvos
    """
    # Criar pasta de resultados intermedi√°rios se n√£o existir
    results_dir = os.path.join(data_dir, 'intermediate_results')
    os.makedirs(results_dir, exist_ok=True)
    
    # Caminho completo para o arquivo de edif√≠cios
    buildings_path = os.path.join(results_dir, filename)
    
    # Salvar edif√≠cios como GeoPackage
    buildings_gdf.to_file(buildings_path, driver='GPKG')
    
    # Salvar tamb√©m como pickle para preservar tipos de dados
    buildings_pickle_path = os.path.join(results_dir, 'buildings_density.pkl')
    with open(buildings_pickle_path, 'wb') as f:
        pickle.dump(buildings_gdf, f)
    
    print(f"Resultados de densidade habitacional por edif√≠cio salvos em:\n- {buildings_path}\n- {buildings_pickle_path}")
    
    # Salvar grade se dispon√≠vel
    grid_paths = None
    if grid_metrics is not None:
        # Caminho para o arquivo da grade
        grid_path = os.path.join(results_dir, 'density_grid.gpkg')
        
        # Salvar grade como GeoPackage
        grid_metrics.to_file(grid_path, driver='GPKG')
        
        # Salvar tamb√©m como pickle
        grid_pickle_path = os.path.join(results_dir, 'density_grid.pkl')
        with open(grid_pickle_path, 'wb') as f:
            pickle.dump(grid_metrics, f)
        
        print(f"Resultados de densidade habitacional por c√©lula salvos em:\n- {grid_path}\n- {grid_pickle_path}")
        
        grid_paths = (grid_path, grid_pickle_path)
    
    # Criar um relat√≥rio resumido em CSV
    report_data = {}
    
    # Estat√≠sticas de densidade
    if 'density_per_area' in buildings_gdf.columns:
        density_stats = buildings_gdf[buildings_gdf['density_per_area'] > 0]['density_per_area'].describe()
        for stat, value in density_stats.items():
            report_data[f'density_area_{stat}'] = value
    
    if 'density_per_volume' in buildings_gdf.columns:
        volume_stats = buildings_gdf[buildings_gdf['density_per_volume'] > 0]['density_per_volume'].describe()
        for stat, value in volume_stats.items():
            report_data[f'density_volume_{stat}'] = value
    
    if 'occupancy_per_unit' in buildings_gdf.columns:
        occupancy_stats = buildings_gdf[buildings_gdf['occupancy_per_unit'] > 0]['occupancy_per_unit'].describe()
        for stat, value in occupancy_stats.items():
            report_data[f'occupancy_unit_{stat}'] = value
    
    # Estat√≠sticas por classe de densidade
    if 'density_class' in buildings_gdf.columns:
        class_counts = buildings_gdf['density_class'].value_counts()
        for cls, count in class_counts.items():
            report_data[f'class_{cls}'] = count
    
    # Criar DataFrame e salvar como CSV
    report_df = pd.DataFrame([report_data])
    report_path = os.path.join(results_dir, 'density_metrics_report.csv')
    report_df.to_csv(report_path, index=False)
    
    print(f"Relat√≥rio resumido salvo em: {report_path}")
    
    return (buildings_path, buildings_pickle_path), grid_paths

# Salvar os resultados
buildings_paths, grid_paths = save_density_metrics(buildings_with_density, grid_density)

In [None]:
# Resumo e conclus√£o
print("="*80)
print("RESUMO DAS M√âTRICAS DE DENSIDADE HABITACIONAL")
print("="*80)

# Estat√≠sticas gerais
total_buildings = len(buildings_with_density)
buildings_with_pop = (buildings_with_density['estimated_population'] > 0).sum()
total_pop = buildings_with_density['estimated_population'].sum()

print(f"Total de edif√≠cios processados: {total_buildings}")
print(f"Edif√≠cios com popula√ß√£o atribu√≠da: {buildings_with_pop} ({buildings_with_pop/total_buildings*100:.2f}%)")
print(f"Popula√ß√£o total: {total_pop:,.0f}")

# Estat√≠sticas de densidade
if 'density_per_area' in buildings_with_density.columns:
    valid_density = buildings_with_density[buildings_with_density['density_per_area'] > 0]['density_per_area']
    mean_density = valid_density.mean()
    median_density = valid_density.median()
    max_density = valid_density.max()
    
    print(f"\nDensidade habitacional (hab/m¬≤):")
    print(f"- M√©dia: {mean_density:.6f}")
    print(f"- Mediana: {median_density:.6f}")
    print(f"- M√°xima: {max_density:.6f}")

# Estat√≠sticas de ocupa√ß√£o
if 'occupancy_per_unit' in buildings_with_density.columns:
    valid_occupancy = buildings_with_density[buildings_with_density['occupancy_per_unit'] > 0]['occupancy_per_unit']
    mean_occupancy = valid_occupancy.mean()
    median_occupancy = valid_occupancy.median()
    
    print(f"\nOcupa√ß√£o por unidade habitacional:")
    print(f"- M√©dia: {mean_occupancy:.2f}")
    print(f"- Mediana: {median_occupancy:.2f}")

# Estat√≠sticas por classe de densidade
if 'density_class' in buildings_with_density.columns:
    print("\nDistribui√ß√£o por classe de densidade:")
    class_stats = buildings_with_density['density_class'].value_counts()
    for cls, count in class_stats.items():
        print(f"- {cls}: {count} edif√≠cios ({count/buildings_with_pop*100:.2f}% dos habitados)")

# Estat√≠sticas da grade, se dispon√≠vel
if grid_density is not None and 'population_density' in grid_density.columns:
    cells_with_pop = grid_density[grid_density['population'] > 0]
    mean_cell_density = cells_with_pop['population_density'].mean()
    max_cell_density = cells_with_pop['population_density'].max()
    
    print(f"\nDensidade populacional por c√©lula (hab/km¬≤):")
    print(f"- C√©lulas habitadas: {len(cells_with_pop)} de {len(grid_density)} ({len(cells_with_pop)/len(grid_density)*100:.2f}%)")
    print(f"- M√©dia: {mean_cell_density:.2f}")
    print(f"- M√°xima: {max_cell_density:.2f}")

# Benef√≠cios das m√©tricas calculadas
print("\nBenef√≠cios das m√©tricas de densidade habitacional:")
print("1. Identifica√ß√£o de √°reas de maior press√£o populacional")
print("2. Suporte para dimensionamento de infraestrutura e servi√ßos urbanos")
print("3. Base para an√°lises de impacto na qualidade de vida urbana")
print("4. Par√¢metro para modelagem de ocupa√ß√£o temporal e fluxos populacionais")

# Pr√≥ximos passos
print("\nPr√≥ximos passos:")
print("1. Modelagem de padr√µes temporais de ocupa√ß√£o")
print("2. An√°lise de correla√ß√£o entre densidade e outras vari√°veis urbanas")
print("3. Proje√ß√µes de crescimento populacional por √°rea")

print(f"\nOs resultados foram salvos e est√£o prontos para o pr√≥ximo notebook:")
print(f"- Edif√≠cios com m√©tricas de densidade: {os.path.basename(buildings_paths[0])}")
print(f"- Grade com m√©tricas de densidade: {os.path.basename(grid_paths[0]) if grid_paths else 'N√£o gerado'}")
print("="*80)

3.3_Modelagem_Padroes_Temporais.ipynb

In [None]:
# Modelagem de Padr√µes Temporais de Ocupa√ß√£o
# Este notebook estima padr√µes temporais de ocupa√ß√£o de edif√≠cios ao longo do dia

import os
import pickle
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.notebook import tqdm
import numpy as np
import contextily as cx
import warnings
from matplotlib.colors import LinearSegmentedColormap
import matplotlib.dates as mdates
from datetime import datetime, timedelta

# Ignorar avisos espec√≠ficos
warnings.filterwarnings('ignore', category=UserWarning)
warnings.filterwarnings('ignore', category=FutureWarning)

# Montando o Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Defini√ß√£o dos diret√≥rios
data_dir = '/content/drive/MyDrive/geoprocessamento_gnn/DATA'
results_dir = os.path.join(data_dir, 'intermediate_results')
buildings_density_path = os.path.join(results_dir, 'buildings_density.pkl')

# Verificando se arquivos necess√°rios existem
if not os.path.exists(buildings_density_path):
    raise FileNotFoundError(f"Arquivo n√£o encontrado: {buildings_density_path}. Execute o notebook 3.2_Calculo_Densidade_Habitacional.ipynb primeiro.")

# Carregando os dados de edif√≠cios com m√©tricas de densidade
with open(buildings_density_path, 'rb') as f:
    buildings = pickle.load(f)

print(f"Dados carregados: {len(buildings)} edif√≠cios com m√©tricas de densidade.")

In [None]:
# Analisar os dados de edif√≠cios para identificar padr√µes de uso/ocupa√ß√£o
def analyze_building_uses(buildings_gdf):
    """
    Analisa os dados de edif√≠cios para identificar padr√µes de uso/ocupa√ß√£o.
    
    Args:
        buildings_gdf: GeoDataFrame com os edif√≠cios
    
    Returns:
        Dicion√°rio com informa√ß√µes sobre tipos de uso e categorias de edif√≠cios
    """
    # Identificar colunas que podem conter informa√ß√µes de uso/tipo
    use_columns = [col for col in buildings_gdf.columns if any(keyword in col.lower() for keyword in 
                                                             ['building', 'type', 'class', 'uso', 'categor', 'func'])]
    
    print(f"Colunas potenciais de uso/tipo: {use_columns}")
    
    # Selecionar as colunas mais promissoras
    selected_columns = []
    
    # Priorizar colunas espec√≠ficas
    priority_cols = ['building_class_enhanced', 'categoria_funcional', 'building', 'building_class', 'tipo', 'type']
    
    for col in priority_cols:
        if col in use_columns and col in buildings_gdf.columns and buildings_gdf[col].notna().any():
            selected_columns.append(col)
    
    # Se n√£o encontrou nenhuma coluna priorit√°ria, usar qualquer uma dispon√≠vel
    if not selected_columns and use_columns:
        for col in use_columns:
            if col in buildings_gdf.columns and buildings_gdf[col].notna().any():
                selected_columns.append(col)
                break
    
    if not selected_columns:
        raise ValueError("N√£o foi poss√≠vel identificar colunas de uso/tipo dos edif√≠cios.")
    
    # Analisar valores em cada coluna selecionada
    building_uses = {}
    
    for col in selected_columns:
        # Contar valores na coluna
        value_counts = buildings_gdf[col].value_counts()
        
        # Identificar categorias residenciais
        residential_keywords = ['residencial', 'residential', 'house', 'apartamento', 'apartments', 
                              'habitacional', 'dwelling', 'casa', 'moradia', 'housing']
        
        residential_values = []
        for value in value_counts.index:
            if pd.notna(value) and any(keyword in str(value).lower() for keyword in residential_keywords):
                residential_values.append(value)
        
        # Identificar categorias comerciais
        commercial_keywords = ['comercial', 'commercial', 'retail', 'shop', 'store', 'shopping', 'mercado',
                            'escritorio', 'office', 'business', 'servi√ßo', 'service']
        
        commercial_values = []
        for value in value_counts.index:
            if pd.notna(value) and any(keyword in str(value).lower() for keyword in commercial_keywords):
                commercial_values.append(value)
        
        # Identificar categorias industriais
        industrial_keywords = ['industrial', 'industry', 'factory', 'f√°brica', 'manufacturing', 'warehouse', 'storage']
        
        industrial_values = []
        for value in value_counts.index:
            if pd.notna(value) and any(keyword in str(value).lower() for keyword in industrial_keywords):
                industrial_values.append(value)
        
        # Identificar categorias institucionais
        institutional_keywords = ['institucional', 'institutional', 'education', 'school', 'escola', 'hospital', 
                               'health', 'sa√∫de', 'government', 'governo', 'public', 'p√∫blico']
        
        institutional_values = []
        for value in value_counts.index:
            if pd.notna(value) and any(keyword in str(value).lower() for keyword in institutional_keywords):
                institutional_values.append(value)
        
        # Adicionar ao dicion√°rio
        building_uses[col] = {
            'values': value_counts,
            'residential': residential_values,
            'commercial': commercial_values,
            'industrial': industrial_values,
            'institutional': institutional_values
        }
    
    # Selecionar a melhor coluna para modelagem temporal
    best_column = None
    max_categories = 0
    
    for col, info in building_uses.items():
        # Contar categorias identificadas
        num_categories = (len(info['residential']) + len(info['commercial']) + 
                        len(info['industrial']) + len(info['institutional']))
        
        if num_categories > max_categories:
            max_categories = num_categories
            best_column = col
    
    # Exibir informa√ß√µes sobre a melhor coluna
    if best_column:
        print(f"\nColuna selecionada para modelagem temporal: {best_column}")
        print(f"Total de categorias identificadas: {max_categories}")
        
        # Mostrar distribui√ß√£o de categorias
        for category, values in building_uses[best_column].items():
            if category != 'values':
                print(f"\nCategorias {category.upper()} identificadas ({len(values)}):")
                for value in values[:10]:  # Mostrar at√© 10 valores
                    count = building_uses[best_column]['values'][value]
                    print(f"- {value}: {count} edif√≠cios")
                
                if len(values) > 10:
                    print(f"... (mais {len(values) - 10} categorias)")
        
        # Preparar informa√ß√µes para retorno
        return {
            'best_column': best_column,
            'categories': building_uses[best_column],
            'all_columns': selected_columns
        }
    else:
        return None

# Analisar usos dos edif√≠cios
building_use_info = analyze_building_uses(buildings)

In [None]:
# Definir perfis de ocupa√ß√£o temporal para diferentes categorias de edif√≠cios
def define_temporal_profiles():
    """
    Define perfis de ocupa√ß√£o temporal para diferentes categorias de edif√≠cios.
    
    Returns:
        Dicion√°rio com perfis de ocupa√ß√£o hor√°ria por categoria
    """
    # Criar perfis de ocupa√ß√£o por hora do dia (0-23h)
    temporal_profiles = {
        # Perfil residencial (m√°ximo √† noite, m√≠nimo durante hor√°rio comercial)
        'residential': {
            'hours': list(range(24)),  # 0 a 23 horas
            'occupancy_rate': [
                0.90, 0.95, 0.98, 0.99, 0.99, 0.95,  # 0h a 5h (noite/madrugada)
                0.85, 0.70, 0.50, 0.40, 0.35, 0.35,  # 6h a 11h (manh√£)
                0.40, 0.45, 0.50, 0.55, 0.60, 0.65,  # 12h a 17h (tarde)
                0.75, 0.80, 0.85, 0.88, 0.89, 0.90   # 18h a 23h (noite)
            ],
            'description': 'Perfil t√≠pico de √°reas residenciais, com ocupa√ß√£o m√°xima √† noite e m√≠nima durante o hor√°rio comercial.'
        },
        
        # Perfil comercial (m√°ximo durante hor√°rio comercial, m√≠nimo √† noite)
        'commercial': {
            'hours': list(range(24)),
            'occupancy_rate': [
                0.05, 0.03, 0.02, 0.02, 0.03, 0.05,  # 0h a 5h (noite/madrugada)
                0.10, 0.30, 0.60, 0.85, 0.90, 0.95,  # 6h a 11h (manh√£)
                0.98, 0.95, 0.90, 0.85, 0.80, 0.60,  # 12h a 17h (tarde)
                0.40, 0.30, 0.20, 0.15, 0.10, 0.05   # 18h a 23h (noite)
            ],
            'description': 'Perfil t√≠pico de √°reas comerciais, com ocupa√ß√£o m√°xima durante o hor√°rio comercial e m√≠nima √† noite.'
        },
        
        # Perfil industrial (m√°ximo durante turnos de trabalho)
        'industrial': {
            'hours': list(range(24)),
            'occupancy_rate': [
                0.30, 0.30, 0.30, 0.30, 0.30, 0.40,  # 0h a 5h (madrugada, 1¬∫ turno)
                0.60, 0.90, 0.95, 0.95, 0.95, 0.95,  # 6h a 11h (manh√£, 2¬∫ turno)
                0.95, 0.95, 0.95, 0.95, 0.95, 0.90,  # 12h a 17h (tarde, 2¬∫/3¬∫ turno)
                0.60, 0.40, 0.30, 0.30, 0.30, 0.30   # 18h a 23h (noite, 3¬∫/1¬∫ turno)
            ],
            'description': 'Perfil t√≠pico de √°reas industriais, com opera√ß√£o em m√∫ltiplos turnos e ocupa√ß√£o mais constante ao longo do dia.'
        },
        
        # Perfil institucional (m√°ximo durante hor√°rio comercial estendido)
        'institutional': {
            'hours': list(range(24)),
            'occupancy_rate': [
                0.10, 0.05, 0.05, 0.05, 0.05, 0.10,  # 0h a 5h (noite/madrugada)
                0.20, 0.60, 0.90, 0.95, 0.98, 0.98,  # 6h a 11h (manh√£)
                0.95, 0.95, 0.95, 0.90, 0.80, 0.50,  # 12h a 17h (tarde)
                0.30, 0.25, 0.20, 0.15, 0.12, 0.10   # 18h a 23h (noite)
            ],
            'description': 'Perfil t√≠pico de institui√ß√µes como escolas, hospitais e √≥rg√£os p√∫blicos, com ocupa√ß√£o m√°xima durante o hor√°rio de funcionamento.'
        },
        
        # Perfil misto (combina√ß√£o de residencial e comercial)
        'mixed': {
            'hours': list(range(24)),
            'occupancy_rate': [
                0.50, 0.50, 0.50, 0.50, 0.50, 0.55,  # 0h a 5h
                0.60, 0.70, 0.75, 0.80, 0.85, 0.90,  # 6h a 11h
                0.90, 0.85, 0.80, 0.80, 0.75, 0.70,  # 12h a 17h
                0.65, 0.60, 0.55, 0.50, 0.50, 0.50   # 18h a 23h
            ],
            'description': 'Perfil para √°reas de uso misto, combinando caracter√≠sticas residenciais e comerciais.'
        },
        
        # Perfil padr√£o/desconhecido (ocupa√ß√£o moderada durante o dia)
        'default': {
            'hours': list(range(24)),
            'occupancy_rate': [
                0.25, 0.20, 0.20, 0.20, 0.25, 0.30,  # 0h a 5h
                0.40, 0.60, 0.70, 0.80, 0.85, 0.85,  # 6h a 11h
                0.85, 0.85, 0.80, 0.75, 0.70, 0.60,  # 12h a 17h
                0.50, 0.40, 0.35, 0.30, 0.25, 0.25   # 18h a 23h
            ],
            'description': 'Perfil padr√£o para edif√≠cios sem categoria espec√≠fica.'
        }
    }
    
    # Adicionar perfis espec√≠ficos para subcategorias
    
    # Escolas (ocupa√ß√£o concentrada no per√≠odo diurno)
    temporal_profiles['school'] = {
        'hours': list(range(24)),
        'occupancy_rate': [
            0.00, 0.00, 0.00, 0.00, 0.00, 0.05,  # 0h a 5h
            0.20, 0.80, 0.95, 0.98, 0.98, 0.95,  # 6h a 11h
            0.90, 0.95, 0.95, 0.80, 0.40, 0.10,  # 12h a 17h
            0.05, 0.02, 0.00, 0.00, 0.00, 0.00   # 18h a 23h
        ],
        'description': 'Perfil espec√≠fico para escolas, com ocupa√ß√£o concentrada no per√≠odo letivo.'
    }
    
    # Hospitais (ocupa√ß√£o constante com varia√ß√µes moderadas)
    temporal_profiles['hospital'] = {
        'hours': list(range(24)),
        'occupancy_rate': [
            0.60, 0.55, 0.50, 0.50, 0.55, 0.60,  # 0h a 5h
            0.70, 0.85, 0.95, 0.98, 0.98, 0.95,  # 6h a 11h
            0.90, 0.95, 0.95, 0.90, 0.85, 0.80,  # 12h a 17h
            0.75, 0.70, 0.65, 0.60, 0.60, 0.60   # 18h a 23h
        ],
        'description': 'Perfil espec√≠fico para hospitais, com ocupa√ß√£o constante e picos durante hor√°rios de visita e atendimento ambulatorial.'
    }
    
    # Com√©rcio varejista (concentrado em hor√°rio comercial + noite)
    temporal_profiles['retail'] = {
        'hours': list(range(24)),
        'occupancy_rate': [
            0.00, 0.00, 0.00, 0.00, 0.00, 0.00,  # 0h a 5h
            0.05, 0.30, 0.65, 0.85, 0.90, 0.95,  # 6h a 11h
            0.98, 0.95, 0.90, 0.95, 0.98, 0.90,  # 12h a 17h
            0.80, 0.50, 0.20, 0.05, 0.00, 0.00   # 18h a 23h
        ],
        'description': 'Perfil espec√≠fico para com√©rcio varejista, com ocupa√ß√£o concentrada no hor√°rio comercial e in√≠cio da noite.'
    }
    
    # Escrit√≥rios (hor√°rio comercial padr√£o)
    temporal_profiles['office'] = {
        'hours': list(range(24)),
        'occupancy_rate': [
            0.02, 0.01, 0.01, 0.01, 0.02, 0.05,  # 0h a 5h
            0.20, 0.60, 0.90, 0.95, 0.95, 0.90,  # 6h a 11h
            0.95, 0.98, 0.95, 0.90, 0.70, 0.40,  # 12h a 17h
            0.20, 0.15, 0.10, 0.05, 0.02, 0.02   # 18h a 23h
        ],
        'description': 'Perfil espec√≠fico para escrit√≥rios, com ocupa√ß√£o concentrada no hor√°rio comercial padr√£o.'
    }
    
    # Restaurantes e bares (picos no almo√ßo e jantar)
    temporal_profiles['restaurant'] = {
        'hours': list(range(24)),
        'occupancy_rate': [
            0.40, 0.20, 0.05, 0.01, 0.00, 0.05,  # 0h a 5h
            0.10, 0.20, 0.30, 0.50, 0.80, 0.95,  # 6h a 11h
            0.90, 0.60, 0.40, 0.40, 0.60, 0.85,  # 12h a 17h
            0.95, 0.98, 0.95, 0.85, 0.70, 0.55   # 18h a 23h
        ],
        'description': 'Perfil espec√≠fico para restaurantes e bares, com picos nos hor√°rios de refei√ß√µes e √† noite.'
    }
    
    return temporal_profiles

# Definir perfis de ocupa√ß√£o temporal
temporal_profiles = define_temporal_profiles()

# Visualizar perfis de ocupa√ß√£o
def visualize_temporal_profiles(profiles):
    """
    Visualiza os perfis de ocupa√ß√£o temporal definidos.
    
    Args:
        profiles: Dicion√°rio com perfis de ocupa√ß√£o temporal
    """
    # Criar figura para visualiza√ß√£o
    fig, ax = plt.subplots(figsize=(12, 8))
    
    # Definir cores para cada perfil
    colors = {
        'residential': '#1b9e77',
        'commercial': '#d95f02',
        'industrial': '#7570b3',
        'institutional': '#e7298a',
        'mixed': '#66a61e',
        'default': '#999999',
        'school': '#e6ab02',
        'hospital': '#a6761d',
        'retail': '#e41a1c',
        'office': '#377eb8',
        'restaurant': '#984ea3'
    }
    
    # Plotar cada perfil
    for name, profile in profiles.items():
        if 'hours' in profile and 'occupancy_rate' in profile:
            ax.plot(profile['hours'], profile['occupancy_rate'], 
                   label=name, linewidth=2, marker='o', markersize=4,
                   color=colors.get(name, None))
    
    # Configurar gr√°fico
    ax.set_xticks(range(0, 24, 2))
    ax.set_xlim(-0.5, 23.5)
    ax.set_ylim(0, 1.05)
    ax.set_xlabel('Hora do Dia', fontsize=12)
    ax.set_ylabel('Taxa de Ocupa√ß√£o', fontsize=12)
    ax.set_title('Perfis de Ocupa√ß√£o Temporal por Categoria de Edif√≠cio', fontsize=14)
    ax.grid(True, linestyle='--', alpha=0.7)
    ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))
    
    # Adicionar linhas de grade para as horas
    for h in range(0, 24, 6):
        ax.axvline(x=h, color='gray', linestyle='--', alpha=0.5)
    
    # Adicionar per√≠odos do dia
    ax.annotate('Madrugada', xy=(3, 1.02), ha='center', va='bottom', fontsize=10)
    ax.annotate('Manh√£', xy=(9, 1.02), ha='center', va='bottom', fontsize=10)
    ax.annotate('Tarde', xy=(15, 1.02), ha='center', va='bottom', fontsize=10)
    ax.annotate('Noite', xy=(21, 1.02), ha='center', va='bottom', fontsize=10)
    
    plt.tight_layout()
    plt.show()

# Visualizar perfis temporais
visualize_temporal_profiles(temporal_profiles)

In [None]:
# Associar categorias de edif√≠cios aos perfis de ocupa√ß√£o temporal
def map_building_types_to_profiles(buildings_gdf, use_info, profiles):
    """
    Associa categorias de edif√≠cios aos perfis de ocupa√ß√£o temporal.
    
    Args:
        buildings_gdf: GeoDataFrame com os edif√≠cios
        use_info: Informa√ß√µes sobre categorias de uso dos edif√≠cios
        profiles: Dicion√°rio com perfis de ocupa√ß√£o temporal
    
    Returns:
        GeoDataFrame com perfil temporal associado a cada edif√≠cio
    """
    # Copiar o GeoDataFrame para n√£o modificar o original
    buildings_with_profiles = buildings_gdf.copy()
    
    # Adicionar coluna para o perfil temporal
    buildings_with_profiles['temporal_profile'] = 'default'
    
    if not use_info or 'best_column' not in use_info:
        print("Informa√ß√µes de uso n√£o dispon√≠veis. Usando perfil padr√£o para todos os edif√≠cios.")
        return buildings_with_profiles
    
    # Obter a melhor coluna para categoriza√ß√£o
    best_column = use_info['best_column']
    categories = use_info['categories']
    
    # Mapeamento espec√≠fico de subcategorias para perfis mais detalhados
    specific_mappings = {
        'school': ['school', 'education', 'educational', 'university', 'college', 'academia'],
        'hospital': ['hospital', 'healthcare', 'clinic', 'medical', 'saude', 'health'],
        'retail': ['retail', 'shop', 'store', 'shopping', 'mercado', 'loja', 'varejo'],
        'office': ['office', 'escritorio', 'business', 'corporate', 'empresa'],
        'restaurant': ['restaurant', 'bar', 'cafe', 'food', 'restaurante']
    }
    
    # Contador para estat√≠sticas
    profile_counts = {name: 0 for name in profiles.keys()}
    
    # Mapear cada edif√≠cio para um perfil temporal
    for idx, row in tqdm(buildings_with_profiles.iterrows(), total=len(buildings_with_profiles), desc="Associando perfis temporais"):
        building_type = row.get(best_column)
        
        if pd.isna(building_type):
            # Se n√£o tiver categoria, usar perfil padr√£o
            buildings_with_profiles.at[idx, 'temporal_profile'] = 'default'
            profile_counts['default'] += 1
            continue
        
        building_type_str = str(building_type).lower()
        
        # Primeiro verificar mapeamentos espec√≠ficos
        mapped = False
        for profile_name, keywords in specific_mappings.items():
            if any(keyword in building_type_str for keyword in keywords):
                buildings_with_profiles.at[idx, 'temporal_profile'] = profile_name
                profile_counts[profile_name] += 1
                mapped = True
                break
        
        if mapped:
            continue
        
        # Verificar categorias gerais
        for category, values in categories.items():
            if category != 'values' and building_type in values:
                buildings_with_profiles.at[idx, 'temporal_profile'] = category
                profile_counts[category] += 1
                mapped = True
                break
        
       
# Se ainda n√£o foi mapeado, tentar correspond√™ncia por palavra-chave
        if not mapped:
            if any(keyword in building_type_str for keyword in ['resid', 'habit', 'house', 'apart', 'dwelling']):
                buildings_with_profiles.at[idx, 'temporal_profile'] = 'residential'
                profile_counts['residential'] += 1
            elif any(keyword in building_type_str for keyword in ['comer', 'shop', 'loja', 'retail', 'mercado']):
                buildings_with_profiles.at[idx, 'temporal_profile'] = 'commercial'
                profile_counts['commercial'] += 1
            elif any(keyword in building_type_str for keyword in ['indus', 'factor', 'fabri', 'manufact', 'warehouse']):
                buildings_with_profiles.at[idx, 'temporal_profile'] = 'industrial'
                profile_counts['industrial'] += 1
            elif any(keyword in building_type_str for keyword in ['instit', 'public', 'gov', 'escola', 'hospital']):
                buildings_with_profiles.at[idx, 'temporal_profile'] = 'institutional'
                profile_counts['institutional'] += 1
            elif any(keyword in building_type_str for keyword in ['mix', 'misto']):
                buildings_with_profiles.at[idx, 'temporal_profile'] = 'mixed'
                profile_counts['mixed'] += 1
            else:
                # Se n√£o conseguiu mapear para nenhum perfil espec√≠fico, usar padr√£o
                buildings_with_profiles.at[idx, 'temporal_profile'] = 'default'
                profile_counts['default'] += 1
    
    # Exibir estat√≠sticas de associa√ß√£o
    print("\nDistribui√ß√£o de edif√≠cios por perfil temporal:")
    total_buildings = len(buildings_with_profiles)
    for profile, count in profile_counts.items():
        if count > 0:
            print(f"- {profile}: {count} edif√≠cios ({count/total_buildings*100:.2f}%)")
    
    return buildings_with_profiles

# Associar edif√≠cios a perfis temporais
buildings_with_profiles = map_building_types_to_profiles(buildings, building_use_info, temporal_profiles)               buildings

In [None]:
# Calcular ocupa√ß√£o populacional hor√°ria
def calculate_hourly_occupancy(buildings_gdf, profiles):
    """
    Calcula a ocupa√ß√£o populacional hor√°ria para cada edif√≠cio.
    
    Args:
        buildings_gdf: GeoDataFrame com edif√≠cios e perfis temporais
        profiles: Dicion√°rio com perfis de ocupa√ß√£o temporal
    
    Returns:
        GeoDataFrame com ocupa√ß√£o populacional hor√°ria
    """
    # Copiar o GeoDataFrame para n√£o modificar o original
    buildings_hourly = buildings_gdf.copy()
    
    # Verificar se coluna de popula√ß√£o estimada existe
    if 'estimated_population' not in buildings_hourly.columns:
        raise ValueError("Coluna 'estimated_population' n√£o encontrada. N√£o √© poss√≠vel calcular ocupa√ß√£o hor√°ria.")
    
    # Verificar se coluna de perfil temporal existe
    if 'temporal_profile' not in buildings_hourly.columns:
        raise ValueError("Coluna 'temporal_profile' n√£o encontrada. Execute a fun√ß√£o map_building_types_to_profiles primeiro.")
    
    # Criar colunas para ocupa√ß√£o hor√°ria (0 a 23h)
    for hour in range(24):
        column_name = f'population_h{hour:02d}'
        buildings_hourly[column_name] = 0.0
    
    # Calcular ocupa√ß√£o hor√°ria para cada edif√≠cio
    for idx, row in tqdm(buildings_hourly.iterrows(), total=len(buildings_hourly), desc="Calculando ocupa√ß√£o hor√°ria"):
        # Obter perfil temporal do edif√≠cio
        profile_name = row['temporal_profile']
        
        # Usar perfil padr√£o se o perfil especificado n√£o existir
        if profile_name not in profiles:
            print(f"AVISO: Perfil '{profile_name}' n√£o encontrado. Usando perfil padr√£o.")
            profile_name = 'default'
        
        # Obter popula√ß√£o total do edif√≠cio
        total_population = row['estimated_population']
        
        # Ignorar edif√≠cios sem popula√ß√£o
        if pd.isna(total_population) or total_population <= 0:
            continue
        
        # Obter taxas de ocupa√ß√£o por hora
        occupancy_rates = profiles[profile_name]['occupancy_rate']
        
        # Calcular popula√ß√£o para cada hora
        for hour in range(24):
            column_name = f'population_h{hour:02d}'
            buildings_hourly.at[idx, column_name] = total_population * occupancy_rates[hour]
    
    # Calcular estat√≠sticas de ocupa√ß√£o hor√°ria
    hourly_totals = {}
    hourly_columns = [f'population_h{hour:02d}' for hour in range(24)]
    
    for column in hourly_columns:
        hourly_totals[column] = buildings_hourly[column].sum()
    
    # Exibir estat√≠sticas
    print("\nEstat√≠sticas de ocupa√ß√£o hor√°ria:")
    print(f"- Popula√ß√£o total estimada: {buildings_hourly['estimated_population'].sum():,.0f}")
    
    max_hour = max(hourly_totals, key=hourly_totals.get)
    min_hour = min(hourly_totals, key=hourly_totals.get)
    
    max_hour_num = int(max_hour.replace('population_h', ''))
    min_hour_num = int(min_hour.replace('population_h', ''))
    
    print(f"- Hora de pico: {max_hour_num:02d}h - {hourly_totals[max_hour]:,.0f} pessoas ({hourly_totals[max_hour]/buildings_hourly['estimated_population'].sum()*100:.2f}% do total)")
    print(f"- Hora de vale: {min_hour_num:02d}h - {hourly_totals[min_hour]:,.0f} pessoas ({hourly_totals[min_hour]/buildings_hourly['estimated_population'].sum()*100:.2f}% do total)")
    
    return buildings_hourly, hourly_totals

# Calcular ocupa√ß√£o hor√°ria
buildings_hourly, hourly_totals = calculate_hourly_occupancy(buildings_with_profiles, temporal_profiles)

In [None]:
# Visualizar os padr√µes temporais de ocupa√ß√£o
def visualize_temporal_patterns(buildings_hourly, hourly_totals):
    """
    Visualiza os padr√µes temporais de ocupa√ß√£o populacional.
    
    Args:
        buildings_hourly: GeoDataFrame com ocupa√ß√£o hor√°ria
        hourly_totals: Dicion√°rio com totais de ocupa√ß√£o por hora
    """
    # 1. Gr√°fico de linha com ocupa√ß√£o total por hora do dia
    plt.figure(figsize=(12, 6))
    
    # Extrair horas e totais
    hours = range(24)
    population_values = [hourly_totals[f'population_h{hour:02d}'] for hour in hours]
    
    # Criar gr√°fico
    plt.plot(hours, population_values, marker='o', linestyle='-', linewidth=2, markersize=8)
    
    # Adicionar grade e r√≥tulos
    plt.grid(True, linestyle='--', alpha=0.7)
    plt.xlabel('Hora do Dia', fontsize=12)
    plt.ylabel('Popula√ß√£o Estimada', fontsize=12)
    plt.title('Padr√£o de Ocupa√ß√£o Total ao Longo do Dia', fontsize=14)
    
    # Formatar eixo x com horas
    plt.xticks(range(0, 24, 2))
    plt.xlim(-0.5, 23.5)
    
    # Adicionar r√≥tulos para per√≠odos do dia
    plt.annotate('Madrugada', xy=(3, max(population_values) * 1.02), ha='center', va='bottom', fontsize=10)
    plt.annotate('Manh√£', xy=(9, max(population_values) * 1.02), ha='center', va='bottom', fontsize=10)
    plt.annotate('Tarde', xy=(15, max(population_values) * 1.02), ha='center', va='bottom', fontsize=10)
    plt.annotate('Noite', xy=(21, max(population_values) * 1.02), ha='center', va='bottom', fontsize=10)
    
    # Adicionar valor m√°ximo e m√≠nimo
    max_idx = population_values.index(max(population_values))
    min_idx = population_values.index(min(population_values))
    
    plt.annotate(f'M√°ximo: {max(population_values):,.0f}', xy=(max_idx, max(population_values)),
                xytext=(max_idx + 1, max(population_values) * 1.05),
                arrowprops=dict(facecolor='black', shrink=0.05, width=1.5, headwidth=8),
                fontsize=10)
    
    plt.annotate(f'M√≠nimo: {min(population_values):,.0f}', xy=(min_idx, min(population_values)),
                xytext=(min_idx - 1, min(population_values) * 0.9),
                arrowprops=dict(facecolor='black', shrink=0.05, width=1.5, headwidth=8),
                fontsize=10)
    
    plt.tight_layout()
    plt.show()
    
    # 2. Gr√°fico de ocupa√ß√£o por perfil temporal
    # Agrupar por perfil e calcular ocupa√ß√£o por hora
    profiles_hourly = {}
    
    for profile in buildings_hourly['temporal_profile'].unique():
        if pd.isna(profile):
            continue
        
        profile_buildings = buildings_hourly[buildings_hourly['temporal_profile'] == profile]
        
        profile_hourly = []
        for hour in range(24):
            column = f'population_h{hour:02d}'
            profile_hourly.append(profile_buildings[column].sum())
        
        profiles_hourly[profile] = profile_hourly
    
    # Criar gr√°fico por perfil
    plt.figure(figsize=(14, 8))
    
    # Definir cores para cada perfil
    colors = {
        'residential': '#1b9e77',
        'commercial': '#d95f02',
        'industrial': '#7570b3',
        'institutional': '#e7298a',
        'mixed': '#66a61e',
        'default': '#999999',
        'school': '#e6ab02',
        'hospital': '#a6761d',
        'retail': '#e41a1c',
        'office': '#377eb8',
        'restaurant': '#984ea3'
    }
    
    # Plotar cada perfil
    for profile, hourly_data in profiles_hourly.items():
        if sum(hourly_data) > 0:  # S√≥ plotar perfis com dados
            plt.plot(range(24), hourly_data, label=profile, linewidth=2, marker='o',
                   color=colors.get(profile, None))
    
    # Configurar gr√°fico
    plt.grid(True, linestyle='--', alpha=0.7)
    plt.xlabel('Hora do Dia', fontsize=12)
    plt.ylabel('Popula√ß√£o Estimada', fontsize=12)
    plt.title('Padr√µes de Ocupa√ß√£o por Perfil Temporal', fontsize=14)
    plt.xticks(range(0, 24, 2))
    plt.xlim(-0.5, 23.5)
    plt.legend(loc='center left', bbox_to_anchor=(1, 0.5))
    
    plt.tight_layout()
    plt.show()
    
    # 3. Heatmap da distribui√ß√£o hor√°ria por perfil
    # Preparar dados para o heatmap
    heatmap_data = []
    profiles_list = []
    
    for profile, hourly_data in profiles_hourly.items():
        if sum(hourly_data) > 0:  # S√≥ incluir perfis com dados
            # Normalizar pela ocupa√ß√£o m√°xima do perfil para o heatmap
            max_value = max(hourly_data)
            if max_value > 0:
                normalized_data = [value / max_value for value in hourly_data]
                heatmap_data.append(normalized_data)
                profiles_list.append(profile)
    
    # Criar heatmap
    plt.figure(figsize=(14, 8))
    
    # Plotar heatmap
    ax = sns.heatmap(heatmap_data, cmap='viridis', 
                    xticklabels=range(0, 24, 2),
                    yticklabels=profiles_list,
                    annot=False, cbar_kws={'label': 'Ocupa√ß√£o Relativa'})
    
    # Configurar eixos
    ax.set_xlabel('Hora do Dia', fontsize=12)
    ax.set_ylabel('Perfil Temporal', fontsize=12)
    ax.set_title('Distribui√ß√£o Hor√°ria por Perfil (Normalizada)', fontsize=14)
    
    plt.tight_layout()
    plt.show()

# Visualizar padr√µes temporais
visualize_temporal_patterns(buildings_hourly, hourly_totals)

In [None]:
# Visualizar mapas de ocupa√ß√£o para diferentes horas do dia
def visualize_hourly_maps(buildings_hourly, selected_hours=None):
    """
    Cria mapas de ocupa√ß√£o para diferentes horas do dia.
    
    Args:
        buildings_hourly: GeoDataFrame com ocupa√ß√£o hor√°ria
        selected_hours: Lista de horas para visualizar (None para usar horas padr√£o)
    """
    # Se n√£o informar horas espec√≠ficas, usar padr√£o (4h, 8h, 12h, 16h, 20h)
    if selected_hours is None:
        selected_hours = [4, 8, 12, 16, 20]
    
    # Verificar se s√£o horas v√°lidas
    selected_hours = [h for h in selected_hours if 0 <= h < 24]
    
    if not selected_hours:
        print("Nenhuma hora v√°lida selecionada.")
        return
    
    # Criar um grid de subplots (at√© 6 mapas por figura)
    max_maps_per_fig = 6
    num_figs = (len(selected_hours) + max_maps_per_fig - 1) // max_maps_per_fig
    
    for fig_num in range(num_figs):
        # Selecionar horas para esta figura
        start_idx = fig_num * max_maps_per_fig
        end_idx = min(start_idx + max_maps_per_fig, len(selected_hours))
        hours_subset = selected_hours[start_idx:end_idx]
        
        # Calcular layout de subplots
        if len(hours_subset) <= 3:
            rows, cols = 1, len(hours_subset)
        else:
            rows = (len(hours_subset) + 1) // 2
            cols = 2
        
        # Criar figura
        fig, axs = plt.subplots(rows, cols, figsize=(cols * 8, rows * 8))
        
        # Converter para array se necess√°rio (para indexa√ß√£o consistente)
        if rows == 1 and cols == 1:
            axs = np.array([axs])
        elif rows == 1 or cols == 1:
            axs = axs.ravel()
        
        # Plotar mapa para cada hora
        for i, hour in enumerate(hours_subset):
            column_name = f'population_h{hour:02d}'
            
            # Filtrar edif√≠cios com ocupa√ß√£o nesta hora
            buildings_with_pop = buildings_hourly[buildings_hourly[column_name] > 0]
            
            # Determinar tamanho dos pontos baseado na popula√ß√£o
            if len(buildings_with_pop) > 0:
                max_pop = buildings_with_pop[column_name].max()
                min_pop = buildings_with_pop[column_name].min()
                
                if max_pop > min_pop:
                    buildings_with_pop['point_size'] = buildings_with_pop[column_name].map(
                        lambda p: 5 + (p - min_pop) / (max_pop - min_pop) * 95
                    )
                else:
                    buildings_with_pop['point_size'] = 10
            
            # Determinar √≠ndice do subplot
            ax = axs[i // cols, i % cols] if rows > 1 and cols > 1 else axs[i]
            
            # Plotar mapa
            if len(buildings_with_pop) > 0:
                buildings_with_pop.plot(column=column_name, cmap='plasma',
                                      markersize='point_size', alpha=0.7,
                                      ax=ax, legend=True,
                                      legend_kwds={'label': 'Popula√ß√£o',
                                                  'orientation': 'horizontal',
                                                  'shrink': 0.8,
                                                  'pad': 0.01})
            else:
                # Se n√£o houver dados, plotar um mapa vazio
                buildings_hourly.plot(ax=ax, color='lightgray', alpha=0.3)
            
            # Adicionar mapa base
            try:
                cx.add_basemap(ax, crs=buildings_hourly.crs)
            except Exception as e:
                print(f"N√£o foi poss√≠vel adicionar o mapa base para hora {hour}: {e}")
            
            # Adicionar t√≠tulo
            ax.set_title(f'Ocupa√ß√£o √†s {hour:02d}:00h', fontsize=14)
            
            # Adicionar texto com estat√≠sticas
            if column_name in hourly_totals:
                total_pop = hourly_totals[column_name]
                max_pop = hourly_totals[max(hourly_totals, key=hourly_totals.get)]
                
                ax.annotate(f'Popula√ß√£o: {total_pop:,.0f} ({total_pop/max_pop*100:.1f}% do pico)',
                          xy=(0.02, 0.02), xycoords='axes fraction',
                          bbox=dict(boxstyle="round,pad=0.3", fc="white", ec="gray", alpha=0.8),
                          fontsize=10)
        
        # Ajustar layout
        plt.tight_layout()
        plt.show()

# Visualizar mapas para diferentes horas do dia
# Selecionar horas representativas (madrugada, manh√£, almo√ßo, tarde, noite)
selected_hours = [3, 8, 12, 17, 21]
visualize_hourly_maps(buildings_hourly, selected_hours)

In [None]:
# Calcular m√©tricas do pulso urbano
def calculate_urban_pulse_metrics(buildings_hourly, hourly_totals):
    """
    Calcula m√©tricas que caracterizam o pulso urbano.
    
    Args:
        buildings_hourly: GeoDataFrame com ocupa√ß√£o hor√°ria
        hourly_totals: Dicion√°rio com totais de ocupa√ß√£o por hora
    
    Returns:
        DataFrame com m√©tricas de pulso urbano
    """
    # Preparar dicion√°rio para armazenar m√©tricas
    pulse_metrics = {}
    
    # 1. Amplitude do pulso urbano (diferen√ßa entre ocupa√ß√£o m√°xima e m√≠nima)
    max_hour = max(hourly_totals, key=hourly_totals.get)
    min_hour = min(hourly_totals, key=hourly_totals.get)
    
    amplitude = hourly_totals[max_hour] - hourly_totals[min_hour]
    amplitude_pct = amplitude / hourly_totals[max_hour] * 100
    
    pulse_metrics['amplitude_abs'] = amplitude
    pulse_metrics['amplitude_pct'] = amplitude_pct
    
    # 2. Horas de pico e vale
    max_hour_num = int(max_hour.replace('population_h', ''))
    min_hour_num = int(min_hour.replace('population_h', ''))
    
    pulse_metrics['peak_hour'] = max_hour_num
    pulse_metrics['valley_hour'] = min_hour_num
    
    # 3. √çndice de atividade diurna (raz√£o entre m√©dia diurna e m√©dia total)
    daytime_hours = range(8, 20)  # 8h √†s 19h
    night_hours = list(range(0, 8)) + list(range(20, 24))  # 20h √†s 7h
    
    daytime_totals = [hourly_totals[f'population_h{hour:02d}'] for hour in daytime_hours]
    night_totals = [hourly_totals[f'population_h{hour:02d}'] for hour in night_hours]
    
    daytime_avg = sum(daytime_totals) / len(daytime_totals)
    night_avg = sum(night_totals) / len(night_totals)
    total_avg = sum(hourly_totals.values()) / len(hourly_totals)
    
    pulse_metrics['daytime_activity_index'] = daytime_avg / total_avg
    pulse_metrics['night_activity_index'] = night_avg / total_avg
    pulse_metrics['day_night_ratio'] = daytime_avg / night_avg if night_avg > 0 else float('inf')
    
    # 4. Per√≠odos de atividade (horas consecutivas acima de um limiar)
    # Definir limiar como 80% da ocupa√ß√£o m√°xima
    threshold = hourly_totals[max_hour] * 0.8
    
    active_hours = [hour for hour, total in hourly_totals.items() if total >= threshold]
    active_hours_nums = [int(hour.replace('population_h', '')) for hour in active_hours]
    active_hours_nums.sort()
    
    # Identificar per√≠odos consecutivos
    active_periods = []
    current_period = []
    
    for i, hour in enumerate(active_hours_nums):
        if i == 0 or hour != active_hours_nums[i-1] + 1:
            if current_period:
                active_periods.append(current_period)
            current_period = [hour]
        else:
            current_period.append(hour)
    
    if current_period:
        active_periods.append(current_period)
    
    pulse_metrics['num_active_periods'] = len(active_periods)
    pulse_metrics['longest_active_period'] = max([len(period) for period in active_periods]) if active_periods else 0
    
    # Formatar per√≠odos para exibi√ß√£o
    active_periods_str = []
    for period in active_periods:
        if len(period) == 1:
            active_periods_str.append(f"{period[0]:02d}h")
        else:
            active_periods_str.append(f"{period[0]:02d}h-{period[-1]:02d}h")
    
    pulse_metrics['active_periods'] = ", ".join(active_periods_str)
    
    # 5. √çndice de comuta√ß√£o (relacionado √† movimenta√ß√£o entre √°reas residenciais e n√£o residenciais)
    residential_buildings = buildings_hourly[buildings_hourly['temporal_profile'] == 'residential']
    nonresidential_buildings = buildings_hourly[buildings_hourly['temporal_profile'] != 'residential']
    
    # Calcular ocupa√ß√£o por hora para cada tipo
    residential_hourly = {}
    nonresidential_hourly = {}
    
    for hour in range(24):
        column_name = f'population_h{hour:02d}'
        
        if not residential_buildings.empty:
            residential_hourly[hour] = residential_buildings[column_name].sum()
        else:
            residential_hourly[hour] = 0
        
        if not nonresidential_buildings.empty:
            nonresidential_hourly[hour] = nonresidential_buildings[column_name].sum()
        else:
            nonresidential_hourly[hour] = 0
    
    # Calcular √≠ndice de comuta√ß√£o (correla√ß√£o negativa entre ocupa√ß√£o residencial e n√£o residencial)
    if len(residential_hourly) > 0 and len(nonresidential_hourly) > 0:
        res_values = list(residential_hourly.values())
        nonres_values = list(nonresidential_hourly.values())
        
        # Calcular correla√ß√£o de Pearson
        if np.std(res_values) > 0 and np.std(nonres_values) > 0:
            correlation = np.corrcoef(res_values, nonres_values)[0, 1]
            pulse_metrics['commuting_index'] = -correlation  # Invertido para que valores positivos indiquem mais comuta√ß√£o
        else:
            pulse_metrics['commuting_index'] = 0
    else:
        pulse_metrics['commuting_index'] = 0
    
    # Exibir m√©tricas calculadas
    print("M√©tricas do Pulso Urbano:")
    print(f"- Amplitude: {amplitude:,.0f} pessoas ({amplitude_pct:.2f}% do pico)")
    print(f"- Hora de pico: {max_hour_num:02d}h")
    print(f"- Hora de vale: {min_hour_num:02d}h")
    print(f"- √çndice de atividade diurna: {pulse_metrics['daytime_activity_index']:.4f}")
    print(f"- √çndice de atividade noturna: {pulse_metrics['night_activity_index']:.4f}")
    print(f"- Raz√£o dia/noite: {pulse_metrics['day_night_ratio']:.4f}")
    print(f"- Per√≠odos de alta atividade: {pulse_metrics['active_periods']}")
    print(f"- √çndice de comuta√ß√£o: {pulse_metrics['commuting_index']:.4f}")
    
    # Criar DataFrame para facilitar armazenamento e retorno
    metrics_df = pd.DataFrame([pulse_metrics])
    
    return metrics_df, residential_hourly, nonresidential_hourly

# Calcular m√©tricas de pulso urbano
pulse_metrics, residential_hourly, nonresidential_hourly = calculate_urban_pulse_metrics(buildings_hourly, hourly_totals)

In [None]:
# Visualizar o pulso urbano e padr√µes de comuta√ß√£o
def visualize_urban_pulse(residential_hourly, nonresidential_hourly, pulse_metrics):
    """
    Visualiza o pulso urbano e padr√µes de comuta√ß√£o.
    
    Args:
        residential_hourly: Dicion√°rio com ocupa√ß√£o residencial por hora
        nonresidential_hourly: Dicion√°rio com ocupa√ß√£o n√£o residencial por hora
        pulse_metrics: DataFrame com m√©tricas de pulso urbano
    """
    # 1. Gr√°fico de comuta√ß√£o (ocupa√ß√£o residencial x n√£o residencial)
    fig, ax1 = plt.subplots(figsize=(14, 8))
    
    # Eixo para ocupa√ß√£o residencial
    color1 = '#1b9e77'
    ax1.set_xlabel('Hora do Dia', fontsize=12)
    ax1.set_ylabel('Ocupa√ß√£o Residencial', fontsize=12, color=color1)
    ax1.plot(list(residential_hourly.keys()), list(residential_hourly.values()), 
            marker='o', linestyle='-', linewidth=2, color=color1, label='Residencial')
    ax1.tick_params(axis='y', labelcolor=color1)
    
    # Adicionar segundo eixo para ocupa√ß√£o n√£o residencial
    ax2 = ax1.twinx()
    color2 = '#d95f02'
    ax2.set_ylabel('Ocupa√ß√£o N√£o Residencial', fontsize=12, color=color2)
    ax2.plot(list(nonresidential_hourly.keys()), list(nonresidential_hourly.values()), 
            marker='s', linestyle='-', linewidth=2, color=color2, label='N√£o Residencial')
    ax2.tick_params(axis='y', labelcolor=color2)
    
    # Ajustar configura√ß√µes do gr√°fico
    plt.title('Padr√µes de Comuta√ß√£o: Ocupa√ß√£o Residencial x N√£o Residencial', fontsize=14)
    ax1.set_xticks(range(0, 24, 2))
    ax1.set_xlim(-0.5, 23.5)
    ax1.grid(True, linestyle='--', alpha=0.7)
    
    # Adicionar legenda combinada
    lines1, labels1 = ax1.get_legend_handles_labels()
    lines2, labels2 = ax2.get_legend_handles_labels()
    ax1.legend(lines1 + lines2, labels1 + labels2, loc='upper center', bbox_to_anchor=(0.5, -0.15), ncol=2)
    
    # Adicionar anota√ß√£o com √≠ndice de comuta√ß√£o
    commuting_index = pulse_metrics['commuting_index'].iloc[0]
    plt.annotate(f"√çndice de Comuta√ß√£o: {commuting_index:.4f}",
               xy=(0.02, 0.02), xycoords='figure fraction',
               bbox=dict(boxstyle="round,pad=0.3", fc="white", ec="gray", alpha=0.8),
               fontsize=10)
    
    # Marcar per√≠odos de alta atividade
    if 'active_periods' in pulse_metrics.columns:
        active_periods_str = pulse_metrics['active_periods'].iloc[0]
        periods = active_periods_str.split(', ')
        
        for period in periods:
            if '-' in period:
                start, end = period.replace('h', '').split('-')
                start, end = int(start), int(end)
                plt.axvspan(start, end + 1, alpha=0.2, color='gray')
            else:
                hour = int(period.replace('h', ''))
                plt.axvspan(hour, hour + 1, alpha=0.2, color='gray')
    
    plt.tight_layout()
    plt.show()
    
    # 2. Visualiza√ß√£o do ciclo de 24 horas como um rel√≥gio
    fig, ax = plt.subplots(figsize=(12, 12), subplot_kw={'projection': 'polar'})
    
    # Preparar dados
    hours = np.array(list(range(24)) + [0]) * 2 * np.pi / 24  # Converter para radianos e fechar o ciclo
    
    # Ocupa√ß√£o total
    total_values = [hourly_totals[f'population_h{h:02d}'] for h in range(24)]
    total_values.append(total_values[0])  # Fechar o ciclo
    
    # Normalizar para visualiza√ß√£o
    max_total = max(total_values[:-1])
    normalized_total = [v / max_total for v in total_values]
    
    # Plotar ocupa√ß√£o total
    ax.plot(hours, normalized_total, 'o-', linewidth=3, markersize=8, label='Ocupa√ß√£o Total')
    
    # Ocupa√ß√£o residencial
    res_values = list(residential_hourly.values())
    res_values.append(res_values[0])  # Fechar o ciclo
    
    # Normalizar
    max_res = max(res_values[:-1])
    normalized_res = [v / max_res for v in res_values]
    
    # Plotar ocupa√ß√£o residencial
    ax.plot(hours, normalized_res, 's-', linewidth=2, markersize=6, label='Residencial')
    
    # Ocupa√ß√£o n√£o residencial
    nonres_values = list(nonresidential_hourly.values())
    nonres_values.append(nonres_values[0])  # Fechar o ciclo
    
    # Normalizar
    max_nonres = max(nonres_values[:-1])
    normalized_nonres = [v / max_nonres for v in nonres_values]
    
    # Plotar ocupa√ß√£o n√£o residencial
    ax.plot(hours, normalized_nonres, '^-', linewidth=2, markersize=6, label='N√£o Residencial')
    
    # Ajustar configura√ß√µes do gr√°fico
    ax.set_theta_zero_location('top')  # 0h no topo
    ax.set_theta_direction(-1)  # Sentido hor√°rio
    
    # Configurar r√≥tulos de horas
    ax.set_xticks(np.linspace(0, 2*np.pi, 24, endpoint=False))
    ax.set_xticklabels([f'{h:02d}h' for h in range(24)])
    
    # Remover r√≥tulos do eixo radial
    ax.set_yticks([])
    
    # Adicionar t√≠tulo e legenda
    plt.title('Ciclo de Ocupa√ß√£o Urbana (24 horas)', fontsize=14, y=1.08)
    plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.05), ncol=3)
    
    # Adicionar anota√ß√µes para per√≠odos do dia
    plt.annotate('Madrugada', xy=(0, 0), xytext=(0, 1.3), xycoords='data', 
               textcoords='axes fraction', ha='center', fontsize=10)
    plt.annotate('Manh√£', xy=(np.pi/2, 0), xytext=(1.3, 0.5), xycoords='data', 
               textcoords='axes fraction', ha='center', va='center', fontsize=10)
    plt.annotate('Tarde', xy=(np.pi, 0), xytext=(0.5, -0.1), xycoords='data', 
               textcoords='axes fraction', ha='center', fontsize=10)
    plt.annotate('Noite', xy=(3*np.pi/2, 0), xytext=(-0.3, 0.5), xycoords='data', 
               textcoords='axes fraction', ha='center', va='center', fontsize=10)
    
    plt.tight_layout()
    plt.show()

# Visualizar pulso urbano
visualize_urban_pulse(residential_hourly, nonresidential_hourly, pulse_metrics)

In [None]:
# Salvar resultados da modelagem temporal
def save_temporal_results(buildings_hourly, pulse_metrics):
    """
    Salva os resultados da modelagem temporal para uso em an√°lises subsequentes.
    
    Args:
        buildings_hourly: GeoDataFrame com ocupa√ß√£o hor√°ria
        pulse_metrics: DataFrame com m√©tricas de pulso urbano
    
    Returns:
        Caminhos para os arquivos salvos
    """
    # Criar pasta de resultados se n√£o existir
    results_dir = os.path.join(data_dir, 'results')
    os.makedirs(results_dir, exist_ok=True)
    
    # Pasta para resultados intermedi√°rios
    intermediate_dir = os.path.join(data_dir, 'intermediate_results')
    os.makedirs(intermediate_dir, exist_ok=True)
    
    # Salvar GeoDataFrame com ocupa√ß√£o hor√°ria
    buildings_path = os.path.join(intermediate_dir, 'buildings_hourly.gpkg')
    buildings_hourly.to_file(buildings_path, driver='GPKG')
    
    # Salvar tamb√©m como pickle para preservar tipos de dados
    buildings_pickle_path = os.path.join(intermediate_dir, 'buildings_hourly.pkl')
    with open(buildings_pickle_path, 'wb') as f:
        pickle.dump(buildings_hourly, f)
    
    # Salvar m√©tricas de pulso urbano como CSV
    metrics_path = os.path.join(results_dir, 'urban_pulse_metrics.csv')
    pulse_metrics.to_csv(metrics_path, index=False)
    
    # Salvar dados hor√°rios agregados como CSV para facilitar an√°lises externas
    hourly_data = {
        'hour': list(range(24)),
        'total_population': [hourly_totals[f'population_h{h:02d}'] for h in range(24)]
    }
    
    # Adicionar dados por tipo de perfil
    for profile in buildings_hourly['temporal_profile'].unique():
        if pd.isna(profile):
            continue
        
        profile_buildings = buildings_hourly[buildings_hourly['temporal_profile'] == profile]
        
        if len(profile_buildings) > 0:
            hourly_data[f'population_{profile}'] = [
                profile_buildings[f'population_h{h:02d}'].sum() for h in range(24)
            ]
    
    # Criar DataFrame e salvar como CSV
    hourly_df = pd.DataFrame(hourly_data)
    hourly_path = os.path.join(results_dir, 'hourly_population.csv')
    hourly_df.to_csv(hourly_path, index=False)
    
    print(f"Resultados da modelagem temporal salvos em:")
    print(f"- GeoPackage com ocupa√ß√£o hor√°ria: {buildings_path}")
    print(f"- Pickle com ocupa√ß√£o hor√°ria: {buildings_pickle_path}")
    print(f"- M√©tricas de pulso urbano: {metrics_path}")
    print(f"- Dados hor√°rios agregados: {hourly_path}")
    
    return buildings_path, metrics_path, hourly_path

# Salvar resultados
buildings_path, metrics_path, hourly_path = save_temporal_results(buildings_hourly, pulse_metrics)

In [None]:
# Resumo e conclus√£o
print("="*80)
print("RESUMO DA MODELAGEM DE PADR√ïES TEMPORAIS")
print("="*80)

# Estat√≠sticas gerais
total_buildings = len(buildings_hourly)
buildings_with_profiles = buildings_hourly['temporal_profile'].notna().sum()
total_population = buildings_hourly['estimated_population'].sum()

print(f"Total de edif√≠cios processados: {total_buildings}")
print(f"Edif√≠cios com perfil temporal atribu√≠do: {buildings_with_profiles} ({buildings_with_profiles/total_buildings*100:.2f}%)")
print(f"Popula√ß√£o total estimada: {total_population:,.0f}")

# Estat√≠sticas do pulso urbano
max_hour = max(hourly_totals, key=hourly_totals.get)
min_hour = min(hourly_totals, key=hourly_totals.get)
max_hour_num = int(max_hour.replace('population_h', ''))
min_hour_num = int(min_hour.replace('population_h', ''))

print(f"\nPulso urbano:")
print(f"- Hora de pico: {max_hour_num:02d}h - {hourly_totals[max_hour]:,.0f} pessoas ({hourly_totals[max_hour]/total_population*100:.2f}% do total)")
print(f"- Hora de vale: {min_hour_num:02d}h - {hourly_totals[min_hour]:,.0f} pessoas ({hourly_totals[min_hour]/total_population*100:.2f}% do total)")
print(f"- Amplitude: {hourly_totals[max_hour] - hourly_totals[min_hour]:,.0f} pessoas ({(hourly_totals[max_hour] - hourly_totals[min_hour])/hourly_totals[max_hour]*100:.2f}%)")

# Estat√≠sticas de comuta√ß√£o
if 'commuting_index' in pulse_metrics.columns:
    commuting_index = pulse_metrics['commuting_index'].iloc[0]
    print(f"- √çndice de comuta√ß√£o: {commuting_index:.4f}")

# Per√≠odos de atividade
if 'active_periods' in pulse_metrics.columns:
    active_periods = pulse_metrics['active_periods'].iloc[0]
    print(f"- Per√≠odos de alta atividade: {active_periods}")

# Distribui√ß√£o de perfis temporais
profile_counts = buildings_hourly['temporal_profile'].value_counts()

print("\nDistribui√ß√£o de edif√≠cios por perfil temporal:")
for profile, count in profile_counts.items():
    if pd.notna(profile):
        print(f"- {profile}: {count} edif√≠cios ({count/total_buildings*100:.2f}%)")

# Benef√≠cios da modelagem temporal
print("\nBenef√≠cios da modelagem de padr√µes temporais:")
print("1. Compreens√£o da din√¢mica urbana ao longo do dia")
print("2. Identifica√ß√£o de picos de ocupa√ß√£o para planejamento de servi√ßos e infraestrutura")
print("3. Visualiza√ß√£o de padr√µes de comuta√ß√£o entre √°reas residenciais e n√£o residenciais")
print("4. Base para modelagem de fluxos de mobilidade e impactos na rede vi√°ria")
print("5. Subs√≠dio para planejamento de transportes e servi√ßos p√∫blicos em diferentes per√≠odos")

# Pr√≥ximos passos
print("\nPr√≥ximos passos:")
print("1. Integra√ß√£o com dados de mobilidade para modelagem de fluxos")
print("2. An√°lise de acessibilidade a servi√ßos essenciais em diferentes momentos do dia")
print("3. Simula√ß√£o de cen√°rios de ocupa√ß√£o para planejamento de emerg√™ncias")
print("4. Modelagem de padr√µes semanais (dias √∫teis vs. fim de semana)")

print(f"\nOs resultados foram salvos e est√£o prontos para uso em outras an√°lises:")
print(f"- GeoPackage com ocupa√ß√£o hor√°ria: {os.path.basename(buildings_path)}")
print(f"- M√©tricas de pulso urbano: {os.path.basename(metrics_path)}")
print(f"- Dados hor√°rios agregados: {os.path.basename(hourly_path)}")
print("="*80)