# Distribuições Territoriais

Esta seção constrói mapas básicos das áreas de estudo: as cidades de Belo Horizonte, Rio de Janeiro e São Paulo. Especificamente, serão consolidadas e apresentadas as distribuições territoriais de variáveis demográficas e socioeconômicas de interesse. Adicionalmente, há o complemento de atributos territoriais que entende-se que são, também, variáveis explicativas. Especificamente, o foco estará, preliminarmente, nas seguintes variáveis, as quais serão elaboradas em maior profundidade mais à frente.

- Contagens populacionais
- Rendimentos médios
- Contagens de postos de trabalho
- Índice de bem estar urbano
- Medidas geométricas e topológicas da malha de vias caminháveis

Os itens que seguem tratam de detalhar os passos metodológicos utilizados, o embasamento teórico-conceitual (ou empírico) que é subjacente a esses passos, bem como as fontes de dados. Ainda, logo de início estão listadas as bibliotecas em Python que dão suporte a todo o processo. Maiores detalhes a respeito do funcionamento dessas bibliotecas são dados na medida do necessário. 

Os dados consolidados serão apresentados em formato de mapas (estáticos) e salvos para uso nas etapas posteriores do artigo. Análises espaciais e estat;isticas mais aprofundadas serão conteúdo de scripts mais à frente. De particular interesse será verificar a articulação entre as porções do território de cada cidade, uma vez que esses fluxos sejam confrontados com os fluxos e as infraestruturas de transporte motorizado.

# Procedimentos Preliminares

## Bibliotecas

In [1]:
import os
import pathlib
import re
import requests
from string import ascii_uppercase

import basedosdados as bd
import geobr
import geopandas as gpd
import IPython.display as display
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from getpass import getpass
from shapely.geometry import Point, LineString, box
from tobler.area_weighted import area_interpolate
from tobler.util import h3fy



## Parâmetros de Base

In [2]:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
plt.style.use('Solarize_Light2')

In [3]:
pd.options.display.float_format = '{:,.2f}'.format

In [4]:
gcloud_id = getpass('Google Cloud Services billing ID:')

Google Cloud Services billing ID: ········


In [5]:
# Forneça código do IBGE da cidade, ou lista de códigos
# se quiser cidades vizinhas. P. ex.:
# ibge_id = 3106200 -> Belo Horizonte
ibge_id = [3303302, 3304904, 3301900] # -> Niteroi e Sao Goncalo e Itaboraí

# Das Malhas Territorias

A malha hexagonal H3 será utilizada como recorte espacial principal ao longo das análises†. Recortes hexagonais apresentam vantagens importantes frente a outras geometrias, sobretudo, eles podem reduzir vieses amostrais derivados de efeitos de borda e, adicionalmente, são mais mais adequados do que malhas retangulares para analisar fenômenos em que relações de vizinhança e conectividade são importantes (Birch, Oom, & Beecham, 2007). Essas vantagens da malha hexagonal serão mais imporantes quando estiverem sendo executadas as análises de acessibilidade, mas, até lá, também foi mostrado por Birch et al. (2007) que hexágonos favorecem a visualização de padrões e mitigam, em alguma medida, efeitos de borda.

Esses efeitos de borda, simplificadamente, dizem respeito a erros de representação na variação local dos dados. Isto é, outras geometrias — malhas quadriculadas, p. ex. — são mais propensas a apresentar variações bruscas e artificiais entre vizinhos — uma quadrícula com valores muito altos ladeada por quadrículas com valores muito baixos. Isso prejudica a análise e a visualização, assim favorecendo erros de interpretação.

Dados socioeconômicos e demográficos, por sua vez, serão imputados em cada hexágono a partir do enso demográfico de 2010. Esses dados censitários serão requisitados ao datalake público da Base dos Dados‡, enquanto que as malhas desses setores serão obtidas junto à biblioteca geobr⨥. Assim, de posse das malhas do IBGE e dos respectivos dados, procedimentos de interpolação espacial⁙ farão a transferência dos dados do censo para os hexágonos.

Complementarmente, para além das informações dos setores censitários, a grade estatística⁜ também será utilizada como insumo, a qual apresenta contagens populacionais com uma resolução maior que a dos agregados por setor: há uma malha com resolução de 200x200 m em áreas urbanas e de 1x1 km em áreas rurais. A grade é importante porque remove as áreas inabitadas — a Floresta d Tijuca, no Rio de Janeiro, p. ex. — e porque permitem localizar o centroide dos hexágonos de maneira mais precisa: seguindo recomendação de Stępniak and Jacobs-Crisioni (2017), o centro de cada geometria deve ser ponderado pela distribuição populacional nela contida, a fim de que haja uma representação mais precisa dos tempos de viagem entre geometrias.

Resta definir qual a resolução dessas malha. Conforme demonstrado, por exemplo, em Pereira et al. (2019), é importante avaliar distintos tamanhos de geometria, a fim de verificar se os resultados obtidos são realmente robustos ou se não passam de artefatos computacionais. Mas, quais resoluções⁕? A menor escala na qual ainda há dados disponíveis é a grade estatística, de maneira que hexágonos menores que ela não agregariam nenhum valor à análise, ao mesmo tempo em que elevariam, desnecessariamente, o tempo de processamento computacional. Com efeito, a menor resolução utilizada é a 9, com área relativamente próxima a um quadrado de lado 200m. No outro extremo, resta definir a maior resolução utilizada. A maior delas será a 7, com área de aproximadamente 5 km2. Tamahos maiores agregariam grandes regiões muito distintas entre si, contribuindo em demasiado para uma ilusão de homogeneidade a qual não existe — p. ex., a resolução 6 já conta com área de cercade 35km2. Portanto, serão avaliadas as resoluções 7, 8 e 9.

    Birch, C. P., Oom, S. P., & Beecham, J. A. (2007). Rectangular and hexagonal grids used for observation, experiment and simulation in ecology. Ecological modelling, 206(3-4), 347-359.
    
    Pereira, R. H., Banister, D., Schwanen, T., & Wessel, N. (2019). Distributional effects of transport policies on inequalities in access to opportunities in Rio de Janeiro. Journal of Transport and Land Use, 12(1), 741-764.
    
    Stępniak, M., & Jacobs-Crisioni, C. (2017). Reducing the uncertainty induced by spatial aggregation in accessibility and spatial interaction applications. Journal of Transport Geography, 61, 17-29.

    † Especificamente, será feito uso das bibliotecas em Python implementadas pela Uber (https://h3geo.org/), baseadas no sistema proposto em:

        Sahr, K., White, D., & Kimerling, A. J. (2003). Geodesic discrete global grid systems. Cartography and Geographic Information Science, 30(2), 121-134.
        
    ‡ ver https://basedosdados.org/

    ⨥ ver https://github.com/ipeaGIT/geobr
    
    ⁙ https://github.com/pysal/tobler

    ⁜ obtida diretamente do site do IBGE em https://censo2010.ibge.gov.br/component/saladeimprensa/?busca=1&id=3&idnoticia=3123&t=grade-estatistica-permite-obter-dados-censo-2010-diversos-recortes-espaciais&view=noticia
    
    ⁕ ver https://h3geo.org/docs/core-library/restable para uma lista de resoluções e as respectivas dimensões

## Malhas Censitárias

In [6]:
def get_study_area(ibge_id):
    if not isinstance(ibge_id, list):
        ibge_id = [ibge_id]

    return pd.concat([
        geobr.read_census_tract(id_)
        for id_
        in ibge_id
        ])


tracts = get_study_area(ibge_id)

In [7]:
crs = tracts.estimate_utm_crs(datum_name='SIRGAS 2000')
crs

<Projected CRS: EPSG:31983>
Name: SIRGAS 2000 / UTM zone 23S
Axis Info [cartesian]:
- E[east]: Easting (metre)
- N[north]: Northing (metre)
Area of Use:
- name: Brazil - between 48°W and 42°W, northern and southern hemispheres, onshore and offshore.
- bounds: (-48.0, -33.5, -42.0, 5.13)
Coordinate Operation:
- name: UTM zone 23S
- method: Transverse Mercator
Datum: Sistema de Referencia Geocentrico para las AmericaS 2000
- Ellipsoid: GRS 1980
- Prime Meridian: Greenwich

In [8]:
tracts = tracts.to_crs(crs)

Abaixo, utiliza-se a função h3fy, cuja documentação pode ser encontrada [aqui](https://pysal.org/tobler/generated/tobler.util.h3fy.html).

In [9]:
hexes = h3fy(tracts, resolution=9)

# A Leitura dos Atributos Territoriais

Resgatando o que foi dito no preâmbulo deste script, estamos interessados nas seguintes variáveis:
1. Contagens populacionais
2. Contagem de domicílios
3. Rendimentos médios
4. Contagens de postos de trabalho
5. Índice de bem estar urbano

A ideia, portanto, é fazer a leitura e o ajuste dessas variáveis para que possam ser imptuadas nas malhas hexagonais H3.

## Rendimentos Médios

Os rendimentos serão obtidos a partir da API da Base dos Dados. Especificamente, utiliza-se a seguinte variável da tabela básica do Censo de 2010:

- v009: Valor do rendimento nominal médio mensal das pessoas de 10 anos ou mais de idade (com e sem rendimento)

In [10]:
def _sql_style_list(sequence):
    single_quoted_elements = [f"'{c}'" for c in sequence]
    return ', '.join(single_quoted_elements)

In [11]:
def read_census_data(query, gcloud_id):
    data = bd.read_sql(query,
                       billing_project_id=gcloud_id)
    
    return (
        data.astype({'id_setor_censitario': np.int64})
            .astype({'id_setor_censitario': str})
            .rename(
                columns={
                    'v009': 'rendimento_medio',
                    'v002': 'habitantes',
                    'v001': 'domicilios',
                    }
                )
        )

In [12]:
query = (
    'SELECT id_setor_censitario, v009, v002, v001 '
    'FROM basedosdados.br_ibge_censo_demografico.setor_censitario_basico_2010 '
    f"WHERE id_setor_censitario IN ({_sql_style_list(tracts.code_tract.unique())})"
    )
tract_data = read_census_data(query, gcloud_id)

Downloading: 100%|█████████████████████████████████████████████████████████████| 3260/3260 [00:00<00:00, 6046.75rows/s]


In [13]:
tract_data.head(3)

Unnamed: 0,id_setor_censitario,rendimento_medio,habitantes,domicilios
0,330490420000320,611.79,30.0,15.0
1,330190015000033,459.5,8.0,4.0
2,330330205000771,2478.8,22.0,11.0


## Imputacao: Dados Censitários -> Malhas Censitarias

Esta parte faz a junçao dos dados dos setores censitários com as respectivas geometrias dos setores. Após esse processo, será feita a interpolação espacial dos dados para os Hexágonos H3.

In [14]:
# União entre malha de setores e respectivos dados
tracts_with_data = (
    tracts
    .merge(
        tract_data,
        left_on='code_tract',
        right_on='id_setor_censitario',
        how='left',
    )
    .reindex(
        columns=[
            'id_setor_censitario',
            'code_muni',
            'name_muni',
            'habitantes',
            'domicilios',
            'rendimento_medio',
            'geometry',
        ]
    )
)

tracts_with_data.head()

Unnamed: 0,id_setor_censitario,code_muni,name_muni,habitantes,domicilios,rendimento_medio,geometry
0,330330205000195,3303302.0,Niterói,769.0,328.0,3715.75,"POLYGON ((693454.959 7465557.459, 693397.504 7..."
1,330330205000196,3303302.0,Niterói,333.0,112.0,5450.32,"POLYGON ((693397.504 7465619.667, 693363.964 7..."
2,330330205000197,3303302.0,Niterói,736.0,261.0,7122.06,"POLYGON ((693419.174 7465709.629, 693465.704 7..."
3,330330205000198,3303302.0,Niterói,804.0,328.0,4564.74,"POLYGON ((693363.964 7465656.221, 693260.771 7..."
4,330330205000199,3303302.0,Niterói,781.0,290.0,4217.08,"POLYGON ((693260.771 7465742.727, 693114.911 7..."


## Interpolações: Setor Censitário → Hexágonos

In [15]:
hex_with_data = (
    area_interpolate(
        source_df=tracts_with_data.assign(
            geometry=lambda x: x.buffer(0)
            ),
        target_df=hexes,
        extensive_variables=['habitantes', 'domicilios'],
        intensive_variables=['rendimento_medio',]
        )
    .drop(columns='geometry')
    .set_index(hexes.index)
    .pipe(
        lambda df: pd.merge(
            hexes,
            df,
            left_index=True,
            right_index=True,
            )
        )
    )

In [16]:
hex_with_data.head(2)

Unnamed: 0_level_0,geometry,habitantes,domicilios,rendimento_medio
hex_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
89a8a2a684fffff,"POLYGON ((699808.306 7479226.913, 699919.435 7...",175.07,54.69,420.08
89a8a2a1e6bffff,"POLYGON ((725912.735 7476333.819, 726024.111 7...",4.68,1.64,393.7


A visualização do mapa abaixo é feita com o método GeoDataFrame.explore do GeoPandas. Você pode [consultar a documentação](https://geopandas.org/en/stable/docs/reference/api/geopandas.GeoDataFrame.explore.html) para entender melhor como o método funciona.

In [17]:
hex_with_data.explore(column='domicilios')

O mapa acima mostra a distribuição dos domicílios nos municípios de Niterói, São Gonçalo e Itaboraí. Uma coisa que talvez seja perceptível é que, na criação da escala de cores do mapa, há algumas pequenas regiões com cores muito intensas, enquanto a maior parte parece homogênea.

Isso acontece porquê ao representar dados como a quantidade de domicílios por bairro em uma cidade, é comum encontrar distribuições muito assimétricas — ou seja, a maior parte dos bairros tem poucos domicílios, enquanto poucos bairros concentram números muito altos. Assim, se utilizarmos uma escala uniforme, como de 0 a 3000 domicílios, corremos o risco de comprometer a leitura do mapa.

Nesse tipo de situação, a maioria dos bairros ficará representada com cores muito semelhantes, próximas ao início da escala, e apenas os bairros com maior número de domicílios se destacarão visualmente. Isso esconde padrões importantes e dificulta a análise espacial, já que pequenas variações entre os bairros mais comuns passam despercebidas.

Para tornar o mapa mais informativo, é recomendável utilizar métodos de classificação que redistribuam melhor os valores, como a divisão por quantis ou o método de Jenks, ou até mesmo aplicar transformações nos dados (como logaritmos). Assim, é possível valorizar visualmente as diferenças reais entre os bairros, mesmo que os valores absolutos estejam concentrados em uma faixa pequena da distribuição.

# Exercício: Mapas Coropléticos

Objetivo: Compreender os princípios básicos do mapeamento coroplético e aplicar técnicas de classificação e escolha de cores para representar dados espaciais.

Contexto:

Mapas coropléticos são representações cartográficas que utilizam variações de cor para mostrar valores estatísticos agregados por regiões (como estados, municípios ou bairros). Cada região é associada a um valor e preenchida com uma cor que corresponde à sua classe de valor. Embora hoje seja possível criar mapas sem classificação (unclassed), a abordagem com classes (classed) continua sendo valiosa por facilitar a interpretação visual dos dados.

Três decisões fundamentais no mapeamento coroplético:
- Número de classes: Definir em quantos grupos os valores serão divididos.
- Método de classificação: Escolher o algoritmo para agrupar os dados (ex: quantis, intervalos iguais, Jenks).
- Escolha das cores: Aplicar uma paleta que represente adequadamente as diferenças entre os grupos.

Você deve explorar esses conceitos e, para isso, irá utilizar bibliotecas Python como geopandas e [pacotes do conjunto de bibliotecas PySAL](https://pysal.org/). Acompanhe o capítulo Choropleth Mapping do livro [Geographic Data Science with Python](https://geographicdata.science/book/notebooks/05_choropleth.html) e reproduza o exercício prático lá contido com os municípios acima. Documente o passo a passo e discuta e analise seus achados.