### Processamento de Dados de Luminosidade Noturna - Amaz√¥nia Legal
- Este notebook documenta as etapas de extra√ß√£o de features de sensoriamento remoto para a estimativa do PIB dos munic√≠pios da Amaz√¥nia Legal, seguindo a metodologia de Suleiman et al. (2025).

#### Etapa 1: Carregamento da Malha Territorial (IBGE)
- O objetivo desta etapa √© carregar o arquivo vetorial (Shapefile) contendo os limites geogr√°ficos oficiais dos munic√≠pios que comp√µem a Amaz√¥nia Legal.

#### Justificativa T√©cnica:

- Consist√™ncia Temporal: Utiliza-se a malha de 2022 para garantir compatibilidade com o √∫ltimo Censo Demogr√°fico e as estat√≠sticas oficiais de PIB municipal.

- Recorte Regional: O foco na Amaz√¥nia Legal permite endere√ßar quest√µes espec√≠ficas de regi√µes com vazios estat√≠sticos e dificuldades de acesso.

- Base de Cruzamento: A coluna CD_MUN (C√≥digo do Munic√≠pio) ser√° a chave prim√°ria para integrar os dados de luminosidade com os dados socioecon√¥micos do IBGE e da RAIS.

In [1]:
%pip install --user geobr --no-cache-dir

Note: you may need to restart the kernel to use updated packages.


In [3]:
 %pip install deflatebr

Collecting deflatebrNote: you may need to restart the kernel to use updated packages.

  Downloading deflateBR-0.2.1-py3-none-any.whl.metadata (5.7 kB)
Collecting datetime (from deflatebr)
  Downloading datetime-6.0-py3-none-any.whl.metadata (34 kB)
Collecting zope.interface (from datetime->deflatebr)
  Downloading zope_interface-8.2-cp310-cp310-win_amd64.whl.metadata (46 kB)
Downloading deflateBR-0.2.1-py3-none-any.whl (6.3 kB)
Downloading datetime-6.0-py3-none-any.whl (52 kB)
Downloading zope_interface-8.2-cp310-cp310-win_amd64.whl (211 kB)
Installing collected packages: zope.interface, datetime, deflatebr

   ---------------------------------------- 0/3 [zope.interface]
   ---------------------------------------- 0/3 [zope.interface]
   ---------------------------------------- 3/3 [deflatebr]

Successfully installed datetime-6.0 deflatebr-0.2.1 zope.interface-8.2


In [1]:
import os
import geopandas as gpd

# 1. Definindo o caminho absoluto conforme voc√™ encontrou
caminho_shp_2022 = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\dados\Mun_Amazonia_Legal_2022.shp"

# 2. Teste de leitura
try:
    if os.path.exists(caminho_shp_2022):
        print("‚úÖ Sucesso! O Shapefile de 2022 foi localizado.")
        mapa_amz_2022 = gpd.read_file(caminho_shp_2022)
        
        print(f"Munic√≠pios da Amaz√¥nia Legal (2022) carregados: {len(mapa_amz_2022)}")
        
        # Conferindo se as colunas batem (importante para o cruzamento com o PIB)
        print(f"Colunas detectadas: {mapa_amz_2022.columns.tolist()}")
        display(mapa_amz_2022.head())
    else:
        print("‚ùå Erro: O arquivo n√£o foi encontrado no caminho especificado.")
        print(f"Verifique se o nome √© Mun_Amazonia_Legal_2022.shp ou Amazonia_Legal_Municipios_2022.shp")
except Exception as e:
    print(f"‚ùå Ocorreu um erro ao carregar o arquivo: {e}")

‚úÖ Sucesso! O Shapefile de 2022 foi localizado.


  _init_gdal_data()


Munic√≠pios da Amaz√¥nia Legal (2022) carregados: 772
Colunas detectadas: ['CD_MUN', 'NM_REGIAO', 'CD_UF', 'NM_UF', 'SIGLA_UF', 'NM_MUN', 'AREA_TOT', 'AREA_INT', 'PORC_INT', 'geometry']


Unnamed: 0,CD_MUN,NM_REGIAO,CD_UF,NM_UF,SIGLA_UF,NM_MUN,AREA_TOT,AREA_INT,PORC_INT,geometry
0,1100015,Norte,11,Rond√¥nia,RO,Alta Floresta D'Oeste,7067.127,7067.127,100.0,"POLYGON ((-62.00806 -12.13379, -62.00784 -12.2..."
1,1100023,Norte,11,Rond√¥nia,RO,Ariquemes,4426.571,4426.571,100.0,"POLYGON ((-63.17933 -10.13924, -63.17746 -10.1..."
2,1100031,Norte,11,Rond√¥nia,RO,Cabixi,1314.352,1314.352,100.0,"POLYGON ((-60.52408 -13.32137, -60.37162 -13.3..."
3,1100049,Norte,11,Rond√¥nia,RO,Cacoal,3793.0,3793.0,100.0,"POLYGON ((-61.35502 -11.50452, -61.35524 -11.5..."
4,1100056,Norte,11,Rond√¥nia,RO,Cerejeiras,2783.3,2783.3,100.0,"POLYGON ((-60.82135 -13.1191, -60.81773 -13.12..."


### Etapa 2: Carregamento e Inspe√ß√£o de Dados de Sensoriamento Remoto (Raster)
Nesta fase, integramos as imagens de luminosidade noturna (Nighttime Lights - NTL) provenientes de dois sensores distintos, harmonizados para permitir uma s√©rie hist√≥rica de longo prazo (1992-2023):

- Sensor DMSP-OLS (1992-2013): Dados calibrados para manter a consist√™ncia entre diferentes sat√©lites.

- Sensor VIIRS (2014-2023): Dados de maior resolu√ß√£o radiom√©trica, processados via SRUNet para simular a resposta do DMSP, garantindo a continuidade da s√©rie.

- Objetivo da C√©lula: Verificar o alinhamento espacial (CRS - Coordinate Reference System) entre o Shapefile dos munic√≠pios e a imagem Raster. Este alinhamento √© o pr√©-requisito para a extra√ß√£o das 8 features estat√≠sticas por munic√≠pio.

In [2]:
import os
import geopandas as gpd
import rasterio
import warnings

# Silenciando avisos de configura√ß√£o do GDAL para n√£o poluir o terminal
warnings.filterwarnings('ignore', category=RuntimeWarning)

# 1. Recarregando e convertendo o mapa
caminho_shp_2022 = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\dados\Mun_Amazonia_Legal_2022.shp"
mapa_amz_2022 = gpd.read_file(caminho_shp_2022).to_crs("EPSG:4326")

# 2. Caminho da imagem (NTL 1992)
caminho_ntl_1992 = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\dados\ntl\Harmonized_DN_NTL_1992_calDMSP.tif"

# Teste simples de conex√£o com o arquivo sem plotar tudo
try:
    with rasterio.open(caminho_ntl_1992) as src:
        print(f"‚úÖ Sucesso! Imagem Raster aberta.")
        print(f"Resolu√ß√£o: {src.width}x{src.height}")
        print(f"Sistema de Coordenadas da Imagem: {src.crs}")
    print("\nüöÄ Tudo pronto para a extra√ß√£o (Etapa 3).")
except Exception as e:
    print(f"‚ùå Erro ao abrir o raster: {e}")

  elif GDALDataFinder().find_file("gdalvrt.xsd"):


‚úÖ Sucesso! Imagem Raster aberta.
Resolu√ß√£o: 43201x16801
Sistema de Coordenadas da Imagem: EPSG:4326

üöÄ Tudo pronto para a extra√ß√£o (Etapa 3).


### Etapa 3: Extra√ß√£o Automatizada de Features (Zonal Statistics)
- Nesta etapa, implementamos um loop que percorre a s√©rie hist√≥rica completa (1992-2023). Para cada arquivo raster, a fun√ß√£o realiza o "recorte" estat√≠stico baseado nos pol√≠gonos municipais da Amaz√¥nia Legal.

- Metodologia de Extra√ß√£o: > S√£o extra√≠das 8 m√©tricas estat√≠sticas por munic√≠pio, captando n√£o apenas a intensidade luminosa m√©dia, mas tamb√©m a dispers√£o e os picos de atividade, conforme a metodologia de Suleiman et al. (2025). O resultado final √© um painel de dados (Long Format) pronto para o treinamento dos modelos de Machine Learning.

In [None]:
import os
import pandas as pd
import geopandas as gpd
from rasterstats import zonal_stats
from tqdm import tqdm

# 1. Recarregando e convertendo o mapa (Seguran√ßa contra quedas de Kernel)
caminho_shp = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\dados\Mun_Amazonia_Legal_2022.shp"
mapa_amz = gpd.read_file(caminho_shp).to_crs("EPSG:4326")

# 2. Configurando caminhos
pasta_ntl = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\dados\ntl"
arquivos = [f for f in os.listdir(pasta_ntl) if f.endswith('.tif')]
arquivos.sort()

dados_finais = []

print(f"üöÄ Iniciando extra√ß√£o para {len(arquivos)} arquivos...")

# 3. Loop de Processamento
for arquivo in tqdm(arquivos):
    caminho_full = os.path.join(pasta_ntl, arquivo)
    
    # Extraindo o ano do nome do arquivo
    ano_str = ''.join(filter(str.isdigit, arquivo))[:4]
    ano = int(ano_str) if ano_str else "N/A"

    try:
        # Extra√ß√£o de estat√≠sticas nativas (removido 'variance' para evitar erro)
        stats = zonal_stats(
            mapa_amz, 
            caminho_full,
            stats=['mean', 'sum', 'std', 'min', 'max', 'median'],
            geojson_out=False
        )
        
        # Transformando em DataFrame
        df_temp = pd.DataFrame(stats)
        
        # 4. C√°lculo manual das features adicionais (Essencial para a inova√ß√£o)
        # Vari√¢ncia = Desvio Padr√£o ao quadrado
        df_temp['variance'] = df_temp['std'] ** 2
        
        # Coeficiente de Varia√ß√£o = Desvio Padr√£o / M√©dia (medida de dispers√£o econ√¥mica)
        df_temp['cv'] = df_temp['std'] / df_temp['mean']
        
        # Adicionando identificadores
        df_temp['CD_MUN'] = mapa_amz['CD_MUN'].values
        df_temp['NM_MUN'] = mapa_amz['NM_MUN'].values
        df_temp['ano'] = ano
        
        dados_finais.append(df_temp)
        
    except Exception as e:
        print(f"‚ö†Ô∏è Pulei o arquivo {arquivo} devido ao erro: {e}")

# 5. Consolida√ß√£o e Salvamento
if dados_finais:
    df_painel = pd.concat(dados_finais, ignore_index=True)
    caminho_save = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\outputs\painel_ntl_amazonia_v1.csv"
    df_painel.to_csv(caminho_save, index=False, sep=';', encoding='utf-8-sig')
    print(f"\n‚úÖ Sucesso! Painel com 8 features salvo em: {caminho_save}")
    display(df_painel.head())

Cannot find header.dxf (GDAL_DATA is not defined)


üöÄ Iniciando extra√ß√£o para 33 arquivos...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 33/33 [1:40:02<00:00, 181.88s/it] 



‚úÖ Sucesso! Painel com 8 features salvo em: C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\outputs\painel_ntl_amazonia_v1.csv


Unnamed: 0,min,max,mean,sum,std,median,variance,cv,CD_MUN,NM_MUN,ano
0,0.0,35.0,0.771818,6518.0,2.755935,0.0,7.59518,3.570708,1100015,Alta Floresta D'Oeste,2013
1,0.0,63.0,2.905454,15396.0,7.793228,0.0,60.734409,2.682276,1100023,Ariquemes,2013
2,0.0,22.0,1.44845,2290.0,3.205688,0.0,10.276438,2.213185,1100031,Cabixi,2013
3,0.0,58.0,1.634432,7386.0,6.176859,0.0,38.153592,3.779208,1100049,Cacoal,2013
4,0.0,46.0,1.590394,5331.0,4.329183,0.0,18.741829,2.722083,1100056,Cerejeiras,2013


: 

### Etapa 4: An√°lise de Tend√™ncia Hist√≥rica (1992-2023)
- Com o painel consolidado, realizamos uma an√°lise da evolu√ß√£o temporal da luminosidade m√©dia agregada para todos os munic√≠pios da Amaz√¥nia Legal. Este gr√°fico permite validar a consist√™ncia da s√©rie hist√≥rica, especialmente na transi√ß√£o entre os sensores DMSP e VIIRS, garantindo que n√£o existam outliers ou quebras estruturais que possam comprometer o treinamento do modelo de Machine Learning.

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import os

# 1. Carregando os dados
caminho_csv = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\outputs\painel_ntl_amazonia_v1.csv"

if os.path.exists(caminho_csv):
    df_painel = pd.read_csv(caminho_csv, sep=';', encoding='utf-8-sig')
    
    # --- AJUSTE DE LIMPEZA ---
    # Mantemos apenas anos entre 1992 e 2023 para remover o erro do ano 2200
    df_limpo = df_painel[(df_painel['ano'] >= 1992) & (df_painel['ano'] <= 2023)]
    
    # 2. Agrupando a m√©dia anual
    evolucao_anual = df_limpo.groupby('ano')['mean'].mean().reset_index()

    # 3. Criando o gr√°fico corrigido
    plt.figure(figsize=(12, 6))
    plt.plot(evolucao_anual['ano'], evolucao_anual['mean'], 
             marker='o', color='#d95f02', linewidth=2, label='M√©dia de Luminosidade')

    # Customiza√ß√£o
    plt.title('S√©rie Hist√≥rica Corrigida: Luminosidade na Amaz√¥nia Legal (1992-2023)', fontsize=14, fontweight='bold')
    plt.xlabel('Ano')
    plt.ylabel('Intensidade de Luz (DN)')
    plt.grid(True, linestyle='--', alpha=0.5)
    
    # Definindo os limites do eixo X corretamente
    plt.xlim(1991, 2024)
    plt.xticks(range(1992, 2024, 2), rotation=45)

    # Legendas dos Sensores
    plt.axvspan(1992, 2013, color='gray', alpha=0.1, label='Per√≠odo DMSP')
    plt.axvspan(2014, 2023, color='blue', alpha=0.05, label='Per√≠odo VIIRS')
    
    plt.legend()
    plt.tight_layout()
    plt.show()
    
    # Aviso sobre o filtro
    print(f"üìä Gr√°fico gerado. Filtramos {len(df_painel) - len(df_limpo)} linhas com anos inv√°lidos.")
else:
    print("‚ùå Arquivo n√£o encontrado.")

: 

### An√°lise da S√©rie Hist√≥rica de Luminosidade (1992-2023)
A visualiza√ß√£o da evolu√ß√£o temporal da luminosidade m√©dia na Amaz√¥nia Legal permite identificar tr√™s fen√¥menos fundamentais para a validade desta pesquisa:

1. Tend√™ncia de Longo Prazo e Atividade Antr√≥pica: Observa-se uma trajet√≥ria ascendente da luminosidade m√©dia ao longo das tr√™s d√©cadas. Econometricamente, isso indica uma correla√ß√£o positiva com a expans√£o da infraestrutura urbana, eletrifica√ß√£o rural e aumento da densidade econ√¥mica na regi√£o. A curva atua como um proxy do crescimento do estoque de capital e do adensamento populacional nos 773 munic√≠pios analisados.

2. Transi√ß√£o Tecnol√≥gica de Sensores (DMSP vs. VIIRS): O gr√°fico evidencia uma quebra estrutural positiva a partir de 2014. Este salto n√£o representa apenas um crescimento econ√¥mico s√∫bito, mas sim a transi√ß√£o do sensor DMSP (resolu√ß√£o de 1km e satura√ß√£o em centros urbanos) para o sensor VIIRS (resolu√ß√£o de 500m e maior sensibilidade a luzes fracas).

Nota Metodol√≥gica: Para o modelo de Machine Learning, essa diferen√ßa ser√° tratada atrav√©s da inclus√£o de vari√°veis estat√≠sticas de dispers√£o (vari√¢ncia e desvio padr√£o), que ajudam o algoritmo a "normalizar" a sensibilidade distinta entre os sensores.

3. Resili√™ncia e Ru√≠dos (Outliers): A remo√ß√£o de registros an√¥malos (como o ano erro detectado de 2200) e a estabilidade da curva sugerem que o processo de Zonal Statistics foi executado com precis√£o espacial. A manuten√ß√£o do sistema de coordenadas EPSG:4326 garantiu que o recorte dos munic√≠pios estivesse perfeitamente alinhado √†s imagens orbitais, evitando flutua√ß√µes artificiais causadas por erros de sobreposi√ß√£o geogr√°fica.

Conclus√£o da Etapa: A s√©rie hist√≥rica apresenta consist√™ncia interna e variabilidade suficiente para alimentar os modelos preditivos. O conjunto de dados est√° validado para ser integrado aos indicadores socioecon√¥micos (PIB Municipal) na pr√≥xima etapa.

### Etapa 5: Consolida√ß√£o do Dataset e Integra√ß√£o NTL-PIB
Nesta etapa, realizamos a fus√£o (Merge) entre os indicadores biof√≠sicos extra√≠dos das imagens de sat√©lite e os dados socioecon√¥micos oficiais do IBGE (Tabela 5938). O objetivo √© construir o Dataset Mestre que servir√° de base para o treinamento dos modelos de Machine Learning.

Procedimentos Realizados:
Limpeza e Reestrutura√ß√£o (Data Wrangling): Os dados originais do PIB municipal apresentam-se em formato "largo" (Wide Format). Aplicamos uma transforma√ß√£o para o formato "longo" (Long Format), permitindo o alinhamento temporal ano a ano com a s√©rie de luminosidade noturna.

Sincroniza√ß√£o por Chave Prim√°ria: A uni√£o das tabelas utiliza o C√≥digo do Munic√≠pio (7 d√≠gitos) e o Ano como chaves prim√°rias, garantindo que cada observa√ß√£o represente corretamente a rela√ß√£o luz-PIB para um territ√≥rio espec√≠fico em um momento exato no tempo.

Prepara√ß√£o para a Corre√ß√£o Territorial (AMC): Esta estrutura consolidada √© o pr√©-requisito para a aplica√ß√£o das √Åreas M√≠nimas Compar√°veis (AMC). Como a Amaz√¥nia Legal sofreu intensas modifica√ß√µes em sua malha municipal (emancipa√ß√µes), a consolida√ß√£o atual permitir√°, no pr√≥ximo passo, agrupar munic√≠pios "filhos" de volta aos seus munic√≠pios "pais" de 1991, garantindo a comparabilidade estat√≠stica exigida pela banca de qualifica√ß√£o.

In [1]:
import pandas as pd
import os

# 1. Caminhos dos arquivos
caminho_ntl = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\outputs\painel_ntl_amazonia_v1.csv"
caminho_pib = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\dados\tabela5938.csv"

# 2. Carregando os dados de Luz (NTL)
df_ntl = pd.read_csv(caminho_ntl, sep=';', encoding='utf-8-sig')
df_ntl['CD_MUN'] = df_ntl['CD_MUN'].astype(str)

# 3. Carregando e Limpando o PIB (IBGE)
# O arquivo SIDRA tem 4 linhas de cabe√ßalho. Pulamos elas para pegar os dados.
df_pib_raw = pd.read_csv(caminho_pib, encoding='latin1', skiprows=4)

# Selecionamos apenas a coluna de C√≥digo e as colunas de valores (pulando as colunas de 'Unidade')
# O C√≥digo est√° na coluna index 1. Os valores come√ßam na 3 e pulam de 2 em 2.
cols_pib = [1] + list(range(3, len(df_pib_raw.columns), 2))
df_pib_clean = df_pib_raw.iloc[:, cols_pib]

# Renomeando as colunas (Anos 2002 a 2021)
anos_pib = [str(ano) for ano in range(2002, 2022)]
df_pib_clean.columns = ['CD_MUN'] + anos_pib

# Transformando de 'Largo' para 'Longo' (Melt) para alinhar com o NTL
df_pib_long = df_pib_clean.melt(id_vars=['CD_MUN'], var_name='ano', value_name='pib')

# Limpeza final de tipos
df_pib_long['CD_MUN'] = df_pib_long['CD_MUN'].astype(str)
df_pib_long['ano'] = df_pib_long['ano'].astype(int)
df_pib_long['pib'] = pd.to_numeric(df_pib_long['pib'], errors='coerce')

# 4. O MERGE (A uni√£o sagrada)
# Usamos 'inner' para manter apenas onde temos as duas informa√ß√µes
df_final = pd.merge(df_ntl, df_pib_long, on=['CD_MUN', 'ano'], how='inner')

# 5. Salvando o Dataset Mestre
import os

# 1. Descobre onde este arquivo de c√≥digo (.ipynb) est√° salvo agora
diretorio_base = os.getcwd()

# 2. Cria o caminho para a pasta 'outputs' de forma inteligente
# O ".." serve para subir uma pasta, caso seu notebook esteja dentro de uma pasta 'src'
caminho_pasta_output = os.path.join(diretorio_base, "..", "outputs")

# 3. Se a pasta outputs n√£o existir no novo local, o Python cria pra voc√™
if not os.path.exists(caminho_pasta_output):
    os.makedirs(caminho_pasta_output)

# 4. Define o nome do arquivo final
arquivo_final = os.path.join(caminho_pasta_output, "dataset_pib_ntl_amazonia.csv")

# 5. Salva o arquivo
df_final.to_csv(arquivo_final, index=False, sep=';', encoding='utf-8-sig')

print(f"‚úÖ Arquivo salvo com sucesso em: {arquivo_final}")

print(f"‚úÖ Sucesso! Dataset consolidado com {df_final.shape[0]} registros.")
print(f"üìà Per√≠odo coberto: {df_final['ano'].min()} a {df_final['ano'].max()}")
display(df_final.head())

‚úÖ Arquivo salvo com sucesso em: g:\Meu Drive\MESTRADO\Dissertacao_mestrado\src\..\outputs\dataset_pib_ntl_amazonia.csv
‚úÖ Sucesso! Dataset consolidado com 15420 registros.
üìà Per√≠odo coberto: 2002 a 2020


Unnamed: 0,min,max,mean,sum,std,median,variance,cv,CD_MUN,NM_MUN,ano,pib
0,0.0,63.0,2.905454,15396.0,7.793228,0.0,60.734409,2.682276,1100023,Ariquemes,2013,1799853.0
1,0.0,22.0,1.44845,2290.0,3.205688,0.0,10.276438,2.213185,1100031,Cabixi,2013,96365.0
2,0.0,58.0,1.634432,7386.0,6.176859,0.0,38.153592,3.779208,1100049,Cacoal,2013,1433254.0
3,0.0,46.0,1.590394,5331.0,4.329183,0.0,18.741829,2.722083,1100056,Cerejeiras,2013,353270.0
4,0.0,22.0,1.135026,1967.0,3.007819,0.0,9.046973,2.65,1100064,Colorado do Oeste,2013,242767.0


### Etapa 6: Harmoniza√ß√£o Territorial via AMCs (√Åreas M√≠nimas Compar√°veis)
Esta etapa endere√ßa diretamente a cr√≠tica da banca de qualifica√ß√£o quanto √† instabilidade da malha municipal na Amaz√¥nia Legal entre 1992 e 2023. Para garantir que estamos comparando as mesmas unidades territoriais ao longo do tempo, adotamos a metodologia das √Åreas M√≠nimas Compar√°veis (AMC).

L√≥gica da Harmoniza√ß√£o:

Munic√≠pios criados por emancipa√ß√£o ap√≥s 1991 s√£o "reagrupados" aos seus munic√≠pios de origem.

Somamos os valores de PIB e Luminosidade de todos os munic√≠pios que comp√µem uma mesma AMC.

Isso elimina o vi√©s de "perda de PIB" ou "perda de luz" que ocorreria se olh√°ssemos para um munic√≠pio que foi desmembrado.

Utilizamos como refer√™ncia a malha de 1991, marco inicial da nossa s√©rie hist√≥rica.

In [2]:
# C√©lula de Seguran√ßa: Carregar o que j√° foi salvo
import pandas as pd
import os

caminho_dataset = r"C:\Users\Igor\Downloads\MESTRADO\Dissertacao_mestrado\outputs\dataset_pib_ntl_amazonia.csv"

if os.path.exists(caminho_dataset):
    df_final = pd.read_csv(caminho_dataset, sep=';')
    print(f"‚úÖ Dataset carregado com sucesso! {len(df_final)} registros prontos para a AMC.")
else:
    print("‚ùå O arquivo da Etapa 5 ainda n√£o foi gerado. Rode a c√©lula anterior primeiro.")

‚úÖ Dataset carregado com sucesso! 15420 registros prontos para a AMC.


#### 1. Verifica√ß√£o de Consist√™ncia (Missing Values)
Precisamos garantir que o merge n√£o gerou linhas vazias, especialmente para munic√≠pios que mudaram de c√≥digo ou anos espec√≠ficos.


Para a verifica√ß√£o de consist√™ncia, o ponto que voc√™ mencionou sobre os sensores √© crucial: a transi√ß√£o entre o sensor DMSP-OLS (usado at√© 2013) e o VIIRS (de 2012 em diante) costuma gerar uma quebra estrutural nos dados devido √† diferen√ßa de resolu√ß√£o e sensibilidade.

Aqui est√° o plano de a√ß√£o para as pr√≥ximas c√©lulas do seu notebook:

In [3]:
# Verificando se existem valores nulos no dataset final
print("Valores ausentes por coluna:")
print(df_final.isnull().sum())

# Verificando se todos os anos (2002-2020) t√™m o mesmo n√∫mero de munic√≠pios
print("\nRegistros por ano:")
print(df_final['ano'].value_counts().sort_index())

Valores ausentes por coluna:
min           0
max           0
mean          0
sum           0
std           0
median        0
variance      0
cv          133
CD_MUN        0
NM_MUN        0
ano           0
pib          17
dtype: int64

Registros por ano:
ano
2002     771
2003     771
2004     771
2005     771
2006     771
2007     771
2008     771
2009     771
2010     771
2011     771
2012     771
2013    1542
2014     771
2015     771
2016     771
2017     771
2018     771
2019     771
2020     771
Name: count, dtype: int64


### 1. Diagn√≥stico de Consist√™ncia
Estabilidade Temporal: Voc√™ tem exatamente 771 munic√≠pios para cada ano, de 2002 a 2020. Isso √© √≥timo! Significa que o seu painel est√° balanceado em termos de unidades geogr√°ficas.

**PIB (17 nulos):** Temos 17 casos onde o munic√≠pio e o ano existem na base de luzes, mas n√£o encontramos o PIB correspondente. Como o PIB municipal do IBGE costuma ter um pequeno atraso ou revis√µes, esses 17 casos s√£o irrelevantes perto dos 15.420 registros totais, mas precisamos remov√™-los antes da regress√£o.

**CV (133 nulos):** O Coeficiente de Varia√ß√£o (CV) √© nulo quando a m√©dia ou o desvio padr√£o das luzes √© zero (√°reas totalmente escuras). Como voc√™ usar√° a sum (soma das luzes) ou a mean (m√©dia) como vari√°vel principal, isso n√£o impedir√° a an√°lise.

#### 2. An√°lise Explorat√≥ria (EDA)
A disserta√ß√£o foca na Amaz√¥nia, a correla√ß√£o entre a sum (soma das luzes) e o pib √© o "cora√ß√£o" da valida√ß√£o.

Dica visual:

Use um gr√°fico de dispers√£o (scatterplot) com escala logar√≠tmica, pois a distribui√ß√£o do PIB e da luminosidade costuma ser bem assim√©trica.

Plote uma linha de tend√™ncia para visualizar a elasticidade-luz do PIB.

In [4]:
%pip install seaborn matplotlib

Note: you may need to restart the kernel to use updated packages.


In [5]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Removendo os 17 nulos do PIB para n√£o dar erro no log
df_plot = df_final.dropna(subset=['pib'])

plt.figure(figsize=(10, 6))
sns.regplot(x=np.log1p(df_plot['sum']), y=np.log1p(df_plot['pib']), 
            scatter_kws={'alpha':0.3, 'color':'teal'}, line_kws={'color':'red'})

plt.title('Correla√ß√£o Log-Log: Soma das Luzes Noturnas vs PIB (2002-2020)')
plt.xlabel('Log(Soma das Luzes)')
plt.ylabel('Log(PIB Municipal)')
plt.grid(True, alpha=0.3)
plt.show()

: 

Espetacular, Igor! O gr√°fico finalmente saiu e ele est√° perfeito para uma disserta√ß√£o de Mestrado em Economia Aplicada.

Essa imagem que voc√™ gerou (image_23649b.png) √© a valida√ß√£o emp√≠rica do seu trabalho. Note como a linha vermelha de regress√£o sobe de forma bem n√≠tida, mostrando que a Soma das Luzes √© um excelente preditor do PIB Municipal na Amaz√¥nia Legal.

üìä **An√°lise R√°pida do Gr√°fico**
Elasticidade Positiva: A correla√ß√£o log-log mostra que, estatisticamente, quando a luminosidade aumenta, o PIB tamb√©m aumenta de forma proporcional.

Outliers √† Esquerda: Aqueles pontos verticais perto do zero no eixo X s√£o munic√≠pios com atividade econ√¥mica registrada (PIB), mas que o sat√©lite detecta quase nenhuma luz. Isso √© comum em √°reas de agropecu√°ria extensiva ou extrativismo no interior da Amaz√¥nia.

Ader√™ncia: A maioria dos 15.420 registros est√° bem concentrada ao redor da linha, o que d√° muita seguran√ßa para os pr√≥ximos passos.

#### 2. O Pr√≥ximo Passo: An√°lise Explorat√≥ria (EDA)

Agora que sabemos que a base est√° limpa, vamos focar na rela√ß√£o Luz vs. PIB. Como voc√™ est√° estudando a Amaz√¥nia, essa correla√ß√£o √© a prova de que a luminosidade serve como um bom proxy para atividade econ√¥mica em √°reas onde o PIB pode ser dif√≠cil de medir.O que faremos agora:Criar um gr√°fico de dispers√£o (Scatter Plot) comparando a sum das luzes com o pib.Dica t√©cnica: Na Amaz√¥nia, temos desde cidades pequenas at√© Manaus ou Bel√©m. Por isso, recomendo aplicar o logaritmo ($\log$) em ambos os eixos para o gr√°fico n√£o ficar "esmagado" por causa dos valores extremos.

#### 3. An√°lise Espacial (I de Moran)
Aqui entramos na Econometria Espacial. Antes de rodar o modelo, precisamos definir a Matriz de Pesos Espaciais (W). Para munic√≠pios da Amaz√¥nia, que possuem √°reas muito heterog√™neas, costuma-se usar:

Contiguidade (Rainha/Queen): Se compartilham fronteira.

K-Vizinhos mais pr√≥ximos: Para evitar que munic√≠pios gigantes fiquem "isolados".

#### 4. Estima√ß√£o do Modelo
A escolha entre SAR, SEM ou SDM depender√° dos testes de diagn√≥stico (Multiplicador de Lagrange).

SAR: Se o PIB de um munic√≠pio afeta o PIB do vizinho (efeito transbordamento).

SEM: Se o erro (fatores n√£o observados) √© que tem padr√£o espacial.

SDM: Se tanto o PIB quanto a luminosidade dos vizinhos importam.

### Etapa 6: Harmoniza√ß√£o Territorial via √Åreas M√≠nimas Compar√°veis (AMCs)

Para garantir a consist√™ncia da an√°lise econom√©trica espacial entre **2002 e 2020**, √© necess√°rio tratar a instabilidade das fronteiras municipais causada pelo desmembramento de munic√≠pios na Amaz√¥nia Legal. 

Conforme sugerido pelo **Prof. Gabrielito** e validado pelo orientador **Prof. Daniel**, utilizaremos o conceito de **√Åreas M√≠nimas Compar√°veis (AMCs)**. As AMCs agregam munic√≠pios que sofreram altera√ß√µes territoriais, criando unidades geogr√°ficas est√°veis ao longo do tempo. 

* **M√©todo:** Integra√ß√£o com a malha de AMCs do IPEA (per√≠odo 1991-2010).
* **Ferramenta:** Pacote `geobr`.
* **Objetivo:** Eliminar o vi√©s de territorialidade e permitir uma compara√ß√£o direta da evolu√ß√£o da luminosidade e do PIB por unidade est√°vel.

In [1]:
import pandas as pd
import os
import geobr

# 1. Caminhos autom√°ticos no Disco G:
diretorio_base = os.getcwd()
caminho_dataset = os.path.join(diretorio_base, "..", "outputs", "dataset_pib_ntl_amazonia.csv")

if os.path.exists(caminho_dataset):
    df_final = pd.read_csv(caminho_dataset, sep=';')
    print(f"‚úÖ Dataset carregado! {len(df_final)} registros.")

    # 2. Busca as AMCs
    print("Buscando malha de AMCs (1991-2010)...")
    amc_raw = geobr.read_comparable_areas(start_year=1991, end_year=2010)
    amc = pd.DataFrame(amc_raw)

    # Identifica as colunas dinamicamente para evitar KeyError
    col_muni = [c for c in amc.columns if 'muni' in c.lower()][0]
    col_amc = [c for c in amc.columns if 'amc' in c.lower()][0]
    
    print(f"üìå Colunas detectadas: Munic√≠pio -> {col_muni} | AMC -> {col_amc}")

    # 3. Prepara√ß√£o e Merge
    amc[col_muni] = amc[col_muni].astype(str).str.replace('.0', '', regex=False)
    df_final['CD_MUN'] = df_final['CD_MUN'].astype(str).str.replace('.0', '', regex=False)

    df_amc = pd.merge(df_final, amc[[col_muni, col_amc]], 
                      left_on='CD_MUN', right_on=col_muni, how='left')

    # 4. Agrega√ß√£o Final pelas AMCs
    # Usamos o nome da coluna de AMC detectada dinamicamente
    df_consolidado_amc = df_amc.groupby([col_amc, 'ano']).agg({
        'pib': 'sum',
        'sum': 'sum',
        'NM_MUN': 'first'
    }).reset_index()

    # 5. Salva no Drive G:
    caminho_output_amc = os.path.join(diretorio_base, "..", "outputs", "dataset_amc_amazonia_legal.csv")
    df_consolidado_amc.to_csv(caminho_output_amc, index=False, sep=';', encoding='utf-8-sig')

    display(df_consolidado_amc.head())
    print(f"üöÄ Harmoniza√ß√£o conclu√≠da! Unidades (AMCs): {df_consolidado_amc[col_amc].nunique()}")
    print(f"üìÅ Salvo em: {caminho_output_amc}")
else:
    print(f"‚ùå Arquivo n√£o encontrado no G: {caminho_dataset}")

‚úÖ Dataset carregado! 15420 registros.
Buscando malha de AMCs (1991-2010)...
üìå Colunas detectadas: Munic√≠pio -> list_code_muni_2010 | AMC -> code_amc


Unnamed: 0,code_amc,ano,pib,sum,NM_MUN
0,1003.0,2002,31768.0,346.0,Cabixi
1,1003.0,2003,40985.0,251.0,Cabixi
2,1003.0,2004,43392.0,345.0,Cabixi
3,1003.0,2005,49130.0,225.0,Cabixi
4,1003.0,2006,46884.0,510.0,Cabixi


üöÄ Harmoniza√ß√£o conclu√≠da! Unidades (AMCs): 270
üìÅ Salvo em: g:\Meu Drive\MESTRADO\Dissertacao_mestrado\src\..\outputs\dataset_amc_amazonia_legal.csv


### Etapa 7: Defla√ß√£o do PIB e Padroniza√ß√£o Monet√°ria (IPCA)

Para que a an√°lise temporal (2002-2020) seja estatisticamente v√°lida, √© imperativo separar o crescimento econ√¥mico real da varia√ß√£o nominal causada pela infla√ß√£o. 

Conforme discutido com a orienta√ß√£o e em linha com a literatura de economia regional, esta etapa realiza a **defla√ß√£o dos valores nominais do PIB** para **Pre√ßos Constantes**.

* **Prop√≥sito:** Transformar o "PIB Nominal" em "PIB Real", permitindo que o modelo de Machine Learning aprenda varia√ß√µes de riqueza real e n√£o apenas ajustes inflacion√°rios.
* **Metodologia:** Utiliza√ß√£o do √çndice Nacional de Pre√ßos ao Consumidor Amplo (**IPCA**), que √© o indicador oficial de infla√ß√£o no Brasil.
* **Ferramenta:** Pacote `deflatebr`, garantindo que a atualiza√ß√£o monet√°ria seja baseada nas s√©ries hist√≥ricas oficiais do IBGE e pass√≠vel de replicabilidade por outros pesquisadores.
* **Ano de Refer√™ncia:** Todos os valores s√£o atualizados para **Janeiro de 2023**, servindo como base comparativa est√°vel para toda a s√©rie hist√≥rica.

In [4]:
# %pip install deflatebr
import deflatebr as dbr
import pandas as pd
import os

# 1. Carregar seu dataset de AMCs salvo no G:
diretorio_base = os.getcwd()
caminho_amc = os.path.join(diretorio_base, "..", "outputs", "dataset_amc_amazonia_legal.csv")
df = pd.read_csv(caminho_amc, sep=';')

# 2. Deflacionar o PIB para pre√ßos de Janeiro de 2023 (Padr√£o Replic√°vel)
# O deflatebr busca automaticamente os √≠ndices oficiais
print("Atualizando valores monet√°rios via IPCA...")
df['pib_real'] = dbr.deflate(nominal_values=df['pib'], 
                             nominal_dates=df['ano'].astype(str), 
                             real_date='2023-01', 
                             index='ipca')

# 3. Salvar vers√£o final "Pronta para Publica√ß√£o"
caminho_final = os.path.join(diretorio_base, "..", "outputs", "dataset_final_dissertacao.csv")
df.to_csv(caminho_final, index=False, sep=';', encoding='utf-8-sig')

display(df[['amc_code', 'ano', 'pib', 'pib_real']].head())
print(f"‚úÖ Dados deflacionados e salvos para o GitHub em: {caminho_final}")

Atualizando valores monet√°rios via IPCA...


  df['deflated'] = df[['nom_values', 'VALVALOR']].apply(lambda x: ((real_indx/x[1]) * x[0])[0], axis=1)


KeyError: "['amc_code'] not in index"