In [12]:
"""
PROCESSAMENTO: INTENSIDADE 4G - ANATEL (COM DE-PARA IBGE-TSE)
Autor: Fabio
Data: 2024-12-05

Vers√£o CORRIGIDA usando tabela de-para oficial IBGE ‚Üî TSE
"""

import pandas as pd
import numpy as np
from pathlib import Path

# ============================================================================
# CONFIGURA√á√ïES
# ============================================================================

# Arquivos - AJUSTE OS CAMINHOS CONFORME NECESS√ÅRIO
ARQUIVO_ANATEL = r"C:\Users\fabio\OneDrive\EconomiaPol√≠tica\4g-Eleicoes\4G-Elei√ß√µes\quantitativo_ERB.xlsx"
ARQUIVO_PAINEL = r"C:\Users\fabio\OneDrive\EconomiaPol√≠tica\4g-Eleicoes\4G-Elei√ß√µes\painel_event_study_com_3g_final.csv"
ARQUIVO_DEPARA = r"C:\Users\fabio\OneDrive\EconomiaPol√≠tica\4g-Eleicoes\4G-Elei√ß√µes\depara-ibge-tse.csv"

# Output
OUTPUT_FILE = r"C:\Users\fabio\OneDrive\EconomiaPol√≠tica\4g-Eleicoes\4G-Elei√ß√µes\painel_com_intensidade_4g.csv"

In [13]:
# ============================================================================
# 1. CARREGAR TABELA DE-PARA IBGE-TSE
# ============================================================================

print("üìã Carregando tabela de-para IBGE-TSE...")

depara = pd.read_csv(
    ARQUIVO_DEPARA,
    sep=';',
    encoding='latin1',
    dtype={
        'CD_MUNICIPIO_TSE': str,
        'CD_MUNICIPIO_IBGE': str
    }
)

print(f"‚úÖ Tabela de-para carregada: {len(depara):,} correspond√™ncias")
print(f"   Colunas: {list(depara.columns)}")
print()

# Limpar e padronizar
depara['codigo_ibge'] = depara['CD_MUNICIPIO_IBGE'].str.strip()
depara['codigo_tse'] = depara['CD_MUNICIPIO_TSE'].str.strip().str.zfill(5)

print("üìä Exemplos da tabela de-para:")
print(depara[['codigo_ibge', 'codigo_tse', 'NM_MUNICIPIO_IBGE', 'SG_UF']].head(10))
print()

üìã Carregando tabela de-para IBGE-TSE...
‚úÖ Tabela de-para carregada: 5,571 correspond√™ncias
   Colunas: ['DT_GERACAO', 'HH_GERACAO', 'CD_UF_TSE', 'CD_UF_IBGE', 'SG_UF', 'NM_UF', 'CD_MUNICIPIO_TSE', 'NM_MUNICIPIO_TSE', 'CD_MUNICIPIO_IBGE', 'NM_MUNICIPIO_IBGE']

üìä Exemplos da tabela de-para:
  codigo_ibge codigo_tse     NM_MUNICIPIO_IBGE SG_UF
0     1200138      01007                Bujari    AC
1     1200179      01015              Capixaba    AC
2     1200807      01023            Porto Acre    AC
3     1200435      01031   Santa Rosa Do Purus    AC
4     1200351      01040  Marechal Thaumaturgo    AC
5     1200104      01058             Brasil√©ia    AC
6     1200393      01066          Porto Walter    AC
7     1200203      01074       Cruzeiro Do Sul    AC
8     1200427      01082       Rodrigues Alves    AC
9     1200336      01090           M√¢ncio Lima    AC



In [14]:
# ============================================================================
# 2. CARREGAR DADOS ANATEL
# ============================================================================

print("üìä Carregando dados ANATEL (XLSX)...")

df_anatel = pd.read_excel(
    ARQUIVO_ANATEL,
    sheet_name=0,
    engine='openpyxl'
)

print(f"‚úÖ Arquivo XLSX carregado: {len(df_anatel):,} munic√≠pios")
print()

# Limpar nomes de colunas
df_anatel.columns = df_anatel.columns.str.strip().str.replace('\n', ' ').str.replace('\r', '')

# Identificar coluna de c√≥digo IBGE
col_codigo = None
for col in df_anatel.columns:
    if 'C√ìDIGO' in col.upper() and 'IBGE' in col.upper():
        col_codigo = col
        break

if col_codigo is None:
    raise Exception("‚ùå Coluna de c√≥digo IBGE n√£o encontrada!")

# Renomear e converter
df_anatel['codigo_ibge'] = df_anatel[col_codigo].astype(str).str.strip()

print(f"üîç C√≥digo IBGE identificado na coluna: '{col_codigo}'")
print(f"   Exemplos: {df_anatel['codigo_ibge'].head(5).tolist()}")
print()

# Padronizar nomes de outras colunas importantes
column_mapping = {
    'NOME': 'municipio',
    'ESTADO SIGLA': 'uf',
    'POPULA√á√ÉO': 'populacao',
    '√ÅREA DE ALTA DENSIDADE DE EDIFICA√á√ïES': 'area_alta_densidade',
    '√ÅREA DE BAIXA DENSIDADE DE EDIFICA√á√ïES': 'area_baixa_densidade',
    'Quantidade de ERBs de cobertura - 700 MHz': 'erbs_700mhz',
    'Quantidade de ERBs de cobertura - 2,5 GHz': 'erbs_2500mhz',
}

for old, new in column_mapping.items():
    if old in df_anatel.columns:
        df_anatel.rename(columns={old: new}, inplace=True)

print("‚úÖ Colunas padronizadas")
print()

üìä Carregando dados ANATEL (XLSX)...
‚úÖ Arquivo XLSX carregado: 5,570 munic√≠pios

üîç C√≥digo IBGE identificado na coluna: 'C√ìDIGO IBGE'
   Exemplos: ['1100015', '1100023', '1100031', '1100049', '1100056']

‚úÖ Colunas padronizadas



In [16]:
# ============================================================================
# 3. CONVERTER TIPOS E CRIAR VARI√ÅVEIS DE INTENSIDADE
# ============================================================================

print("üîß Convertendo tipos e criando vari√°veis de intensidade...")

# Converter colunas num√©ricas
numeric_cols = ['populacao', 'area_alta_densidade', 'area_baixa_densidade', 
                'erbs_700mhz', 'erbs_2500mhz']

for col in numeric_cols:
    if col in df_anatel.columns:
        df_anatel[col] = pd.to_numeric(df_anatel[col], errors='coerce').fillna(0)

# 1. Total de ERBs 4G
df_anatel['total_erbs_4g'] = df_anatel['erbs_700mhz'] + df_anatel['erbs_2500mhz']

# 2. Tem 4G (dummy)
df_anatel['tem_4g'] = (df_anatel['total_erbs_4g'] > 0).astype(int)

# 3. ERBs por 1000 habitantes
df_anatel['erbs_per_1000hab'] = np.where(
    df_anatel['populacao'] > 0,
    df_anatel['total_erbs_4g'] / df_anatel['populacao'] * 1000,
    0
)

# 4. ERBs por km¬≤
df_anatel['area_total'] = df_anatel['area_alta_densidade'] + df_anatel['area_baixa_densidade']
df_anatel['erbs_per_km2'] = np.where(
    df_anatel['area_total'] > 0,
    df_anatel['total_erbs_4g'] / df_anatel['area_total'],
    0
)

# 5. Intensidade normalizada (0-1)
max_intensidade = df_anatel['erbs_per_1000hab'].max()
df_anatel['intensidade_4g_norm'] = np.where(
    max_intensidade > 0,
    df_anatel['erbs_per_1000hab'] / max_intensidade,
    0
)

# 6. Categorias de intensidade
df_anatel['categoria_4g'] = pd.cut(
    df_anatel['erbs_per_1000hab'],
    bins=[0, 0.01, 0.1, 0.5, np.inf],
    labels=['Sem 4G', 'Baixa', 'M√©dia', 'Alta'],
    include_lowest=True
)

# 7. Dummy: alta intensidade (acima da mediana)
mediana = df_anatel.loc[df_anatel['total_erbs_4g'] > 0, 'erbs_per_1000hab'].median()
df_anatel['alta_intensidade_4g'] = (df_anatel['erbs_per_1000hab'] > mediana).astype(int)

print("‚úÖ Vari√°veis de intensidade criadas:")
print(f"   - total_erbs_4g: {df_anatel['total_erbs_4g'].sum():,.0f} ERBs")
print(f"   - Munic√≠pios com 4G: {df_anatel['tem_4g'].sum():,}")
print(f"   - ERBs/1000hab (m√©dia): {df_anatel['erbs_per_1000hab'].mean():.3f}")
print(f"   - Mediana intensidade: {mediana:.3f}")
print()

# Estat√≠sticas por categoria
print("üìä Distribui√ß√£o por categoria:")
print(df_anatel['categoria_4g'].value_counts().sort_index())
print()

üîß Convertendo tipos e criando vari√°veis de intensidade...
‚úÖ Vari√°veis de intensidade criadas:
   - total_erbs_4g: 34,725 ERBs
   - Munic√≠pios com 4G: 5,570
   - ERBs/1000hab (m√©dia): 0.378
   - Mediana intensidade: 0.295

üìä Distribui√ß√£o por categoria:
categoria_4g
Sem 4G       2
Baixa      289
M√©dia     3975
Alta      1304
Name: count, dtype: int64



In [17]:
# ============================================================================
# 4. MERGE ANATEL + DE-PARA (ADICIONAR C√ìDIGO TSE)
# ============================================================================

print("="*80)
print("MERGE: ANATEL + DE-PARA (IBGE ‚Üí TSE)")
print("="*80 + "\n")

print("üîó Fazendo merge com tabela de-para...")

# Merge ANATEL com DE-PARA usando c√≥digo IBGE
df_anatel_tse = df_anatel.merge(
    depara[['codigo_ibge', 'codigo_tse']],
    on='codigo_ibge',
    how='left'
)

# Verificar cobertura
n_matched = df_anatel_tse['codigo_tse'].notna().sum()
pct_matched = n_matched / len(df_anatel_tse) * 100

print(f"‚úÖ Merge ANATEL + DE-PARA conclu√≠do")
print(f"   Munic√≠pios com c√≥digo TSE: {n_matched:,} ({pct_matched:.1f}%)")
print(f"   Munic√≠pios sem c√≥digo TSE: {(len(df_anatel_tse) - n_matched):,}")
print()

if pct_matched < 95:
    print(f"‚ö†Ô∏è  Aten√ß√£o: {100-pct_matched:.1f}% dos munic√≠pios n√£o t√™m c√≥digo TSE!")
    print("   Verificar se c√≥digos IBGE est√£o corretos")
    print()

# Mostrar exemplos de munic√≠pios sem match
sem_match = df_anatel_tse[df_anatel_tse['codigo_tse'].isna()]
if len(sem_match) > 0:
    print("üîç Exemplos de munic√≠pios sem correspond√™ncia TSE:")
    print(sem_match[['codigo_ibge', 'municipio', 'uf']].head(10))
    print()


MERGE: ANATEL + DE-PARA (IBGE ‚Üí TSE)

üîó Fazendo merge com tabela de-para...
‚úÖ Merge ANATEL + DE-PARA conclu√≠do
   Munic√≠pios com c√≥digo TSE: 5,570 (100.0%)
   Munic√≠pios sem c√≥digo TSE: 0



In [19]:
# ============================================================================
# 5. MERGE COM PAINEL PRINCIPAL
# ============================================================================

print("="*80)
print("MERGE: PAINEL PRINCIPAL + INTENSIDADE 4G")
print("="*80 + "\n")

print("üìä Carregando painel principal...")

df_painel = pd.read_csv(
    ARQUIVO_PAINEL,
    dtype={'codigo_tse': str}
)

# Garantir que codigo_tse seja string com padding
df_painel['codigo_tse'] = df_painel['codigo_tse'].astype(str).str.strip().str.zfill(5)

print(f"   Linhas: {len(df_painel):,}")
print(f"   Munic√≠pios √∫nicos: {df_painel['codigo_tse'].nunique():,}")
print(f"   Exemplos c√≥digos TSE: {df_painel['codigo_tse'].drop_duplicates().head(5).tolist()}")
print()

print("üîó Fazendo merge com painel...")

# Selecionar colunas relevantes para merge
colunas_merge = [
    'codigo_tse',
    'total_erbs_4g',
    'erbs_700mhz',
    'erbs_2500mhz',
    'erbs_per_1000hab',
    'erbs_per_km2',
    'intensidade_4g_norm',
    'categoria_4g',
    'alta_intensidade_4g',
    'area_alta_densidade',
    'area_baixa_densidade'
]

df_anatel_merge = df_anatel_tse[colunas_merge].copy()

# Merge
df_painel_final = df_painel.merge(
    df_anatel_merge,
    on='codigo_tse',
    how='left'
)

print(f"‚úÖ Merge conclu√≠do")
print(f"   Linhas finais: {len(df_painel_final):,}")
print()

# Verificar cobertura
n_com_dados = df_painel_final['total_erbs_4g'].notna().sum()
pct_com_dados = n_com_dados / len(df_painel_final) * 100

print(f"üìä COBERTURA DO MERGE:")
print(f"   Observa√ß√µes com dados 4G: {n_com_dados:,} ({pct_com_dados:.1f}%)")
print(f"   Observa√ß√µes sem dados 4G: {(len(df_painel_final) - n_com_dados):,}")
print()


MERGE: PAINEL PRINCIPAL + INTENSIDADE 4G

üìä Carregando painel principal...
   Linhas: 16,489
   Munic√≠pios √∫nicos: 4,123
   Exemplos c√≥digos TSE: ['10022', '10049', '10057', '10073', '10081']

üîó Fazendo merge com painel...
‚úÖ Merge conclu√≠do
   Linhas finais: 16,489

üìä COBERTURA DO MERGE:
   Observa√ß√µes com dados 4G: 16,489 (100.0%)
   Observa√ß√µes sem dados 4G: 0



In [20]:
# ============================================================================
# 6. PREENCHER VALORES FALTANTES
# ============================================================================

print("üîß Preenchendo valores faltantes...")

# Munic√≠pios sem dados ANATEL = sem 4G
fill_cols = ['total_erbs_4g', 'erbs_700mhz', 'erbs_2500mhz', 
             'erbs_per_1000hab', 'erbs_per_km2', 'intensidade_4g_norm',
             'alta_intensidade_4g']

for col in fill_cols:
    if col in df_painel_final.columns:
        df_painel_final[col] = df_painel_final[col].fillna(0)

if 'categoria_4g' in df_painel_final.columns:
    df_painel_final['categoria_4g'] = df_painel_final['categoria_4g'].fillna('Sem 4G')

print("‚úÖ Valores preenchidos")
print()

üîß Preenchendo valores faltantes...
‚úÖ Valores preenchidos



In [21]:
# ============================================================================
# 7. ESTAT√çSTICAS FINAIS
# ============================================================================

print("="*80)
print("ESTAT√çSTICAS FINAIS")
print("="*80 + "\n")

# Por ano (se houver)
if 'ano' in df_painel_final.columns:
    print("üìÖ INTENSIDADE M√âDIA POR ANO:")
    stats_ano = df_painel_final.groupby('ano').agg({
        'erbs_per_1000hab': 'mean',
        'total_erbs_4g': ['sum', lambda x: (x > 0).sum()]
    }).round(3)
    stats_ano.columns = ['M√©dia ERBs/1000hab', 'Total ERBs', 'N munic√≠pios com 4G']
    print(stats_ano)
    print()

# Distribui√ß√£o geral
print("üìä DISTRIBUI√á√ÉO DE INTENSIDADE:")
print(f"   M√≠n: {df_painel_final['erbs_per_1000hab'].min():.3f}")
print(f"   Q25: {df_painel_final['erbs_per_1000hab'].quantile(0.25):.3f}")
print(f"   Mediana: {df_painel_final['erbs_per_1000hab'].median():.3f}")
print(f"   Q75: {df_painel_final['erbs_per_1000hab'].quantile(0.75):.3f}")
print(f"   M√°x: {df_painel_final['erbs_per_1000hab'].max():.3f}")
print()

print("üìä POR CATEGORIA:")
print(df_painel_final['categoria_4g'].value_counts().sort_index())
print()

# Top 10 munic√≠pios com maior intensidade
print("üèÜ TOP 10 MUNIC√çPIOS - MAIOR INTENSIDADE (√∫ltima observa√ß√£o):")
if 'ano' in df_painel_final.columns:
    ultimo_ano = df_painel_final['ano'].max()
    top10 = df_painel_final[df_painel_final['ano'] == ultimo_ano].nlargest(10, 'erbs_per_1000hab')
    if 'municipio' in top10.columns:
        print(top10[['municipio', 'uf', 'total_erbs_4g', 'erbs_per_1000hab']].to_string(index=False))
    else:
        print(top10[['codigo_tse', 'total_erbs_4g', 'erbs_per_1000hab']].to_string(index=False))
else:
    top10 = df_painel_final.nlargest(10, 'erbs_per_1000hab')
    print(top10[['codigo_tse', 'total_erbs_4g', 'erbs_per_1000hab']].to_string(index=False))
print()

ESTAT√çSTICAS FINAIS

üìÖ INTENSIDADE M√âDIA POR ANO:
      M√©dia ERBs/1000hab  Total ERBs  N munic√≠pios com 4G
ano                                                      
2010                0.38       27836                 4120
2014                0.38       27851                 4123
2018                0.38       27851                 4123
2022                0.38       27851                 4123

üìä DISTRIBUI√á√ÉO DE INTENSIDADE:
   M√≠n: 0.001
   Q25: 0.181
   Mediana: 0.290
   Q75: 0.491
   M√°x: 3.257

üìä POR CATEGORIA:
categoria_4g
Sem 4G        4
Baixa       980
M√©dia     11511
Alta       3994
Name: count, dtype: int64

üèÜ TOP 10 MUNIC√çPIOS - MAIOR INTENSIDADE (√∫ltima observa√ß√£o):
codigo_tse  total_erbs_4g  erbs_per_1000hab
     92231              3          3.257329
     53317              2          2.341920
     85308             25          2.196065
     62430              2          2.155172
     92835              3          2.114165
     89508              

In [22]:
# ============================================================================
# 8. SALVAR RESULTADO
# ============================================================================

print("="*80)
print("SALVANDO RESULTADO")
print("="*80 + "\n")

df_painel_final.to_csv(OUTPUT_FILE, index=False)

print(f"‚úÖ Arquivo salvo: {OUTPUT_FILE}")
print(f"üìä Linhas: {len(df_painel_final):,}")
print(f"üìã Colunas: {len(df_painel_final.columns)}")
print()

SALVANDO RESULTADO

‚úÖ Arquivo salvo: C:\Users\fabio\OneDrive\EconomiaPol√≠tica\4g-Eleicoes\4G-Elei√ß√µes\painel_com_intensidade_4g.csv
üìä Linhas: 16,489
üìã Colunas: 43



In [23]:
# ============================================================================
# 9. RESUMO FINAL
# ============================================================================

print("="*80)
print("RESUMO FINAL")
print("="*80 + "\n")

print("‚úÖ PROCESSAMENTO CONCLU√çDO COM SUCESSO!\n")

print("üìä VARI√ÅVEIS CRIADAS:")
print("   1. total_erbs_4g")
print("   2. erbs_per_1000hab (DOSE PRINCIPAL)")
print("   3. erbs_per_km2")
print("   4. intensidade_4g_norm")
print("   5. categoria_4g")
print("   6. alta_intensidade_4g")
print()

print("üéØ COBERTURA:")
print(f"   {pct_com_dados:.1f}% das observa√ß√µes t√™m dados de intensidade 4G")
print()

print("üìà PR√ìXIMOS PASSOS:")
print("   1. Carregar painel em R")
print("   2. Estimar dose-response com Callaway-Sant'Anna")
print("   3. An√°lise de heterogeneidade")
print()

print("üí° EXEMPLO DE C√ìDIGO R:")
print("""
library(tidyverse)
library(did)

# Carregar dados
dados <- read_csv("painel_com_intensidade_4g.csv",
                  col_types = cols(codigo_tse = col_character()))

# Dose-response
cs_dose <- att_gt(
  yname = "esteban_ray",
  tname = "tempo",
  idname = "id",
  gname = "gname",
  xformla = ~ anos_3g + erbs_per_1000hab,  # DOSE!
  data = dados,
  control_group = "notyettreated"
)

aggte(cs_dose, type = "simple")
""")

RESUMO FINAL

‚úÖ PROCESSAMENTO CONCLU√çDO COM SUCESSO!

üìä VARI√ÅVEIS CRIADAS:
   1. total_erbs_4g
   2. erbs_per_1000hab (DOSE PRINCIPAL)
   3. erbs_per_km2
   4. intensidade_4g_norm
   5. categoria_4g
   6. alta_intensidade_4g

üéØ COBERTURA:
   100.0% das observa√ß√µes t√™m dados de intensidade 4G

üìà PR√ìXIMOS PASSOS:
   1. Carregar painel em R
   2. Estimar dose-response com Callaway-Sant'Anna
   3. An√°lise de heterogeneidade

üí° EXEMPLO DE C√ìDIGO R:

library(tidyverse)
library(did)

# Carregar dados
dados <- read_csv("painel_com_intensidade_4g.csv",
                  col_types = cols(codigo_tse = col_character()))

# Dose-response
cs_dose <- att_gt(
  yname = "esteban_ray",
  tname = "tempo",
  idname = "id",
  gname = "gname",
  xformla = ~ anos_3g + erbs_per_1000hab,  # DOSE!
  data = dados,
  control_group = "notyettreated"
)

aggte(cs_dose, type = "simple")

