## Obtendo uma tabela dos municipios brasileiros no site do IBGE 
Link do IBGE: https://www.ibge.gov.br/explica/codigos-dos-municipios.php#CE

In [1]:
# Importanto biblioteca necessária
import pandas as pd

In [2]:
# Obtendo a url omo variáveil
url = "https://www.ibge.gov.br/explica/codigos-dos-municipios.php#CE"

In [3]:
# verificando as tabelas
df = pd.read_html(url)
len(df)

28

In [4]:
# Obtivemos uma lista com 28 tabelas, 28 objeto em uma lista e vamos tratar todas elas
# tabela 1 se refere aos Estados
estados = df[0]
# Visualizando as 3 primeira linhas
estados.head(3)

Unnamed: 0,UFs,Códigos
0,Acre,12ver municípios
1,Alagoas,27ver municípios
2,Amapá,16ver municípios


In [5]:
# Estados Brasileiros
estados['COD_IBGE_UF'] = estados["Códigos"].str[:2]
estados = estados.drop(columns= 'Códigos')
# Apresetando a tabela pronta
estados

Unnamed: 0,UFs,COD_IBGE_UF
0,Acre,12
1,Alagoas,27
2,Amapá,16
3,Amazonas,13
4,Bahia,29
5,Ceará,23
6,Distrito Federal,53
7,Espírito Santo,32
8,Goiás,52
9,Maranhão,21


In [6]:
# Agora vejamos uma demonstração da tabela dos estados
df[1].head(3)

Unnamed: 0,Municípios do Acre,Códigos
0,Acrelândia,1200013
1,Assis Brasil,1200054
2,Brasiléia,1200104


In [7]:
# Como são varias tabelas e precisaremos concatenar vamos ajustar tudo num loop for
# Criando uma lista para executar o loop
lista = list(range(1,28))
# Criando um dataframe fazio para receber os dados concatenados
cidades =  pd.DataFrame()
# construindo o loop
for item in lista:
    busca = df[item]
    # Aqui estamos criando uma coluna com o nome UF para receber o nome das UF
    busca["UF"] = df[item].columns[0]
    # Renomeando as três colunas para que o  sistema consiga concatenar os dados
    busca.columns = ['Cidade', 'Código IBGE', 'UF']
    # Utilizando a concatenação dentro de um loop para ajustar os dados
    cidades = pd.concat([cidades, busca])
    # Reindexando a tabela apos a concatenação dos dados
    cidades = cidades.reset_index(drop=True)
display(cidades)


Unnamed: 0,Cidade,Código IBGE,UF
0,Acrelândia,1200013,Municípios do Acre
1,Assis Brasil,1200054,Municípios do Acre
2,Brasiléia,1200104,Municípios do Acre
3,Bujari,1200138,Municípios do Acre
4,Capixaba,1200179,Municípios do Acre
...,...,...,...
5565,Tocantinópolis,1721208,Municípios de Tocantins
5566,Tupirama,1721257,Municípios de Tocantins
5567,Tupiratins,1721307,Municípios de Tocantins
5568,Wanderlândia,1722081,Municípios de Tocantins


In [8]:
# Com a tabela já crianda vamos ajustar o nome dos estados
cidades['NM_UF'] = cidades.UF.str[14:]
# verificando o nome dos estados extraidos
cidades.NM_UF.unique()

array(['Acre', 'Alagoas', 'Amapá', 'Amazonas', 'Bahia', 'Ceará', 'al',
       'Espírito Santo', 'Goiás', 'Maranhão', 'Mato Grosso',
       'Mato Grosso do Sul', 'Minas Gerais', 'Pará', 'Paraíba', 'Paraná',
       'Pernambuco', 'Piauí', 'Rio de Janeiro', 'Rio Grande do Norte',
       'Rio Grande do Sul', 'Rondônia', 'Roraima', 'Santa Catarina',
       'São Paulo', 'Sergipe', 'Tocantins'], dtype=object)

In [9]:
# Verificamos que surgiu um "al', provavelmente do Distrito Federal. vamos verificar e corrigir
cidades.query("NM_UF=='al'")

Unnamed: 0,Cidade,Código IBGE,UF,NM_UF
803,Brasília,5300108,Distrito Federal,al


In [10]:
# Corrigindo
cidades['NM_UF'] = cidades['NM_UF'].replace('al', 'Distrito Federal')
# Removendo a coluna UF que não será mais necessária 
cidades = cidades.drop(columns='UF')
# Conferindo o nome e a quantidade 
print('Nr de Estados incluido o DF:')
display(len(cidades.NM_UF.unique()))
print('\nRelação Nominal dos Estados incluido o DF:')    
display(cidades.NM_UF.unique())

Nr de Estados incluido o DF:


27


Relação Nominal dos Estados incluido o DF:


array(['Acre', 'Alagoas', 'Amapá', 'Amazonas', 'Bahia', 'Ceará',
       'Distrito Federal', 'Espírito Santo', 'Goiás', 'Maranhão',
       'Mato Grosso', 'Mato Grosso do Sul', 'Minas Gerais', 'Pará',
       'Paraíba', 'Paraná', 'Pernambuco', 'Piauí', 'Rio de Janeiro',
       'Rio Grande do Norte', 'Rio Grande do Sul', 'Rondônia', 'Roraima',
       'Santa Catarina', 'São Paulo', 'Sergipe', 'Tocantins'],
      dtype=object)

In [11]:
# Visualizando as duas tabelas
display(estados.head(3))
display(cidades.head(3))

Unnamed: 0,UFs,COD_IBGE_UF
0,Acre,12
1,Alagoas,27
2,Amapá,16


Unnamed: 0,Cidade,Código IBGE,NM_UF
0,Acrelândia,1200013,Acre
1,Assis Brasil,1200054,Acre
2,Brasiléia,1200104,Acre


In [17]:
# Vamos agora unificar as duas tabelas para agregar a informação do código da UF:
# primeiro vamos igualar os nomes das colunas com o nome dos estados
estados.columns=['NM_UF','COD_IBGE_UF']
# Agora vamos unificar as duas tabelas com o merge
tabela_cidades_uf_ibge = pd.merge(cidades, estados, how = 'inner', on ='NM_UF')
# Padronizando o nome das Colunas
tabela_cidades_uf_ibge.columns = ['NM_CIDADE','CD_IBGE_CIDADE','NM_UF','CD_IBGE_UF']
# visualido a tabela finalizada
tabela_cidades_uf_ibge


Unnamed: 0,NM_CIDADE,CD_IBGE_CIDADE,NM_UF,CD_IBGE_UF
0,Acrelândia,1200013,Acre,12
1,Assis Brasil,1200054,Acre,12
2,Brasiléia,1200104,Acre,12
3,Bujari,1200138,Acre,12
4,Capixaba,1200179,Acre,12
...,...,...,...,...
5565,Tocantinópolis,1721208,Tocantins,17
5566,Tupirama,1721257,Tocantins,17
5567,Tupiratins,1721307,Tocantins,17
5568,Wanderlândia,1722081,Tocantins,17


In [18]:
# Vizualizando o número de cidades por UF contanto por código do IBGE que é unico para cada Municipio
total_cidades = pd.DataFrame((tabela_cidades_uf_ibge.groupby('NM_UF')['CD_IBGE_CIDADE'].count())).reset_index()
total_cidades.columns=['Estado','Nr Cidades']
print(f"\nTotal de Cidades: {total_cidades['Nr Cidades'].sum()}\n")
total_cidades


Total de Cidades: 5570



Unnamed: 0,Estado,Nr Cidades
0,Acre,22
1,Alagoas,102
2,Amapá,16
3,Amazonas,62
4,Bahia,417
5,Ceará,184
6,Distrito Federal,1
7,Espírito Santo,78
8,Goiás,246
9,Maranhão,217


In [14]:
# Salvando a tabela no formato em Excel
tabela_cidades_uf_ibge.to_excel('tabela_cidades_uf_ibge.xlsx', index=False)