# 1. Criar um caminho (path) para pasta de Downloads

In [1]:
import os

nome_pasta = "Downloads"

caminho_atual = os.path.normpath(os.getcwd())
caminho_downloads = os.path.join(caminho_atual, nome_pasta)

# verifica se exite a pasta Downloads. Caso não exista, será criada.
if not os.path.exists(caminho_downloads):
    # cria pasta Downloads
    os.mkdir(caminho_downloads)


# 2. Realizar o download de base de dados ZIP do IBGE
(https://www.ibge.gov.br/explica/codigos-dos-municipios.php)

O IBGE disponibiliza, [neste link](https://www.ibge.gov.br/explica/codigos-dos-municipios.php), o download da tabela de códigos dos municípios.

Texto retirado do site:
> A Tabela de Códigos de Municípios do IBGE apresenta a lista dos municípios brasileiros associados a um código composto de 7 dígitos, sendo os dois primeiros referentes ao código da Unidade da Federação.
É atualizada sistematicamente de forma a incluir as alterações decorrentes do desdobramento de municípios e, conseqüentemente, da criação de novos municípios, mudanças de nome dos municípios, como também de processos de fusão que resultam na extinção ou modificação de nome de algum município. 

## Opção 1: Utilizando biblioteca padrão (urllib)

In [2]:
# import os
from urllib import request

endereco_download = "https://geoftp.ibge.gov.br/organizacao_do_territorio/estrutura_territorial/divisao_territorial/2021/DTB_2021.zip"
nome_arquivo_zip = "DTB_2021.zip"
# os.path.basename(endereco_download) para manter o nome original do arquivo
caminho_para_salvar = os.path.join(caminho_downloads, nome_arquivo_zip)

caminho_arquivo_zip, http_message = request.urlretrieve(endereco_download, caminho_para_salvar)


## Opção 2: Utilizando biblioteca Requests

In [3]:
# !pip install requests
import requests

endereco_download = "https://geoftp.ibge.gov.br/organizacao_do_territorio/estrutura_territorial/divisao_territorial/2021/DTB_2021.zip"
nome_arquivo_zip = "DTB_2021.zip"
# os.path.basename(endereco_download) para manter o nome original do arquivo
caminho_para_salvar = os.path.join(caminho_downloads, nome_arquivo_zip)

resposta = requests.get(endereco_download)
with open(caminho_para_salvar, "wb") as arquivo_novo:
    arquivo_novo.write(resposta.content)


# 3. Extrair arquivo dos municípios da base de dados ZIP
(RELATORIO_DTB_BRASIL_MUNICIPIO.xls) 

In [4]:
# import os
import zipfile

nome_arquivo_zip = "DTB_2021.zip"
caminho_arquivo_zip = os.path.join(caminho_downloads, nome_arquivo_zip)
nome_arquivo_excel = "RELATORIO_DTB_BRASIL_MUNICIPIO.xls"
caminho_arquivo_excel = os.path.join(caminho_downloads, nome_arquivo_excel)

# apaga arquivo, se existir.
if os.path.exists(caminho_arquivo_excel):
    os.remove(caminho_arquivo_excel)

with zipfile.ZipFile(caminho_arquivo_zip, "r") as arquivo_zip:
    lista_arquivos = arquivo_zip.infolist()
    filtra_arquivos = filter(lambda arquivo : arquivo.filename == nome_arquivo_excel, lista_arquivos)
    zipinfo_arquivo_excel = list(filtra_arquivos)[0]
    # extrai o arquivo excel
    arquivo_zip.extract(zipinfo_arquivo_excel, caminho_downloads)


# 4. Gerar lista de Estados

## Opção 1: Consultando API do IBGE

O IBGE disponibiliza uma api para consulta de localidades.
A apresentação e funcionamento/recursos desta api poem ser vistos em [https://servicodados.ibge.gov.br/api/docs/localidades](https://servicodados.ibge.gov.br/api/docs/localidades)

### 4.1. Baixar Json

#### Opção 1: Utilizando biblioteca padrão (urllib)

In [22]:
from urllib import request

endereco_api = "https://servicodados.ibge.gov.br/api/v1/localidades/estados"

resposta = request.urlopen(endereco_api)
resposta_bytes = resposta.read()
resposta_json_text = resposta_bytes.decode("utf-8")

resposta_json_text

'[{"id":11,"sigla":"RO","nome":"Rondônia","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":12,"sigla":"AC","nome":"Acre","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":13,"sigla":"AM","nome":"Amazonas","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":14,"sigla":"RR","nome":"Roraima","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":15,"sigla":"PA","nome":"Pará","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":16,"sigla":"AP","nome":"Amapá","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":17,"sigla":"TO","nome":"Tocantins","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":21,"sigla":"MA","nome":"Maranhão","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":22,"sigla":"PI","nome":"Piauí","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":23,"sigla":"CE","nome":"Ceará","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":24,"sigla":"RN","nome":"Rio Grande do Norte","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":25,"sigla":"PB","nome":"Paraíba","re

#### Opção 2: Utilizando biblioteca Requests

In [23]:
# !pip install requests
import requests

endereco_api = "https://servicodados.ibge.gov.br/api/v1/localidades/estados"

resposta = requests.get(endereco_api)
resposta_json_text = resposta.text

resposta_json_text

'[{"id":11,"sigla":"RO","nome":"Rondônia","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":12,"sigla":"AC","nome":"Acre","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":13,"sigla":"AM","nome":"Amazonas","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":14,"sigla":"RR","nome":"Roraima","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":15,"sigla":"PA","nome":"Pará","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":16,"sigla":"AP","nome":"Amapá","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":17,"sigla":"TO","nome":"Tocantins","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":21,"sigla":"MA","nome":"Maranhão","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":22,"sigla":"PI","nome":"Piauí","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":23,"sigla":"CE","nome":"Ceará","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":24,"sigla":"RN","nome":"Rio Grande do Norte","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":25,"sigla":"PB","nome":"Paraíba","re

### 4.2. Lendo arquivo JSON

In [24]:
# !pip install pandas
import pandas as pd

# lendo json para o dataframe
df_estados = pd.read_json(resposta_json_text)

df_estados.head()

Unnamed: 0,id,sigla,nome,regiao
0,11,RO,Rondônia,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
1,12,AC,Acre,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
2,13,AM,Amazonas,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
3,14,RR,Roraima,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
4,15,PA,Pará,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"


### 4.3. Filtrando e renomeando as colunas necessárias

In [25]:
# filtrando o dataframe
df_estados_filtrado = df_estados[["id","nome","sigla"]]

# renomeando colunas
nome_colunas_estados = ["id","nome","uf"]
df_estados_filtrado.columns = nome_colunas_estados

df_estados_filtrado.head()

Unnamed: 0,id,nome,uf
0,11,Rondônia,RO
1,12,Acre,AC
2,13,Amazonas,AM
3,14,Roraima,RR
4,15,Pará,PA


### 4.4. Exportar para CSV

In [26]:
# motivo do encoding
# https://qastack.com.br/software/187169/how-to-detect-the-encoding-of-a-file
# http://codeftw.blogspot.com/2009/07/how-to-find-character-encoding-of-text.html

df_estados_filtrado.to_csv("./estados.csv", sep=";", index=None, encoding="iso-8859-1")

## Opção 2: Fazendo WebScraping de página contendo os dados
Essa opção deve ser utilizada apenas quando não temos uma interface de API para consulta

(https://www.oobj.com.br/bc/article/quais-os-códigos-de-cada-uf-no-brasil-465.html)
(https://www.todamateria.com.br/estados-do-brasil)

# 5. Gerar lista de Cidades

## 5.1. Lendo arquivo excel

In [27]:
# !pip install pandas

# necessário para importar .xls
# !pip install xlrd

# necessário para importar .xlsx
# !pip install openpyxl

df_cidades = pd.read_excel(caminho_arquivo_excel)

df_cidades.head()


Unnamed: 0,UF,Nome_UF,Região Geográfica Intermediária,Nome Região Geográfica Intermediária,Região Geográfica Imediata,Nome Região Geográfica Imediata,Mesorregião Geográfica,Nome_Mesorregião,Microrregião Geográfica,Nome_Microrregião,Município,Código Município Completo,Nome_Município
0,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,15,1100015,Alta Floresta D'Oeste
1,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,379,1100379,Alto Alegre dos Parecis
2,11,Rondônia,1101,Porto Velho,110002,Ariquemes,2,Leste Rondoniense,3,Ariquemes,403,1100403,Alto Paraíso
3,11,Rondônia,1102,Ji-Paraná,110004,Ji-Paraná,2,Leste Rondoniense,5,Alvorada D'Oeste,346,1100346,Alvorada D'Oeste
4,11,Rondônia,1101,Porto Velho,110002,Ariquemes,2,Leste Rondoniense,3,Ariquemes,23,1100023,Ariquemes


## 5.2. Filtrando e renomeando as colunas necessárias

In [29]:
# filtrando o dataframe
df_cidades_filtrado = df_cidades[["Código Município Completo", "Nome_Município", "UF"]]

# renomeando colunas
nome_colunas_cidades = ["id","nome","uf"]
df_cidades_filtrado.columns = nome_colunas_estados

df_cidades_filtrado.head()

Unnamed: 0,id,nome,uf
0,1100015,Alta Floresta D'Oeste,11
1,1100379,Alto Alegre dos Parecis,11
2,1100403,Alto Paraíso,11
3,1100346,Alvorada D'Oeste,11
4,1100023,Ariquemes,11


## 5.3. Exportar para CSV

In [31]:
# motivo do encoding
# https://qastack.com.br/software/187169/how-to-detect-the-encoding-of-a-file
# http://codeftw.blogspot.com/2009/07/how-to-find-character-encoding-of-text.html

df_cidades_filtrado.to_csv("./cidades.csv", sep=";", index=None, encoding="iso-8859-1")


---