# Download censo

Este notebook é utilizado para baixar os dados do censo de 2010 e 2022


In [1]:
# Importando Bibliotecas necessárias
from zipfile import ZipFile
from os import makedirs, path
from ftplib import FTP
import re
from tqdm import tqdm

Aqui nessa célula é necessário informar qual o ano será feito o download dos dados alterando a variável `ano`

In [2]:
ano = 2010
base_path = "./COR_RACA"

# Dados de conexão com o FTP

ftp_data = {
    2010: {
        "ftp_host": "ftp.ibge.gov.br",
        "directory": "/Censos/Censo_Demografico_2010/Resultados_do_Universo/Agregados_por_Setores_Censitarios",
    },
    2022: {
        "ftp_host": "ftp.ibge.gov.br",
        "directory": "/Censos/Censo_Demografico_2022/Agregados_por_Setores_Censitarios/Agregados_por_Setor_csv/",
    },
}

states = [
    "AC",
    "AL",
    "AM",
    "AP",
    "BA",
    "CE",
    "DF",
    "ES",
    "GO",
    "MA",
    "MG",
    "MS",
    "MT",
    "PA",
    "PB",
    "PE",
    "PI",
    "PR",
    "RJ",
    "RN",
    "RO",
    "RR",
    "RS",
    "SC",
    "SE",
    "SP",
    "TO",
    "SP",
]

In [3]:
pattern = re.compile(
    r"^[A-Z]{2}_"
)  # padrao para filtrar arquivos que iniciam com a sigla do estado
folder = path.join(
    base_path, str(ano)
)  # pasta onde os arquivos serao salvos

# Criando a pasta onde os arquivos serão salvos caso não exista
makedirs(folder, exist_ok=True)

Funções auxiliares para evitar repeditção de código

In [4]:
def download_ftp_files_2022(
    ftp_host, directory="/", dest_folder=folder, chunk_size=1024
):
    """Lista arquivos em um diretório FTP e baixa os arquivos .zip retornando uma lista de arquivos baixados

    ARGS:
        ftp_host (str): Endereço do servidor FTP
        directory (str, optional): Diretório a ser listado. Defaults to "/".
        dest_folder (str, optional): Pasta onde os arquivos serão salvos. Defaults to folder.
        chunk_size (int, optional): Tamanho do buffer para download. Defaults to 1024.
    RETURNS:
        list: Lista de arquivos baixados
        None: Se ocorrer um erro
    """
    try:
        # Conectar ao servidor FTP
        ftp = FTP(ftp_host)
        ftp.login()  # Login anônimo

        # Navegar para o diretório desejado
        ftp.cwd(directory)

        # Recuperar a listagem
        files = ftp.nlst()
        # filtra que iniciam com a sigra do estado e terminam com .zip
        files = [f for f in files if "cor_ou_raca" in f and f.endswith(".zip")]
        for file in tqdm(
            files, desc="Baixando arquivos", unit="arquivos", total=len(files)
        ):
            # faz o download de cada um dos arquivos em uma pasta local
            local_path = path.join(dest_folder, file)
            with open(local_path, "wb") as f:
                tqdm.write(f"Baixando {file}")
                ftp.retrbinary(
                    f"RETR {file}", lambda data: f.write(data), blocksize=chunk_size
                )
        ftp.quit()
        print(f" {len(files)} arquivos baixados com sucesso!")
        return files
    except Exception as e:
        print(f"Erro: {e}")
        return None


def download_files_ftp(ftp_host, directory="/", dest_folder=folder, chunk_size=1024):
    """Lista arquivos em um diretório FTP e baixa os arquivos .zip retornando uma lista de arquivos baixados

    ARGS:
        ftp_host (str): Endereço do servidor FTP
        directory (str, optional): Diretório a ser listado. Defaults to "/".
        dest_folder (str, optional): Pasta onde os arquivos serão salvos. Defaults to folder.
        chunk_size (int, optional): Tamanho do buffer para download. Defaults to 1024.
    RETURNS:
        list: Lista de arquivos baixados
        None: Se ocorrer um erro

    """
    try:
        # Conectar ao servidor FTP
        ftp = FTP(ftp_host)
        ftp.login()  # Login anônimo

        # Navegar para o diretório desejado
        ftp.cwd(directory)

        # Recuperar a listagem
        files = ftp.nlst()
        # filtra que iniciam com a sigra do estado e terminam com .zip
        files = [f for f in files if pattern.match(f) and f.endswith(".zip")]
        for file in tqdm(
            files, desc="Baixando arquivos", unit="arquivos", total=len(files)
        ):
            # faz o download de cada um dos arquivos em uma pasta local
            local_path = path.join(dest_folder, file)
            with open(local_path, "wb") as f:
                tqdm.write(f"Baixando {file}")
                ftp.retrbinary(
                    f"RETR {file}", lambda data: f.write(data), blocksize=chunk_size
                )
        ftp.quit()
        print(f" {len(files)} arquivos baixados com sucesso!")
        return files
    except Exception as e:
        print(f"Erro: {e}")
        return None

Fazendo o download dos dados de censo conforme o ano informado

In [5]:
# Endereço do servidor FTP e diretório
ftp_host = ftp_data[ano]["ftp_host"]
directory = ftp_data[ano]["directory"]

# Listar arquivos no diretório especificado
files_to_download = (
    download_ftp_files_2022(ftp_host, directory)
    if ano == 2022
    else download_files_ftp(ftp_host, directory)
)

Baixando arquivos:   0%|          | 0/28 [00:00<?, ?arquivos/s]

Baixando AC_20231030.zip


Baixando arquivos:   4%|▎         | 1/28 [00:00<00:13,  1.97arquivos/s]

Baixando AL_20231030.zip


Baixando arquivos:   7%|▋         | 2/28 [00:01<00:22,  1.14arquivos/s]

Baixando AM_20231030.zip


Baixando arquivos:  11%|█         | 3/28 [00:02<00:25,  1.02s/arquivos]

Baixando AP_20231030.zip


Baixando arquivos:  14%|█▍        | 4/28 [00:03<00:18,  1.29arquivos/s]

Baixando BA_20231030.zip


Baixando arquivos:  18%|█▊        | 5/28 [00:10<01:10,  3.05s/arquivos]

Baixando CE_20231030.zip


Baixando arquivos:  21%|██▏       | 6/28 [00:12<01:01,  2.79s/arquivos]

Baixando DF_20231030.zip


Baixando arquivos:  25%|██▌       | 7/28 [00:13<00:45,  2.17s/arquivos]

Baixando ES_20231030.zip


Baixando arquivos:  29%|██▊       | 8/28 [00:15<00:40,  2.02s/arquivos]

Baixando GO_20231030.zip


Baixando arquivos:  32%|███▏      | 9/28 [00:17<00:38,  2.00s/arquivos]

Baixando MA_20231030.zip


Baixando arquivos:  36%|███▌      | 10/28 [00:18<00:34,  1.90s/arquivos]

Baixando MG_20231030.zip


Baixando arquivos:  39%|███▉      | 11/28 [00:38<02:06,  7.46s/arquivos]

Baixando MS_20231030.zip


Baixando arquivos:  43%|████▎     | 12/28 [00:44<01:48,  6.81s/arquivos]

Baixando MT_20231030.zip


Baixando arquivos:  46%|████▋     | 13/28 [00:45<01:17,  5.19s/arquivos]

Baixando PA_20231030.zip


Baixando arquivos:  50%|█████     | 14/28 [00:47<00:57,  4.13s/arquivos]

Baixando PB_20231030.zip


Baixando arquivos:  54%|█████▎    | 15/28 [00:52<00:56,  4.31s/arquivos]

Baixando PE_20231030.zip


Baixando arquivos:  57%|█████▋    | 16/28 [00:54<00:44,  3.71s/arquivos]

Baixando PI_20231030.zip


Baixando arquivos:  61%|██████    | 17/28 [00:55<00:32,  2.92s/arquivos]

Baixando PR_20231030.zip


Baixando arquivos:  64%|██████▍   | 18/28 [00:59<00:31,  3.11s/arquivos]

Baixando RJ_20231030.zip


Baixando arquivos:  68%|██████▊   | 19/28 [01:12<00:54,  6.07s/arquivos]

Baixando RN_20231030.zip


Baixando arquivos:  71%|███████▏  | 20/28 [01:14<00:39,  4.98s/arquivos]

Baixando RO_20231030.zip


Baixando arquivos:  75%|███████▌  | 21/28 [01:15<00:26,  3.77s/arquivos]

Baixando RR_20231030.zip


Baixando arquivos:  79%|███████▊  | 22/28 [01:15<00:16,  2.77s/arquivos]

Baixando RS_20241211.zip


Baixando arquivos:  82%|████████▏ | 23/28 [01:21<00:18,  3.66s/arquivos]

Baixando SC_20231030.zip


Baixando arquivos:  86%|████████▌ | 24/28 [02:01<00:57, 14.42s/arquivos]

Baixando SE_20231030.zip


Baixando arquivos:  89%|████████▉ | 25/28 [02:03<00:32, 10.72s/arquivos]

Baixando SP_Capital_20231030.zip


Baixando arquivos:  93%|█████████▎| 26/28 [02:13<00:21, 10.73s/arquivos]

Baixando SP_Exceto_Capital_20231030.zip


Baixando arquivos:  96%|█████████▋| 27/28 [02:46<00:17, 17.38s/arquivos]

Baixando TO_20231030.zip


Baixando arquivos: 100%|██████████| 28/28 [02:47<00:00,  5.99s/arquivos]

 28 arquivos baixados com sucesso!





# Extraindo os arquivos do arquivo zip baixado.

O censo do ano de 2010 é separado por estado, então teremos um arquivo csv para cada, o aquivo que precisamos utilizar para esse ano é o possui `Pessoa03` no nome, já o ano de 2022 possui apenas um arquivo com todos os dados.

In [6]:
# Unziping files
csv_dir = f"{folder}/CSVS"
makedirs(csv_dir, exist_ok=True)

if ano == 2010:
    for file in tqdm(
        files_to_download,
        desc="Descompactando arquivos",
        unit="arquivos",
        total=len(files_to_download),
    ):
        tqdm.write(f"Unzipping {file}")
        filename = path.join(folder, file)
        with ZipFile(filename, "r") as zip_ref:
            file_to_extract = zip_ref.infolist()
            file_to_extract = filter(
                lambda x: "Pessoa03" in x.filename and x.filename.endswith(".csv"),
                file_to_extract,
            )
            for member in file_to_extract:
                csv_filename = path.basename(member.filename)
                with zip_ref.open(member) as source, open(
                    path.join(csv_dir, csv_filename), "wb"
                ) as target:
                    target.write(source.read())
else:
    for file in tqdm(
        files_to_download,
        desc="Descompactando arquivos",
        unit="arquivos",
        total=len(files_to_download),
    ):
        tqdm.write(f"Unzipping {file}")
        filename = path.join(folder, file)
        # Estrai o arquivo csv em csv_dir
        with ZipFile(filename, "r") as zip_ref:
            zip_ref.extractall(csv_dir)

print("Arquivos descompactados com sucesso!")

Descompactando arquivos:  11%|█         | 3/28 [00:00<00:00, 27.69arquivos/s]

Unzipping AC_20231030.zip
Unzipping AL_20231030.zip
Unzipping AM_20231030.zip
Unzipping AP_20231030.zip
Unzipping BA_20231030.zip


Descompactando arquivos:  32%|███▏      | 9/28 [00:00<00:00, 19.74arquivos/s]

Unzipping CE_20231030.zip
Unzipping DF_20231030.zip
Unzipping ES_20231030.zip
Unzipping GO_20231030.zip
Unzipping MA_20231030.zip


Descompactando arquivos:  32%|███▏      | 9/28 [00:00<00:00, 19.74arquivos/s]

Unzipping MG_20231030.zip
Unzipping MS_20231030.zip


Descompactando arquivos:  50%|█████     | 14/28 [00:00<00:00, 15.88arquivos/s]

Unzipping MT_20231030.zip
Unzipping PA_20231030.zip
Unzipping PB_20231030.zip
Unzipping PE_20231030.zip


Descompactando arquivos:  64%|██████▍   | 18/28 [00:01<00:00, 15.35arquivos/s]

Unzipping PI_20231030.zip
Unzipping PR_20231030.zip
Unzipping RJ_20231030.zip


Descompactando arquivos:  79%|███████▊  | 22/28 [00:01<00:00, 14.11arquivos/s]

Unzipping RN_20231030.zip
Unzipping RO_20231030.zip
Unzipping RR_20231030.zip
Unzipping RS_20241211.zip


Descompactando arquivos: 100%|██████████| 28/28 [00:01<00:00, 16.46arquivos/s]

Unzipping SC_20231030.zip
Unzipping SE_20231030.zip
Unzipping SP_Capital_20231030.zip
Unzipping SP_Exceto_Capital_20231030.zip
Unzipping TO_20231030.zip
Arquivos descompactados com sucesso!



