<a href="https://colab.research.google.com/github/erikkmelo/Censo-2022-EDA/blob/main/extrair_csv_mun_censo_2022.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalações e Bibliotecas necessárias
Só precisa ser executado uma vez por sessão.
Caso a sessão seja interrompida é necessário executar novamente.

In [1]:
#!pip install gdown
import gdown
import pandas as pd
import os

In [31]:
def baixar_arquivo(file_id, file_name):
    """Baixar o arquivo do Google Drive."""
    url = f"https://drive.google.com/uc?id={file_id}"
    gdown.download(url, file_name, quiet=False)
    return f"/content/{file_name}"

def filtrar_dados(file_path, codigo_municipio):
    """Filtrar o DataFrame com base nos 7 primeiros dígitos do CD_SETOR ou CD_setor."""
    df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário

    # Verificar se o campo 'CD_SETOR' ou 'CD_setor' existe e usar o apropriado
    if 'CD_SETOR' in df.columns:
        coluna_setor = 'CD_SETOR'
    elif 'CD_setor' in df.columns:
        coluna_setor = 'CD_setor'
    else:
        raise ValueError("O campo 'CD_SETOR' ou 'CD_setor' não foi encontrado no arquivo.")

    # Filtrar os dados com base nos 7 primeiros dígitos do código do município
    df_municipio = df[df[coluna_setor].astype(str).str[:7] == codigo_municipio]
    return df_municipio

def salvar_arquivo(df, file_name, codigo_municipio):
    """Salvar o DataFrame filtrado no diretório correspondente."""
    csv_mun = file_name.replace("BR", codigo_municipio)
    caminho_diretorio = f"/content/{codigo_municipio}"
    caminho_arquivo = f"{caminho_diretorio}/{csv_mun}"

    # Criar o diretório, se não existir
    os.makedirs(caminho_diretorio, exist_ok=True)

    # Salvar o DataFrame filtrado
    df.to_csv(caminho_arquivo, index=False, sep=';', encoding='UTF-8')
    print(f"Arquivo salvo como: {caminho_arquivo}")

def processar_arquivo(file_id, file_name, codigo_municipio):
    """Processar o arquivo: baixar, filtrar e salvar."""
    file_path = baixar_arquivo(file_id, file_name)
    df_municipio = filtrar_dados(file_path, codigo_municipio)
    salvar_arquivo(df_municipio, file_name, codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1mM7kVMKOr5U2MMOqneMRHYBcY9cunYxy
From (redirected): https://drive.google.com/uc?id=1mM7kVMKOr5U2MMOqneMRHYBcY9cunYxy&confirm=t&uuid=f08703a5-9eb7-49b5-bf12-486b874c8323
To: /content/Agregados_por_setores_basico_BR.csv
100%|██████████| 137M/137M [00:00<00:00, 137MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_basico_3551009.csv


Downloading...
From (original): https://drive.google.com/uc?id=13YQRRIXqURVHqKmBeiUU7eoYSeGG3p7y
From (redirected): https://drive.google.com/uc?id=13YQRRIXqURVHqKmBeiUU7eoYSeGG3p7y&confirm=t&uuid=c271b1f7-b587-4bca-a1c2-601232bee0e8
To: /content/Agregados_por_setores_alfabetizacao_BR.csv
100%|██████████| 735M/735M [00:05<00:00, 127MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_alfabetizacao_3551009.csv


Downloading...
From (original): https://drive.google.com/uc?id=1lau-qV7TfJVgM2RWHd8b0v-t__rdm9KE
From (redirected): https://drive.google.com/uc?id=1lau-qV7TfJVgM2RWHd8b0v-t__rdm9KE&confirm=t&uuid=72c0682b-58e2-4a8f-a8ca-b6d6d431dd79
To: /content/Agregados_por_setores_caracteristicas_domicilio1_BR.csv
100%|██████████| 186M/186M [00:01<00:00, 135MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_caracteristicas_domicilio1_3551009.csv


# 1º Passo - Escolha o município através do código dos municípios IBGE

# Códigos dos municípios IBGE

https://www.ibge.gov.br/explica/codigos-dos-municipios.php#SP

In [2]:
# Definir o código do município pelos 7 primeiros dígitos
codigo_municipio = "3551009"  # Substitua pelo código desejado p.ex. 3551009 - São Vicente - SP

# Execução dos arquivos

Optei por não fazer uma rotina pois como a maior parte dos CSV do Censo BR tem mais de 100mb e aqui no colab as vezes tem limite de memória, recomendo fazer os processos uma a um. E também por ser possível executar para apenas um dos temas de interesse.

Pode dar um Ctrl + F10 e executar tudo de uma vez? Pode, o máximo que vai acontecer é dar de problema é ter que começar tudo de novo, mas na maioria das vezes dá certo.

In [34]:
processar_arquivo("1mM7kVMKOr5U2MMOqneMRHYBcY9cunYxy", "Agregados_por_setores_basico_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1mM7kVMKOr5U2MMOqneMRHYBcY9cunYxy
From (redirected): https://drive.google.com/uc?id=1mM7kVMKOr5U2MMOqneMRHYBcY9cunYxy&confirm=t&uuid=55499f00-5463-483e-b0b6-40aca449bf2a
To: /content/Agregados_por_setores_basico_BR.csv
100%|██████████| 137M/137M [00:01<00:00, 77.2MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_basico_3551009.csv


In [35]:
processar_arquivo("13YQRRIXqURVHqKmBeiUU7eoYSeGG3p7y", "Agregados_por_setores_alfabetizacao_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=13YQRRIXqURVHqKmBeiUU7eoYSeGG3p7y
From (redirected): https://drive.google.com/uc?id=13YQRRIXqURVHqKmBeiUU7eoYSeGG3p7y&confirm=t&uuid=e058d70f-a4d3-4da7-ab58-a67d2ce599fd
To: /content/Agregados_por_setores_alfabetizacao_BR.csv
100%|██████████| 735M/735M [00:08<00:00, 82.7MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_alfabetizacao_3551009.csv


In [36]:
processar_arquivo("1lau-qV7TfJVgM2RWHd8b0v-t__rdm9KE", "Agregados_por_setores_caracteristicas_domicilio1_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1lau-qV7TfJVgM2RWHd8b0v-t__rdm9KE
From (redirected): https://drive.google.com/uc?id=1lau-qV7TfJVgM2RWHd8b0v-t__rdm9KE&confirm=t&uuid=b9f2081c-4ab6-4131-bdc2-3c9efbd8cfa2
To: /content/Agregados_por_setores_caracteristicas_domicilio1_BR.csv
100%|██████████| 186M/186M [00:01<00:00, 112MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_caracteristicas_domicilio1_3551009.csv


In [37]:
processar_arquivo("1QUkq0107d_w10xxB3lyZhBImVwHb6Ymp", "Agregados_por_setores_caracteristicas_domicilio2_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1QUkq0107d_w10xxB3lyZhBImVwHb6Ymp
From (redirected): https://drive.google.com/uc?id=1QUkq0107d_w10xxB3lyZhBImVwHb6Ymp&confirm=t&uuid=dbd03ef2-ddd5-4ccd-a6a1-c2b0ae55df74
To: /content/Agregados_por_setores_caracteristicas_domicilio2_BR.csv
100%|██████████| 784M/784M [00:16<00:00, 47.4MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_caracteristicas_domicilio2_3551009.csv


In [38]:
processar_arquivo("1jIHOCfofQ4wvtdeKN1XgZQ0by0Lge9Z8", "Agregados_por_setores_caracteristicas_domicilio3_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1jIHOCfofQ4wvtdeKN1XgZQ0by0Lge9Z8
From (redirected): https://drive.google.com/uc?id=1jIHOCfofQ4wvtdeKN1XgZQ0by0Lge9Z8&confirm=t&uuid=7a4b3ecd-7e67-420d-8057-b49d2588b447
To: /content/Agregados_por_setores_caracteristicas_domicilio3_BR.csv
100%|██████████| 305M/305M [00:07<00:00, 41.4MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_caracteristicas_domicilio3_3551009.csv


In [39]:
processar_arquivo("1T5QYq8o-jNFjvbYzZPgtThujiGQxn0_X", "Agregados_por_setores_cor_ou_raca_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1T5QYq8o-jNFjvbYzZPgtThujiGQxn0_X
From (redirected): https://drive.google.com/uc?id=1T5QYq8o-jNFjvbYzZPgtThujiGQxn0_X&confirm=t&uuid=fdb12d41-5b6c-42ca-b861-a63a8448ea55
To: /content/Agregados_por_setores_cor_ou_raca_BR.csv
100%|██████████| 201M/201M [00:03<00:00, 53.2MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_cor_ou_raca_3551009.csv


In [40]:
processar_arquivo("1E2gc_Tunw63bWVW3Iix4vpvHDeRxYmz6", "Agregados_por_setores_demografia_BR.csv", codigo_municipio)

Downloading...
From: https://drive.google.com/uc?id=1E2gc_Tunw63bWVW3Iix4vpvHDeRxYmz6
To: /content/Agregados_por_setores_demografia_BR.csv
100%|██████████| 88.9M/88.9M [00:01<00:00, 83.5MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_demografia_3551009.csv


In [41]:
processar_arquivo("1s89nZcmdJLGcCU0ns-Oj3sx8EVI2Lp4E", "Agregados_por_setores_domicilios_indigenas_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1s89nZcmdJLGcCU0ns-Oj3sx8EVI2Lp4E
From (redirected): https://drive.google.com/uc?id=1s89nZcmdJLGcCU0ns-Oj3sx8EVI2Lp4E&confirm=t&uuid=178fe71b-4e83-492c-8bd3-38cd2664f491
To: /content/Agregados_por_setores_domicilios_indigenas_BR.csv
100%|██████████| 358M/358M [00:07<00:00, 48.1MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_domicilios_indigenas_3551009.csv


In [42]:
processar_arquivo("1wfxQgcK9y-KOHKYgQmh5juhYbz6NRCSG", "Agregados_por_setores_domicilios_quilombolas_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1wfxQgcK9y-KOHKYgQmh5juhYbz6NRCSG
From (redirected): https://drive.google.com/uc?id=1wfxQgcK9y-KOHKYgQmh5juhYbz6NRCSG&confirm=t&uuid=e7b89d1a-4ec5-4f39-8d16-4dd6c7706e3e
To: /content/Agregados_por_setores_domicilios_quilombolas_BR.csv
100%|██████████| 369M/369M [00:07<00:00, 51.3MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_domicilios_quilombolas_3551009.csv


In [43]:
processar_arquivo("1fxSdtjALjGsbXyN5ocruAsAiYAbXBpKQ", "Agregados_por_setores_obitos_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1fxSdtjALjGsbXyN5ocruAsAiYAbXBpKQ
From (redirected): https://drive.google.com/uc?id=1fxSdtjALjGsbXyN5ocruAsAiYAbXBpKQ&confirm=t&uuid=bdec66ce-057b-43d6-95eb-1fc5bf1fa625
To: /content/Agregados_por_setores_obitos_BR.csv
100%|██████████| 182M/182M [00:01<00:00, 123MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_obitos_3551009.csv


In [44]:
processar_arquivo("1NIr6H6OgMVbI2uM0z4oMxCHMPiA0JJpk", "Agregados_por_setores_parentesco_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1NIr6H6OgMVbI2uM0z4oMxCHMPiA0JJpk
From (redirected): https://drive.google.com/uc?id=1NIr6H6OgMVbI2uM0z4oMxCHMPiA0JJpk&confirm=t&uuid=11d9822f-9ce5-4084-b9ce-b352d3805edd
To: /content/Agregados_por_setores_parentesco_BR.csv
100%|██████████| 362M/362M [00:05<00:00, 70.5MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_parentesco_3551009.csv


In [45]:
processar_arquivo("1werm-osC51i6Hi5H3MShw0AIVX1ZD0dj", "Agregados_por_setores_pessoas_indigenas_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=1werm-osC51i6Hi5H3MShw0AIVX1ZD0dj
From (redirected): https://drive.google.com/uc?id=1werm-osC51i6Hi5H3MShw0AIVX1ZD0dj&confirm=t&uuid=3efbde94-15e1-4141-abdd-5170dab533a3
To: /content/Agregados_por_setores_pessoas_indigenas_BR.csv
100%|██████████| 1.55G/1.55G [00:29<00:00, 52.3MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_pessoas_indigenas_3551009.csv


In [46]:
processar_arquivo("13biRZaMWAPLMZ5JilPIrSkGe_-dKwtfE", "Agregados_por_setores_pessoas_quilombolas_BR.csv", codigo_municipio)

Downloading...
From (original): https://drive.google.com/uc?id=13biRZaMWAPLMZ5JilPIrSkGe_-dKwtfE
From (redirected): https://drive.google.com/uc?id=13biRZaMWAPLMZ5JilPIrSkGe_-dKwtfE&confirm=t&uuid=21df2815-b3c3-42c9-9491-cc4d95dec004
To: /content/Agregados_por_setores_pessoas_quilombolas_BR.csv
100%|██████████| 1.39G/1.39G [00:18<00:00, 74.8MB/s]
  df = pd.read_csv(file_path, encoding='latin9', sep=';')  # Ajuste o delimitador se necessário


Arquivo salvo como: /content/3551009/Agregados_por_setores_pessoas_quilombolas_3551009.csv


In [48]:
import os
import shutil
from google.colab import files

def zipar_arquivos(diretorio, nome_zip):
    """Zipar todos os arquivos do diretório especificado."""
    # Criar o arquivo zip a partir do diretório
    shutil.make_archive(nome_zip, 'zip', diretorio)
    print(f"Arquivo ZIP criado: {nome_zip}.zip")

def baixar_zip(nome_zip):
    """Baixar o arquivo ZIP gerado no ambiente Colab."""
    # Baixar o arquivo zip gerado
    files.download(f"{nome_zip}.zip")
    print(f"Iniciando o download do arquivo {nome_zip}.zip")

# Definir o diretório onde os arquivos estão armazenados e o nome do arquivo zip
nome_zip = "content/arquivos_censo"  # Nome do arquivo zip a ser gerado

# Zipar os arquivos
zipar_arquivos(caminho_diretorio, nome_zip)

# Baixar o arquivo ZIP
baixar_zip(nome_zip)


Arquivo ZIP criado: content/arquivos_censo.zip


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Iniciando o download do arquivo content/arquivos_censo.zip
