# Gerando os dados de raça e cor

Os dados de raça e cor são gerados utilizando o método criado pelo [http://patadata.org](http://patadata.org).

Primeio é necessário fazer o download dos seguintes dados:

- Polígonos de setores censitários, usando o arquivo [download_setores.ipynb](./download_setores.ipynb), especificando na variável correta o ano de `2022`.
- Dados do censo de 2022, usando o arquivo [download_censo.ipynb](./download_setores.ipynb), especificando o ano de `2022` na variável correta.


## Importando bibliotecas necessárias

In [1]:
# Importing libraries

import pandas as pd
import geopandas as gpd
from os import path, makedirs, getenv
from glob import glob
from tqdm import tqdm
from sqlalchemy import create_engine
from dotenv import load_dotenv
load_dotenv()

True

## Informações necessárias para a execução do código 

In [2]:
# Defining the paths
# pasta onde estão os dados de cor e raça
base_path = "./COR_RACA/2022"
csv_folder = path.join(base_path, "CSVS")  # pasta onde estão os arquivos csv (censo)
rand_folder = path.join(
    base_path, "pontos_aleatorios"
)  # pasta onde serão salvos os arquivos de pontos aleatórios
makedirs(rand_folder, exist_ok=True)

# Pasta dos setores censitários
setor_sensitario_folder = path.join(".", "SETORES_CENSITARIOS", "2022", "gpkg")

agregado_file = next(
    iter(glob(path.join(csv_folder, "*.csv")))
)  # arquivo de dados agregados do censo
states = [
    "AC",
    "AL",
    "AM",
    # "AP",
    # "BA",
    "CE",
    # "DF",
    # "ES",
    # "GO",
    # "MA",
    "MG",
    "MS",
    "MT",
    "PA",
    "PB",
    # "PE", #! Parrou na organização do arquivo
    "PI",
    "PR",
    "RJ",
    "RN",
    "RO",
    # "RR",
    "RS",
    "SC",
    # "SE",
    # "SP", #! Parrou na organização do arquivo
    # "TO",
    # "SP",
]  # estados que serão processados

states = ["TO", "SE", "RO", "PA", "PR", "MD"]

# Campos de interesse do arquivo de censo, com seus respectivos nomes
pessoa_fields = {
    "V01317": "pessoas_brancas",
    "V01318": "pessoas_pretas",
    "V01319": "pessoas_amarelas",
    "V01320": "pessoas_pardas",
    "V01321": "pessoas_indigenas",
    "CD_SETOR": "CD_SETOR",
}

# Tipo dos campos do arquivo de censo
pessoa_fields_dypes = {
    "V01317": "Int64",
    "V01318": "Int64",
    "V01319": "Int64",
    "V01320": "Int64",
    "V01321": "Int64",
    "CD_SETOR": "object",
}

# Campos de interesse do arquivo de setores censitários com seus respectivos nomes
setor_fiels = {"v0001": "total_pessoas"}

# Campos do setor censitário que serão utilizados no processo
setor_keep_fields = [
    "CD_SETOR",
    "SITUACAO",
    "CD_SIT",
    "CD_TIPO",
    "AREA_KM2",
    "CD_REGIAO",
    "NM_REGIAO",
    "CD_UF",
    "NM_UF",
    "CD_MUN",
    "NM_MUN",
    "CD_DIST",
    "NM_DIST",
    "CD_SUBDIST",
    "NM_SUBDIST",
    "CD_BAIRRO",
    "NM_BAIRRO",
    "CD_NU",
    "NM_NU",
    "CD_FCU",
    "NM_FCU",
    "CD_AGLOM",
    "NM_AGLOM",
    "CD_RGINT",
    "NM_RGINT",
    "CD_RGI",
    "NM_RGI",
    "CD_CONCURB",
    "NM_CONCURB",
    "v0001",
    "geometry",
]

# Campos de raça e cor e o label que será usado nos pontos
race_fields = {
    "pessoas_brancas": "Brancos",
    "pessoas_pretas": "Pretos",
    "pessoas_amarelas": "Amarelas",
    "pessoas_pardas": "Pardos",
    "pessoas_indigenas": "Indígenas",
}

# Campos que serão mantidos no arquivo final de pontos
points_cols = [
    "CD_SETOR",
    "SITUACAO",
    "CD_SIT",
    "CD_TIPO",
    "AREA_KM2",
    "CD_REGIAO",
    "NM_REGIAO",
    "CD_UF",
    "NM_UF",
    "CD_MUN",
    "NM_MUN",
    "CD_DIST",
    "NM_DIST",
    "CD_SUBDIST",
    "NM_SUBDIST",
    "CD_BAIRRO",
    "NM_BAIRRO",
    "CD_NU",
    "NM_NU",
    "CD_FCU",
    "NM_FCU",
    "CD_AGLOM",
    "NM_AGLOM",
    "CD_RGINT",
    "NM_RGINT",
    "CD_RGI",
    "NM_RGI",
    "CD_CONCURB",
    "NM_CONCURB",
    "total_pessoas",
    *race_fields.keys(),
    "raca_cor",
    "tile_x",
    "tile_y",
    "quadkey",
    "geometry",
]

raca_cor_poligono = path.join(".", "COR_RACA", "2022", "poligonos", "raca_cor_pol.gpkg")
makedirs(path.dirname(raca_cor_poligono), exist_ok=True)


In [3]:
pessoa_df = pd.read_csv(
    agregado_file,
    sep=";",
    encoding="latin1",
    usecols=[*pessoa_fields.keys()],  # * abrimos apenas as colunas que precisamos
    na_values=["X"],  # * aqui estamos transformando em x em NaN/None
    dtype=pessoa_fields_dypes,  # * aqui estamos informando os tipos corretos dos campos
)

pessoa_df.rename(columns=pessoa_fields, inplace=True) # * renomeando as colunas

pessoa_cols = pessoa_df.columns

In [4]:
# lista os arquivos dos estados dentro da pasta de setores sensitários usando glob
setores_sensitarios_files = glob(path.join(setor_sensitario_folder, "*.gpkg"))
# setores_sensitarios_files = filtra_arquvios_sigla_estados(setores_sensitarios_files, states)


bar_files = tqdm(
    setores_sensitarios_files,
    desc="Processando arquivos",
    unit="arquivo",
    total=len(setores_sensitarios_files),
    position=0,
    leave=True,
)
files_bar_log = tqdm(total=0, position=1, bar_format="{desc}")
total_len = 0
for setor_censitario_path in bar_files:
    sigla_uf = path.basename(setor_censitario_path).split("_")[0].lower()
    # if sigla_uf.upper() not in states:
    #     continue
    files_bar_log.set_description_str(f"Processando {sigla_uf}")
    setor_censitario_gdf = gpd.read_file(setor_censitario_path)

    # Remove colunas que não são necessárias
    setor_censitario_gdf.drop(
        columns=[c for c in setor_censitario_gdf.columns if c not in setor_keep_fields],
        inplace=True,
    )
    gdf_len = setor_censitario_gdf.shape[0]
    total_len += gdf_len
    # Renomeia as colunas
    setor_censitario_gdf.rename(columns=setor_fiels, inplace=True)
    # Fazendo a união das tabelas
    joined_gdf = setor_censitario_gdf.merge(pessoa_df, on="CD_SETOR", how="left")
    # limpa a memória do setor censitário
    del setor_censitario_gdf
    # limpa a memória do setor censitário

    cols = joined_gdf.columns
    cols = [col.lower() for col in cols]
    joined_gdf.columns = cols
    mode = "a" if path.exists(raca_cor_poligono) else "w"
    joined_gdf.to_file(raca_cor_poligono, driver="GPKG", mode=mode)
    print(f"Arquivo do estado {sigla_uf} processado - {gdf_len} registros")

    del joined_gdf

print(f"Total de registros processados: {total_len}")
print("Fim do processamento")

Processando arquivos:   4%|▎         | 1/27 [00:00<00:14,  1.84arquivo/s]

Arquivo do estado ap processado - 1499 registros


Processando arquivos:   7%|▋         | 2/27 [00:04<00:56,  2.27s/arquivo]

Arquivo do estado pe processado - 19700 registros


Processando arquivos:  11%|█         | 3/27 [00:21<03:37,  9.04s/arquivo]

Arquivo do estado sp processado - 103620 registros


Processando arquivos:  15%|█▍        | 4/27 [00:24<02:35,  6.74s/arquivo]

Arquivo do estado ma processado - 16368 registros


Processando arquivos:  19%|█▊        | 5/27 [00:24<01:39,  4.50s/arquivo]

Arquivo do estado rr processado - 1986 registros


Processando arquivos:  22%|██▏       | 6/27 [00:30<01:44,  5.00s/arquivo]

Arquivo do estado ba processado - 31070 registros


Processando arquivos:  26%|██▌       | 7/27 [00:32<01:19,  3.97s/arquivo]

Arquivo do estado to processado - 4119 registros


Processando arquivos:  30%|██▉       | 8/27 [00:33<00:58,  3.08s/arquivo]

Arquivo do estado se processado - 5347 registros


Processando arquivos:  33%|███▎      | 9/27 [00:37<01:00,  3.34s/arquivo]

Arquivo do estado go processado - 12861 registros


Processando arquivos:  37%|███▋      | 10/27 [00:39<00:49,  2.89s/arquivo]

Arquivo do estado es processado - 8788 registros


Processando arquivos:  41%|████      | 11/27 [00:40<00:36,  2.31s/arquivo]

Arquivo do estado df processado - 5418 registros


Processando arquivos:  44%|████▍     | 12/27 [00:50<01:09,  4.65s/arquivo]

Arquivo do estado mg processado - 51392 registros


Processando arquivos:  48%|████▊     | 13/27 [00:51<00:48,  3.47s/arquivo]

Arquivo do estado ro processado - 3456 registros


Processando arquivos:  52%|█████▏    | 14/27 [00:54<00:44,  3.41s/arquivo]

Arquivo do estado pa processado - 18635 registros


Processando arquivos:  56%|█████▌    | 15/27 [00:55<00:32,  2.73s/arquivo]

Arquivo do estado rn processado - 6096 registros


Processando arquivos:  59%|█████▉    | 16/27 [00:57<00:26,  2.41s/arquivo]

Arquivo do estado pi processado - 7340 registros


Processando arquivos:  63%|██████▎   | 17/27 [00:58<00:18,  1.89s/arquivo]

Arquivo do estado ac processado - 2215 registros


Processando arquivos:  67%|██████▋   | 18/27 [01:02<00:23,  2.57s/arquivo]

Arquivo do estado pr processado - 23899 registros


Processando arquivos:  70%|███████   | 19/27 [01:03<00:17,  2.23s/arquivo]

Arquivo do estado ms processado - 6169 registros


Processando arquivos:  74%|███████▍  | 20/27 [01:07<00:18,  2.58s/arquivo]

Arquivo do estado ce processado - 20982 registros


Processando arquivos:  78%|███████▊  | 21/27 [01:08<00:13,  2.25s/arquivo]

Arquivo do estado al processado - 6360 registros


Processando arquivos:  81%|████████▏ | 22/27 [01:10<00:10,  2.12s/arquivo]

Arquivo do estado pb processado - 9644 registros


Processando arquivos:  85%|████████▌ | 23/27 [01:14<00:11,  2.83s/arquivo]

Arquivo do estado sc processado - 16831 registros


Processando arquivos:  89%|████████▉ | 24/27 [01:17<00:07,  2.65s/arquivo]

Arquivo do estado mt processado - 9385 registros


Processando arquivos:  93%|█████████▎| 25/27 [01:21<00:06,  3.18s/arquivo]

Arquivo do estado rs processado - 25575 registros


Processando arquivos:  96%|█████████▋| 26/27 [01:28<00:04,  4.29s/arquivo]

Arquivo do estado rj processado - 42270 registros


Processando arquivos: 100%|██████████| 27/27 [01:31<00:00,  3.40s/arquivo]

Arquivo do estado am processado - 11755 registros
Total de registros processados: 472780
Fim do processamento





In [None]:
# Ordenando o arquivo
print("Ordenando o arquivo")
raca_cor_gdf = gpd.read_file(raca_cor_poligono)
cols_to_order = ["cd_uf", "cd_mun", "cd_setor"]
raca_cor_gdf.sort_values(by=cols_to_order, inplace=True)
raca_cor_gdf.to_file(raca_cor_poligono, driver="GPKG", mode="w")
print("Arquivo ordenado")
print("tamanho: ", raca_cor_gdf.shape[0])

Ordenando o arquivo
Arquivo ordenado


In [4]:
# Salvando arquivo no Postgis
DB_URI = getenv("DB_URI")

print(f"Salvando arquivo no Postgis {DB_URI}")

Salvando arquivo no Postgis postgresql://postgres:ZnPdqvZhGycO5xlcJAYSUqtOgl6PnoAulmBVWc9xBTriZ3oEFlIuUlsYQRFr8KA9@localhost:5555/geoportal_backend


In [5]:

engine = create_engine(DB_URI)
chunk_size = 10000
chunk = 0
while True:
    if_exists = "replace" if chunk == 0 else "append"
    try:
        # using slice to get a chunk of the dataframe
        rows = slice(chunk_size * chunk, chunk_size * (chunk + 1))
        print(f"Salvando chunk {chunk} - {rows}")
        raca_cor_gdf = gpd.read_file(raca_cor_poligono, rows=rows)
        print(f"Tamanho do chunk {raca_cor_gdf.shape[0]}")
        raca_cor_gdf.to_postgis("raca_cor_pol", engine, if_exists=if_exists, index=False)
        if raca_cor_gdf.shape[0] == 0:
            print("Arquivo vazio")
            break
        chunk += 1
    except Exception as e:
        print("Erro ao salvar no Postgis")
        print(e)
        break
print("Arquivo salvo no Postgis")

Salvando chunk 0 - slice(0, 10000, None)
Tamanho do chunk 10000
Salvando chunk 1 - slice(10000, 20000, None)
Tamanho do chunk 10000
Salvando chunk 2 - slice(20000, 30000, None)
Tamanho do chunk 10000
Salvando chunk 3 - slice(30000, 40000, None)
Tamanho do chunk 10000
Salvando chunk 4 - slice(40000, 50000, None)
Tamanho do chunk 10000
Salvando chunk 5 - slice(50000, 60000, None)
Tamanho do chunk 10000
Salvando chunk 6 - slice(60000, 70000, None)
Tamanho do chunk 10000
Salvando chunk 7 - slice(70000, 80000, None)
Tamanho do chunk 10000
Salvando chunk 8 - slice(80000, 90000, None)
Tamanho do chunk 10000
Salvando chunk 9 - slice(90000, 100000, None)
Tamanho do chunk 10000
Salvando chunk 10 - slice(100000, 110000, None)
Tamanho do chunk 10000
Salvando chunk 11 - slice(110000, 120000, None)
Tamanho do chunk 10000
Salvando chunk 12 - slice(120000, 130000, None)
Tamanho do chunk 10000
Salvando chunk 13 - slice(130000, 140000, None)
Tamanho do chunk 10000
Salvando chunk 14 - slice(140000, 15000