This notebook downloads the Demographic Census from Base dos Dados, a non-profit organization that stores pre-cleaned government data. The code uses their library, which is simply performing querying from Google BigQuery, where the data is stored. 

A description of the data can be found at 
- Demographic Census:https://basedosdados.org/dataset/br-ibge-censo-demografico 
- Geolocation Data: https://basedosdados.org/dataset/br-geobr-mapas?bdm_table=setor_censitario_2010
- IDEB: https://basedosdados.org/dataset/br-inep-ideb?bdm_table=escola


The original census data can be downloaded from https://ftp.ibge.gov.br/Censos/Censo_Demografico_2010/Resultados_do_Universo/Agregados_por_Setores_Censitarios/

# Demographic Census

In [2]:
import basedosdados as bd

In [2]:
# Tables that are stored by Base dos Dados 
# https://basedosdados.org/dataset/br-ibge-censo-demografico
tables = "setor_censitario_basico_2010 setor_censitario_alfabetizacao_homens_mulheres_2010 setor_censitario_alfabetizacao_total_2010 setor_censitario_domicilio_caracteristicas_gerais_2010 setor_censitario_domicilio_moradores_2010 setor_censitario_domicilio_renda_2010 setor_censitario_entorno_2010 setor_censitario_idade_homens_2010 setor_censitario_idade_mulheres_2010 setor_censitario_idade_total_2010 setor_censitario_pessoa_renda_2010 setor_censitario_raca_alfabetizacao_idade_genero_2010 setor_censitario_raca_idade_genero_2010 setor_censitario_registro_civil_2010 setor_censitario_relacao_parentesco_conjuges_2010 setor_censitario_relacao_parentesco_filhos_2010 setor_censitario_relacao_parentesco_filhos_enteados_2010 setor_censitario_relacao_parentesco_outros_2010 setor_censitario_responsavel_domicilios_homens_total_2010 setor_censitario_responsavel_domicilios_mulheres_2010 setor_censitario_responsavel_renda_2010 setor_censitario_raca_idade_0_4_genero_2010".split()


tables

['setor_censitario_basico_2010',
 'setor_censitario_alfabetizacao_homens_mulheres_2010',
 'setor_censitario_alfabetizacao_total_2010',
 'setor_censitario_domicilio_caracteristicas_gerais_2010',
 'setor_censitario_domicilio_moradores_2010',
 'setor_censitario_domicilio_renda_2010',
 'setor_censitario_entorno_2010',
 'setor_censitario_idade_homens_2010',
 'setor_censitario_idade_mulheres_2010',
 'setor_censitario_idade_total_2010',
 'setor_censitario_pessoa_renda_2010',
 'setor_censitario_raca_alfabetizacao_idade_genero_2010',
 'setor_censitario_raca_idade_genero_2010',
 'setor_censitario_registro_civil_2010',
 'setor_censitario_relacao_parentesco_conjuges_2010',
 'setor_censitario_relacao_parentesco_filhos_2010',
 'setor_censitario_relacao_parentesco_filhos_enteados_2010',
 'setor_censitario_relacao_parentesco_outros_2010',
 'setor_censitario_responsavel_domicilios_homens_total_2010',
 'setor_censitario_responsavel_domicilios_mulheres_2010',
 'setor_censitario_responsavel_renda_2010',
 

In [4]:
# Download all of the tables using Google BigQuery
for table in tables:
    query = f"""
    SELECT *
    FROM basedosdados.br_ibge_censo_demografico.{table}
    """

    print("Downloading", table)

    bd.download(
    f"/Users/feliphlvo/Documents/Minerva/Capstone/data/Base dos Dados/{table}.csv",
    query=query,
    dataset_id="br_ibge_censo_demografico",
    table_id=table,
    billing_project_id="base-dos-dados-363119",
    query_project_id="basedosdados",
    )

    print("Done, moving on")
    
print("DONE!")
    

Downloading setor_censitario_basico_2010
Done, moving on
Downloading setor_censitario_alfabetizacao_homens_mulheres_2010
Done, moving on
Downloading setor_censitario_alfabetizacao_total_2010
Done, moving on
Downloading setor_censitario_domicilio_caracteristicas_gerais_2010
Done, moving on
Downloading setor_censitario_domicilio_moradores_2010
Done, moving on
Downloading setor_censitario_domicilio_renda_2010
Done, moving on
Downloading setor_censitario_entorno_2010
Done, moving on
Downloading setor_censitario_idade_homens_2010
Done, moving on
Downloading setor_censitario_idade_mulheres_2010
Done, moving on
Downloading setor_censitario_idade_total_2010
Done, moving on
Downloading setor_censitario_pessoa_renda_2010
Done, moving on
Downloading setor_censitario_raca_alfabetizacao_idade_genero_2010
Done, moving on
Downloading setor_censitario_raca_idade_genero_2010
Done, moving on
Downloading setor_censitario_registro_civil_2010
Done, moving on
Downloading setor_censitario_relacao_parentesco_

# Geolocation Data

In [3]:
# Downloading geolocation data
bd.download(
    f"/Users/feliphlvo/Documents/Minerva/Capstone/data/Base dos Dados/geobr_setor_censitario_2010.csv",
    query="SELECT * FROM basedosdados.br_geobr_mapas.setor_censitario_2010",
    dataset_id="br_geobr_mapas",
    table_id="setor_censitario_2010",
    billing_project_id="base-dos-dados-363119",
    query_project_id="basedosdados",
    )

In [8]:
bd.download(
    f"/Users/feliphlvo/Documents/Minerva/Capstone/data/Base dos Dados/geobr_escola_2020.csv",
    query="SELECT * FROM basedosdados.br_geobr_mapas.escola",
    dataset_id="br_geobr_mapas",
    table_id="escola",
    billing_project_id="base-dos-dados-363119",
    query_project_id="basedosdados",
    )

NotFound: 404 GET https://storage.googleapis.com/storage/v1/b/635b3ede93db8d16d4a91128524c257cbbbf9ba7298046267882795009?projection=noAcl&prettyPrint=false: The specified bucket does not exist.

# IDEB

In [19]:
ideb_df = bd.read_sql(
    query="""
    SELECT * FROM basedosdados.br_inep_ideb.escola 
    WHERE ano = 2019 
    AND ensino = "medio"
    """,
    billing_project_id="base-dos-dados-363119"
    )

Downloading: 100%|██████████| 20680/20680 [00:35<00:00, 586.19rows/s]


In [3]:
ideb_city = bd.read_sql(
    query="""
    SELECT * FROM basedosdados.br_inep_ideb.municipio 
    WHERE ano = 2019 
    AND ensino = "medio"
    """,
    billing_project_id="base-dos-dados-363119"
    )

Downloading: 100%|██████████| 11625/11625 [00:02<00:00, 5044.59rows/s]


In [4]:
ideb_state = bd.read_sql(
    query="""
    SELECT * FROM basedosdados.br_inep_ideb.uf 
    WHERE ano = 2019 
    AND ensino = "medio"
    """,
    billing_project_id="base-dos-dados-363119"
    )

Downloading: 100%|██████████| 81/81 [00:00<00:00, 227.70rows/s]


In [15]:
import pandas as pd

In [5]:

ideb_df.to_csv("/Users/feliphlvo/Documents/Minerva/Capstone/data/Raw/Base dos Dados/ideb.csv")
ideb_city.to_csv("/Users/feliphlvo/Documents/Minerva/Capstone/data/Raw/Base dos Dados/ideb_city.csv")
ideb_state.to_csv("/Users/feliphlvo/Documents/Minerva/Capstone/data/Raw/Base dos Dados/ideb_state.csv")