# LOAD - BigQuery

##### Script responsável por criar os Datasets e inserir todos os dados tratados do Covid19, Censo 2019 e Censo 2020 no BigQuery 

In [1]:
# Importa a bibliotéca necessária
from google.cloud import bigquery

In [2]:
# Cria o cliente do BQ
client = bigquery.Client()

In [3]:
# Configura os parâmetros do Job do BQ
job_config = bigquery.LoadJobConfig(source_format=bigquery.SourceFormat.PARQUET,)

In [12]:
##### CONSTRUÇÃO DOS DATASETS NO BIGQUERY

In [5]:
# Define os três datasets que serão criados no projeto
dataset_covid = "igti-mba-pa.covid19".format(client.project)
dataset_censo2019 = "igti-mba-pa.censo2019".format(client.project)
dataset_censo2020 = "igti-mba-pa.censo2020".format(client.project)

In [None]:
# Faz a construção do Dataset do Covid19
dataset = bigquery.Dataset(dataset_covid)

# Define qual a localidade do DS - será utilizado "Estados Unidos - Várias Localidades"
dataset.location = "US"

# Faz a criação do Dataset no BQ através da API
dataset = client.create_dataset(dataset, timeout=30)  # Make an API request.
print("Dataset criado: {}.{}".format(client.project, dataset.dataset_id))

In [None]:
# Faz a construção do Dataset do Censo 2019
dataset = bigquery.Dataset(dataset_censo2019)

# Define qual a localidade do DS - será utilizado "Estados Unidos - Várias Localidades"
dataset.location = "US"

# Faz a criação do Dataset no BQ através da API
dataset = client.create_dataset(dataset, timeout=30)  # Make an API request.
print("Dataset criado: {}.{}".format(client.project, dataset.dataset_id))

In [None]:
# Faz a construção do Dataset do Censo 2020
dataset = bigquery.Dataset(dataset_censo2020)

# Define qual a localidade do DS - será utilizado "Estados Unidos - Várias Localidades"
dataset.location = "US"

# Faz a criação do Dataset no BQ através da API
dataset = client.create_dataset(dataset, timeout=30)  # Make an API request.
print("Dataset criado: {}.{}".format(client.project, dataset.dataset_id))

In [None]:
##### INSERÇÃO DOS DADOS DO COVID19 NO BQ

In [None]:
# Define as tabelas que serão incorporadas ao BQ para o Dataset COVID19
estados = "igti-mba-pa.covid19.estados"
cidades = "igti-mba-pa.covid19.cidades"
uri_estados = "gs://igti-pa/ouro/estados_covid19.parquet"
uri_cidades = "gs://igti-pa/ouro/cidades_covid19.parquet"

In [None]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_estados, estados, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(estados)
print("Foram inseridas {} linhas no DS Covid19 Estados.".format(destination_table.num_rows))

In [None]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_cidades, cidades, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(cidades)
print("Foram inseridas {} linhas no DS Covid19 Cidades.".format(destination_table.num_rows))

In [13]:
##### INSERÇÃO DOS DADOS DO CENSO 2019 NO BQ

In [14]:
# Define as tabelas que serão incorporadas ao BQ para o Dataset CENSO 2019
docentes = "igti-mba-pa.censo2019.docentes"
matriculas = "igti-mba-pa.censo2019.matriculas"
turmas = "igti-mba-pa.censo2019.turmas"
escolas = "igti-mba-pa.censo2019.escolas"

uri_docentes = "gs://igti-pa/ouro/docentes2019.parquet/part*"
uri_matriculas = "gs://igti-pa/ouro/matriculas2019.parquet/part*"
uri_turmas = "gs://igti-pa/ouro/turmas2019.parquet/part*"
uri_escolas = "gs://igti-pa/ouro/escolas2019.parquet/part*"

In [15]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_docentes, docentes, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(docentes)
print("Foram inseridas {} linhas no DS Censo 2019 Docentes.".format(destination_table.num_rows))

Foram inseridas 11515298 linhas no DS Censo 2019 Docentes.


In [16]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_matriculas, matriculas, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(matriculas)
print("Foram inseridas {} linhas no DS Censo 2019 Matriculas.".format(destination_table.num_rows))

Foram inseridas 51011521 linhas no DS Censo 2019 Matriculas.


In [17]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_turmas, turmas, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(turmas)
print("Foram inseridas {} linhas no DS Censo 2019 Turmas.".format(destination_table.num_rows))

Foram inseridas 2432438 linhas no DS Censo 2019 Turmas.


In [18]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_escolas, escolas, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(escolas)
print("Foram inseridas {} linhas no DS Censo 2019 Escolas.".format(destination_table.num_rows))

Foram inseridas 228521 linhas no DS Censo 2019 Escolas.


In [19]:
##### INSERÇÃO DOS DADOS DO CENSO 2020 NO BQ

In [20]:
# Define as tabelas que serão incorporadas ao BQ para o Dataset CENSO 2020
docentes = "igti-mba-pa.censo2020.docentes"
matriculas = "igti-mba-pa.censo2020.matriculas"
turmas = "igti-mba-pa.censo2020.turmas"
escolas = "igti-mba-pa.censo2020.escolas"

uri_docentes = "gs://igti-pa/ouro/docentes2020.parquet/part*"
uri_matriculas = "gs://igti-pa/ouro/matriculas2020.parquet/part*"
uri_turmas = "gs://igti-pa/ouro/turmas2020.parquet/part*"
uri_escolas = "gs://igti-pa/ouro/escolas2020.parquet/part*"

In [21]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_docentes, docentes, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(docentes)
print("Foram inseridas {} linhas no DS Censo 2020 Docentes.".format(destination_table.num_rows))

Foram inseridas 9288283 linhas no DS Censo 2020 Docentes.


In [22]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_matriculas, matriculas, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(matriculas)
print("Foram inseridas {} linhas no DS Censo 2020 Matriculas.".format(destination_table.num_rows))

Foram inseridas 49194223 linhas no DS Censo 2020 Matriculas.


In [23]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_turmas, turmas, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(turmas)
print("Foram inseridas {} linhas no DS Censo 2020 Turmas.".format(destination_table.num_rows))

Foram inseridas 2353351 linhas no DS Censo 2020 Turmas.


In [24]:
# Configura o Job que vai carregar os dados no DS
load_job = client.load_table_from_uri(uri_escolas, escolas, job_config=job_config)

# Aguarda a execução do Job por completo
load_job.result()  

# Faz a insersão dos dados do GCP (arquivo parquet) no BQ
destination_table = client.get_table(escolas)
print("Foram inseridas {} linhas no DS Censo 2020 Escolas.".format(destination_table.num_rows))

Foram inseridas 224229 linhas no DS Censo 2020 Escolas.


### FIM DO SCRIPT 