Objective

EL pipeline to compare different approaches to querying external data in BigQuery. Compares between:

Importing data as non-partitioned BigQuery table
Importing data as partitioned BigQuery table
Query data as external table (csv.gz file)
Query data as external parquet file. Here, three different parquet compression formats were compared.
- snappy compression
- gzip comporession
- brotli compression
Query data as external ORC file.

Results of the comparson is discussed here: link.

Codes

The repo provides extraction load pipeline to read NY Taxi CSV data (source: https://github.com/DataTalksClub/nyc-tlc-data/releases/tag/fhv) and load to GCS bucket. Two python scripts are:

from_web_to_gcs_parquet.py : Reads csv.gz file(s) and writes parquet file(s) to gcs.
from_web_to_gcs_orc.py : Reads csv.gz file(s) and writes ORC file(s) to gcs.

Link to relevant blog:

Comparing Different Approaches to Querying External Data in BigQuery: link

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
images		images
.gitignore		.gitignore
from_web_to_gcs_orc.py		from_web_to_gcs_orc.py
from_web_to_gcs_parquet.py		from_web_to_gcs_parquet.py
license.md		license.md
readme.md		readme.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

images

images

.gitignore

.gitignore

from_web_to_gcs_orc.py

from_web_to_gcs_orc.py

from_web_to_gcs_parquet.py

from_web_to_gcs_parquet.py

license.md

license.md

readme.md

readme.md

requirements.txt

requirements.txt

Repository files navigation

Objective

Codes

Link to relevant blog:

Schematic outline:

About

Releases

Packages

Languages

License

Mahdi-Moosa/BigQuery-External_Table_Querying

Folders and files

Latest commit

History

Repository files navigation

Objective

Codes

Link to relevant blog:

Schematic outline:

About

Resources

License

Stars

Watchers

Forks

Languages