<a href="https://colab.research.google.com/github/svvsaga/datascience_workshop/blob/martin/workshop_sesjon3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Workshop sesjon 3: Analyse med BigQuery


Google's BigQuery er en serverless datawarehus løsning som støtter analyse av store datamengder uten å kreve at brukeren setter opp infrastruktur i bakgrunnen.
BigQuery bruker [standard SQL](https://www.w3schools.com/sql/sql_intro.asp) som språk. I tillegg finnes det noen ekstra funksjoner som gjør det enklere å kjøre komplekse analyser, til og med noen støttede GIS fuksjoner.

I denne sesjonen skal vi gå gjennom noen av de fordelene man oppnå ved bruk av BigQuery og vise noen triks for å komme i gang med det.

Koden vi går gjennom kan både kjøres i denne noteboken og i BigQuery UI gjennom nettleseren. **Vi anbefaler å utforske/teste spørringer i BigQuery UI** der man får noen fordeler som f.eks. en live query validator samt estimert bruk av datavolumet og kan utforske datastrukturen mer interaktivt.


## Autentisering med colab notebook
Hvis notebook brukes til å kjøre spørringer, er det nødvendig å autentisere seg (kjør cellen under).

In [None]:
from google.colab import auth
auth.authenticate_user()

In [None]:
project = "<prosjekt-navn i GCP>" # Endre denne

## Grunnlegende spørringer
BigQuery bruker standard SQL som språk. Cellen under viser en enkelt spørring som bare returnerer alle rader fra vår trafikkdata tabell. 
Ved bruk av en notebook er det viktig å huske begrensning på minne (~12GB i colab), slik at den veldig stor tabell kan sannsynligvis ikke lastes.
Her kan man benytte seg av en `LIMIT` clause som returnere bare X antall rader. 

In [None]:
%%bigquery --project $project
SELECT *
FROM
  `saga-workshop-data-vu8x.workshop.timestrafikkdata`
LIMIT 1000

Kopier select statement inn til BigQuery UI og se på datamenge Query Validatoren angi. 
- Hvor mye data innegår i spørringen? 
- Er datamengden som prosesseres bakgrunnen avhengig av `LIMIT` clause?


BigQuery prises etter datamengenden som lagres eller analyseres. En spørring som analyserer mye data vil derfor koste mer.
Det finnes ulike måter å begrense datamengenden i en spørring. BigQuery behandler dataene kolonne-basert, dvs. jo flere kolonner man ta med i en spørring, desto mer kostnader oppstår.

Prøv å begrense spørringen ved a velge enkelte kolonner (f.eks. `trpId`)

In [None]:
%%bigquery --project $project 
SELECT
  --<kolonne-navn>--
FROM
  `saga-workshop-data-vu8x.workshop.timestrafikkdata`

- Hvor mye data innegår i spørringen? 
- Er datamengden avhengig av hvilke kolonne man spør mot?

I tillegg til standard data typer som f.eks FLOAT, INT og STRING har BigQuery også RECORDS (structs) og REPEATED kolonner (arrays). 

- RECORDS er sammensatt av én eller flere kolonner (et slags tabell inn i tabellen).  Det er mulig å ha en nesting av structs med flere nivåer. 
RECORDS typisk oppstå ved ingest av en nested JSON fil.
Kolonner i en RECORD kan refereres til med en `.` notasjon, f.eks. `total.volumeNumbers` 
- REPEATED kolonner inneholder arrays av en bestemt data type, f.eks. en array av FLOAT verdier. REPEATED kolloner kan brukes til å pre-aggregere data (én rad versus mange rader for å samle data).

Utforsk schema til trafikkdata tabellen. I BigQuery UI velg tabellen og trykk på `schema`. Hvilke **hva?**


### Aggregasjoner

Prøv å lage en SUM() aggregasjon over total trafikkvolumen.

Hint: `volume` kolonne inneholder trafikkvolumen per måling og finnes under en nested RECORD:
  - total 
    - volumeNumbers 
      - volume

In [None]:
%%bigquery --project $project 
SELECT
  --<kolonne-navn>--
FROM
  `saga-workshop-data-vu8x.workshop.timestrafikkdata`

Bruk SUM() aggregasjon sammen med en `group by` for å summere trafikkvolumen per trafikkregistreringspunkt `trpId` og sorter etter totalvolumen (fallende)


In [None]:
%%bigquery --project $project 
SELECT
  --<kolonne-navn1>--,
  --<kolonne-navn2>--
FROM
  `saga-workshop-data-vu8x.workshop.timestrafikkdata`
GROUP BY
 --<kolonne-navn>--
ORDER BY
 --<kolonne-navn>--
DESC


#### Finne duplikater

Datasettene i BigQuery er vanligvis denormalisert og det er vanlig å finne noen duplikater, enten pga duplikasjon i underliggende datakilder eller som en resultat av avvik i ingestpipelinen. En enkel måte å finne disse duplikatene er ved å beregne total antall rader per en key som skal være unik, her f.eks. en kombinasjon av en tellepunkt ID og tidspunkt av måling. I spørringen under brukes det `HAVING` til filtrering av resultatene etter spørringen er kjørt.

In [None]:
%%bigquery --project $project 
SELECT
  trpId, `from`, `to`, COUNT(*) antall_rader
FROM
  `saga-workshop-data-vu8x.workshop.timestrafikkdata`
GROUP BY 
  1,2,3
HAVING antall_rader > 1
ORDER BY 
  antall_rader 
DESC

Hvor mange rader har minst 1 duplikat?

Fjern duplikatene! **Høres veldig ut som vi vil fjerne duplikater fra den tabellen vi nettopp jobbet med**

Det finnes ulike muligheter å gjøre dette direkte i BigQuery. 
Hvis enkelte rader er **100%** lik er det mulig f.eks. å kjøre en enkelt `SELECT DISTINCT` spørring:

In [None]:
%%bigquery --project $project 
WITH dummy AS (
  SELECT 
  "a" as id, 1 as value
  UNION ALL
  SELECT
  "a" as id, 1 as value -- duplicate
  UNION ALL
  SELECT
  "b" as id, 2 as value
)
SELECT DISTINCT * FROM dummy

### Analytiske funksjoner

I vårt tilfelle inneholder trafikkdata dessverre rader der trafikkvolume har blitt oppdatert og vi har flere versjoner av den samme måling der vi kun vil ta vare på den siste versjonen i vår arbeidstabell.

I slike situasjoner er det f.eks. å bruke en [Analytiske funksjon](https://cloud.google.com/bigquery/docs/reference/standard-sql/analytic-function-concepts). Analytiske funksjoner kan brukes til å utføre aggregasjoner per gruppe lignende som group by, men resultatet returnerer **én rad per hver input rad**. 

Her kan vi bruke analytiske funksjon `ROW_NUMBER()` til å nummerere radene gruppert etter registereringspunkt (trpId), start (from)- og slutttidspunk  (to)og sortert fallende (`DESC`) etter data importeringstidspunkt. Til slutt bruker spørringen en `WHERE` clause for å velge den første raden per gruppe.

In [None]:
%%bigquery --project $project 
SELECT
  trpId,
  `from`,
  `to`,
  ROW_NUMBER() OVER(PARTITION BY trpId ORDER BY ingest_time DESC) AS rn
FROM
  `saga-workshop-data-vu8x.workshop.timestrafikkdata`
WHERE 
  RN = 1

Spørsmål:
- Hva skjer når man fjerner WHERE clause?
- Hvordan ville man fått ut dataene til den *første* importeringstidspunkt (per hver gruppe)?

### Joins
BigQuery støtter alle vanlige typer joins som left/right join, inner join, full outer join, cross join.

Lag en left outer join, som knytter sammen et utvalg av kolonner i trafikkdata med lokasjonsinformasjon om trafikkregistreringspunkter. Bruk `trpId` fra trafikkdata tabellen og `id` fra registreringspuntktabellen i JOIN statement.

In [None]:
%%bigquery --project $project 
SELECT
  a.trpId,
  a.from,
  a.to,
  a.total.volumeNumbers.volume,
  b.location.coordinates.latLon
FROM
  `saga-workshop-data-vu8x.workshop.timestrafikkdata` a
LEFT JOIN
  `saga-workshop-data-vu8x.workshop.trafikkregistreringspunkter` b
ON
  -- join statement -- 

### Views

Views er en enkel måte å lagre en spørringen der resultatene oppdateres med endringer i underliggende datakilder. 

Bruk JOIN-spørringen fra før som view definisjon under og lagre viewen i ditt  workshop prosjekt. Bruk følgende skjelettet:

In [None]:
%%bigquery --project $project 
CREATE VIEW workshop.trafikkdata_view AS (
-- view definition -- 
)

Kjør en spørring mot viewen:

In [None]:
%%bigquery --project $project 
SELECT 
 * 
FROM workshop.trafikkdata_view
LIMIT 100

## Partisjonerte tabeller
BigQuery's forbruk av data (analysert datamengde) avhenger i stor grad av antall/størrelse av kolonner en spørring bruker. 

En `WHERE` clause hjelper generelt ikke med begrensningen av datamengden siden den tar effekt etter dataene er hentet.
Ett untak er spørring mot [partisjonerte tabeller](https://cloud.google.com/bigquery/docs/partitioned-tables), der en `WHERE` clause effektivt begrenser datamengden ved å velge partisjoner.

Vanligvis bruker vi tidspartisjonerte tabeller.
Tidspartisjonerte tabeller krever minst en kolonne som inneholder TIMESTAMP, DATETIME eller DATE verdier. I trafikkdata tabellen har vi flere slike kolonner
som angi både et tidspunkt av målingen (`from`, `to`) og et tidspunkt der dataene blir hentet inn i vårt system (`ingest_time`).



I cellen under oppretter vi en tidspartisjonert tabell.
- Først konverterer vi `from` kolonnen fra STRING til TIMESTAMP data type
- Så bruker vi en CREATE TABLE statement til å lage en ny tabell med tidspartisjonering på konverterte `from` kolonnen

In [None]:
%%bigquery --project $project 
/* 
Example how to parse timestamps from string
*/
WITH original AS (
  SELECT
    "2016-06-22T19:00+02:00[Europe/Oslo]" AS date_string,
)
SELECT
  date_string, 
  REGEXP_EXTRACT(date_string, r'\[([^\[\]]*)\]') timezone, 
  DATETIME(PARSE_TIMESTAMP("%Y-%m-%dT%H:%M%Ez %Z ", REGEXP_REPLACE(date_string, r'[\[\]]', ' '))) AS datetime_utc,
  DATETIME(PARSE_TIMESTAMP("%Y-%m-%dT%H:%M%Ez %Z ", REGEXP_REPLACE(date_string, r'[\[\]]', ' ')), REGEXP_EXTRACT(date_string, r'\[([^\[\]]*)\]') ) AS datetime_oslo
from original

Lag en tabell som er partisjonert på en DATETIME/DATE kolonne. 

In [None]:
%%bigquery --project $project 
CREATE TABLE workshop.trafikkdata_sub_partitioned PARTITION BY DATE(datetime) 
AS (
SELECT
  a.trpId,
  -- <datetime transformation> datetime 
  a.from,
  a.to,
  a.total.volumeNumbers.volume,
  b.location.coordinates.latLon
FROM
  `saga-workshop-data-vu8x.workshop.timestrafikkdata` a
LEFT JOIN
  `saga-workshop-data-vu8x.workshop.trafikkregistreringspunkter` b
ON
  a.trpId = b.Id
)

Sammenligne datamengden ved prosessering av følgende to spørringer i BigQuery GUIet:

```
SELECT 
 * 
FROM 
 `workshop.trafikkdata_sub_partitioned` 
WHERE 
 DATE(datetime) = "2019-11-01"
```


```
SELECT 
 * 
FROM 
 `workshop.trafikkdata_sub_partitioned`
```

## GIS funksjoner
Støtte for noen GIS-funksjoner gjør BigQuery også til et kraftig analyse verktøy innen geoprosessering. BigQuery bruker en egen `GEOGRAPHY` data type til å håndtere objekter med geolokasjoner og tilbyr ulike parser som hjelper med å transformere andre data typer til dette.

En oversikt over støttede GIS-funksjoner finnes her: 

https://cloud.google.com/bigquery/docs/reference/standard-sql/geography_functions 

En geografisk punkt kan lages med ST_GEOGPOINT() funksjon ved bruk av GPS lengdregrad og breddegrad. ST_GEOGPOINT() krever at lengdegrad og breddegrad er i FLOAT64 data type. Det er mulig å bruke `CAST(<string_kolonne> AS FLOAT64) <ny_kolonnenavn>`

In [None]:
%%bigquery --project $project
SELECT 
  id,
  ST_GEOGPOINT(--<velg lengdegrad kolonne> , <velg breddegrad kolonne>--) geo
FROM 
  `saga-workshop-data-vu8x.workshop.trafikkregistreringspunkter`

Visualiser resultaten av spørringeng i BigQuery GeoViz: https://bigquerygeoviz.appspot.com/ 
- I GeoViz, autoriser sesjon med GCP brukeren
- Lim in spørringen fra forrige cellen
- Klikk "kjør"
- Under "Data" velg kolonnen som inneholder GEOGRAPHY data type 
- Ev. endre på "Style" (f.eks. set en verdi for "Circle radius") 

Velg et registreringspunkt og finn alle registreringspunkter som er i nærheten (distans < 10km)

In [None]:
%%bigquery --project $project
WITH
  point AS (
  SELECT
    ST_GEOGPOINT(location.coordinates.latLon.lon,
      location.coordinates.latLon.lat) geo
  FROM
    `saga-workshop-data-vu8x.workshop.trafikkregistreringspunkter`
  LIMIT
    1
),
all_points AS (
  SELECT
    *,
    ST_GEOGPOINT(location.coordinates.latLon.lon,
      location.coordinates.latLon.lat) geo
  FROM
    `saga-workshop-data-vu8x.workshop.trafikkregistreringspunkter`
)

SELECT
  all_points.geo,
  ST_DISTANCE(point.geo,
    all_points.geo) distance_in_meters
FROM
  point,
  all_points
WHERE
  ST_DWITHIN(point.geo,
    all_points.geo,
    10000)

Bruk en join, aggregasjon og GIS funksjonalitet sammen til å visualisere total trafikkvolumen per tellepunkt i 2019  i en GeoViz kart.
Modifiser følgende spørring:

In [None]:
%%bigquery --project $project
SELECT
  b.Id,
  SUM(--<velg trafikkvolumen kolonne>--) totalVolume,
  ANY_VALUE(ST_GEOGPOINT(--<velg lengdegrad kolonne> , <velg breddegrad kolonne>--)) geo
FROM
  `saga-workshop-data-vu8x.workshop.timestrafikkdata` a
LEFT JOIN
  `saga-workshop-data-vu8x.workshop.trafikkregistreringspunkter` b
ON  
  a.trpId = b.Id
WHERE 
  -- <DATETIME filter for 2019> -- 
GROUP BY 1

- Skaler "Circle radius" etter total trafikk (`totalVolume`)

Aggreger trafikkvolumen per kommune eller fylke ved bruk av geografisk intersects. Her benytter vi oss av geografisk definisjon av kommuner (POLYGON type) vi har lastet opp i forrige sesjon. 


Kjør en spørring for å hente ut alle registreringspunkter som overlapper med et gitt området.  Bruk f.eks. ST_WITHIN() funksjon. 

In [None]:
%%bigquery --project $project
SELECT
  b.kommunenavn,
  COUNT(DISTINCT a.id) registreringspunkter,
  AVG(c.total.volumeNumbers.volume) avg_volume,
  ANY_VALUE(b.geometry) kommune_geografi
FROM
  `saga-workshop-data-vu8x.workshop.trafikkregistreringspunkter` a
JOIN
  `saga-workshop-data-vu8x.workshop.kommuner` b
ON
  ST_WITHIN( ST_GEOGPOINT(location.coordinates.latLon.lon,
      location.coordinates.latLon.lat),
    b.geometry)
LEFT JOIN
  `saga-workshop-data-vu8x.workshop.timestrafikkdata` c
ON
  a.id = c.trpId
GROUP BY
  1

NB: Rekkefølgen av JOINS er viktig mtp. performance! En JOIN basert på en geografisk sammenligning, som ST_WITHIN(), krever ofte mer prosesseringstid og burde derfor begrenses.

Visualiser totalttrafikk per området ved bruk av BigQuery GeoViz: https://bigquerygeoviz.appspot.com/  

## Brukerfunksjoner (UDFs) - [KAN FJERNES ELLER KJØRES SOM DEMO]
Av og til mangles det en enkel funksjon som er ikke definert i standard SQL eller i BigQuery's ekstra funksjoner. Det er enkelt å definere og bruke egne funksjoner (UDFs) enten temporær i en skript eller lagre dem globalt i et prosjekt.  UDFs tilbyr også en interface til javascript kode/biblioteker, som gjør det mulig å integrere ekstra funksjonalitet.

In [None]:
%%bigquery --project $project
/*
Todo: Definer ST_Buffer funksjon her
*/

Bruk ST_Buffer funksjon og visualiser trafikkregistreringspunktene (GeoViz).
