# Workshop: Introduksjon til dataflyt og transformasjon

**Du vil l칝re:**
- Helt overordnet hva dataflyt og transformasjon er, hva det inneb칝rer og hvordan det utf칮res i praksis
- Litt om Google Cloud Storage og Google BigQuery
- 칀 laste inn, hente ut og jobbe med data fra Google BigQuery
- Gj칮re enkle transformasjoner ved hjelp av datamanipuleringsverkt칮y
- Lage et nytt og rikere datasett med data fra flere kilder 

**Du vil _ikke_ l칝re:**
- Hvordan man setter opp en faktisk dataflyt eller lignende i Google Cloud Platform
- Spesifikke detaljer om verkt칮y som Google Cloud Platform (GCP), Pandas, Matplotlib, Keras, Tensorflow og liknende


游눠 Oppgave 1-4 er utforskende i GCP og kan timeboxes til ca. 10 minutter.


# Relevante GCP-komponenter for workshopen
## Google Cloud Storage

Google Cloud Storage (GCS) er rett og slett et filomr친de hvor vi kan lagre filer p친 ulike formater, med b친de strukturerte og ustrukturerte data. GCS er et fint landingspunkt for data, slik at du kan jobbe uavhengig av systemene dataene stammer fra (f.eks eksterne APIer). 


Vi bruker ofte begrepet "storage bucket" for en logisk oppdeling av et filomr친de (noe tilsvarende som en filmappe p친 din maskin).

Data i en storage bucket er som regel ikke klargjort for analyseform친l. Vi 칮nsker derfor 친 prosessere og flytte den til et annet verkt칮y. Et slikt verkt칮y kan v칝re Google BigQuery, som er en database tilpasset analyse. Dette kan videre kobles opp mot visualiserings- og modelleringsverkt칮y som Colab-notebooks.

## Google BigQuery

BigQuery er en SQL-basert database som er optimalisert for analyse. I motsetning til tradisjonelle SQL-databaser er BigQuery kolonnebasert istedenfor radbasert. Dette gj칮r den optimalisert til 친 regne ut aggregerte tall. BigQuery takler tabeller med et h칮yt antall kolonner sv칝rt godt.


# Oppgaver




## Oppgave 1: Bli kjent med Google Cloud Storage (GCS)

G친 til [Google Cloud Console](https://console.cloud.google.com), logg inn med din epost og velg prosjekt "data-intro" oppe i venstre hj칮rne.

I Google Cloud Console (GUI) for prosjektet (data-intro), finn Google Cloud Storage. Du kan enten finne GCS via menyen eller s칮ke etter den i s칮kefeltet. 

I prosjektet finner du en bucket med to ulike datasett. Hva finner du ut om disse datasettene (metadata)?

a) Hvilken filtype er de?
  
  
b) Hvor store er filene?
  

In [None]:
# Svar a:
# Svar b:

## Oppgave 2: Importer dataen til BigQuery

For 친 se n칝rmere p친 innholdet i datasettene 칮nsker vi 친 flytte de til BigQuery. Gj칮r f칮lgende i [Google Cloud Console](https://console.cloud.google.com):

1. Finn BigQuery i menyen
2. Velg BigQuery-prosjektet "Data intro" og deretter marker datasettet bysykkel_main
3. I menylinjen oppe til h칮yre, velg "Create table". 
4. Under "Source" kan du velge datakilden din. Vi 칮nsker 친 velge bysykkeldatasettet fra Storage Bucket. Filformatet fant du i oppgave 1. 
5. Under "Destination" kan du kalle den nye tabellen din `bysykkel_(gruppenavn)`. 
6. La BigQuery definere skjema for deg, og behold ellers standard innstillingene.
7. Trykk p친 "Create Table" 

Datasettet er n친 lastet inn i BigQuery.

## Oppgave 3: Bli kjent med datasettet

N친r vi markerer tabellen i BigQuery som vi laget i forrige oppgave ser vi en rekke metadata, samt en preview-funksjon for 친 unders칮ke radene i datasettet v친rt.

Hva finner du ut om skjema (datatypene) og innholdet?




## Oppgave 4: V칝rdata!
Vi har allerede lastet inn v칝rdatasettet inn i BigQuery (`v칝rdata_oslo`).
Hva finner du ut om skjema (datatypene) og innholdet for dette datasettet?



## Oppgave 5: Lage et utvidet datasett
Vi 칮nsker 친 sl친 sammen de to datasettene slik at vi kan gj칮re analyse p친 tvers av disse. 

游눠 **NB! Du m친 jobbe i din egen notebook-kopi om du ikke allerede har gjort det. Se avsnittet "Hvordan komme i gang" p친 Github for detaljer**

1. Koble deg til BigQuery. F칮rst m친 du autentisere deg (med din Bekk Google bruker som har tilgang til BigQuery). Kj칮r kodesnutten under for 친 gj칮re dette.


In [None]:
# Authenticate your Google Account
# Doing so means you have access to various
# resources connected to your account, such
# as BigQuery tables, Storage buckets etc.
from google.colab import auth
auth.authenticate_user()

Under har vi en hjelpemetode for 친 laste inn datasettene dine fra BigQuery. Kj칮r denne kodesnutten ogs친. 

In [None]:
# Eksterne avhengigheter
from google.cloud import bigquery_storage
from google.cloud.bigquery_storage import types
from google.cloud.bigquery_storage_v1 import enums
import pandas

#  params:
#   project_id: String
#   dataset_id: String
#     table_id: String
# 
#  return:
#           df: Pandas DataFrame
#
def load_bigquery_data(project_id, dataset_id, table_id):
    # Parse input-verdier til forventet filsti p친 Google BigQuery
    table = f"projects/{project_id}/datasets/{dataset_id}/tables/{table_id}"
    parent = "projects/{}".format(project_id)

    # Instansier klient for enkel integrasjon mot BigQuery
    bqstorageclient = bigquery_storage.BigQueryReadClient()

    # Opprett en read-session mot en tabell i BigQuery
    requested_session = types.ReadSession(
        table=table,
        data_format = enums.DataFormat.ARROW
    )
    read_session = bqstorageclient.create_read_session(
        parent=parent,
        read_session=requested_session,
        max_stream_count=1,
    )

    # Les data fra BigQuery, putt i en liste med dataframes
    stream = read_session.streams[0]
    readRowsStream = bqstorageclient.read_rows(stream.name)
    dfs = []
    for page in readRowsStream.rows(read_session).pages:
        dfs.append(page.to_dataframe())

    # Sett flere dataframes sammen til 칠n
    df = pandas.concat(dfs)

    return df

2.  N친r du er autentisert, laster du inn bysykkel-datasettet til gruppen din, samt v칝rdatasettet inn i notebooken. Datasettene blir lastet inn som dataframes (som du kan lese mer om [her](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)). 

Vi kaller dataframesene henholdsvis `df_bysykkel` og `df_weather`.

Kj칮r kodelinjene under og unders칮k innholdet.

In [None]:
## Husk 친 bytte ut med gruppen din sitt bysykkeldatasett
df_bysykkel = load_bigquery_data("data-intro", "bysykkel_main", "bysykkel_[DITT_GRUPPENAVN]")
df_bysykkel.head()


In [None]:
df_weather = load_bigquery_data("data-intro", "bysykkel_main", "v칝rdata_oslo")
df_weather.head()

3. Vi m친 finne en kolonne med fellesdata for 친 kunne sl친 sammen tabellene. S친 du noen fellesnevnere da du unders칮kte innholdet i tabellene?

In [None]:
## DITT SVAR HER

4. Et alternativ er 친 sl친 sammen tabellene basert p친 dato. V칝rdatasettet har en gjennomsnittstemperatur og en gjennomsnittsnedb칮rsmengde for hver dato. P친 bysykkeldatasettet har vi flere kolonner som inneholder dato, s친 her m친 vi velge en. Valget avhenger av hva vi 칮nsker 친 analysere. Dette datasettet er ikke s친 omfattende, s친 i v친rt eksempel velger vi 친 sl친 sammen p친 turens starttidspunkt (`started_at`).

  Vi fors칮ker 친 sl친 sammen tabellene ved 친 bruke `started_at` i bysykkeldatasettet og `date` i v칝rdatasettet. [`merge`](https://pandas.pydata.org/docs/reference/api/pandas.merge.html)-funksjonen i pandas kan hjelpe oss.

  Kj칮r kodelinjen under. St칮tte du p친 noen utfordringer? Hvorfor fungerer ikke dette?

In [None]:

df_merged = pandas.merge(df_bysykkel, df_weather, left_on='started_at', right_on='date', how='left') 



<details><summary>游뚿 L칮sningsforslag</summary>

Ta en kikk p친 innholdet i disse to kolonnene. Ser det ut som datoformatet er det samme i de ulike tabellene? Her m친 vi gj칮re mer transformasjon f칮r vi kan fortsette!

</details>


## Oppgave 6: Rydde opp i datasettene
Transformasjoner er en stor og viktig prosess n친r vi jobber med data. Ofte er datasettene vi har til r친dighet ikke p친 det formatet vi 칮nsker 친 ha de p친. 칀 transformere data betyr 친 gj칮re endringer, f.eks:
- sl친 sammen datasett
- endre p친 datatyper 
- fjerne duplikater 
- gj칮re utregninger med basis i andre kolonner
- fjerne potensielle "outliers" som kan 칮delegge grunnlaget v친rt for analyse

> 游빞 Prosessen over kalles ofte for 친 "vaske" data.

Vi m친 f친 datokolonnene til 친 v칝re p친 samme format. En m친te vi kan gj칮re dette p친 er 친 fjerne klokkeslettet og kun bruke datodelen av `started_at`. Ulempen med dette er at vi da mister informasjon vi kanskje 칮nsker 친 bruke videre i analyse/innsiktsdelen. 

Vi l칮ser dette problemet med 친 lage en hjelpekolonne, alts친 en ny midlertidg kolonne som kun brukes n친r vi sl친r sammen datasettene

1. Lag en ny kolonne i `df_bysykkel`, `trip_date`, som kun inneholder datoen fra kolonnen `started_at`.

**游눠 Tips**: Pandas har en funksjon [`to_datetime`](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html) som lar deg tilpasse tidspunkter



In [None]:
### DIN KODE HER
##
##

<details><summary>游뚿 L칮sningsforslag</summary>

```
df_bysykkel["trip_date"] = pandas.to_datetime(df_bysykkel["started_at"]).dt.strftime("%Y-%m-%d") 
df_bysykkel.head()

```

</details>

2. Fors칮k 친 merge p친 nytt ved 친 bruke hjelpekolonnen `trip_date` ved 친 kj칮re kodelinjen under. Fungerer det 친 sl친 sammen n친? Hvordan ser datasettet ut?

In [None]:
df_merged = pandas.merge(df_bysykkel, df_weather, left_on='trip_date', right_on='date', how='left') 
df_merged.head()


<details>
<summary>游뚿 L칮sningsforslag</summary>  
Det vil i prinsippet fungere, men det er likevel ikke riktig fordi kolonnene har ulike datatyper. Du kan sjekke hvilke datatyper dataframen din inneholder ved 친 bruke pandas "dtypes", f.eks df_bysykkel.dtypes

Du kan lese mer om funksjonen dtypes [her](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html)

</details>



3. Gj칮r n칮dvendige endringer i kolonnen `trip_date` i bysykkeldatasettet og `date` i v칝rdatasettet for 친 kunne sl친 sammen.


In [None]:
## DIN KODE HER
##
##
##


<details><summary>游뚿 L칮sningsforslag</summary>
Vi setter begge kolonnen til 친 v칝re av type datetime (datotid).

```
df_bysykkel["trip_date"] = pandas.to_datetime(df_bysykkel["trip_date"])
df_weather["date"] = pandas.to_datetime(df_weather["date"])

```

</details>

4. N친 skal det fungere 친 sl친 sammen datasettene! 游꿀 

 Vi 칮nsker 친 supplere hver rad av bysykkeldatasettet med v칝rdata fra den aktuelle dagen. Skriv kode under som oppn친r dette. 
 Rekkef칮lgen og type join (left, right, outer etc) har noe 친 si n친r datasettene sl친s sammen.  




In [None]:
## DIN KODE HER
##
##
##


<details>
<summary>游뚿 L칮sningsforslag</summary>  

```
df_merged = df_bysykkel.merge(df_weather, left_on='trip_date', right_on='date', how='left')
df_merged.head()

```

</details>


5. Kj칮r `dtypes` igjen. V칝rdata-kolonnene ser ikke ut til 친 v칝re av typen tall, men string. Det vil ikke fungere 친 gj칮re aggregeringer p친 strings. Hvorfor fungerer det ikke 친 gj칮re om kolonnen direkte?

In [None]:
df_merged["mean_temperature"] = df_merged["mean_temperature"].astype('float')
df_merged["precipitation_amount"] = df_merged["precipitation_amount"].astype('float')

<details>
<summary>游뚿 L칮sningsforslag</summary>

Kolonnen ser tilsynelatende ut til 친 kun best친 av tall. Hvis vi derimot inspiserer verdiene n칝rmere, ser vi at noen ganger forekommer strengen "NULL" som ikke er et tall. Pandas f친r derfor ikke til 친 gj칮re om datatypen f칮r vi gj칮r noe med dette.

</details>


6. Endre datatypen p친 nedb칮rskolonnen og temperaturkolonnen slik at det blir desimaltall.

In [None]:
## DIN KODE HER
##
##

<details>
<summary>游뚿 L칮sningsforslag</summary>

Vi m친 rydde opp i disse kolonnene ved 친 fjerne strengene 'NULL' f칮r vi kan endre datatypen til float. Vi kan bruke `replace` funksjonen til en dataframe.

Vi kunne gjort om NULL til 0, men dette ville f친tt betydning for statistiske verdier som gjennomsnitt. Vi velger derfor 친 sette verdien "blank", som heter "None" i Python.

```
df_merged["mean_temperature"] = df_merged["mean_temperature"].replace('NULL',None).astype('float')
df_merged["precipitation_amount"] = df_merged["precipitation_amount"].replace('NULL',None).astype('float')

```
</details>


7. Til slutt: Rydd opp ved 친 fjerne hjelpekolonnen fra `df_merged`


In [None]:
## DIN KODE HER
##
##
##


<details>
<summary>游뚿 L칮sningsforslag</summary> 

```
df_merged = df_merged.drop(columns="trip_date")
df_merged.head()

```

</details>



Vi har n친 et utvidet datasett! 游꿀游볙游꿁


Vanligvis ville vi ha skrevet datasettet tilbake til BigQuery, men det gj칮r vi ikke i denne workshopen. (Det tok lang tid, vi har mye data游땺) 

Pandas har en ganske snedig funksjon som kan gj칮re dette!

```df_merged.to_gbq("bysykkel_main.bysykkel_med_v칝rdata", project_id="data-intro")```

N친r vi skriver til BigQuery, vil datatypene i dataframen f칮lge med og sette riktig skjema i BigQuery
