## Lese eksempeldata fra dataplattformen (PySpark)

## Hente data fra datalager
For å hente data fra datalager må du vite hvor dataene ligger. Hvert statistikkteam har sine egne såkalte
<i>bøtter</i> i Google som heter Google Cloud Storage (GCS). Bøttene følger en navnekonvensjon på følgende måte:

Produksjonsmiljø:
<font size=2>
- <code>ssb-prod-<strong>teamnavn</strong>-data-kilde</code>: Pseudonymiserte rådata fra datakildene
- <code>ssb-prod-<strong>teamnavn</strong>-data-produkt</code>: Data knyttet til statistikkproduktet, med følgende underkataloger:
    - <code>inndata</code>
    - <code>klargjorte-data</code>
    - <code>statistikk</code>
    - <code>utdata</code>
- <code>ssb-prod-<strong>teamnavn</strong>-data-delt</code>: Data knyttet til statistikkproduktet som kan deles med andre statistikkteam.
Disse vil ha følgende underkataloger:
    - <code>inndata</code>
    - <code>klargjorte-data</code>
    - <code>statistikk</code>
    - <code>utdata</code>
</font>

På samme måte som i produksjonsmiljøet finnes det bøtter for utviklings- og testformål:
<font size=2>
- <code>ssb-staging-<strong>teamnavn</strong>-data-kilde</code>
- <code>ssb-staging-<strong>teamnavn</strong>-data-produkt</code>
- <code>ssb-staging-<strong>teamnavn</strong>-data-delt</code>
</font>

I tillegg til disse finnes det noen bøtter med data som kan deles med alle i SSB og og som kan brukes til kurs og
opplæring (bl.a. denne veilederen). Disse bøttene er:
<font size=2>
- <code>ssb-prod-dapla-data-delt</code>
- <code>ssb-staging-dapla-data-delt</code>
</font>


### Dapla Python-bibliotek

Dapla har samlet flere hjelpefunksjoner i en egen Python-pakke. Denne importeres slik:

In [None]:
import dapla as dp

### Utforske data på dataplattformen

Denne veilederen vil bruke data fra mappen
<code>gs://ssb-prod-dapla-felles-data-delt/felles/veiledning/pyspark/eksempler</code>

#### Se etter eksempeldata
Kjør følgende kode for å liste ut alle mappende under <code>eksempler</code>

In [None]:
dp.show("gs://ssb-prod-dapla-felles-data-delt/felles/veiledning/pyspark/eksempler")

#### Hente eksempeldata via Python

In [None]:
df_areal = dp.read_pandas("gs://ssb-prod-dapla-felles-data-delt/felles/veiledning/pyspark/eksempler/bnp")
df_areal.head(5)

### Hente eksempeldata via Spark
I Jupyter kan man velge mellom flere såkalte <i>kernels</i> (kjerner). Velger man en Pyspark kernel vil man automatisk få
instansiert et <code>spark</code> objekt som kan brukes for å lese, prosessere og skrive store menger data. Du kan lese
mer om hvilke muligheter som finnes i Spark [her](https://spark.apache.org).

#### Lese data inn i en Spark dataframe

In [None]:
# Spark-objektet er allerede instansiert i pyspark-kernel.
df_areal = spark.read.parquet("gs://ssb-prod-dapla-felles-data-delt/felles/veiledning/pyspark/eksempler/areal")
df_areal.show(5,False)

#### Lese data inn i som en Pandas dataframe

Fra og med Spark versjon 3.2 er det støtte for å lese data fra Spark direkte inn som Pandas dataframes ved å bruke
[Pandas API on Spark](https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/index.html). Da vil
man kunne lese inn data slik:

In [None]:
import pyspark.pandas as ps
df_areal = ps.read_parquet("gs://ssb-prod-dapla-felles-data-delt/felles/veiledning/pyspark/eksempler/areal")
df_areal.head(5)