### Sjekke innhold i dataframes ved hjelp av Python og Pyspark. 

#### Ønsker å bruke funksjoner som gir omtrent samme informasjon som PROC CONTENTS i SAS gir:

* Antall observasjoner
* Antall variable på datasettet
* Dato og tidspunkt for når datasettet ble opprettet og dato og tidspunkt for når det ble sist modifisert
* Liste over datasettets variable og deres attributter </b>
    - Variablenes opprinnelige plass i datasettet (#). PROC CONTENTS printer dem ut i alfabetisk rekkefølge
    - Varaiblenes navn
    - Type: Om variabelen er numerisk (Num) eller character (Char)
    - Lengde: Lengden/bredden på variabelen
    - Format: Det tildelte ("assigned") formatet som vil brukes når variablenes verdi skrives ut i Output-vinduet
    - Informat: Variablenes originale format da de ble lest inn i SAS
    - Label: Det tildelte variabelnavnet som brukes når variabelen printes ut i Output-vinduet. Om det ikke oppgis noen verdi her, brukes Variabelnavnet

#### Lager først en dataframe til bruk i eksempler 

In [None]:
# importere pandas biblioteket
import pandas as pd
# lage et Dictionary med variabler (kolonnenavn) og verdier (kolonneverdier) som vi kaller land_fifa_data
land_fifa_data = {'Land':['Belgia', 'Frankrike', 'Brasil', 'England', 'Uruguay', 'Norge','Tyskland'],
                  'Poeng': [1765, 1733, 1712, 1661, 1645, 1451, 1602],
                 }

# skriv ut data
land_fifa_data

In [None]:
# Opprette et DataFrame objekt med dictionary som parameter
df_land_fifa = pd.DataFrame(land_fifa_data)
df_land_fifa

### <b> Python: </b> 

* <b> info() </b> gir mye av den samme informasjonen som PROC CONTENTS I SAS
* <b> size </b> gir antall celler
* <b> shape </b>gir antall rader og kolonner
* <b> ndim </b> gir antall dimensjoner

### info() gir mye informasjon om datasettet

In [None]:
# Bruker info() på dataframen vi laget over
df_land_fifa.info()

##### Får informasjon om:
* antall observasjoner: RangeIndex
* antall variable: Datacolumns 
* En tabell som viser: 
  - '#' - variabelens posisjon
  - Column - kolonnenavn
  - Non-Null Count - antall (ikke inkludert "null")
  - Dtype - variabeltype
                     
* dtypes: varibaletypene som finnes på datasettet (og antall i parentes)
*memory usage: bruk av minne

### size, shape og ndim gir informasjon om datasettets antall celler, rader og kolonner og dimenasjon

In [None]:
print(df_land_fifa.size, df_land_fifa.shape, df_land_fifa.ndim)

### Kommandoer for å se på de første og siste observasjonene 

In [None]:
# De første 5 observasjonene
df_land_fifa.head()

In [None]:
# De siste 2 obervasjonen
df_land_fifa.tail(2)

### <b> PySpark: </b> 

* <b> printSchema </b> printer ut datasettets skjema
* <b> count() </b> gir antall rader/observasjoner
* <b> len(df.columns) </b> gir antall variable
* <b> columns </b> lister ut variabelnavnene 

#### Leser inn data eksempeldata fra fellesområdet:

In [None]:
df_areal = spark.read.parquet("gs://ssb-prod-dapla-felles-data-delt/felles/veiledning/pyspark/eksempler/areal")

#### printScehma() for å se på datasettest skjema:

In [None]:
df_areal.printSchema()

##### Forteller oss om:
* kolonnenes/variablenes navn
* kolonne-/variabeltype

#### count() for å finne antall rader:

In [None]:
df_areal.count()

#### len(df.columns) for å finne antall variable

In [None]:
len(df_areal.columns)

#### columns for å finne variabelnavnene

In [None]:
df_areal.columns

### Kan se på de første 5 radene i datasettet ved å bruke head()

In [None]:
df_areal.head(5)