# Leser inn bibliotek og genererer testdata

## Leser inn bibliotek og setter opp spark session

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.types import *

In [None]:
myspark = SparkSession.builder.getOrCreate()

In [None]:
%run ../../ssb_sparktools/editing/editing.py

## Lager testdata og kodelistedata

#### Testdata

In [None]:
testdata_schema = StructType(
    [
        StructField("identifikator", StringType(), False),
        StructField("numbvar", LongType(), True),
        StructField("boolvar", BooleanType(), True),
        StructField("varenummer", StringType(), True),
    ]
)

In [None]:
testdata_raw = [
    ("id1", 1, True, "#001"),
    ("id2", 2, False, "#002"),
    ("id3", None, False, "#003"),
    ("id4", 4, None, "#004"),
    ("id5", 4, True, "#005"),
]

In [None]:
testdata = myspark.createDataFrame(testdata_raw, testdata_schema)

#### Kodelistedata

In [None]:
testdata_kodeliste_schema = StructType(
    [
        StructField("varenummer", StringType(), True),
        StructField("frukt", StringType(), True),
    ]
)

In [None]:
testdata_kodeliste_raw = [
    ("#001", "Eple"),
    ("#002", "Banan"),
    ("#003", "Kiwi"),
    ("#004", "Appelsin"),
    ("#006", "Druer"),
]

In [None]:
testdata_kodeliste = myspark.createDataFrame(
    testdata_kodeliste_raw, testdata_kodeliste_schema
)

#### Skriver ut testdata som er laget

In [None]:
testdata.toPandas()

In [None]:
testdata_kodeliste.toPandas()

# Test av funksjonen *listcode_lookup*

### Uten spark_session som parameter til funksjon

In [None]:
lookup_result = listcode_lookup(
    testdata, "varenummer", testdata_kodeliste, ["varenummer", "frukt"]
)
lookup_result.toPandas()

### Med spark_session som parameter til funksjon

In [None]:
lookup_result = listcode_lookup(
    testdata,
    "varenummer",
    testdata_kodeliste,
    ["varenummer", "frukt"],
    spark_session=myspark,
)
lookup_result.toPandas()

# Test av funksjonen *missing_correction_bool*

### Uten spark_session som parameter til funksjon

#### Uten navn på dataframe

In [None]:
df_corrected_bool, missing_boolcount = missing_correction_bool(testdata)
missing_boolcount

In [None]:
df_corrected_bool.toPandas()

#### Med navn på dataframe

In [None]:
df_corrected_bool, missing_boolcount = missing_correction_bool(
    testdata, df_name="testdf"
)
missing_boolcount

### Med spark_session som parameter til funksjon

In [None]:
df_corrected_bool, missing_boolcount = missing_correction_bool(
    testdata, spark_session=myspark
)
missing_boolcount

In [None]:
df_corrected_bool.toPandas()

# Test av funksjonen *missing_correction_number*

### Uten spark_session som parameter til funksjon

#### Uten navn på dataframe

In [None]:
df_corrected_number, missing_numbcount = missing_correction_number(testdata)
missing_numbcount

In [None]:
df_corrected_number.toPandas()

#### Med navn på dataframe

In [None]:
df_corrected_number, missing_numbcount = missing_correction_number(
    testdata, df_name="testdf"
)
missing_numbcount

In [None]:
df_corrected_number.toPandas()

### Med spark_session som parameter til funksjon

In [None]:
df_corrected_number, missing_numbcount = missing_correction_number(
    testdata, spark_session=myspark
)
missing_numbcount

# Test av funksjonen *spark_missing_correction_bool*

### Uten spark_session som parameter til funksjon

#### Uten navn på dataframe

In [None]:
df_corrected_bool, missing_boolcount = spark_missing_correction_bool(testdata)
missing_boolcount.toPandas()

In [None]:
df_corrected_bool.toPandas()

#### Med navn på dataframe

In [None]:
df_corrected_bool, missing_boolcount = spark_missing_correction_bool(
    testdata, df_name="testdf"
)
missing_boolcount.toPandas()

In [None]:
df_corrected_bool.toPandas()

### Med spark_session som parameter til funksjon

In [None]:
df_corrected_bool, missing_boolcount = spark_missing_correction_bool(
    testdata, spark_session=myspark
)
missing_boolcount.toPandas()

In [None]:
df_corrected_bool.toPandas()

# Test av funksjonen *spark_missing_correction_number* 

### Uten spark_session som parameter til funksjon

#### Uten navn på dataframe

In [None]:
df_corrected_number, missing_numbcount = spark_missing_correction_number(testdata)
missing_numbcount.toPandas()

In [None]:
df_corrected_number.toPandas()

#### Med navn på dataframe

In [None]:
df_corrected_number, missing_numbcount = spark_missing_correction_number(
    testdata, df_name="testdf"
)
missing_numbcount.toPandas()

In [None]:
df_corrected_number.toPandas()

### Med spark_session som parameter til funksjon

In [None]:
df_corrected_number, missing_numbcount = spark_missing_correction_number(
    testdata, spark_session=myspark
)
missing_numbcount.toPandas()

In [None]:
df_corrected_number.toPandas()