In [3]:
import polars as pl

filnavn = 'kjoretoyinfo_fra_2000.parquet'  
df = pl.read_parquet(filnavn)

In [4]:
df = df.with_columns([
    pl.col("tekn_reg_f_g_n").cast(pl.Date),
    pl.col("tekn_neste_pkk").cast(pl.Date),
    pl.col("tekn_reg_eier_dato").cast(pl.Date)
])

ComputeError: conversion from `str` to `date` failed in column 'tekn_neste_pkk' for 2139858 out of 3207748 values: ["20251013", "20260129", … "20250331"]

You might want to try:
- setting `strict=False` to set values that cannot be converted to `null`
- using `str.strptime`, `str.to_date`, or `str.to_datetime` and providing a format string

In [5]:
df = df.with_columns([
    pl.col("tekn_reg_f_g_n").cast(str).str.strptime(pl.Date, "%Y%m%d").alias("tekn_reg_f_g_n_date"),
    pl.col("tekn_reg_f_g").cast(str).str.strptime(pl.Date, "%Y%m%d").alias("tekn_reg_f_g_date"),
    pl.col("tekn_reg_eier_dato").cast(str).str.strptime(pl.Date, "%Y%m%d").alias("tekn_reg_eier_dato_date"),
    pl.col("tekn_siste_pkk").str.strptime(pl.Date, "%Y%m%d", strict=False).alias("tekn_siste_pkk_date"),
    pl.col("tekn_neste_pkk").str.strptime(pl.Date, "%Y%m%d", strict=False).alias("tekn_neste_pkk_date"),
])


In [6]:
print(df.columns)


['tekn_reg_f_g', 'tekn_reg_f_g_n', 'tekn_reg_eier_dato', 'tekn_merke', 'tekn_modell', 'tekn_farge', 'tekn_drivstoff', 'tekn_siste_pkk', 'tekn_neste_pkk', 'tekn_aksler_drift', 'tekn_sitteplasser_totalt', 'tekn_reg_f_g_n_date', 'tekn_reg_f_g_date', 'tekn_reg_eier_dato_date', 'tekn_siste_pkk_date', 'tekn_neste_pkk_date']


In [7]:
print(df.dtypes)


[Int64, Int64, Int64, Int64, String, String, String, String, String, Int64, Int64, Date, Date, Date, Date, Date]


In [8]:
print(df.head())


shape: (5, 16)
┌───────────┬───────────┬───────────┬───────────┬───┬───────────┬───────────┬───────────┬──────────┐
│ tekn_reg_ ┆ tekn_reg_ ┆ tekn_reg_ ┆ tekn_merk ┆ … ┆ tekn_reg_ ┆ tekn_reg_ ┆ tekn_sist ┆ tekn_nes │
│ f_g       ┆ f_g_n     ┆ eier_dato ┆ e         ┆   ┆ f_g_date  ┆ eier_dato ┆ e_pkk_dat ┆ te_pkk_d │
│ ---       ┆ ---       ┆ ---       ┆ ---       ┆   ┆ ---       ┆ _date     ┆ e         ┆ ate      │
│ i64       ┆ i64       ┆ i64       ┆ i64       ┆   ┆ date      ┆ ---       ┆ ---       ┆ ---      │
│           ┆           ┆           ┆           ┆   ┆           ┆ date      ┆ date      ┆ date     │
╞═══════════╪═══════════╪═══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪══════════╡
│ 20211013  ┆ 20211013  ┆ 20211013  ┆ 3900      ┆ … ┆ 2021-10-1 ┆ 2021-10-1 ┆ null      ┆ 2025-10- │
│           ┆           ┆           ┆           ┆   ┆ 3         ┆ 3         ┆           ┆ 13       │
│ 20200129  ┆ 20200129  ┆ 20200129  ┆ 5750      ┆ … ┆ 2020-01-2 ┆ 2020-01-2 

In [9]:
for column in ["tekn_siste_pkk_date", "tekn_neste_pkk_date"]:
    null_count = df.filter(pl.col(column).is_null()).shape[0]
    print(f"Antall null-verdier i {column}: {null_count}")

Antall null-verdier i tekn_siste_pkk_date: 1248370
Antall null-verdier i tekn_neste_pkk_date: 1105823


In [10]:
df = df.with_columns(
    (pl.col("tekn_drivstoff") == "Elektrisk").alias("elbil")
)

In [11]:
kolonner = [
    "tekn_reg_f_g_n_date",  # Dato for førstegangsregistrering i Norge
    "tekn_reg_eier_dato_date",  # Dato bilen ble registrert på nåværende eier
    "tekn_aksler_drift",  # To aksler er firehjulsdrift
    "tekn_merke",  # Bilmerket
    "tekn_modell",  # Bilmodellen
    "tekn_drivstoff",  # Drivstofftypen
    "tekn_neste_pkk_date",  # Dato for neste EU-kontroll
    "elbil"  # Kolonnen som indikerer om bilen er en elbil
]

In [12]:
df_filtered = df.select(kolonner)


In [13]:
print(df_filtered.columns)


['tekn_reg_f_g_n_date', 'tekn_reg_eier_dato_date', 'tekn_aksler_drift', 'tekn_merke', 'tekn_modell', 'tekn_drivstoff', 'tekn_neste_pkk_date', 'elbil']


In [14]:
print(df_filtered.dtypes)


[Date, Date, Int64, Int64, String, String, Date, Boolean]


In [15]:
print(df_filtered.head())


shape: (5, 8)
┌────────────┬────────────┬────────────┬────────────┬────────────┬────────────┬────────────┬───────┐
│ tekn_reg_f ┆ tekn_reg_e ┆ tekn_aksle ┆ tekn_merke ┆ tekn_model ┆ tekn_drivs ┆ tekn_neste ┆ elbil │
│ _g_n_date  ┆ ier_dato_d ┆ r_drift    ┆ ---        ┆ l          ┆ toff       ┆ _pkk_date  ┆ ---   │
│ ---        ┆ ate        ┆ ---        ┆ i64        ┆ ---        ┆ ---        ┆ ---        ┆ bool  │
│ date       ┆ ---        ┆ i64        ┆            ┆ str        ┆ str        ┆ date       ┆       │
│            ┆ date       ┆            ┆            ┆            ┆            ┆            ┆       │
╞════════════╪════════════╪════════════╪════════════╪════════════╪════════════╪════════════╪═══════╡
│ 2021-10-13 ┆ 2021-10-13 ┆ 2          ┆ 3900       ┆ VITO       ┆ 2          ┆ 2025-10-13 ┆ false │
│ 2020-01-29 ┆ 2020-01-29 ┆ 2          ┆ 5750       ┆ CADDY      ┆ 2          ┆ 2026-01-29 ┆ false │
│ 2023-11-29 ┆ 2023-11-29 ┆ 1          ┆ 2600       ┆ Mustang    ┆ 5         

In [16]:
print(df_filtered.filter(pl.col("elbil")).select(["tekn_drivstoff", "elbil"]).head())


shape: (0, 2)
┌────────────────┬───────┐
│ tekn_drivstoff ┆ elbil │
│ ---            ┆ ---   │
│ str            ┆ bool  │
╞════════════════╪═══════╡
└────────────────┴───────┘


In [17]:
print(df["tekn_drivstoff"].unique())


shape: (39,)
Series: 'tekn_drivstoff' [str]
[
	"9"
	"18"
	"2,10"
	"1,5,5"
	"15"
	…
	"2,5,5,5"
	"10,2"
	"1,18,19"
	"13"
	"11"
]


In [18]:
print(df["tekn_drivstoff"].unique())


shape: (39,)
Series: 'tekn_drivstoff' [str]
[
	"6,5"
	"1,16"
	"1,15"
	"13"
	"18"
	…
	"2,10"
	"3"
	"5,5,5"
	"4,2"
	"5,5"
]


In [19]:
print(df.select(["tekn_drivstoff", "elbil"]).head())


shape: (5, 2)
┌────────────────┬───────┐
│ tekn_drivstoff ┆ elbil │
│ ---            ┆ ---   │
│ str            ┆ bool  │
╞════════════════╪═══════╡
│ 2              ┆ false │
│ 2              ┆ false │
│ 5              ┆ false │
│ 2              ┆ false │
│ 2              ┆ false │
└────────────────┴───────┘


In [20]:
print(df.filter(pl.col("elbil")).shape[0])


0


In [21]:
# Grupperer 'tekn_drivstoff'-kolonnen og teller antall forekomster av hver unik verdi
df_grouped = df.groupby("tekn_drivstoff").agg(pl.count("tekn_drivstoff").alias("count")).sort("tekn_drivstoff")

# Skriver ut resultatet
print(df_grouped)


shape: (39, 2)
┌───────────────────────────────────┬────────┐
│ tekn_drivstoff                    ┆ count  │
│ ---                               ┆ ---    │
│ str                               ┆ u32    │
╞═══════════════════════════════════╪════════╡
│ null                              ┆ 0      │
│ 1                                 ┆ 937254 │
│ 1,1                               ┆ 3      │
│ 1,12                              ┆ 13     │
│ 1,13                              ┆ 9      │
│ …                                 ┆ …      │
│ 5,5,5                             ┆ 1358   │
│ 5,5\";;80;84;;;;;;;;;;;890;980;;… ┆ 1      │
│ 6                                 ┆ 175    │
│ 6,5                               ┆ 1      │
│ 9                                 ┆ 28     │
└───────────────────────────────────┴────────┘


  df_grouped = df.groupby("tekn_drivstoff").agg(pl.count("tekn_drivstoff").alias("count")).sort("tekn_drivstoff")


In [22]:
# Oppdater "elbil"-kolonnen basert på "9" i tekn_drivstoff
df = df.with_columns(
    (pl.col("tekn_drivstoff") == "9").alias("elbil")
)


In [23]:
# Bekreft antall identifiserte elektriske biler
print(df.filter(pl.col("elbil")).shape[0])

28


In [24]:
# Moderne måte å gruppere og telle på
df_grouped = df.group_by("tekn_drivstoff").agg(pl.col("tekn_drivstoff").count().alias("count")).sort("tekn_drivstoff")


In [28]:
df_elbiler = df.filter(pl.col("elbil"))
unique_drivstoff = df_elbiler.select(pl.col("tekn_drivstoff")).unique()
print("Unike drivstoffverdier for elbiler:")
print(unique_drivstoff)

Unike drivstoffverdier for elbiler:
shape: (1, 1)
┌────────────────┐
│ tekn_drivstoff │
│ ---            │
│ str            │
╞════════════════╡
│ 9              │
└────────────────┘


In [29]:
df_filtered.write_parquet("kjoretoyinfo_preppet.parquet")
