In [1]:
import polars as pl

df = pl.read_parquet("kjoretoyinfo_fra_2000-2.parquet")

In [2]:
df = df.with_columns([
    pl.col("tekn_reg_f_g_n").cast(str).str.strptime(pl.Date, "%Y%m%d").alias("tekn_reg_f_g_n_date"),
    pl.col("tekn_reg_f_g").cast(str).str.strptime(pl.Date, "%Y%m%d").alias("tekn_reg_f_g_date"),
    pl.col("tekn_reg_eier_dato").cast(str).str.strptime(pl.Date, "%Y%m%d").alias("tekn_reg_eier_dato_date"),
    pl.col("tekn_siste_pkk").str.strptime(pl.Date, "%Y%m%d", strict=False).alias("tekn_siste_pkk_date"),
    pl.col("tekn_neste_pkk").str.strptime(pl.Date, "%Y%m%d", strict=False).alias("tekn_neste_pkk_date"),
])


In [3]:
df = df.with_columns(
    (pl.col("tekn_drivstoff") == "Elektrisk").alias("elbil")
)

In [4]:
print(df.head())


shape: (5, 18)
┌────────────┬────────────┬────────────┬───────────┬───┬───────────┬───────────┬───────────┬───────┐
│ tekn_reg_f ┆ tekn_reg_f ┆ tekn_reg_e ┆ tekn_merk ┆ … ┆ tekn_reg_ ┆ tekn_sist ┆ tekn_nest ┆ elbil │
│ _g         ┆ _g_n       ┆ ier_dato   ┆ e         ┆   ┆ eier_dato ┆ e_pkk_dat ┆ e_pkk_dat ┆ ---   │
│ ---        ┆ ---        ┆ ---        ┆ ---       ┆   ┆ _date     ┆ e         ┆ e         ┆ bool  │
│ i64        ┆ i64        ┆ i64        ┆ i64       ┆   ┆ ---       ┆ ---       ┆ ---       ┆       │
│            ┆            ┆            ┆           ┆   ┆ date      ┆ date      ┆ date      ┆       │
╞════════════╪════════════╪════════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪═══════╡
│ 20211013   ┆ 20211013   ┆ 20211013   ┆ 3900      ┆ … ┆ 2021-10-1 ┆ null      ┆ 2025-10-1 ┆ false │
│            ┆            ┆            ┆           ┆   ┆ 3         ┆           ┆ 3         ┆       │
│ 20200129   ┆ 20200129   ┆ 20200129   ┆ 5750      ┆ … ┆ 2020-01-2 ┆ 2023-12

In [5]:
print(df.select(pl.col("elbil")).unique())


shape: (1, 1)
┌───────┐
│ elbil │
│ ---   │
│ bool  │
╞═══════╡
│ false │
└───────┘


In [6]:
elbil_count = df.filter(pl.col("elbil") == True).shape[0]
ikke_elbil_count = df.filter(pl.col("elbil") == False).shape[0]

print(f"Antall elektriske kjøretøy: {elbil_count}")
print(f"Antall ikke-elektriske kjøretøy: {ikke_elbil_count}")


Antall elektriske kjøretøy: 0
Antall ikke-elektriske kjøretøy: 2692915


In [7]:
df_selected = df.select([
    "tekn_reg_f_g_n",
    "tekn_reg_eier_dato",
    "tekn_aksler_drift",
    "tekn_merke",
    "tekn_modell",
    "tekn_drivstoff",  
    "tekn_neste_pkk",
    "tekn_kjtgrp",
    "elbil"
])


In [8]:
# Liste opp alle kolonnenavn
print(df.columns)


['tekn_reg_f_g', 'tekn_reg_f_g_n', 'tekn_reg_eier_dato', 'tekn_merke', 'tekn_kjtgrp', 'tekn_modell', 'tekn_farge', 'tekn_drivstoff', 'tekn_siste_pkk', 'tekn_neste_pkk', 'tekn_aksler_drift', 'tekn_sitteplasser_totalt', 'tekn_reg_f_g_n_date', 'tekn_reg_f_g_date', 'tekn_reg_eier_dato_date', 'tekn_siste_pkk_date', 'tekn_neste_pkk_date', 'elbil']


In [9]:
df_selected = df.select([
    "tekn_reg_f_g_n",
    "tekn_reg_eier_dato",
    "tekn_aksler_drift",
    "tekn_merke",
    "tekn_modell",
    "tekn_drivstoff",
    "tekn_neste_pkk",
    "tekn_kjtgrp",
    "elbil"
])


In [10]:
print(df_selected.columns)


['tekn_reg_f_g_n', 'tekn_reg_eier_dato', 'tekn_aksler_drift', 'tekn_merke', 'tekn_modell', 'tekn_drivstoff', 'tekn_neste_pkk', 'tekn_kjtgrp', 'elbil']


In [11]:
df_selected.write_parquet("kjoretoyinfo_preppet.parquet")