In [None]:
import polars as pl

In [None]:
pl_df = pl.scan_parquet("filer/kjoretoyinfo_fra_2000.parquet").head(10).collect()

In [None]:
pl_df

In [None]:
"""
“tekn_reg_f_g_n” er dato for førstegangsregistrering i Norge. Konverter denne
kolonnen til en datetime. Gjør tilsvarende for “tekn_reg_eier_dato”. Vigjør dette med en "alias" så programmet ikke skal kræsje når vi executer igjen:
"""
pl_df = pl_df.with_columns([
    pl.col("tekn_reg_f_g_n").cast(str).str.strptime(pl.Datetime, "%Y%m%d").alias("tekn_reg_f_g_n_datetime"),
    pl.col("tekn_reg_eier_dato").cast(str).str.strptime(pl.Datetime, "%Y%m%d").alias("tekn_reg_eier_dato datetime"),
   
])

pl_df

In [None]:
#Gjør tilsvarende for “neste_pkk” og “tekn_reg_eier_dato”
pl_df = pl_df.with_columns([
    pl.col("tekn_neste_pkk").str.strptime(pl.Datetime, "%Y%m%d").alias("tekn_neste_pkk"),
   
])

pl_df

In [None]:
"""
Join inn navnet på fargen, det vil si, join “tekn_farge” med “kode” i fargekode.csv.
Pass på at du ikke mister noen biler som vi ikke vet fargen på.
"""

# Les inn dataene fra parquet-filen
kjoretoy_df = pl.scan_parquet("filer/kjoretoyinfo_fra_2000.parquet").head(10).collect()

# Les inn de første 10 radene fra CSV-filen med semikolon som skilletegn
fargekode_df = pl.scan_csv("filer/fargekode.csv", separator=";", truncate_ragged_lines=True).head(10).collect()

kjoretoy_df = kjoretoy_df.with_columns(
    kjoretoy_df["tekn_farge"].str.strip_chars("0")
)

# Konverter "kode" til streng og gi den et annet navn
fargekode_df = fargekode_df.select([
    pl.col("*"),
    pl.col("kode").cast(pl.String).alias("fargekode")  # Konverter "kode" til streng
])

# Utfør venstre join basert på kolonnene tekn_farge og kode
joined_df = kjoretoy_df.join(
    fargekode_df,
    left_on="tekn_farge",  # Kolonnenavn i kjoretoy_df
    right_on="fargekode",  # Kolonnenavn i fargekode_df
    how="left"

)

joined_df = joined_df.with_columns(
    "beskrivelse",
    pl.when(joined_df["kode"].is_null()).then(pl.lit("Ukjent farge")).otherwise(joined_df["beskrivelse"])
)


# Vis de første 10 radene av resultatet
joined_df



In [None]:
#Lag en kolonne “elbil” som er sann hvis drivstofftypen er kun elektrisk, false ellers.

joined_df = joined_df.with_columns(
    "elbil",
    pl.when(joined_df["tekn_drivstoff"] == "5").then(True).otherwise(False)
)
joined_df

In [None]:
# 4. 
# Lag en kolonne “elbil” som er sann hvis drivstofftypen er kun elektrisk, false ellers.

df_k = df_k.with_columns(
    elbil=pl.col("tekn_drivstoff").eq(pl.lit("5"))
);

In [None]:
# 5. 
# Hent ut bare kolonnene: tekn_reg_f_g_n, tekn_reg_eier_dato, tekn_aksler_drift, tekn_merke, tekn_modell,
# tekn_drivstoff, tekn_neste_pkk, farge på bilen fra fargekode.csv,
# tekn_drivstoff, kolonne som indikerer om bilen er en elbil.

df_k = df_k.select("tekn_reg_f_g_n", "tekn_reg_eier_dato", "tekn_aksler_drift", "tekn_merke", 
            "tekn_modell", "tekn_drivstoff", "tekn_neste_pkk", "elbil"
)

In [None]:
# 6.
# Skriv hele datasettet til en fil: kjoretoyinfo_preppet.parquet.

df_k.write_parquet("kjoretoyinfo_preppet.parquet")

In [None]:
# 7. 
# Hvor mange elbiler (drivstofftype 5) ble førstegangsregistrert i 2022?

regFørsteGangElbil2022 = df_k.filter(
    (pl.col("tekn_reg_f_g_n").dt.year() == 2022) & (pl.col("tekn_drivstoff") == "5")
).select(
    pl.count()
)

In [None]:
# 8.
# Hvor mange prosent av personbilene som ble solgt i 2022 var elbiler? 

antSolgt2022 = df_k.filter(
    (pl.col("tekn_reg_eier_dato").dt.year() == 2022) 
).select(
    pl.count()
)

antSolgtElbil2022 = df_k.filter(
    (pl.col("tekn_reg_eier_dato").dt.year() == 2022) & 
    (pl.col("tekn_drivstoff") == "5") 
).select(
    pl.count()
)

prosentAntSolgtElbil2022 = (antSolgtElbil2022 / antSolgt2022) * 100

print(prosentAntSolgtElbil2022)

In [None]:
# 9.
# Hvilken bilmodell var den mest populære i 2022?

mestPopulærBilModell2022 = df_k.group_by("tekn_modell").agg(
    populærBil2022=pl.col("tekn_reg_f_g_n").count()
).sort("populærBil2022", descending=True).limit(2)

In [None]:
# 10.
# Hvor mange gule kjøretøy ble det solgt i Mai 2022?

antSolgtgulKjøretøy2022 = df_k.filter(
    (pl.col("tekn_reg_eier_dato").dt.year() == 2022) & 
    (pl.col("tekn_reg_eier_dato").dt.month() == 5) & 
    (pl.col("tekn_farge") == "09") 
).select(
    pl.count()
)

In [None]:
# 11. 
# Hvor stor andel av personbilene bilene som selges i Norge har firehjulstrekk?

totalBilSelges = df_k.filter(
    (pl.col("tekn_reg_f_g_n") != pl.col("tekn_reg_eier_dato"))
).select(
    pl.count()
)

bilSelgeFirehjulstrekk = df_k.filter(
    (pl.col("tekn_reg_f_g_n") != pl.col("tekn_reg_eier_dato")) & 
    (pl.col("tekn_aksler_drift") == 4) 
).select(
    pl.count()
)

prosentBilSelgeFirehjulstrekk = (bilSelgeFirehjulstrekk / antBilSelges) * 100

In [None]:
# 12. 
# Hvilken måned i året førstegangsregistreres det flest biler i Norge?

regMåned = df_k.group_by(pl.col("tekn_reg_f_g_n").dt.month()).agg(
    regMåned=pl.col("tekn_reg_f_g_n").count()
).sort("regMåned", descending=True).limit(1)

regMåned.head(1)

In [None]:
# 13. 
# Hva var den mest populære fargen for biler som var førstegangsregistrert i Norge i hvert år?


In [None]:
# 14. 
# Hvilken farge var den mest populære for traktorer i 2022? (se teknisk-kode.csv)

fargeTraktor2022 = df_k.filter(
    (pl.col("tekn_reg_eier_dato").dt.year() == 2022) & 
    (pl.col("tekn_tknavn") == "TR")
).group_by("tekn_farge").agg(
    fargeTraktor2022=pl.count()
).sort("fargeTraktor2022", descending=True)

In [None]:
# 15. 
# Hvilke bilmerker var de fem mest populære i 2022?

most_popular_colors_by_model = df_k.group_by("tekn_modell").agg(
    populærBil2022=pl.col("tekn_reg_f_g_n").count()
).sort("populærBil2022", descending=True).limit(5)

In [None]:
# 16. 
# Hva var den mest populære fargen for de fem mest populære bilmerkene i 2022 (førstegangsregistrert 2022)?

