In [1]:
import pandas as pd

# Load previous dataset
df = pd.read_parquet("data_01_01.parquet")

# Inspect missing values
feature = "Special vehicles"
missing_count = df[feature].isnull().sum()
missing_percent = missing_count / len(df) * 100
print(f"{feature}: {missing_count} missing ({missing_percent:.2f}%)")

# Raw value distribution (including NaN)
print("\nValue distribution before imputation:")
print(df[feature].value_counts(dropna=False))

Special vehicles: 7120446 missing (99.77%)

Value distribution before imputation:
Special vehicles
None                                                  7120446
Pojazd uprzywilejowany Policji                           6450
Pojazd uprzywilejowany inny                              4538
Pojazd przewożący towary niebezpieczne                   2751
Pojazd z kierownicą po prawej stronie                    1838
Pojazd uprzywilejowany                                    384
Pojazd uprzywilejowany Policja (od 11.2015)               358
Pojazd uprzywilejowany inny (od 11.2015)                  191
Pojazd z kierownicą po prawej stronie (od 11.2015)        184
Pojazd przewożący towar niebezpieczny                      77
Name: count, dtype: int64


In [2]:
# Fill missing values with 'none'
df["Special vehicles"] = df["Special vehicles"].fillna("none")

# Translate values into English
translation = {
    "Pojazd uprzywilejowany Policji": "emergency vehicle - police",
    "Pojazd uprzywilejowany inny": "emergency vehicle - other",
    "Pojazd przewożący towary niebezpieczne": "hazardous materials vehicle",
    "Pojazd z kierownicą po prawej stronie": "right-hand drive vehicle",
    "Pojazd uprzywilejowany": "emergency vehicle",
    "Pojazd uprzywilejowany Policja (od 11.2015)": "emergency vehicle - police",
    "Pojazd uprzywilejowany inny (od 11.2015)": "emergency vehicle - other",
    "Pojazd z kierownicą po prawej stronie (od 11.2015)": "right-hand drive vehicle",
    "Pojazd przewożący towar niebezpieczny": "hazardous materials vehicle",
    "none": "none"
}
df["Special vehicles"] = df["Special vehicles"].map(translation)

In [3]:
from IPython.display import display

# Create distribution table
value_counts = df["Special vehicles"].value_counts()
value_percent = df["Special vehicles"].value_counts(normalize=True) * 100

distribution_table = pd.DataFrame({
    "Value": value_counts.index,
    "Count": value_counts.values,
    "Percent": value_percent.round(2).values
})

# Show in notebook
display(distribution_table)

# Save results
distribution_table.to_excel("special_vehicles_table.xlsx", index=False)
df.to_parquet("data_01_02.parquet", index=False)

Unnamed: 0,Value,Count,Percent
0,none,7120446,99.77
1,emergency vehicle - police,6808,0.1
2,emergency vehicle - other,4729,0.07
3,hazardous materials vehicle,2828,0.04
4,right-hand drive vehicle,2022,0.03
5,emergency vehicle,384,0.01
