In [1]:
import pandas as pd

# Load dataset from the previous step
df = pd.read_parquet("data_01_16.parquet")

# Define variable
var = "Road geometry"

# Display basic info
print("Data type:", df[var].dtype)
print("Number of unique non-null values:", df[var].nunique(dropna=True))

print("\nSample unique values:")
print(df[var].dropna().unique()[:20])

missing_count = df[var].isna().sum()
missing_percent = df[var].isna().mean() * 100

print(f"\nMissing values: {missing_count}")
print(f"Missing percentage: {missing_percent:.2f}%")

Data type: object
Number of unique non-null values: 12

Sample unique values:
['Odcinek prosty' 'Zakręt, łuk' 'Spadek' 'Odcinek prosty; Spadek'
 'Odcinek prosty; Wzniesienie' 'Wzniesienie' 'Zakręt, łuk; Wzniesienie'
 'Wierzchołek wzn.' 'Zakręt, łuk; Spadek'
 'Odcinek prosty; Wierzchołek wzn.' 'Zakręt, łuk; Wierzchołek wzn.'
 'Odcinek prosty; Zakręt, łuk']

Missing values: 2012628
Missing percentage: 28.20%


In [3]:
translation_dict = {
    "Odcinek prosty": "Straight section",
    "Zakręt, łuk": "Curve",
    "Spadek": "Descent",
    "Wzniesienie": "Ascent",
    "Wierzchołek wzn.": "Crest",
    "Odcinek prosty; Spadek": "Straight section; Descent",
    "Odcinek prosty; Wzniesienie": "Straight section; Ascent",
    "Zakręt, łuk; Wzniesienie": "Curve; Ascent",
    "Zakręt, łuk; Spadek": "Curve; Descent",
    "Odcinek prosty; Wierzchołek wzn.": "Straight section; Crest",
    "Zakręt, łuk; Wierzchołek wzn.": "Curve; Crest",
    "Odcinek prosty; Zakręt, łuk": "Straight section; Curve"
}


In [5]:
# Apply translation
df[var] = df[var].replace(translation_dict)

# Generate updated distribution table
distribution_table = df[var].value_counts(dropna=False).reset_index()
distribution_table.columns = ["Value", "Count"]
distribution_table["Share [%]"] = (distribution_table["Count"] / len(df) * 100).round(2)

distribution_table.to_excel("01_18_road_geometry_distribution.xlsx", index=False)

In [7]:
# Save updated DataFrame
df.to_parquet("data_01_18.parquet", index=False)
print("Saved dataset: data_01_18.parquet")

Saved dataset: data_01_18.parquet
