In [26]:
import pandas as pd
import numpy as np
from pyproj import Transformer

In [27]:
test_file_path = r"pn2022.csv"

data = pd.read_csv(test_file_path, encoding="utf-8", sep=";")
data.shape

(33333, 35)

In [28]:
data.loc[data["GeoKoordinataX"] == 0, "GeoKoordinataX"] = np.nan
data.loc[data["GeoKoordinataY"] == 0, "GeoKoordinataY"] = np.nan
data.head()

Unnamed: 0,ZaporednaStevilkaPN,KlasifikacijaNesrece,UpravnaEnotaStoritve,DatumPN,UraPN,VNaselju,Lokacija,VrstaCesteNaselja,SifraCesteNaselja,TekstCesteNaselja,...,Spol,UEStalnegaPrebivalisca,Drzavljanstvo,PoskodbaUdelezenca,VrstaUdelezenca,UporabaVarnostnegaPasu,VozniskiStazVLetih,VozniskiStazVMesecih,VrednostAlkotesta,VrednostStrokovnegaPregleda
0,1,Z MATERIALNO ŠKODO,MARIBOR,08.03.2022,12.05,NE,CESTA,REGIONALNA CESTA II. REDA,00430,PESNICA-MB-SL.BISTR-CELJE,...,MOŠKI,MARIBOR,SLOVENIJA,BREZ POŠKODBE,VOZNIK OSEBNEGA AVTOMOBILA,DA,0,0,",00",",00"
1,1,Z MATERIALNO ŠKODO,MARIBOR,08.03.2022,12.05,NE,CESTA,REGIONALNA CESTA II. REDA,00430,PESNICA-MB-SL.BISTR-CELJE,...,MOŠKI,MARIBOR,SLOVENIJA,BREZ POŠKODBE,VOZNIK OSEBNEGA AVTOMOBILA,NEZNANO,39,11,",00",",00"
2,2,Z MATERIALNO ŠKODO,ŠMARJE PRI JELŠAH,01.01.2022,21.46,DA,CESTA,GLAVNA CESTA II. REDA,00107,CELJE-ŠENTJ PRI C-DOBOVEC,...,MOŠKI,,BOSNA IN HERCEGOVINA,BREZ POŠKODBE,VOZNIK OSEBNEGA AVTOMOBILA,DA,15,3,",00",",00"
3,3,Z MATERIALNO ŠKODO,CELJE,01.01.2022,13.08,NE,CESTA,AVTOCESTA,000A1,ŠENTILJ-MB-CE-LJ-PO-SRMIN,...,MOŠKI,KRANJ,SLOVENIJA,BREZ POŠKODBE,VOZNIK OSEBNEGA AVTOMOBILA,DA,17,0,",36",",00"
4,3,Z MATERIALNO ŠKODO,CELJE,01.01.2022,13.08,NE,CESTA,AVTOCESTA,000A1,ŠENTILJ-MB-CE-LJ-PO-SRMIN,...,MOŠKI,CELJE,SLOVENIJA,BREZ POŠKODBE,VOZNIK OSEBNEGA AVTOMOBILA,DA,11,0,",00",",00"


In [29]:
data.columns

Index(['ZaporednaStevilkaPN', 'KlasifikacijaNesrece', 'UpravnaEnotaStoritve',
       'DatumPN', 'UraPN', 'VNaselju', 'Lokacija', 'VrstaCesteNaselja',
       'SifraCesteNaselja', 'TekstCesteNaselja', 'SifraOdsekaUlice',
       'TekstOdsekaUlice', 'StacionazaDogodka', 'OpisKraja', 'VzrokNesrece',
       'TipNesrece', 'VremenskeOkoliscine', 'StanjePrometa', 'StanjeVozisca',
       'VrstaVozisca', 'GeoKoordinataX', 'GeoKoordinataY',
       'ZaporednaStevilkaOsebeVPN', 'Povzrocitelj', 'Starost', 'Spol',
       'UEStalnegaPrebivalisca', 'Drzavljanstvo', 'PoskodbaUdelezenca',
       'VrstaUdelezenca', 'UporabaVarnostnegaPasu', 'VozniskiStazVLetih',
       'VozniskiStazVMesecih', 'VrednostAlkotesta',
       'VrednostStrokovnegaPregleda'],
      dtype='object')

In [30]:
x_coords = data["GeoKoordinataX"].values
y_coords = data["GeoKoordinataY"].values

In [31]:
x_coords

array([    nan,     nan, 120644., ...,  81712.,     nan, 156726.])

In [32]:
# transform coordinates

transformer = Transformer.from_crs("EPSG:3794", "EPSG:4326", always_xy=True)

transformed_coords = [transformer.transform(y, x) for x, y in zip(x_coords, y_coords)]  # important: had to swap x and y

In [33]:
data["coords"] = pd.Series(transformed_coords)
data[["GeoKoordinataX", "GeoKoordinataY", "coords"]]

Unnamed: 0,GeoKoordinataX,GeoKoordinataY,coords
0,,,"(nan, nan)"
1,,,"(nan, nan)"
2,120644.0,555860.0,"(15.72410637339776, 46.223252447553946)"
3,123903.0,524585.0,"(15.31887259105871, 46.25442303214855)"
4,123903.0,524585.0,"(15.31887259105871, 46.25442303214855)"
...,...,...,...
33328,63249.0,410207.0,"(13.846861839337338, 45.70330313587354)"
33329,104835.0,459689.0,"(14.478787741615621, 46.08211735765612)"
33330,81712.0,525135.0,"(15.323779213234845, 45.87479373217287)"
33331,,,"(nan, nan)"


In [34]:
data["geo_x"] = data["coords"].apply(lambda x: x[0])
data["geo_y"] = data["coords"].apply(lambda x: x[1])

In [35]:
data[["GeoKoordinataX", "GeoKoordinataY", "geo_x", "geo_y"]].head()

Unnamed: 0,GeoKoordinataX,GeoKoordinataY,geo_x,geo_y
0,,,,
1,,,,
2,120644.0,555860.0,15.724106,46.223252
3,123903.0,524585.0,15.318873,46.254423
4,123903.0,524585.0,15.318873,46.254423


In [36]:
# check if coordinates lie in Slovenia bounds
data[["GeoKoordinataX", "GeoKoordinataY", "geo_x", "geo_y"]].describe().loc[["min", "max"]]

Unnamed: 0,GeoKoordinataX,GeoKoordinataY,geo_x,geo_y
min,33584.0,378759.0,13.426079,45.442012
max,190690.0,614927.0,16.498455,46.849253


In [37]:
def cast_str_to_float(val):
    try:
        return float(val.replace(",", "."))
    except Exception:
        return np.nan

In [38]:
str_bool_map = {"DA": True, "NE": False}

def cast_str_to_bool(val):
    return str_bool_map.get(val, np.nan)

In [39]:
data["DatumPN"] = pd.to_datetime(data["DatumPN"], format=r"%d.%m.%Y")

In [40]:
data['VrednostAlkotesta'] = data['VrednostAlkotesta'].apply(cast_str_to_float)
data['VrednostStrokovnegaPregleda'] = data['VrednostStrokovnegaPregleda'].apply(cast_str_to_float)

In [41]:
data['UporabaVarnostnegaPasu'] = data['UporabaVarnostnegaPasu'].apply(cast_str_to_bool)
data['VNaselju'] = data['VNaselju'].apply(cast_str_to_bool)

In [42]:
useless_cols = ["coords", "GeoKoordinataX", "GeoKoordinataY"]
data = data.drop(columns=useless_cols)

In [43]:
print("Alkotest več kot 1.1, kar je 18 točk = odvzem vozniške:")
data[['VrednostAlkotesta']].query("VrednostAlkotesta >= 1.1")

Alkotest več kot 1.1, kar je 18 točk = odvzem vozniške:


Unnamed: 0,VrednostAlkotesta
14,1.29
946,1.26
1010,2.28
1438,1.20
1479,1.14
...,...
31536,1.18
31596,1.56
32545,1.15
32801,1.18


In [44]:
print(f"Število zabeleženih prometnih nesreč: {data['ZaporednaStevilkaPN'].nunique()}")

Število zabeleženih prometnih nesreč: 18757


In [45]:
# save cleaned data to a file
data.to_csv("cleaned_data.csv")

MALO POGLEJMO

In [46]:
znani_povrzočitelj = ~data["Povzrocitelj"].isnull()

In [47]:
data[znani_povrzočitelj][["VozniskiStazVLetih"]].value_counts()

VozniskiStazVLetih
0                     9897
1                      721
3                      714
4                      661
22                     598
                      ... 
69                       3
68                       2
67                       1
71                       1
77                       1
Name: count, Length: 73, dtype: int64