In [1]:
import pandas as pd
import numpy as np

In [2]:
# dictionaries to hold yearly data
dfs_raw = {}
dfs_clean = {}

Source of data: [Slovenská správa ciest](https://www.cdb.sk/sk/statisticke-vystupy.alej)

In [3]:
dfs_raw[2012] = pd.read_csv('./Data_raw/co_mosty_k_01012012.csv',
                            sep=';',
                            encoding='cp1250')

dfs_raw[2017] = pd.read_csv('./Data_raw/co_most-dc_2017-01-01_sr.csv',
                            sep=';',
                            encoding='cp1250')

dfs_raw[2021] = pd.read_csv('./Data_raw/sr_co_most_dc_2021-01-01.csv',
                            sep=';',
                            encoding='cp1250')

dfs_raw[2022] = pd.read_csv('./Data_raw/sr_co_mosty-dc_zoznam_2022-01-01.csv',
                            sep=';',
                            encoding='cp1250')

### Cleaning dataframes

In [4]:
# 'global' variables

dict_stav_slovom_na_kod = {
    'Bezchybný':1,
    "Veľmi dobrý":2,
    "Dobrý":3,
    "Uspokojivý":4,
    "Zlý":5,
    "Veľmi zlý":6,
    "Havarijný":7,
    "Neznámy":-1
}

#### 2012


In [5]:
df = dfs_raw[2012][
        ['Trieda CK', 'číslo CK', 'evidenčné číslo - staré',
         'ID číslo mostu',
         'stavebný stav', 
         'LongitudeE', 'LatitudeN']
    ].copy()

df.columns = ['ck_trieda', 'ck_cislo', 'spravcovske_cislo',
              'ID_most', 
              'stav_slovom', 
              'lon', 'lat']

# stav
df['stav_slovom'] =  df['stav_slovom'].replace(np.nan, 'Neznámy')
# technical condition code
df['stav_kod'] = df['stav_slovom'].apply(lambda x: dict_stav_slovom_na_kod[x])

df['rok_postavenia'] = np.nan

# clean road category values
df['ck_trieda'] = df['ck_trieda'].replace(
        {
            'diaľnica':'Diaľnica',
            'rýchlostná cesta':'Diaľnica',
            'privádzač diaľničný':'Diaľnica',
            'privádzač rýchlostn*':'Diaľnica',            
            'cesta I. triedy':'Cesta I. triedy',
            'cesta II. triedy':'Cesta II. triedy',
            'cesta III. triedy':'Cesta III. triedy',
            'miestna komunikácia*':'Miestna cesta'
        }
    )

df['rok_data'] = 2012

# save to clean dict
dfs_clean[2012] = df.copy()
del df

#### 2017

In [6]:
dfs_raw[2017].columns

Index(['Trieda CK', 'Číslo CK', 'Pôvodné číslo CK', 'Evidenčné číslo mosta',
       'Identifikačné číslo mosta', 'Názov mosta', 'Investor',
       'Rok postavenia', 'Zhotovitel', 'Zaťažovacia trieda STN',
       'Počet otvorov', 'Dĺžka premostenia', 'Dĺžka nosnej konštrukcie',
       'Voľná šírka mosta', 'Šírka medzi obrubami',
       'Plocha nosnej konštrukcie', 'Plocha mosta', 'Návrhová norma', 'Šimosť',
       'Materiál konštrukcie', 'Druh konštrukcie', 'Stavebný stav',
       'LongitudeE', 'LatitudeN', 'VyskaH', 'Správca - most',
       'Vlastník - most', 'Dlzka DC', 'Zaťažiteľnosť normálna',
       'Zaťažiteľnost výhradná', 'Zaťažiteľnosť výnimočná',
       'Spôsob stanovenia', 'Predmet premostenia',
       'Úsekové staničenie začiatku DC',
       'Kilometrovníkové staničenie začiatku - DC',
       'Kumulatívne staničenie začiatku - DC', 'ID Useku', 'pociatocny uzol',
       'koncovy uzol', 'Typ useku', 'Smer useku', 'evidencna dlzka /m',
       'evidencna dlzka /km', 'Typ úseku',

In [7]:
df = dfs_raw[2017][
        ['Trieda CK', 'Číslo CK', 'Evidenčné číslo mosta',
         'Identifikačné číslo mosta', 'Rok postavenia',
         'Stavebný stav', 
         'LongitudeE', 'LatitudeN']
    ].copy()

df.columns = ['ck_trieda', 'ck_cislo', 'spravcovske_cislo',
              'ID_most', 'rok_postavenia', 
              'stav_slovom', 
              'lon', 'lat']

# treat unknown
df['stav_slovom'] = df['stav_slovom'].replace(np.nan, 'Neznámy')
# technical condition code
df['stav_kod'] = df['stav_slovom'].apply(lambda x: dict_stav_slovom_na_kod[x])

# clean road category values
df['ck_trieda'] = df['ck_trieda'].replace(
        {
            'diaľnica':'Diaľnica',
            'privádzač diaľničný':'Diaľnica',
            'rýchlostná cesta':'Diaľnica',
            'privádzač rýchlostnej cesty':'Diaľnica',            
            'cesta I. triedy':'Cesta I. triedy',
            'cesta II. triedy':'Cesta II. triedy',
            'cesta III. triedy':'Cesta III. triedy',
            'miestna komunikácia obslužná':'Miestna cesta',
            'miestna komunikácia všeobecná':'Miestna cesta',
            'miestna komunikácia zberná':'Miestna cesta'
        }
    )

df['rok_data'] = 2017
df = df.dropna(subset='ck_trieda')

# save to clean dict
dfs_clean[2017] = df.copy()
del df


#### 2021

In [8]:
df = dfs_raw[2021][
        ['Trieda cesty', 'Číslo cesty', 'Správcovské číslo mostu',
         'Identifikačné číslo mostu', 'rok postavenia', 
         'stavebný stav - kód', 'Stavebný stav', 
         'LongitudeE', 'LatitudeN']
    ].copy()

# rename columns
df.columns = ['ck_trieda', 'ck_cislo', 'spravcovske_cislo',
              'ID_most', 'rok_postavenia', 
              'stav_kod', 'stav_slovom', 
              'lon', 'lat']

# treat unknown values
df['stav_kod'] = df['stav_kod'].replace(np.nan, -1)
df['stav_kod'] = df['stav_kod'].astype(int)
df = df.sort_values(by='stav_kod', ascending=True)
df['stav_kod'] = df['stav_kod'].astype(str)

df['stav_slovom'] =  df['stav_slovom'].replace(np.nan, 'Neznámy')

# clean road category values
df['ck_trieda'] = df['ck_trieda'].replace(
        {
            'diaľnica':'Diaľnica',
            'privádzač diaľničný':'Diaľnica',
            'cesta I. triedy':'Cesta I. triedy',
            'cesta II. triedy':'Cesta II. triedy',
            'II. trieda - miestna zberná (MZ)':'Cesta II. triedy',
            'cesta III. triedy':'Cesta III. triedy',
            'III. trieda - miestna obslužná (MO)':'Cesta III. triedy',
            'miestna neurčená':'Miestna cesta'
        }
    )

df['rok_data'] = 2021

# save to clean dict
dfs_clean[2021] = df.copy()
del df

#### 2022

In [9]:
dfs_raw[2022]['Most /DC'].unique()

df = dfs_raw[2022][
        ['Trieda PK', 'Číslo PK', 'správcovské číslo',
         'ID mosta', 'ID DC', 'Rok postavenia', 
         'Stavebno-technický stav', 
         'Longitude', 'Latitude', 'Most /DC']
    ]

df.columns = ['ck_trieda', 'ck_cislo', 'spravcovske_cislo',
              'ID_most', 'ID_dc', 'rok_postavenia', 
              'stav_slovom', 
              'lon', 'lat', 'typ_udaju']
    

# split into bridges and bridge units
df_m = df[df['typ_udaju']=='Most'].copy()
df_dc = df[df['typ_udaju']=='Dilatačný celok'].copy()

# assign bridge ID to brige unit
df_dc['ID_most'] = df_dc['ID_dc'].apply(lambda x: x.split('.')[0])

# merge data
df = pd.merge(
        df_m[['ck_trieda', 'ck_cislo', 'spravcovske_cislo', 'rok_postavenia', 'ID_most']],
        df_dc[['ID_most', 'stav_slovom', 'lon', 'lat']].drop_duplicates(),
        how='left',
        on='ID_most'
    )

# treat unknown
df['stav_slovom'] = df['stav_slovom'].replace(np.nan, 'Neznámy')

# clean road category values
df['ck_trieda'] = df['ck_trieda'].replace(
        {
            'diaľnica':'Diaľnica',
            'cesta I. triedy':'Cesta I. triedy',
            'cesta II. triedy':'Cesta II. triedy',
            'II. trieda - miestna zberná (MZ)':'Cesta II. triedy',
            'cesta III. triedy':'Cesta III. triedy',
            'III. trieda - miestna obslužná (MO)':'Cesta III. triedy',
            'miestna neurčená':'Miestna cesta',
            'účelová cesta (UK)':'Miestna cesta'
        }
    )

# year to int
df['rok_postavenia'] = df['rok_postavenia'].astype(int)

# technical condition code
df['stav_kod'] = df['stav_slovom'].apply(lambda x: dict_stav_slovom_na_kod[x])

df['rok_data'] = 2022

# save to clean dict
dfs_clean[2022] = df.copy()
del df

### Join dataframes


In [10]:
df_all = pd.concat(dfs_clean.values(), ignore_index=True)

In [11]:
df_all.to_csv('../Data/sr_mosty_all.csv', sep=',', encoding='utf-8')

In [12]:
df_all

Unnamed: 0,ck_trieda,ck_cislo,spravcovske_cislo,ID_most,stav_slovom,lon,lat,stav_kod,rok_postavenia,rok_data
0,Cesta I. triedy,000002,002,M5897,Dobrý,17.123319,48.790152,3,,2012
1,Cesta I. triedy,000002,003,M1979,Dobrý,17.079098,48.757287,3,,2012
2,Cesta I. triedy,000002,004,M6525,Uspokojivý,17.031675,48.684515,4,,2012
3,Cesta I. triedy,000002,005,M4584,Dobrý,17.020574,48.663688,3,,2012
4,Cesta I. triedy,000002,006,M3053,Dobrý,17.001659,48.639120,3,,2012
...,...,...,...,...,...,...,...,...,...,...
33311,Miestna cesta,UK,4,M83,Bezchybný,18.827060,49.208220,1,2006.0,2022
33312,Miestna cesta,UK,3,M6982,Bezchybný,18.825870,49.208570,1,2006.0,2022
33313,Miestna cesta,UK,5,M6329,Bezchybný,18.832590,49.206580,1,2006.0,2022
33314,Miestna cesta,UK,3,M6982,Bezchybný,18.825870,49.208570,1,2006.0,2022
