# Data Preparation
Tento notebook si klade za cíl připravit data ze zdrojů a zdrojových systémů k dalšímu využití.

In [753]:
import pandas as pd
import numpy as np

## nahrání dat

In [754]:
links_data = pd.read_csv('../data_sources/links_data.csv')
municipality_codes = pd.read_csv('../data_sources/municipality_codes.csv')
ruian_data = pd.read_csv('../data_sources/ruian_data.csv')
stat_2022 = pd.read_csv('../data_sources/stat_obce_2022.csv', skiprows=[1])
stat_2023 = pd.read_csv('../data_sources/stat_obce_2023.csv', skiprows=[1])
uur_data = pd.read_csv('../data_sources/uur_data.csv')

## finalizace základního datového souboru

In [755]:
plans_municipalities_df = links_data.merge(municipality_codes, on='up_record_id', how='left')

In [756]:
plans_municipalities_df = plans_municipalities_df[plans_municipalities_df['format'] == 'application/pdf']
plans_municipalities_df = plans_municipalities_df.drop(columns=['name','type','format', 'doc_order', 'url_legend','is_full','date','map_url','created_date'])

In [757]:
plans_municipalities_df = plans_municipalities_df.dropna(subset=['municipality_kod'])
plans_municipalities_df['record_number'] = (plans_municipalities_df['up_record_id'].str.split('_').str[1]).astype(int)


In [758]:
plans_municipalities_df = plans_municipalities_df.sort_values('record_number').drop_duplicates(subset='municipality_kod', keep='first')


In [759]:
ruian_data = ruian_data.rename(columns={'KOD': 'municipality_kod'})
ruian_data['NAZEV'] = (
    ruian_data['NAZEV']
    .str.replace('č', 'é', regex=False)
    .str.replace('ø', 'ř', regex=False)
    .str.replace('Ø', 'Ř', regex=False)
    .str.replace('ì', 'ě', regex=False)
    .str.replace('Ì', 'Ě', regex=False)
    .str.replace('ò', 'ň', regex=False)
    .str.replace('Ò', 'Ň', regex=False)
    .str.replace('', 'ť', regex=False)
    .str.replace('Ý', 'Ť', regex=False)
    .str.replace('È', 'Č', regex=False)
    .str.replace('è', 'č', regex=False)
    .str.replace('ï', 'ď', regex=False)
)

In [760]:
plans_municipalities_df = plans_municipalities_df.merge(ruian_data, on='municipality_kod', how='left')
plans_municipalities_df['kraj'] = plans_municipalities_df['up_record_id'].str.split('_').str[0]
plans_municipalities_df = plans_municipalities_df.drop(columns=['CLENENI_SM_ROZSAH_KOD', 'CLENENI_SM_TYP_KOD', 'PLATI_OD', 'PLATI_DO', 'DATUM_VZNIKU', 'up_record_id', 'record_number', 'STATUS_KOD'])

In [761]:
plans_municipalities_df = plans_municipalities_df.rename(columns={'NAZEV': 'obec', 'POU_KOD': 'pou_kod', 'OKRES_KOD': 'okres_kod'})


In [762]:
new_order = [
    'obec',
    'kraj',
    'url',
    'municipality_kod',
    'pou_kod',
    'okres_kod',
]
plans_municipalities_df = plans_municipalities_df[new_order]
municipality_index_df = plans_municipalities_df[['obec', 'url', 'municipality_kod']]

In [763]:
stat_2022 = stat_2022[[
    'kód obce číslo',
    'název územní jednotky', 
    'KRAJ',
    'OKRES',
    'Počet obyvatel',
    'Přirozený přírůstek (osoba)', 
    'Přírůstek stěhováním (osoba)',
    'Počet obyvatel ve věku 0-14 let ',
    'Počet obyvatel ve věku 15-64 let',
    'Počet obyvatel ve věku 65 a více let',
    'Příjmy rozpočtů obcí celkem\n(tis. Kč)',
    'Výdaje\nrozpočtů\nobcí\ncelkem\n(tis. Kč)',
    'Počet dokončených bytů',
    'Počet hromadných ubytovacích zařízení celkem',
    'Podíl nezaměstna-\nných osob (%)',
    'Živě narození',
    'Zemřelí',
    'Přistěhovalí',
    'Vystěhovalí',
    'Zemědělská půda (ha)',
    'Nezemědělská půda (ha)',
    'Koeficient ekologické stability',
    'Průměrný věk',
    ]]

In [764]:
stat_2023 = stat_2023[[
    'kód obce číslo',
    'název územní jednotky', 
    'KRAJ',
    'OKRES',
    'Počet obyvatel',
    'Přirozený přírůstek (osoba)', 
    'Přírůstek stěhováním (osoba)',
    'Počet obyvatel ve věku 0-14 let ',
    'Počet obyvatel ve věku 15-64 let',
    'Počet obyvatel ve věku 65 a více let',
    'Příjmy rozpočtů obcí celkem\n(tis. Kč)',
    'Výdaje\nrozpočtů\nobcí\ncelkem\n(tis. Kč)',
    'Počet dokončených bytů',
    'Počet hromadných ubytovacích zařízení celkem',
    'Podíl nezaměstna-\nných osob (%)',
    'Živě narození',
    'Zemřelí',
    'Přistěhovalí',
    'Vystěhovalí',
    'Zemědělská půda (ha)',
    'Nezemědělská půda (ha)',
    'Koeficient ekologické stability',
    'Průměrný věk',
    ]]

In [765]:
rename_helper = [
    'municipality_kod',
    'obec', 
    'kraj',
    'okres',
    'pocet_obyvatel',
    'prirozeny_prirustek', 
    'prirustek_stehovanim',
    'obyvatele_0_14',
    'obyvatele_15_64',
    'obyvatele_65',
    'prijmy',
    'vydaje',
    'dokoncene_byty',
    'ubytovaci_zarizeni',
    'nezamestnanost',
    'narozeni',
    'zemreli',
    'pristehovali',
    'vystehovali',
    'zemedelska_puda',
    'nezemedelska_puda',
    'prumerny_vek',
    'koeficient_ekologie',
]

stat_2022.columns = rename_helper
stat_2023.columns = rename_helper

In [766]:
def clean_columns(df):
    for col in df.columns:
        if col != 'obec':
            df[col] = df[col].replace('-', '', regex=False)
    return df

clean_columns(stat_2022)
clean_columns(stat_2023)

Unnamed: 0,municipality_kod,obec,kraj,okres,pocet_obyvatel,prirozeny_prirustek,prirustek_stehovanim,obyvatele_0_14,obyvatele_15_64,obyvatele_65,...,ubytovaci_zarizeni,nezamestnanost,narozeni,zemreli,pristehovali,vystehovali,zemedelska_puda,nezemedelska_puda,prumerny_vek,koeficient_ekologie
0,554782,Praha,Hlavní město Praha,x,1384732.0,363.0,27043.0,218647.0,909437.0,256648.0,...,844.0,2.744,12575.0,12212.0,67699.0,40656.0,19409.6557,30211.1134,0.326347,41.72066292
1,529303,Benešov,Středočeský,Benešov,17035.0,-8.0,168.0,2652.0,10634.0,3749.0,...,10.0,1.877,138.0,146.0,871.0,703.0,2391.9746,2295.0341,0.828456,43.49665395
2,532924,Bukovany,Středočeský,Benešov,819.0,1.0,23.0,154.0,514.0,151.0,...,,1.587,7.0,6.0,52.0,29.0,485.471,255.0334,0.432997,41.00671551
3,529451,Bystřice,Středočeský,Benešov,4686.0,-4.0,105.0,771.0,3007.0,908.0,...,1.0,1.671,36.0,40.0,222.0,117.0,4601.1822,1734.7602,0.496646,42.04993598
4,529478,Čakov,Středočeský,Benešov,128.0,2.0,-1.0,25.0,86.0,17.0,...,,,2.0,,3.0,4.0,430.7751,98.18,0.464133,37.9609375
5,529516,Čerčany,Středočeský,Benešov,3134.0,7.0,33.0,604.0,1886.0,644.0,...,1.0,1.29,24.0,17.0,109.0,76.0,307.1067,337.6777,1.00166,41.476388
6,529541,Český Šternberk,Středočeský,Benešov,184.0,-1.0,10.0,36.0,109.0,39.0,...,5.0,2.041,1.0,2.0,13.0,3.0,219.3751,327.148,1.938396,42.625
7,529567,Čtyřkoly,Středočeský,Benešov,783.0,-4.0,25.0,137.0,508.0,138.0,...,2.0,1.232,3.0,7.0,32.0,7.0,141.5601,146.6833,0.823159,41.59961686
8,529621,Divišov,Středočeský,Benešov,1810.0,-5.0,7.0,333.0,1121.0,356.0,...,2.0,0.91,15.0,20.0,81.0,74.0,1889.71,1209.2944,0.711715,41.64033149
9,532151,Drahňovice,Středočeský,Benešov,115.0,1.0,3.0,28.0,70.0,17.0,...,,,1.0,,6.0,3.0,235.0253,582.1561,4.170378,37.54347826


In [767]:
def append_suffix_to_columns(df: pd.DataFrame, keep: int, suffix: str) -> pd.DataFrame:
    columns = df.columns.tolist()
    unchanged = columns[:keep]
    modified = [c + f'{suffix}' for c in columns[keep:]]
    df.columns = unchanged + modified
    return df

In [768]:
stat_2022 = append_suffix_to_columns(stat_2022, keep=4, suffix='_2022')
stat_2023 = append_suffix_to_columns(stat_2023, keep=4  , suffix='_2023')

In [769]:
stat_2022_mergable = stat_2022.drop(columns=['obec', 'kraj', 'okres'])
stat_2023_mergable = stat_2023.drop(columns=['obec', 'kraj', 'okres'])

In [770]:
final_df_enriched = plans_municipalities_df.merge(stat_2023_mergable, on='municipality_kod', how='left')
final_df_enriched = final_df_enriched.merge(stat_2022_mergable, on='municipality_kod', how='left')

In [771]:
final_df_enriched = final_df_enriched.replace(',', '', regex=True)

In [772]:
uur_data['Obec'] = uur_data['Obec'].fillna(uur_data['Unnamed: 1'])

In [773]:
uur_data = uur_data.drop(columns=['Unnamed: 1', 'Druh dokumentace', 'Číslo dokumentace'])
uur_data['Návrh - nabytí účinnosti 117'] = uur_data['Návrh - nabytí účinnosti 117'].fillna(uur_data['Návrh – vydání / schválení 116'])
uur_data['Návrh - nabytí účinnosti 117'] = uur_data['Návrh - nabytí účinnosti 117'].fillna(uur_data['Návrh – stanovisko krajského úřadu / nadřízeného orgánu územního plánování 115'])
uur_data['Návrh - nabytí účinnosti 117'] = uur_data['Návrh - nabytí účinnosti 117'].fillna(uur_data['Návrh - zahájení projednání 113'])
uur_data['Návrh - nabytí účinnosti 117'] = uur_data['Návrh - nabytí účinnosti 117'].fillna(uur_data['Návrh - odevzdání 112'])
uur_data['Návrh - nabytí účinnosti 117'] = uur_data['Návrh - nabytí účinnosti 117'].fillna(uur_data['Zadání - schválení 105'])
uur_data['Návrh - nabytí účinnosti 117'] = uur_data['Návrh - nabytí účinnosti 117'].fillna(uur_data['Zadání - ukončení projednání 104'])
uur_data['Návrh - nabytí účinnosti 117'] = uur_data['Návrh - nabytí účinnosti 117'].fillna(uur_data['Zadání - zahájení projednání 103'])
uur_data['Návrh - nabytí účinnosti 117'] = uur_data['Návrh - nabytí účinnosti 117'].fillna(uur_data['Zahájení prací - schválení / rozhodnutí o pořízení 101'])


In [774]:
uur_data = uur_data[['Obec', 'Název dokumentace', 'Návrh - nabytí účinnosti 117']]
uur_data = uur_data.rename(columns={'Obec': 'obec', 'Název dokumentace': 'posledni_dokumentace', 'Návrh - nabytí účinnosti 117': 'posledni_dokumentace_datum'})

In [775]:
uur_data['posledni_dokumentace_datum'] = pd.to_datetime(uur_data['posledni_dokumentace_datum'])
uur_data = uur_data.sort_values('posledni_dokumentace_datum', ascending=False).drop_duplicates(subset='obec', keep='first')

  uur_data['posledni_dokumentace_datum'] = pd.to_datetime(uur_data['posledni_dokumentace_datum'])


In [776]:
uur_data['posledni_dokumentace_datum'] = uur_data['posledni_dokumentace_datum'].dt.strftime('%Y-%m')

In [777]:
final_df_enriched = final_df_enriched.merge(uur_data, on='obec', how='left')

In [778]:
final_df_enriched = final_df_enriched.dropna(subset=['posledni_dokumentace_datum'])
final_df_enriched['municipality_kod'] = final_df_enriched['municipality_kod'].astype(int)

In [779]:
for i in range(1, 6):
    final_df_enriched[f'trend_{i}'] = ''
    final_df_enriched[f'problem_{i}'] = ''

In [780]:
final_df_enriched.to_csv('../cleansed_data/municipalities.csv', index=False, encoding='utf-8-sig')
municipality_index_df.to_csv('../cleansed_data/municipalities_links.csv', index=False, encoding='utf-8-sig')